國(guó)家市場(chǎng)監(jiān)督管理總局主管

中國(guó)消費(fèi)者協(xié)會(huì)主辦

維護(hù)消費(fèi)者合法權(quán)益,引導(dǎo)消費(fèi)者合理消費(fèi)

當(dāng)前位置:首頁(yè) > 科技
中文自然語(yǔ)言處理數(shù)據(jù)共建讓機(jī)器讀懂“千言”
2020-08-26 16:18 本文來(lái)源:中國(guó)消費(fèi)者報(bào)•中國(guó)消費(fèi)網(wǎng) 作者:武曉莉
 

   “機(jī)器人保姆要想真正走入家庭,自然語(yǔ)言是第一關(guān)。”達(dá)闥科技總裁黃曉慶在此前的一次座談上對(duì)記者說(shuō)。
   自然語(yǔ)言理解(NLP)素有“人工智能皇冠上的明珠”的盛譽(yù),語(yǔ)言與知識(shí)技術(shù)是人工智能認(rèn)知能力的核心。這也意味著語(yǔ)言與知識(shí)等認(rèn)知層面的技術(shù)突破,將進(jìn)一步促進(jìn)AI深入發(fā)展。
   中文作為最優(yōu)美、最復(fù)雜的語(yǔ)言,其自然語(yǔ)言的數(shù)據(jù)共建將幫助機(jī)器讀懂“千言”,開(kāi)拓人工智能領(lǐng)域無(wú)限的遐想空間。
  機(jī)器認(rèn)知需依賴知識(shí)圖譜
  
“知識(shí)圖譜是機(jī)器認(rèn)知世界的重要基礎(chǔ)。”在剛剛結(jié)束的以“掌握知識(shí)、理解語(yǔ)言、擁有智能”為主題的百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)上,百度CTO王海峰解讀了語(yǔ)言與知識(shí)技術(shù)的發(fā)展歷程與最新成果,與產(chǎn)學(xué)研各界分享技術(shù)及產(chǎn)業(yè)發(fā)展趨勢(shì)和展望。
   基于最大的搜索平臺(tái)的數(shù)據(jù)優(yōu)勢(shì),百度打造了世界上最大規(guī)模的知識(shí)圖譜,擁有超過(guò)50億實(shí)體和5500億事實(shí),并在不斷演進(jìn)和更新。該知識(shí)圖譜應(yīng)用于各行各業(yè),每天的調(diào)用次數(shù)超過(guò)400億次。
   在融入知識(shí)的基礎(chǔ)上,機(jī)器的語(yǔ)言理解能力不斷增強(qiáng)。通過(guò)知識(shí)增強(qiáng)的語(yǔ)義理解框架ERNIE,在深度學(xué)習(xí)的基礎(chǔ)上融入知識(shí),同時(shí)具備持續(xù)學(xué)習(xí)能力,這讓機(jī)器自然語(yǔ)言突破了閱讀理解、對(duì)話理解以及跨模態(tài)深度語(yǔ)義理解等技術(shù)。
   語(yǔ)言生成是語(yǔ)言與知識(shí)技術(shù)中的重要組成部分。基于預(yù)訓(xùn)練技術(shù)的成功經(jīng)驗(yàn)提出的基于多流機(jī)制的語(yǔ)言生成預(yù)訓(xùn)練技術(shù),兼顧詞、短語(yǔ)等不同粒度的語(yǔ)義信息,顯著提升生成效果。
   在應(yīng)用系統(tǒng)層面,對(duì)話系統(tǒng)和機(jī)器翻譯等成績(jī)卓著。提出了知識(shí)圖譜驅(qū)動(dòng)的對(duì)話控制技術(shù),以及首個(gè)基于隱空間的大規(guī)模開(kāi)放域?qū)υ捘P蚉LATO等,并推出智能對(duì)話定制和服務(wù)平臺(tái)UNIT,幫助開(kāi)發(fā)者高效構(gòu)建智能對(duì)話系統(tǒng),實(shí)現(xiàn)規(guī)?;瘧?yīng)用。
   通過(guò)上述技術(shù),機(jī)器翻譯也取得了突破性進(jìn)展。以百度為例,其翻譯支持200多種語(yǔ)言,每天響應(yīng)超過(guò)千億字符的翻譯請(qǐng)求,支持超過(guò)40多萬(wàn)家第三方應(yīng)用,技術(shù)上,提出了多智能體聯(lián)合學(xué)習(xí)、基于語(yǔ)義單元的同傳模型、稀缺語(yǔ)種分組混合訓(xùn)練算法等。
   王海峰認(rèn)為,人工智能大腦語(yǔ)言與知識(shí)技術(shù)的持續(xù)探索和創(chuàng)新,以平臺(tái)化的方式輸出,可以賦能千行萬(wàn)業(yè),持續(xù)提升產(chǎn)業(yè)智能化水平。
   此次大會(huì)還發(fā)布了百度大腦語(yǔ)言與知識(shí)產(chǎn)品全景圖,以及語(yǔ)義理解技術(shù)與平臺(tái)文心、智能文檔分析平臺(tái)TextMind和AI同傳會(huì)議解決方案三大新產(chǎn)品和6項(xiàng)升級(jí)。
  語(yǔ)言與知識(shí)技術(shù)平臺(tái)化
  
只用一臺(tái)電腦和一部手機(jī),就可以在大型會(huì)議現(xiàn)場(chǎng)快速搭建一套同傳系統(tǒng),只需點(diǎn)點(diǎn)鼠標(biāo)、打幾個(gè)字,就能快速獲得專業(yè)的同傳服務(wù)。
   語(yǔ)言與知識(shí)技術(shù)平臺(tái)化可以在應(yīng)用中產(chǎn)生大量?jī)r(jià)值,為廣大開(kāi)發(fā)者和產(chǎn)業(yè)實(shí)踐者提供以語(yǔ)言與知識(shí)技術(shù)為核心驅(qū)動(dòng)的系列產(chǎn)品。
   據(jù)百度集團(tuán)副總裁吳甜介紹,語(yǔ)義理解技術(shù)與平臺(tái)文心,基于深度學(xué)習(xí)平臺(tái)飛槳打造,依托領(lǐng)先的語(yǔ)義理解核心技術(shù),集成優(yōu)秀的預(yù)訓(xùn)練模型、全面的NLP算法集、端到端開(kāi)發(fā)套件和平臺(tái),提供一站式NLP開(kāi)發(fā)與服務(wù),讓開(kāi)發(fā)者更簡(jiǎn)單、高效地定制企業(yè)級(jí)NLP模型。文心經(jīng)過(guò)了大量真實(shí)應(yīng)用場(chǎng)景的淬煉,已經(jīng)具備優(yōu)秀的工業(yè)級(jí)落地實(shí)力。
   智能文檔分析平臺(tái)TextMind,具備“多快好省”的核心優(yōu)勢(shì),可以促進(jìn)企業(yè)辦公智能升級(jí)。
   利用機(jī)器大腦智能創(chuàng)作平臺(tái),媒體應(yīng)用場(chǎng)景也得到再升級(jí)。智能策劃、智能采編、智能審校三大媒體場(chǎng)景方案,可以進(jìn)一步助力媒體人更快、更好地創(chuàng)作。
   智能對(duì)話定制與服務(wù)平臺(tái)UNIT,有更智能的任務(wù)式對(duì)話理解、極致便捷的表格問(wèn)答和融合通用的新對(duì)話引擎。將進(jìn)一步降低任務(wù)式對(duì)話、智能問(wèn)答的定制成本,并融合通用對(duì)話能力,提升交互體驗(yàn)。
   上述AI同傳會(huì)議解決方案,覆蓋了會(huì)議全場(chǎng)景、全流程,旨在打造用戶隨身的“會(huì)議同傳專家”。
   所有的場(chǎng)景都離不開(kāi)數(shù)據(jù)計(jì)算,更多的數(shù)據(jù)集作者參與共建,可以共同推動(dòng)中文信息處理技術(shù)的進(jìn)步,建設(shè)世界范圍的中文信息處理影響力。據(jù)了解,未來(lái)3年,中文自然語(yǔ)言處理數(shù)據(jù)共建計(jì)劃——“千言”將面向20多個(gè)任務(wù),收集和建設(shè)不少于100個(gè)中文自然語(yǔ)言處理數(shù)據(jù)集,覆蓋語(yǔ)言與知識(shí)技術(shù)全部領(lǐng)域。
   未來(lái),機(jī)器將更好地理解世界、更好地服務(wù)于人。

 

責(zé)任編輯:40