- +1
百度為何加碼NLP
原創(chuàng) 科技唆麻 科技唆麻

會(huì)議主要分享了百度語(yǔ)言與知識(shí)技術(shù)的十年發(fā)展歷程、最新突破、產(chǎn)品新發(fā)布以及未來(lái)挑戰(zhàn)。
可以看到,百度在自然語(yǔ)言(NLP)上下了一盤(pán)大棋,且野心很大。
百度為什么布局NLP?因?yàn)檎Z(yǔ)言與知識(shí)技術(shù)是人工智能認(rèn)知能力的核心。換句話說(shuō),NLP是“人工智能皇冠上的明珠”。
眾所周知,人工智能是近幾年最熱門(mén)的話題,也是未來(lái)的大勢(shì)所趨:得人工智能者得天下。但讓機(jī)器擁有人一樣的心智,越來(lái)越趨近“智能”,還是道阻且長(zhǎng)。這期間存在重重溝通障礙,其中,語(yǔ)言不通是核心障礙。
語(yǔ)言是意義的基石和載體:正如老話所說(shuō),語(yǔ)言命名萬(wàn)物。語(yǔ)言不在了,人類(lèi)賴(lài)以生存的整個(gè)意義世界和體系瞬間崩塌殆盡。所以,人工智能想要“智”,必須掌握人類(lèi)的語(yǔ)言。
然而人類(lèi)發(fā)展到今天,語(yǔ)言博大精深。我們?cè)缇土?xí)慣了用同一句話表達(dá)不同的意思:不同語(yǔ)境下,相同的語(yǔ)句可能有截然不同的意義。但對(duì)于并不具有人類(lèi)心智機(jī)器來(lái)說(shuō),理解這些歧義難上加難。
在早期,最先出現(xiàn)的語(yǔ)言處理系統(tǒng)SHRDLU等,都具有局限性:當(dāng)處于“真空環(huán)境”,用有限的詞匯對(duì)話、處理時(shí),可以正常運(yùn)行,然而,當(dāng)把這個(gè)系統(tǒng)應(yīng)用于充斥著不確定性的現(xiàn)實(shí)世界時(shí),它們并不能勝任工作。
比如,“我們把青草給兔子,因?yàn)樗鼈凁I了”和“我們把青草給兔子,因?yàn)樗鼈兪焱噶恕庇型瑯拥慕Y(jié)構(gòu)。但是代詞“它們”在第一句中指的是“兔子”,在第二句中指的是“青草”。如果不了解動(dòng)物和植物的屬性,無(wú)法區(qū)分。
所以,語(yǔ)言是人工智能路上的最大障礙。也正因如此,如果解決了人和機(jī)器的溝通障礙,也就掌握了打開(kāi)人機(jī)交互通道的鑰匙。
因此,不難理解百度等巨頭在NLP上的加碼:事實(shí)上,NLP不僅僅是幫助計(jì)算機(jī)學(xué)習(xí)人類(lèi)的語(yǔ)言,更是在幫助計(jì)算機(jī)掌握人的心智——了解人類(lèi)的思維體系和溝通方式。
所以,從2010年,百度成立自然語(yǔ)言處理部開(kāi)始,一直不斷加碼。比如,數(shù)據(jù)匱乏、算力不足歷來(lái)是語(yǔ)言與知識(shí)技術(shù)研發(fā)中面臨的瓶頸。
為突破瓶頸,百度聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)、中國(guó)中文信息學(xué)會(huì)發(fā)起中文自然語(yǔ)言處理數(shù)據(jù)共建計(jì)劃——千言,解決數(shù)據(jù)稀缺問(wèn)題。
千言一期由來(lái)自國(guó)內(nèi)11家高校和企業(yè)的數(shù)據(jù)資源研發(fā)者共同建設(shè),已涵蓋開(kāi)放域?qū)υ?、閱讀理解等7大任務(wù),20余個(gè)中文開(kāi)源數(shù)據(jù)集。
不止如此。正如百度CTO王海峰的回顧,“在百度語(yǔ)言與知識(shí)技術(shù)的布局和發(fā)展中,我們始終在注意把握兩個(gè)趨勢(shì),即技術(shù)發(fā)展趨勢(shì)和產(chǎn)業(yè)發(fā)展趨勢(shì)。”
可以看到,百度NLP不僅在技術(shù)突破上成就斐然,在產(chǎn)品落地上也做出了一定成績(jī)。
01
百度技術(shù)突破
百度NLP的成績(jī)?cè)趺礃樱?/p>
可以看到,十年來(lái),百度大腦語(yǔ)言與知識(shí)技術(shù)成果頗豐:獲得包括國(guó)家科技進(jìn)步獎(jiǎng)在內(nèi)的20多個(gè)獎(jiǎng)項(xiàng),30多項(xiàng)國(guó)際競(jìng)賽冠軍,發(fā)表學(xué)術(shù)論文超過(guò)300篇,申請(qǐng)專(zhuān)利2000多項(xiàng)。
同時(shí),技術(shù)不斷突破創(chuàng)新的同時(shí),也在產(chǎn)品上創(chuàng)新探索,具有可落地性,為具體產(chǎn)業(yè)賦能。
而此次會(huì)議,王海峰全面分享了百度語(yǔ)言與知識(shí)技術(shù)完整布局和最新成果。
首先,百度打造了世界上最大規(guī)模知識(shí)圖譜。
知識(shí)圖譜是機(jī)器認(rèn)知世界的重要基礎(chǔ):相當(dāng)于教幼童時(shí)代的機(jī)器“看圖識(shí)字”。而百度擁有超過(guò)50億實(shí)體和5500億事實(shí),并在不斷演進(jìn)和更新。如今,百度知識(shí)圖譜應(yīng)用于各行各業(yè),每天的調(diào)用次數(shù)超過(guò)400億次。
其次,在融入知識(shí)的基礎(chǔ)上,語(yǔ)言理解能力不斷增強(qiáng)。
2019年3月,百度提出知識(shí)增強(qiáng)的語(yǔ)義理解框架ERNIE,在深度學(xué)習(xí)的基礎(chǔ)上融入知識(shí),同時(shí)具備持續(xù)學(xué)習(xí)能力,曾登頂全球權(quán)威數(shù)據(jù)集GLUE榜單,首次突破90分大關(guān),刷新榜單歷史。基于知識(shí)圖譜和語(yǔ)義表示,突破了閱讀理解、對(duì)話理解以及跨模態(tài)深度語(yǔ)義理解等技術(shù)。
不止如此,語(yǔ)言生成是語(yǔ)言與知識(shí)技術(shù)中的重要組成部分。
基于預(yù)訓(xùn)練技術(shù)的成功經(jīng)驗(yàn),百度提出基于多流機(jī)制的語(yǔ)言生成預(yù)訓(xùn)練技術(shù),兼顧詞、短語(yǔ)等不同粒度的語(yǔ)義信息,顯著提升生成效果。百度也探索了多文檔摘要生成,通過(guò)圖結(jié)構(gòu)語(yǔ)義表示引入篇章知識(shí),在單文檔和多文檔摘要生成效果都有提升。
除此之外,百度在應(yīng)用系統(tǒng)層面,對(duì)話系統(tǒng)和機(jī)器翻譯等成績(jī)卓著。
百度提出了知識(shí)圖譜驅(qū)動(dòng)的對(duì)話控制技術(shù),以及首個(gè)基于隱空間的大規(guī)模開(kāi)放域?qū)υ捘P蚉LATO等,并推出智能對(duì)話定制和服務(wù)平臺(tái)UNIT,幫助開(kāi)發(fā)者高效構(gòu)建智能對(duì)話系統(tǒng),實(shí)現(xiàn)規(guī)模化應(yīng)用。
如今,百度翻譯支持200多種語(yǔ)言,每天響應(yīng)超過(guò)千億字符的翻譯請(qǐng)求,支持超過(guò)40多萬(wàn)家第三方應(yīng)用,技術(shù)上,提出了多智能體聯(lián)合學(xué)習(xí)、基于語(yǔ)義單元的同傳模型、稀缺語(yǔ)種分組混合訓(xùn)練算法等。
同時(shí),這些技術(shù)以平臺(tái)化的方式輸出,通過(guò)賦能,持續(xù)提升產(chǎn)業(yè)智能化水平。
02
百度NLP落地應(yīng)用
如果一項(xiàng)技術(shù)不能落地,那它就只能居于空中樓閣。百度NLP顯然不是這樣的海市蜃樓:相反,它積極落地,并已生根開(kāi)花。
正如百度方面表示:“我們一直致力于將語(yǔ)言與知識(shí)技術(shù)凝聚成一系列技術(shù)平臺(tái)和產(chǎn)品,在應(yīng)用中產(chǎn)生大量?jī)r(jià)值,為廣大開(kāi)發(fā)者和產(chǎn)業(yè)實(shí)踐者提供以語(yǔ)言與知識(shí)技術(shù)為核心驅(qū)動(dòng)的系列產(chǎn)品?!?/p>
在具體的場(chǎng)景中,NLP有具體的應(yīng)用。
比如,百度推出的語(yǔ)義理解技術(shù)與平臺(tái)文心,基于深度學(xué)習(xí)平臺(tái)飛槳打造,依托領(lǐng)先的語(yǔ)義理解核心技術(shù),集成優(yōu)秀的預(yù)訓(xùn)練模型、全面的NLP算法集、端到端開(kāi)發(fā)套件和平臺(tái),提供一站式NLP開(kāi)發(fā)與服務(wù),讓開(kāi)發(fā)者更簡(jiǎn)單、高效地定制企業(yè)級(jí)NLP模型。文心經(jīng)過(guò)了大量真實(shí)應(yīng)用場(chǎng)景的淬煉,具備優(yōu)秀的工業(yè)級(jí)落地實(shí)力。
再比如,百度全新發(fā)布的智能文檔分析平臺(tái)TextMind,基于OCR、NLP技術(shù),以文檔解析為核心能力,支持文檔對(duì)比與文檔審核,具備“多快好省”的核心優(yōu)勢(shì),促進(jìn)企業(yè)辦公智能升級(jí)。
與此同時(shí),百度大腦智能創(chuàng)作平臺(tái)針對(duì)媒體應(yīng)用場(chǎng)景再升級(jí),全新推出智能策劃、智能采編、智能審校三大媒體場(chǎng)景方案,進(jìn)一步助力媒體人更快、更好地創(chuàng)作,切中媒體人的“痛點(diǎn)”。
智能對(duì)話定制與服務(wù)平臺(tái)UNIT升級(jí),有更智能的任務(wù)式對(duì)話理解、極致便捷的表格問(wèn)答和融合通用的新對(duì)話引擎。此次UNIT全新升級(jí)的三大能力,將進(jìn)一步降低任務(wù)式對(duì)話、智能問(wèn)答的定制成本,并融合通用對(duì)話能力,提升交互體驗(yàn)。
全新發(fā)布的AI同傳會(huì)議解決方案,覆蓋會(huì)議全場(chǎng)景、全流程,旨在打造用戶(hù)隨身的“會(huì)議同傳專(zhuān)家”。
吳甜現(xiàn)場(chǎng)展示了如何只用一臺(tái)電腦和一部手機(jī)快速搭建一套同傳服務(wù),只需點(diǎn)點(diǎn)鼠標(biāo)、打幾個(gè)字,就能快速獲得專(zhuān)業(yè)的同傳服務(wù)。
吳華還發(fā)布了百度語(yǔ)言與知識(shí)技術(shù)算力共享計(jì)劃,通過(guò)百度AI STUDIO平臺(tái)提供算力支持,讓廣大開(kāi)發(fā)者破除算力桎梏,專(zhuān)注于技術(shù)創(chuàng)新。
正如百度技術(shù)委員會(huì)主席吳華表示:
“未來(lái),我們希望有更多的數(shù)據(jù)集作者能夠參與共建千言,共同推動(dòng)中文信息處理技術(shù)的進(jìn)步,建設(shè)世界范圍的中文信息處理影響力。我們計(jì)劃在未來(lái)3年,面向20多個(gè)任務(wù),收集和建設(shè)不少于100個(gè)中文自然語(yǔ)言處理數(shù)據(jù)集,覆蓋語(yǔ)言與知識(shí)技術(shù)全部領(lǐng)域。”
原標(biāo)題:《百度為何加碼NLP》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




