2020年5月,1750 億參數(shù)級(jí)別的萬能語言模型GPT-3誕生,一躍成為AI界的流量巨星。有人高呼“通用人工智能”的破冰而出,也有人質(zhì)疑這不過是一場嚴(yán)重依賴數(shù)據(jù)和算力資源的氪金游戲。
人類語言錯(cuò)綜復(fù)雜,機(jī)器以假亂真的“模仿游戲”絕非易事。作為人工智能皇冠上的耀眼明珠,自然語言處理會(huì)成為黃金時(shí)代的寵兒,還是誤入歧途的悲情英雄?學(xué)術(shù)界與產(chǎn)業(yè)界的革故鼎新,又路在何方?
2020年中國科技峰會(huì)系列活動(dòng)青年科學(xué)家沙龍上,第20期AI Time圓桌會(huì)議邀請(qǐng)了百度人工智能技術(shù)委員會(huì)主席何中軍、清華大學(xué)計(jì)算機(jī)系副教授劉知遠(yuǎn)、北京彩智科技有限公司CEO徐劍軍、中國科學(xué)院計(jì)算所研究員蘭艷艷,由北京交通大學(xué)副教授萬懷宇和AI Time負(fù)責(zé)人何蕓主持,共話自然語言處理的研究瓶頸與未來曙光!
1. 算法的瓶頸與突破
機(jī)器:“無知”的文盲
過去大家經(jīng)常聽到一個(gè)段子:在翻譯外文著作中把把中國的哲學(xué)家Mencius(孟子)錯(cuò)譯為門修斯,這是由于缺乏相關(guān)背景知識(shí)造成的。作為領(lǐng)域?qū)<疑星視?huì)犯這種錯(cuò)誤,可見融合知識(shí)對(duì)于人類而言也是非常具有挑戰(zhàn)性的。而不懂運(yùn)用知識(shí)和常識(shí),機(jī)器很多時(shí)候只是在一本正經(jīng)地胡言亂語。
即便是目前臨近數(shù)據(jù)驅(qū)動(dòng)和計(jì)算的極限狀態(tài)的GPT-3,也會(huì)在執(zhí)行文本生成任務(wù)時(shí)答非所問,連基本的常識(shí)和簡單的邏輯推理都不過關(guān)。非常典型的例子就是:
How many eyes does my foot have?
我的腳有多少只眼睛?
Your foot has two eyes.
你的腳有兩只眼睛。
因此,單純基于現(xiàn)有數(shù)學(xué)模型計(jì)算的方式,對(duì)理解自然語言的語義仍有著極大的局限性。打破語義解析和建模的瓶頸,結(jié)合知識(shí)和常識(shí)是一個(gè)非常關(guān)鍵的方向。
知識(shí)和常識(shí)如何定義和獲?。?/p>
常識(shí)是難以界定的、寬泛抽象的東西。從統(tǒng)計(jì)時(shí)代到深度學(xué)習(xí),機(jī)器從數(shù)據(jù)中捕捉和學(xué)習(xí)共現(xiàn)規(guī)律。然而,人類很多常識(shí)并不以明確可見的數(shù)據(jù)形式存在,即便搜刮互聯(lián)網(wǎng)的邊邊角角,也很難挖掘到這樣的數(shù)據(jù)。機(jī)器能否學(xué)到常識(shí)?如何描述、存儲(chǔ)和積累常識(shí)?這條路是否行得通,語言理解真的需要跨越常識(shí)這座大山么?
最近知識(shí)圖譜在NLP中的融合取得了巨大進(jìn)展,然而現(xiàn)在很多知識(shí)圖譜是利用手工自建的方式,能否自動(dòng)構(gòu)建大規(guī)模知識(shí),仍待攻克。
跨模態(tài)的自然語言理解
實(shí)現(xiàn)從感知到認(rèn)知、從NLP到NLU,蘭艷艷強(qiáng)調(diào)也可以引入多模態(tài)。語用學(xué)證明,語言的真正含義不一定在字面意義上體現(xiàn),需要結(jié)合特殊場景挖掘其隱含意圖。例如小朋友們微信聊天:
問:你要玩游戲嗎?
答:我媽媽在家。
很多時(shí)候,融入視覺聽覺、活動(dòng)歷程、主體與環(huán)境的交互等多模態(tài)信息,才能達(dá)到更準(zhǔn)確的語言理解。要捕捉弦外之音,需利用外部知識(shí)的支持。
“舉一反三”的抽象學(xué)習(xí)
目前人工智能數(shù)據(jù)驅(qū)動(dòng)的方法,更多是舉十反一:學(xué)習(xí)“十”分?jǐn)?shù)據(jù)、達(dá)到“一點(diǎn)”泛化的能力。反觀人類,則擁有舉一反三的智慧。人的大腦是有可塑性和變通性的,能利用極少的數(shù)據(jù)學(xué)到知識(shí)并擴(kuò)展運(yùn)用到其他領(lǐng)域。
因此,盡管GPT-3能夠激活現(xiàn)實(shí)世界中極大規(guī)模的無監(jiān)督數(shù)據(jù),但絕非終點(diǎn)。在利用現(xiàn)實(shí)世界數(shù)據(jù)的基礎(chǔ)上,我們還需要突破當(dāng)前深度學(xué)習(xí)中數(shù)學(xué)建模、函數(shù)學(xué)習(xí)的研究范式,嘗試構(gòu)建世界認(rèn)知模型,讓機(jī)器具備抽象學(xué)習(xí)的能力。
術(shù)業(yè)有專攻:小而精的行業(yè)數(shù)據(jù)
目前,大規(guī)模預(yù)訓(xùn)練模型在很多NLP任務(wù)上拔高了層次。但術(shù)業(yè)有專攻,拿體量巨大的通用模型GPT-3應(yīng)用到極小的細(xì)分領(lǐng)域,仍是行不通的,并且無異于大炮打蚊子?;蛟S在某些特定任務(wù)上收集更高質(zhì)量數(shù)據(jù)并融入知識(shí)進(jìn)行訓(xùn)練,能夠更精準(zhǔn)高效地解決問題。
之前我們青睞大數(shù)據(jù),其實(shí)比起依賴數(shù)據(jù)擴(kuò)充,一個(gè)很有意思的研究方向是知識(shí)遷移,譬如小樣本( few-shot )甚至零樣本學(xué)習(xí)( one-shot learning )。
2. 人才培養(yǎng)與產(chǎn)業(yè)落地
頂天立地:產(chǎn)學(xué)研的結(jié)合
在何中軍看來,百度一貫追求“頂天立地”的理念,一方面腳踏實(shí)地做基礎(chǔ)研究,另一方面立足于用戶和產(chǎn)業(yè)的需求。這也是一種軟硬實(shí)力的結(jié)合,將學(xué)校的基礎(chǔ)知識(shí)和工程能力快速應(yīng)用到產(chǎn)品、服務(wù)和不同場景中去。
從學(xué)術(shù)角度,研究者應(yīng)當(dāng)破除深度學(xué)習(xí)的假象,不滿足于跑跑模型達(dá)到效果就萬事大吉的走捷徑心態(tài),而是深入探究底層原理。從產(chǎn)業(yè)角度,尤其需要知其所以然、懂得算法原理,同時(shí)又能深入到場景和具體領(lǐng)域、掌握其數(shù)據(jù)資源和知識(shí)結(jié)構(gòu)的關(guān)鍵人才,然而這種人才無法通過傳統(tǒng)的學(xué)校教育方式培養(yǎng)。在產(chǎn)業(yè)鏈中,我們會(huì)被各種持續(xù)不斷的問題困擾,現(xiàn)階段技術(shù)遠(yuǎn)遠(yuǎn)難以滿足用戶的終極需求。
學(xué)術(shù)界和產(chǎn)業(yè)界應(yīng)當(dāng)形成一個(gè)互動(dòng)互惠的生態(tài)圈。學(xué)術(shù)圈不應(yīng)過分崇尚論文為王的競爭法則,學(xué)術(shù)成果固然重要,但創(chuàng)造社會(huì)價(jià)值、解決實(shí)際問題才是根本目的。同時(shí),技術(shù)產(chǎn)業(yè)應(yīng)用也受限于科學(xué)問題的變革與突破,因此急需沉心靜氣的基礎(chǔ)研究者。徐劍軍坦言,背負(fù)盈利壓力、講求快速增長迭代的企業(yè),要面向一個(gè)NLP產(chǎn)業(yè)問題持續(xù)數(shù)十年踏踏實(shí)實(shí)埋頭耕耘,會(huì)面臨業(yè)界過高的期望值、人才受到太多誘惑等外界干擾。
針對(duì)高校研究與工業(yè)脫節(jié)的現(xiàn)象,如何各取所長、攜手并進(jìn),劉知遠(yuǎn)指出,我們需要探索出一種新型的人才培養(yǎng)與科研模式,例如業(yè)界對(duì)學(xué)術(shù)界的算力支援、提供類似維基百科這樣開放共建的公益平臺(tái)等。對(duì)知識(shí)產(chǎn)權(quán)的尊重與保護(hù)、避免創(chuàng)新思想被大公司竊取侵吞也是亟待解決的問題。
NLP為何難出獨(dú)角獸?
計(jì)算機(jī)視覺領(lǐng)域有以包括商湯、曠視在內(nèi)的“CV 四小龍”為首的獨(dú)角獸公司。然而,盡管NLP研究近年來突飛猛進(jìn)、甚至在ACL 2020中投稿數(shù)量高達(dá)3429篇,該領(lǐng)域卻似乎難以涌現(xiàn)出獨(dú)角獸。
這或許是因?yàn)橐环矫妫瑔渭內(nèi)四樧R(shí)別或者安防系統(tǒng),就可以構(gòu)成很大的場景,成就一家專門的公司。然而NLP中的文本分析等任務(wù),似乎還局限于小范圍場景。另一方面,產(chǎn)業(yè)落地受到技術(shù)限制,例如智能音箱仍無法做到真正的語言理解,機(jī)器同傳也出現(xiàn)層出不窮的錯(cuò)誤。NLP本身的復(fù)雜性,決定了它離產(chǎn)業(yè)爆發(fā)還有一定距離。
另外,NLP的落地在于與不同場景融合,尤其是法律、醫(yī)療等以語言或文本為重要載體和工具的領(lǐng)域。隨著技術(shù)進(jìn)步,在智能個(gè)人信息助理、智能問答方面,NLP技術(shù)或許會(huì)徹底改變搜索引擎這種獲取信息的方式,針對(duì)你提出的問題實(shí)現(xiàn)音視頻結(jié)合的精準(zhǔn)回答,逐漸成為日?;A(chǔ)設(shè)施!
3. 人與機(jī)器,路在何方?
深度學(xué)習(xí)時(shí)代,自然語言處理似乎勝利在望,卻又迷霧茫茫。從知識(shí)融合到認(rèn)知推理甚至情感表達(dá),實(shí)現(xiàn)可解釋的、去偽存真的語言理解,依舊道阻且長。
可以預(yù)見,未來必定是人機(jī)共存的世界。機(jī)器消費(fèi)著人類積累的信息,同時(shí)產(chǎn)出信息,從新聞、網(wǎng)聊到小說無處不在。計(jì)算機(jī)會(huì)通過信息間接控制人類社會(huì)嗎?人的主體地位在哪里?如今出行都離不開導(dǎo)航的我們,未來又會(huì)對(duì)機(jī)器產(chǎn)生怎樣的依賴?
盡管現(xiàn)在的語言智能時(shí)常懵懂如孩童,然而在保險(xiǎn)、銀行、證券或政府部門等具體行業(yè),通過實(shí)現(xiàn)自然語言的輸入輸出、培養(yǎng)出一個(gè)堪比三十歲人類的智能職員,是大有可為的。非創(chuàng)造性、機(jī)械重復(fù)的勞動(dòng),終將被取代!
在知識(shí)的記憶和提取上,AI或許會(huì)超越人類。曾經(jīng)勤學(xué)苦練數(shù)年才掌握一門外語的你,或許已經(jīng)面對(duì)機(jī)器翻譯的出色表現(xiàn)啞口無言。未來教育中,“知識(shí)就是力量”還會(huì)是至理名言嗎?怎樣的知識(shí)才值得人類去學(xué)習(xí)與創(chuàng)造呢?
主持人最后的話讓人一愣:所以學(xué)就應(yīng)該學(xué)人工智能是嗎?