大語言模型(LLM)因“涌現(xiàn)能力”(emergent abilities)而擁有了超出人類預(yù)期的技能,但也因此讓人類十分忌憚:操縱、欺騙人類,自主實(shí)施網(wǎng)絡(luò)攻擊,自動化生物研究......
然而,也有專家認(rèn)為,這種過度的擔(dān)憂會損害開源和創(chuàng)新,不利于人工智能(AI)行業(yè)的健康發(fā)展。當(dāng)前,有關(guān)“AI 滅絕倫”的爭論愈演愈烈。
那么,“涌現(xiàn)能力”真的是導(dǎo)致 AI 大模型威脅人類生存的罪魁禍?zhǔn)讍幔?strong>一項(xiàng)最新研究否定了這一觀點(diǎn)。
來自達(dá)姆施塔特工業(yè)大學(xué)和巴斯大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),GPT 等 LLM 尚無法獨(dú)立地學(xué)習(xí)或獲得新技能,這意味著它們不會對人類構(gòu)成生存威脅。
他們表示,“涌現(xiàn)能力” 背后的真相或許比科幻電影更富有戲劇性,許多所謂的“涌現(xiàn)能力”,其實(shí)都是 AI 大模型在面對不熟悉的任務(wù)時,依賴于已有的數(shù)據(jù)和經(jīng)驗(yàn)做出的“即興表演”。
相關(guān)研究論文以 “Are Emergent Abilities in Large Language Models just In-Context Learning?” 為題,已發(fā)表在 AI 頂會國際計(jì)算語言學(xué)年會(ACL)上。
他們通過一系列實(shí)驗(yàn)驗(yàn)證了 AI 大模型在不同上下文條件下的表現(xiàn),結(jié)果發(fā)現(xiàn):在零樣本(zero-shot)的情況下,許多大模型根本無法展現(xiàn)所謂的“涌現(xiàn)能力”,反而表現(xiàn)得相當(dāng)一般。
他們表示,這一發(fā)現(xiàn)有助于理解 LLM 的實(shí)際能力和局限性,并為未來的模型優(yōu)化提供新的方向。
智能涌現(xiàn):只是“即興表演”?
AI 大模型的“涌現(xiàn)能力”來自哪里?它是否真如聽起來那樣神秘,甚至令人擔(dān)憂?
為了破解這一謎題,研究團(tuán)隊(duì)選擇了 GPT、T5、Falcon 和 LLaMA 系列模型作為研究對象,通過實(shí)驗(yàn)分析了非指令微調(diào)模型(如 GPT)和指令微調(diào)模型(如 Flan-T5-large)在 22 個任務(wù)(17 個已知的涌現(xiàn)任務(wù)和 7 個基線任務(wù))和不同條件下的表現(xiàn)。
圖|模型列表。
為了全面評估模型能力,他們將 Exact Match Accuracy、BERTScore Accuracy 和 String Edit Distance 作為評估指標(biāo)。同時,為了提高實(shí)驗(yàn)的準(zhǔn)確性,他們還進(jìn)行了偏見控制,通過調(diào)整提示和輸出格式,確保非指令微調(diào)模型的公平性,并通過手動評估驗(yàn)證模型輸出的準(zhǔn)確性。
在實(shí)驗(yàn)中,研究人員采用 zero-shot 和少樣本(few-shot)兩種設(shè)置,重點(diǎn)分析了 GPT 的表現(xiàn)能力。
圖|非指令微調(diào) GPT 模型在零樣本下的表現(xiàn)。
令人驚訝的是,盡管 GPT 在之前的研究中被認(rèn)為具有涌現(xiàn)能力,但在 zero-shot 的情況下,這種能力表現(xiàn)得非常有限。
具體而言,只有兩個任務(wù)在不依賴上下文學(xué)習(xí)(ICL)的情況下展示了涌現(xiàn)能力,這兩個任務(wù)主要依賴形式語言能力或信息檢索,而非復(fù)雜的推理能力。由此可以得出,在沒有上下文學(xué)習(xí)的條件下,GPT 模型的涌現(xiàn)能力受到了極大的限制。
然而,涌現(xiàn)能力的來源僅僅如此嗎?研究團(tuán)隊(duì)又將目光轉(zhuǎn)向了指令微調(diào)模型,提出了一個大膽的假設(shè):指令微調(diào)并非簡單的任務(wù)適應(yīng),而是通過隱式上下文學(xué)習(xí),激發(fā)了模型的潛在能力。
通過對比 GPT-J(非指令微調(diào))與 Flan-T5-large(指令微調(diào))的任務(wù)解決能力,他們發(fā)現(xiàn),盡管兩者在參數(shù)規(guī)模、模型架構(gòu)和預(yù)訓(xùn)練數(shù)據(jù)上存在顯著差異,但在某些任務(wù)上的表現(xiàn)卻出奇地一致。
圖|兩個模型的表現(xiàn)在高于隨機(jī)基線部分有很大的重疊,這表明指令微調(diào)可以有效地獲取上下文中的能力,而非導(dǎo)致功能性語言能力的涌現(xiàn)。
這一現(xiàn)象表明,指令微調(diào)模型可能并不是在展示一種全新的推理能力,而是通過隱式上下文學(xué)習(xí),巧妙地利用了已有的上下文學(xué)習(xí)能力。
進(jìn)一步的實(shí)驗(yàn)表明,無論是模型規(guī)模的增加,還是訓(xùn)練數(shù)據(jù)的豐富,指令微調(diào)模型在 zero-shot 的情況下,仍然能夠與非指令微調(diào)模型表現(xiàn)出相似的任務(wù)解決能力。這一發(fā)現(xiàn)再次強(qiáng)調(diào)了指令微調(diào)與隱性上下文學(xué)習(xí)之間的緊密聯(lián)系。
AI 威脅人類生存:真實(shí)還是夸大?
盡管 LLM 在任務(wù)表現(xiàn)上展現(xiàn)出超凡的能力,但研究結(jié)果表明,這些能力并不意味著 AI 對人類生存構(gòu)成實(shí)質(zhì)性的威脅。
首先,LLM 的涌現(xiàn)能力主要來源于上下文學(xué)習(xí)和指令微調(diào),這些技術(shù)在模型的設(shè)計(jì)和訓(xùn)練中是可以被預(yù)測和控制的,并未表現(xiàn)出完全自主發(fā)展的趨勢,也沒有產(chǎn)生獨(dú)立的意圖或動機(jī)。
例如,在社交智力測試(Social IQA)中,模型能夠正確回答涉及情感和社會情境的問題,例如:“卡森醒來去上學(xué)時很興奮。他為什么要這樣做?”
在這一問題中,模型通過上下文學(xué)習(xí)和指令微調(diào),能夠超越隨機(jī)基線(random baseline),選擇出合理的答案。這說明模型并非在自發(fā)產(chǎn)生某種“智能”,而是在具體輸入和設(shè)計(jì)條件下展現(xiàn)出的一種高級模式識別能力。
其次,研究發(fā)現(xiàn)隨著 LLM 規(guī)模的擴(kuò)大,這些能力表現(xiàn)得更加顯著,但并未脫離設(shè)計(jì)者的控制。通過對模型的微調(diào),可以引導(dǎo) LLM 更好地理解和執(zhí)行復(fù)雜任務(wù),而這種能力的增強(qiáng)并不意味著模型會產(chǎn)生自主意識,還不足以對人類產(chǎn)生威脅。
在實(shí)驗(yàn)中,LLM在特定任務(wù)上的表現(xiàn)大大優(yōu)于隨機(jī)基線,尤其是在需要推理和判斷的任務(wù)中。然而,這種表現(xiàn)依然依賴于大量訓(xùn)練數(shù)據(jù)和精心設(shè)計(jì)的輸入提示,而非模型自發(fā)的智能覺醒。
這一結(jié)果進(jìn)一步證實(shí) LLM 的涌現(xiàn)能力是在可控范圍內(nèi)發(fā)展的,雖然這一假設(shè)仍需進(jìn)一步的實(shí)驗(yàn)證實(shí),但為研究理解大模型的涌現(xiàn)能力提供了一個全新的視角。
研究指出,雖然未來人工智能可能會在功能性語言能力上進(jìn)一步發(fā)展,但其潛在危險(xiǎn)性依然是可控的?,F(xiàn)有證據(jù)還不能支持“AI滅絕倫”的擔(dān)憂,相反,AI 技術(shù)的發(fā)展正在逐步朝著更加安全和可控的方向前進(jìn)。
不足與展望
盡管這項(xiàng)研究為理解 LLM 的涌現(xiàn)能力提供了重要的見解,但研究人員也指出了該研究的局限性。
當(dāng)前的實(shí)驗(yàn)主要集中在特定的任務(wù)和場景下,而 LLM 在更加復(fù)雜和多樣化的情境中的表現(xiàn)尚需進(jìn)一步研究。
研究人員表示,模型的訓(xùn)練數(shù)據(jù)和規(guī)模仍然是影響涌現(xiàn)能力的關(guān)鍵因素,未來的研究還需進(jìn)一步探索如何優(yōu)化這些因素,從而提高模型的安全性和可控性。
他們計(jì)劃進(jìn)一步研究 LLM 在更加廣泛的語言和任務(wù)環(huán)境中的表現(xiàn),特別是如何通過改進(jìn)上下文學(xué)習(xí)和指令微調(diào)技術(shù)來增強(qiáng)模型能力,且確保安全性。
此外,他們還將探討如何在不增加模型規(guī)模的情況下,通過優(yōu)化訓(xùn)練方法和數(shù)據(jù)選擇,實(shí)現(xiàn)涌現(xiàn)能力的最大化。