捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

數(shù)學(xué)推理,大語(yǔ)言模型真的會(huì)了嗎?

科普時(shí)報(bào)
原創(chuàng)
科技日?qǐng)?bào)社旗下國(guó)家級(jí)科普全媒體平臺(tái)。
收藏

當(dāng)下,大語(yǔ)言模型似乎具備了與人交流對(duì)話的能力,不僅如此,大語(yǔ)言模型還能飛速完成很多人類(lèi)需要花更多時(shí)間才能完成的文字生成任務(wù),比如,寫(xiě)篇總結(jié)文章、作首詩(shī)、寫(xiě)段Rap。然而,大語(yǔ)言模型的推理能力卻引起了很多爭(zhēng)議,近兩年來(lái)的很多測(cè)試顯示,大模型在計(jì)數(shù)、符號(hào)推理、算術(shù)推理、子集求和、幾何推理等方面的表現(xiàn)都不理想。

反復(fù)“刷題”,或?qū)е聰?shù)據(jù)污染

為了提高大模型的推理能力,Open AI發(fā)布了一個(gè)名為GSM8K的數(shù)據(jù)集,這個(gè)由人類(lèi)寫(xiě)手創(chuàng)造的數(shù)據(jù)集包含了8000多個(gè)小學(xué)數(shù)學(xué)問(wèn)題和答案,其中有7473個(gè)訓(xùn)練問(wèn)題和1319個(gè)測(cè)試問(wèn)題。對(duì)于人類(lèi)而言,這些問(wèn)題只需用到簡(jiǎn)單的加、減、乘、除運(yùn)算,通過(guò)2-8個(gè)步驟,就可以得出最終答案。

經(jīng)過(guò)不斷地訓(xùn)練和調(diào)整,大語(yǔ)言模型在面對(duì)GSM8K時(shí),性能已經(jīng)有了顯著提高。但這是否真的意味著大模型的數(shù)學(xué)推理能力變強(qiáng)了?一種質(zhì)疑是,由于這個(gè)數(shù)據(jù)集的題目固定且被拿來(lái)反復(fù)使用,很可能出現(xiàn)數(shù)據(jù)污染——用于測(cè)試的例子同時(shí)也被包含在了模型的訓(xùn)練數(shù)據(jù)中。所以,即使測(cè)試結(jié)果變得更好了,也不能確認(rèn)這些大語(yǔ)言模型的數(shù)學(xué)推理能力真的提高了。

微調(diào)題庫(kù),測(cè)試應(yīng)變能力

今年10月,蘋(píng)果公司發(fā)布的一項(xiàng)測(cè)評(píng)證實(shí)了這一質(zhì)疑的合理性。為避開(kāi)GSM8K可能導(dǎo)致的數(shù)據(jù)污染,蘋(píng)果公司的研究人員想出了一個(gè)好辦法,他們給出了一個(gè)在GSM8K基礎(chǔ)上進(jìn)行微調(diào)的測(cè)試系統(tǒng)GSM-Symbolic。微調(diào)方式主要有3種:替換題目中的專(zhuān)有名詞;改變其中的數(shù)字;添加無(wú)關(guān)信息。

舉個(gè)例子,假設(shè)原題庫(kù)中的題目是這樣的:

小明周五釣了6條魚(yú),周六釣了15條魚(yú),周日釣到的魚(yú)是周五的2倍,問(wèn)小明總共收獲了多少條魚(yú)?

GSM-Symbolic對(duì)這道題采取以下3種方式進(jìn)行微調(diào):或是把原題中的小明換成小麗;或是把原題中6換成9,15換成23;或是增加一些無(wú)關(guān)信息,比如增加條件“周日釣到的魚(yú)中,有5條魚(yú)的重量低于平均值”。當(dāng)然,還可能把這幾種微調(diào)綜合在一起?;谶@些微調(diào),從GSM8K數(shù)據(jù)集中的題目出發(fā),GSM-Symbolic可以千變?nèi)f化出更多題目來(lái)對(duì)大語(yǔ)言模型進(jìn)行評(píng)估。

從人類(lèi)的視角來(lái)看,這些微調(diào)策略就是我們常說(shuō)的“換湯不換藥”,做過(guò)小學(xué)數(shù)學(xué)題的讀者們?cè)偈煜げ贿^(guò)了。所謂“不換藥”,是說(shuō)微調(diào)完全沒(méi)有涉及這些數(shù)學(xué)問(wèn)題的邏輯結(jié)構(gòu),只是調(diào)整了一些無(wú)關(guān)參數(shù)。

正確率大幅下滑

但正是這樣的微調(diào),卻造成了大語(yǔ)言模型輸出答案正確率的大幅下滑。其中,無(wú)關(guān)信息的添加會(huì)導(dǎo)致所有最先進(jìn)的大語(yǔ)言模型的性能大幅下降,降幅高達(dá)65%。

蘋(píng)果公司的研究人員基于這些測(cè)評(píng)得出結(jié)論:大語(yǔ)言模型既不理解這些問(wèn)題中的數(shù)學(xué)概念,也不能進(jìn)行邏輯推理,而僅僅是將面對(duì)的問(wèn)題和訓(xùn)練數(shù)據(jù)中的問(wèn)題進(jìn)行比較而已。

目前來(lái)看,大語(yǔ)言模型所得出的正確答案,主要體現(xiàn)了系統(tǒng)的記憶和匹配能力,這種應(yīng)答機(jī)制更像一種模式匹配,這與人類(lèi)推理的機(jī)制完全不同,也沒(méi)有遵循邏輯。

人類(lèi)才懂“萬(wàn)變不離其宗”

那么,人類(lèi)在做小學(xué)數(shù)學(xué)推理題時(shí),究竟啟用了哪些隱藏技能?

筆者理解至少有兩條,一是透過(guò)現(xiàn)象看本質(zhì)的能力:人類(lèi)能夠抓取或識(shí)別表層語(yǔ)言背后的一般性運(yùn)算和推理的規(guī)律;二是由內(nèi)及外、活學(xué)活用的能力:人類(lèi)能夠通過(guò)非關(guān)鍵因素(比如前面提到的3種微調(diào)因素)的替換和變化展開(kāi)千變?nèi)f化的實(shí)際應(yīng)用。

這兩條綜合起來(lái),就是我們常說(shuō)的“萬(wàn)變不離其宗”。

(作者張立英系中國(guó)科學(xué)院哲學(xué)研究所教授)

評(píng)論
祥和123
學(xué)士級(jí)
已閱讀
2024-12-06
飛馬騰空
大學(xué)士級(jí)
閱讀理解
2024-12-06
東風(fēng)梁莊劉洪濤
少師級(jí)
已學(xué)習(xí)
2024-12-05