美女被sm调教小说,成何体统七英俊小说全文免费阅读下载,三级中文字幕免费

當(dāng)下，大語(yǔ)言模型似乎具備了與人交流對(duì)話的能力，不僅如此，大語(yǔ)言模型還能飛速完成很多人類(lèi)需要花更多時(shí)間才能完成的文字生成任務(wù)，比如，寫(xiě)篇總結(jié)文章、作首詩(shī)、寫(xiě)段Rap。然而，大語(yǔ)言模型的推理能力卻引起了很多爭(zhēng)議，近兩年來(lái)的很多測(cè)試顯示，大模型在計(jì)數(shù)、符號(hào)推理、算術(shù)推理、子集求和、幾何推理等方面的表現(xiàn)都不理想。

反復(fù)“刷題”，或?qū)е聰?shù)據(jù)污染

為了提高大模型的推理能力，Open AI發(fā)布了一個(gè)名為GSM8K的數(shù)據(jù)集，這個(gè)由人類(lèi)寫(xiě)手創(chuàng)造的數(shù)據(jù)集包含了8000多個(gè)小學(xué)數(shù)學(xué)問(wèn)題和答案，其中有7473個(gè)訓(xùn)練問(wèn)題和1319個(gè)測(cè)試問(wèn)題。對(duì)于人類(lèi)而言，這些問(wèn)題只需用到簡(jiǎn)單的加、減、乘、除運(yùn)算，通過(guò)2-8個(gè)步驟，就可以得出最終答案。

經(jīng)過(guò)不斷地訓(xùn)練和調(diào)整，大語(yǔ)言模型在面對(duì)GSM8K時(shí)，性能已經(jīng)有了顯著提高。但這是否真的意味著大模型的數(shù)學(xué)推理能力變強(qiáng)了？一種質(zhì)疑是，由于這個(gè)數(shù)據(jù)集的題目固定且被拿來(lái)反復(fù)使用，很可能出現(xiàn)數(shù)據(jù)污染——用于測(cè)試的例子同時(shí)也被包含在了模型的訓(xùn)練數(shù)據(jù)中。所以，即使測(cè)試結(jié)果變得更好了，也不能確認(rèn)這些大語(yǔ)言模型的數(shù)學(xué)推理能力真的提高了。

微調(diào)題庫(kù)，測(cè)試應(yīng)變能力

今年10月，蘋(píng)果公司發(fā)布的一項(xiàng)測(cè)評(píng)證實(shí)了這一質(zhì)疑的合理性。為避開(kāi)GSM8K可能導(dǎo)致的數(shù)據(jù)污染，蘋(píng)果公司的研究人員想出了一個(gè)好辦法，他們給出了一個(gè)在GSM8K基礎(chǔ)上進(jìn)行微調(diào)的測(cè)試系統(tǒng)GSM-Symbolic。微調(diào)方式主要有3種：替換題目中的專(zhuān)有名詞；改變其中的數(shù)字；添加無(wú)關(guān)信息。

舉個(gè)例子，假設(shè)原題庫(kù)中的題目是這樣的：

小明周五釣了6條魚(yú)，周六釣了15條魚(yú)，周日釣到的魚(yú)是周五的2倍，問(wèn)小明總共收獲了多少條魚(yú)？

GSM-Symbolic對(duì)這道題采取以下3種方式進(jìn)行微調(diào)：或是把原題中的小明換成小麗；或是把原題中6換成9，15換成23；或是增加一些無(wú)關(guān)信息，比如增加條件“周日釣到的魚(yú)中，有5條魚(yú)的重量低于平均值”。當(dāng)然，還可能把這幾種微調(diào)綜合在一起?；谶@些微調(diào)，從GSM8K數(shù)據(jù)集中的題目出發(fā)，GSM-Symbolic可以千變?nèi)f化出更多題目來(lái)對(duì)大語(yǔ)言模型進(jìn)行評(píng)估。

從人類(lèi)的視角來(lái)看，這些微調(diào)策略就是我們常說(shuō)的“換湯不換藥”，做過(guò)小學(xué)數(shù)學(xué)題的讀者們?cè)偈煜げ贿^(guò)了。所謂“不換藥”，是說(shuō)微調(diào)完全沒(méi)有涉及這些數(shù)學(xué)問(wèn)題的邏輯結(jié)構(gòu)，只是調(diào)整了一些無(wú)關(guān)參數(shù)。

正確率大幅下滑

但正是這樣的微調(diào)，卻造成了大語(yǔ)言模型輸出答案正確率的大幅下滑。其中，無(wú)關(guān)信息的添加會(huì)導(dǎo)致所有最先進(jìn)的大語(yǔ)言模型的性能大幅下降，降幅高達(dá)65%。

蘋(píng)果公司的研究人員基于這些測(cè)評(píng)得出結(jié)論：大語(yǔ)言模型既不理解這些問(wèn)題中的數(shù)學(xué)概念，也不能進(jìn)行邏輯推理，而僅僅是將面對(duì)的問(wèn)題和訓(xùn)練數(shù)據(jù)中的問(wèn)題進(jìn)行比較而已。

目前來(lái)看，大語(yǔ)言模型所得出的正確答案，主要體現(xiàn)了系統(tǒng)的記憶和匹配能力，這種應(yīng)答機(jī)制更像一種模式匹配，這與人類(lèi)推理的機(jī)制完全不同，也沒(méi)有遵循邏輯。

人類(lèi)才懂“萬(wàn)變不離其宗”

那么，人類(lèi)在做小學(xué)數(shù)學(xué)推理題時(shí)，究竟啟用了哪些隱藏技能？

筆者理解至少有兩條，一是透過(guò)現(xiàn)象看本質(zhì)的能力：人類(lèi)能夠抓取或識(shí)別表層語(yǔ)言背后的一般性運(yùn)算和推理的規(guī)律；二是由內(nèi)及外、活學(xué)活用的能力：人類(lèi)能夠通過(guò)非關(guān)鍵因素（比如前面提到的3種微調(diào)因素）的替換和變化展開(kāi)千變?nèi)f化的實(shí)際應(yīng)用。

這兩條綜合起來(lái)，就是我們常說(shuō)的“萬(wàn)變不離其宗”。

（作者張立英系中國(guó)科學(xué)院哲學(xué)研究所教授）

捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

數(shù)學(xué)推理，大語(yǔ)言模型真的會(huì)了嗎？

捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

數(shù)學(xué)推理，大語(yǔ)言模型真的會(huì)了嗎？

數(shù)學(xué)推理，大語(yǔ)言模型真的會(huì)了嗎？