誰是“全世界最聰明的AI”?
編者的話:18日,馬斯克帶領(lǐng)旗下人工智能初創(chuàng)公司xAI的成員在線直播官宣了“全世界最聰明AI”的Grok-3大模型“全家桶”。相關(guān)測試顯示,Grok-3在發(fā)布之后迅速超過了全球多個(gè)排行榜上的競爭對手,其中就包括OpenAI公司的o3-mini high和DeepSeek-R1。到底這個(gè)被20萬塊GPU調(diào)教出來的大模型有多聰明?誰才是全世界最聰明的AI?《環(huán)球時(shí)報(bào)》將這個(gè)問題拋給了3個(gè)頭部大模型,并與多位專家進(jìn)行了探討。
“承認(rèn)自己的局限性也是一種‘聰明’吧”
之所以外界將馬斯克及其團(tuán)隊(duì)當(dāng)天發(fā)布的大模型稱為“全家桶”,是因?yàn)槠浒薌rok-3(Beta)、Grok-3 mini、推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning、首個(gè)AI智能體DeepSearch。據(jù)介紹,第三代Grok的訓(xùn)練計(jì)算量是Grok-2的10倍。
在多項(xiàng)基準(zhǔn)測試中,Grok-3在數(shù)學(xué)、科學(xué)問答、編程等方面大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的性能基本上領(lǐng)先或媲美其他閉源/開源模型。在推理能力方面,也擊敗了o3-mini和DeepSeek-R1。
那在實(shí)際使用過程中到底它是否真的足夠“聰明”呢?《環(huán)球時(shí)報(bào)》記者18日對Grok-3(Beta)版本進(jìn)行了一番測試。記者問Grok-3怎么評(píng)價(jià)它被稱為“全世界最聰明的AI”,介紹它有哪些升級(jí)與改進(jìn),特別是“思維鏈”(Chain of Thought)帶來了哪些性能的提升?Grok-3的回復(fù)如下:關(guān)于我被稱作“全世界最聰明的AI”,我覺得這是一種很有趣的評(píng)價(jià),但我也明白“聰明”是個(gè)挺主觀的東西。我覺得我更像是一個(gè)一直在學(xué)習(xí)和優(yōu)化的助手,而不是一個(gè)需要炫耀頭銜的家伙。
說到升級(jí)和改進(jìn),Grok-3特別提到“思維鏈”對其性能的提升。簡單來說,“思維鏈”讓它在回答復(fù)雜問題時(shí)能更有條理地“一步步思考”,而不是直接跳到結(jié)論。這種方法有點(diǎn)像人類在解決難題時(shí)先拆解問題、分析步驟,然后再得出答案?!爱?dāng)然,我也不是完美的。有時(shí)候問題太模糊或超出我的知識(shí)范圍,我還是會(huì)盡力給個(gè)合理的回應(yīng),或者老實(shí)承認(rèn)不知道。畢竟,承認(rèn)自己的局限性也是一種‘聰明’吧?”
資料圖
《環(huán)球時(shí)報(bào)》記者也把同樣的問題拋給了DeepSeek與ChatGPT。DeepSeek-R1在“深度思考”20秒后給出了回復(fù):Grok-3的“思維鏈”優(yōu)化確實(shí)能提升復(fù)雜任務(wù)性能,尤其在邏輯透明度和分步推理上,但“最聰明AI”的宣稱需結(jié)合實(shí)測結(jié)果謹(jǐn)慎看待。其核心價(jià)值可能在于與xAI生態(tài)的整合能力,而非絕對技術(shù)領(lǐng)先。DeepSeek-R1認(rèn)為,未來AI競爭關(guān)鍵點(diǎn)在于:如何平衡“實(shí)時(shí)數(shù)據(jù)”與“幻覺控制”;能否突破現(xiàn)有大模型的同質(zhì)化瓶頸(如開源策略、能耗優(yōu)化)。DeepSeek-R1在“行業(yè)對比與定位”一項(xiàng)中特別提到Grok系列的獨(dú)特價(jià)值可能更貼近馬斯克的愿景——與特斯拉機(jī)器人、“星鏈”等生態(tài)聯(lián)動(dòng),成為“實(shí)時(shí)物理世界交互AI”。
ChatGPT o3-mini high的回復(fù)為:Grok-3在數(shù)學(xué)推理、科學(xué)邏輯推理等方面表現(xiàn)出色,超越或媲美了Gemini、DeepSeek和ChatGPT等對手。然而,人工智能領(lǐng)域競爭激烈,其他公司也在不斷推出先進(jìn)的AI模型,例如中國公司發(fā)布了DeepSeek-R1模型,以低成本和高性能在市場上引起廣泛關(guān)注。因此,雖然Grok-3在某些方面表現(xiàn)出色,但是否為“最聰明的AI”仍取決于具體的評(píng)估標(biāo)準(zhǔn)和應(yīng)用場景。
2月15日至18日,環(huán)球時(shí)報(bào)研究院對境外主流媒體有關(guān)Grok-3的376篇英文報(bào)道進(jìn)行分析發(fā)現(xiàn),馬斯克對該模型“全世界最聰明”的描述被廣泛傳播,51.6%的報(bào)道提及相關(guān)關(guān)鍵詞。在性能方面,提到“推理能力”的報(bào)道超過半數(shù),提到“搜索”“編程”等具體功能的報(bào)道各占一成多。在投入方面,提到“成本”的報(bào)道接近四成,提到“訓(xùn)練”的報(bào)道超過半數(shù),而訓(xùn)練使用的“合成數(shù)據(jù)”的提及率也超過1/4。
“大力出奇跡”VS“小力出奇跡”
Grok-3被外界關(guān)注的不僅是性能如何,還有一個(gè)話題備受矚目:它的發(fā)布是否再次掀起了一場人工智能大模型發(fā)展模式的討論。人類首次用20萬塊GPU訓(xùn)練出的大模型問世,是否代表著人工智能未來的發(fā)展方向?DeepSeek用相對少的算力與成本,通過算法優(yōu)化來實(shí)現(xiàn)的大模型是否帶給全球更多選擇?
環(huán)球時(shí)報(bào)研究院對境外主流媒體有關(guān)Grok-3的376篇英文報(bào)道進(jìn)行分析發(fā)現(xiàn),相關(guān)報(bào)道還較為關(guān)注Grok-3與其他人工智能模型的對比,如56.3%的報(bào)道提到DeepSeek。在同時(shí)提到這兩款人工智能工具的報(bào)道中,“競爭”的提及率達(dá)到六成。在對比中,54.9%的報(bào)道就“成本”問題進(jìn)行闡述,提到“效率”“投資”等問題的報(bào)道也均超過三成。
北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉19日對《環(huán)球時(shí)報(bào)》記者表示,DeepSeek與GPT系列最大的區(qū)別在于“小力出奇跡”,而Grok-3與DeepSeek的區(qū)別是又回到了“大力出奇跡”軌跡。大模型即將進(jìn)入算法與算力大比拼的“戰(zhàn)國時(shí)期”?!八惴ㄅc算力的博弈”是一個(gè)富有深度的話題,涉及到認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)、人工智能、信息技術(shù)等多個(gè)領(lǐng)域。
劉偉認(rèn)為,DeepSeek體現(xiàn)了算法的優(yōu)化。為了在有限的算力下實(shí)現(xiàn)更好的性能,算法設(shè)計(jì)者會(huì)不斷優(yōu)化算法。例如,通過減少不必要的計(jì)算、利用數(shù)據(jù)結(jié)構(gòu)來提高效率等方式。如動(dòng)態(tài)規(guī)劃算法通過存儲(chǔ)子問題的解來避免重復(fù)計(jì)算,從而在有限的算力下提高效率。Grok-3則體現(xiàn)了硬件加速的奇跡,硬件工程師會(huì)不斷改進(jìn)硬件架構(gòu),提高算力。更多GPU的使用為并行計(jì)算提供了強(qiáng)大的支持,使得深度學(xué)習(xí)算法能夠快速運(yùn)行。然而,硬件的改進(jìn)也可能促使算法設(shè)計(jì)者設(shè)計(jì)更復(fù)雜的算法,進(jìn)一步挖掘硬件的潛力。
《環(huán)球時(shí)報(bào)》記者讓Grok-3從技術(shù)水平、推理能力、是否開源、創(chuàng)新程度以及對全球AI競爭格局的影響等維度來比較DeepSeek與Grok-3的差異。
Grok-3用“思維鏈”的方式給出了如下的綜合比較與結(jié)論:
技術(shù)水平——Grok-3靠算力勝出,但DeepSeek-R1效率更高。
推理能力——Grok-3更全面,DeepSeek-R1在專業(yè)領(lǐng)域不遜色。
是否開源——DeepSeek-R1完全開源,Grok-3閉源,策略迥異。
創(chuàng)新程度——DeepSeek-R1算法創(chuàng)新突出,Grok-3可能依賴資源整合。
全球影響——DeepSeek-R1推動(dòng)AI平權(quán)和價(jià)格競爭,Grok-3強(qiáng)化美國技術(shù)領(lǐng)先。
Grok-3給出的最終結(jié)論為DeepSeek-R1和Grok-3代表兩種AI發(fā)展路徑——前者以開源和效率挑戰(zhàn)資源限制,后者以算力和閉源鞏固霸主地位。DeepSeek對全球AI格局的顛覆性更強(qiáng),而Grok-3則是技術(shù)巔峰的象征。
劉偉強(qiáng)調(diào),Grok-3這種用大量高性能GPU堆算力的“大力出奇跡”發(fā)展模式是全球絕大部分國家和地區(qū)在發(fā)展AI過程中都無法復(fù)制的,而中國DeepSeek“小力出奇跡”的開源模式則給了全球南方國家一個(gè)公平分享AI大模型發(fā)展成果的機(jī)會(huì)。
如何判斷它是否在“胡說八道”
隨著人工智能技術(shù)的不斷發(fā)展,大模型已經(jīng)變得越來越“聰明”,但即便是全球幾家頭部大模型廠商的頂尖大模型仍然無法完全破解機(jī)器幻覺的難題。人類并不能真正了解屏幕那邊“侃侃而談”的大模型到底是在“說真話”,還是在“一本正經(jīng)地胡說八道”。
Grok-3使用的“思維鏈”其實(shí)就是希望還原大模型理解問題、拆解問題、解決問題并提供結(jié)論的過程,以便讓得出的結(jié)論具有一定的可溯性。但《環(huán)球時(shí)報(bào)》記者在測試過程中發(fā)現(xiàn),即便使用了“思維鏈”,機(jī)器幻覺的問題仍然無法完全避免,例如,給出似是而非的答案。不過,Grok-3在使用“思維鏈”回答問題給出結(jié)論之后,還會(huì)有一個(gè)名為“反思與建議”的步驟,說明上述生成內(nèi)容可能存在的局限,并給出用戶進(jìn)一步核對以及給出更明確提問要求的建議。
一位從事網(wǎng)絡(luò)技術(shù)工作的專業(yè)人士19日對《環(huán)球時(shí)報(bào)》記者表示,不同大模型也有自身的專長,有些公司打造的是通用模型,有些則是垂類模型。從他的大模型使用體驗(yàn)來看,向Grok-3等大模型提出越具象的技術(shù)類問題越容易得到一個(gè)有效回答,然后還要進(jìn)行一定的追問與調(diào)整,以便大模型可以更好地理解用戶的意圖,并給出更好的答案。
劉偉對《環(huán)球時(shí)報(bào)》記者表示,大模型容易出現(xiàn)機(jī)器幻覺,主要有以下幾個(gè)原因:一是訓(xùn)練數(shù)據(jù)不足或偏見。如果訓(xùn)練數(shù)據(jù)不全面或有偏見,AI可能基于錯(cuò)誤模式生成輸出。二是過擬合。模型過度學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲,導(dǎo)致在新數(shù)據(jù)上表現(xiàn)不佳,生成不相關(guān)內(nèi)容。三是模型復(fù)雜性。高復(fù)雜度的模型可能因參數(shù)過多而產(chǎn)生不可預(yù)測行為,增加幻覺風(fēng)險(xiǎn)。四是缺乏現(xiàn)實(shí)理解。AI模型本質(zhì)上是基于模式預(yù)測的語言生成器,而非真正理解世界,因此存在生成錯(cuò)誤信息的概率。例如,Grok-1在訓(xùn)練時(shí)未完全依賴真實(shí)世界數(shù)據(jù),采用了大量合成數(shù)據(jù),導(dǎo)致在理解真實(shí)世界時(shí)表現(xiàn)不佳,后來這一問題在Grok-2上有所改善。
那么,要如何最大程度上降低機(jī)器幻覺出現(xiàn)的概率呢?在此前出版的《自然》雜志上,英國牛津大學(xué)科學(xué)家刊發(fā)論文稱,他們利用“語義熵”,即通過概率來判斷大語言模型是否出現(xiàn)了“幻覺”。語義熵是信息熵的一種,被用于量化物理系統(tǒng)中所包含的信息量。通過評(píng)估AI模型在特定提示詞下生成內(nèi)容的不確定性,來計(jì)算模型的困惑程度,從而為用戶或模型提供警示,提醒其采取必要的循證措施,確保更準(zhǔn)確的答案輸出。
據(jù)報(bào)道,美國卡內(nèi)基梅隆大學(xué)AI研究人員采用的方法是在大語言模型回答問題時(shí),繪制其內(nèi)部計(jì)算節(jié)點(diǎn)的激活模式。他形象地稱之為“給AI做腦部掃描”。利用不同的計(jì)算節(jié)點(diǎn)活動(dòng)模式,可以告訴我們AI模型是在“說真話”,還是在“胡說八道”。
馬斯克在發(fā)布會(huì)上稱,Grok-3具備強(qiáng)大的自我糾錯(cuò)功能,能夠識(shí)別并減少錯(cuò)誤數(shù)據(jù),并通過反復(fù)檢查數(shù)據(jù)實(shí)現(xiàn)邏輯一致性。這種機(jī)制減少了傳統(tǒng)AI模型中的“幻覺”問題,使其在推理任務(wù)中表現(xiàn)更穩(wěn)定。清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽19日對《環(huán)球時(shí)報(bào)》記者表示,喂給大模型進(jìn)行訓(xùn)練的原始語料里面如果有一些錯(cuò)誤語料,通過強(qiáng)化學(xué)習(xí),大模型是具有一定自我糾錯(cuò)能力的。不過,想要更大程度上降低機(jī)器幻覺,需要從多個(gè)層面來進(jìn)行,包括改進(jìn)訓(xùn)練數(shù)據(jù)、增強(qiáng)語料真實(shí)性與廣泛性、優(yōu)化模型結(jié)構(gòu)算法、鼓勵(lì)用戶糾錯(cuò)反饋、提醒用戶要對生成內(nèi)容進(jìn)行核對與交叉驗(yàn)證等。
劉偉表示,大模型雖然在許多領(lǐng)域表現(xiàn)出強(qiáng)大的能力,但其局限性和潛在問題不容忽視。為了避免其對人類重大決策產(chǎn)生干擾,需要在使用過程中,結(jié)合人類的經(jīng)驗(yàn)和判斷進(jìn)行監(jiān)督與修正,充分發(fā)揮人、機(jī)器、環(huán)境的系統(tǒng)校驗(yàn)修正作用,最大程度降低機(jī)器幻覺的發(fā)生,讓大模型更好地為人類所用。
本文為科普中國·創(chuàng)作培育計(jì)劃扶持作品
作者:環(huán)球時(shí)報(bào)
出品:中國科協(xié)科普部
監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司