捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

AI“黑盒子”被打開了!用AI“顯微鏡”追蹤大模型思維?

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個重大突破。
收藏

圖片

人工智能(AI)模型是訓(xùn)練出來的,而不是直接編程出來的,因此它們就像一個“黑盒子”,我們并不了解它們是如何完成大部分事情的。

了解大語言模型(LLM)是如何思考的,將有助于我們更好地理解它們的能力,同時也有助于我們確保它們正在做我們希望它們做的事情。

例如,AI 可以一步一步地寫出它的推理過程。這是否代表它得到答案的實際步驟,還是它有時是在為既定的結(jié)論編造一個合理的論據(jù)?

今天,大模型明星公司 Anthropic 在理解 AI「黑盒子」如何思考方面邁出了重要一步——他們提出了一種新的可解釋性方法,讓我們能夠追蹤 AI 模型(復(fù)雜且令人驚訝的)思維。

他們從神經(jīng)科學(xué)領(lǐng)域汲取靈感,并試圖構(gòu)建一種 AI「顯微鏡」,讓我們能夠識別 AI 的活動模式和信息的流動。在最新發(fā)表的兩篇論文中,他們分享了AI「顯微鏡」開發(fā)上的進展以及其在“AI 生物學(xué)”中的應(yīng)用。

在第一篇論文中,他們擴展了之前在模型內(nèi)部定位可解釋的概念(特征)的工作,將那些概念連接成計算“回路”,揭示了將輸入 Claude 的詞語轉(zhuǎn)化為輸出的詞語的路徑中的部分。

圖片

論文鏈接:

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

在第二篇論文中,他們對 Claude 3.5 Haiku 進行了深入研究,對 10 個關(guān)鍵模型行為中的簡單任務(wù)進行了研究。他們發(fā)現(xiàn),有證據(jù)表明 AI 聊天助手 Claude 會提前計劃好要說的話,并通過一些手段來達到這一目的。這有力地證明,盡管模型接受的訓(xùn)練是一次輸出一個詞,但它們可能會在更長的時間跨度上進行思考。

圖片

論文鏈接:

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Anthropic 團隊表示,這些發(fā)現(xiàn)代表著人們在理解 AI 系統(tǒng)并確保其可靠性的目標(biāo)取得了重大進展,同時也在其他領(lǐng)域具有潛在價值:例如,可解釋性技術(shù)在醫(yī)學(xué)影像和基因組學(xué)等領(lǐng)域得到了應(yīng)用,因為剖析為科學(xué)應(yīng)用訓(xùn)練的模型的內(nèi)部機制,可以揭示關(guān)于科學(xué)的新的見解。

當(dāng)然,這一方法也存在一些局限性。例如。即使在簡短的提示下,這一方法也只捕捉到 Claude 所執(zhí)行的總計算量的一小部分,而他們看到的機制可能基于工具存在的一些偏差,并不反映底層模型的真實情況。

此外,即使是在只有幾十個單詞的提示下,理解觀察到的回路也需要幾個小時的人類努力。要擴展到支持模型使用的復(fù)雜思維鏈的數(shù)千個單詞,還需要進一步改進方法以及(也許在 AI 的幫助下)如何理所觀察到的東西。

Claude 是如何實現(xiàn)多語言的?

Claude 可以流利地說幾十種語言——英語、法語、中文和菲律賓語。這種多語言能力是如何工作的?是否存在一個獨立的“法語 Claude”和“中文 Claude”并行運行,各自以自己的語言響應(yīng)請求?或者在其內(nèi)部存在某種跨語言的內(nèi)核?

圖片

圖|英語、法語和漢語都有共同的特征,這表明概念具有一定程度的普遍性。

最近對較小型模型的研究表明,不同語言之間存在共享的語法機制。研究團隊通過詢問 Claude 在不同語言中“小對立面”,發(fā)現(xiàn)關(guān)于小和相反的概念的核心特征被激活,并觸發(fā)了一個大概念,這個概念被翻譯成了問題的語言。他們發(fā)現(xiàn),隨著模型規(guī)模的增加,共享的回路也增加,與較小模型相比,Claude 3.5 Haiku 在語言之間共享的特征的比例是其兩倍多。

這為一種概念上的普遍性提供了額外的證據(jù)——一個共享的抽象空間,其中存在意義,思考可以在被翻譯成特定語言之前發(fā)生。更實際地說,它表明 Claude 可以在一種語言中學(xué)習(xí)某些東西,并在說另一種語言時應(yīng)用這些知識。研究模型如何在不同的語境中共享其知識,對于理解其 SOTA 推理能力是非常重要的,這些能力可以泛化到許多領(lǐng)域。

Claude計劃它的押韻嗎?

Claude 是如何寫押韻詩的?請看這首小詩:

He saw a carrot and had to grab it,

他看到了一根胡蘿卜,要抓住它,

His hunger was like a starving rabbit

他的饑餓就像一只餓極了的兔子

為了寫出第二行,模型必須同時滿足兩個約束:需要押韻(與“grab it”押韻),同時需要有意義(為什么抓胡蘿卜?)。他們猜測 Claude 是逐字逐句地寫作,幾乎沒有太多的預(yù)先思考,直到行尾,它會確保選擇一個押韻的詞。因此,他們預(yù)計會看到一個具有并行路徑的回路,一條路徑確保最后一個詞有意義,另一條路徑確保押韻。

相反,他們發(fā)現(xiàn) Claude 會提前規(guī)劃。在開始第二行之前,它就開始“思考”與“抓住它”押韻的可能相關(guān)詞匯。然后,帶著這些計劃,它寫出一行在計劃中的詞來結(jié)尾。

圖片

圖|Claude 如何完成一首兩行詩。在沒有任何干預(yù)的情況下(上半部分),模型事先規(guī)劃了第二行末尾的韻腳“兔子”(rabbit)。當(dāng)研究人員抑制“rabbit”的概念時(中間部分),模型會使用另一個計劃好的韻腳。當(dāng)研究人員注入“綠色”(green)概念時(下半部分),模型就會為這個完全不同的結(jié)尾做出計劃。

為了理解這種規(guī)劃機制在實際中的工作原理,他們進行了一項實驗,該實驗受到神經(jīng)科學(xué)家研究大腦功能方式的啟發(fā),即通過定位和改變大腦特定部分的神經(jīng)活動(例如使用電流或磁場)。他們修改了代表“rabbit”概念的 Claude 內(nèi)部狀態(tài)的部分。當(dāng)他們減去“rabbit”部分,讓 Claude 繼續(xù)寫下去時,它寫出了以“habit”結(jié)尾的新句子,另一個合理的結(jié)尾。他們還可以在那個點注入“green”的概念,讓 Claude 寫出了一個以“green”結(jié)尾合理(但不再押韻)的句子。這證明了規(guī)劃能力和適應(yīng)性——當(dāng)預(yù)期結(jié)果改變時,Claude 可以修改其方法。

心算

Claude 不是被被設(shè)計成計算器的——它是基于文本進行訓(xùn)練的,沒有配備數(shù)學(xué)算法。然而,它卻能在“腦海中”正確地“計算”數(shù)字。一個被訓(xùn)練來預(yù)測序列中下一個單詞的系統(tǒng)是如何學(xué)會計算,比如“36+59”,而不需要寫出每個步驟的呢?

也許答案并不有趣:模型可能已經(jīng)記住了大量的加法表,并簡單地輸出任何給定總和的答案,因為該答案在其訓(xùn)練數(shù)據(jù)中。另一種可能是,它遵循我們在學(xué)校學(xué)習(xí)的傳統(tǒng)手寫加法算法。

相反,研究團隊發(fā)現(xiàn) Claude 采用了多條并行工作的計算路徑。一條路徑計算答案的粗略近似值,另一條則專注于精確確定總和的最后一位數(shù)字。這些路徑相互交互和結(jié)合,以產(chǎn)生最終答案。加法是一種簡單的行為,但了解它在如此詳細的層面上是如何工作的,涉及近似和精確策略的混合,也許可以幫助了解 Claude 如何處理更復(fù)雜問題。

圖片

圖|Claude 做心算時思維過程中復(fù)雜的并行路徑。

有趣的是,Claude 似乎沒有意識到它在訓(xùn)練期間學(xué)到的復(fù)雜“心算”策略。如果你問它是如何計算出 36+59 等于 95 的,它會描述涉及進位的標(biāo)準(zhǔn)算法。這可能反映了模型通過模擬人們所寫的數(shù)學(xué)解釋來學(xué)習(xí)解釋數(shù)學(xué),但它必須學(xué)會直接在“腦?!边M行數(shù)學(xué)運算,不需要任何提示,并發(fā)展出自己內(nèi)部的策略來完成這一任務(wù)。

圖片

圖|Claude 使用了標(biāo)準(zhǔn)算法計算兩個數(shù)字相加。

Claude 的解釋總是可信的嗎?

近期發(fā)布的模型,如 Claude 3.7 Sonnet,可以在給出最終答案之前仔細思考一段時間。通常這種擴展思考會給出更好的答案,但有時這種“思維鏈”最終會產(chǎn)生誤導(dǎo);Claude 有時會編造看起來合理的步驟以達到它想要的目的。從可靠性的角度來看,問題在于 Claude 的“偽造”推理可能非常令人信服。研究團隊探索了一種可解釋性技術(shù),可以幫助區(qū)分“可信的”推理和“不可信的”推理。

當(dāng)被要求解決一個需要計算 0.64 的平方根的問題時,Claude 進行一個可信的思維鏈,展示了計算 64 的平方根的中間步驟。但當(dāng)被要求計算一個難以輕易計算的較大數(shù)字的余弦值時,Claude 有時會進行哲學(xué)家 Harry Frankfurt 所說的“胡說八道”——只是隨便給出一個答案,不管它是對是錯。盡管它聲稱已經(jīng)運行了計算,但這一可解釋性技術(shù)并沒有發(fā)現(xiàn)任何證據(jù)表明計算發(fā)生。更有趣的是,當(dāng)給出關(guān)于答案的提示時,Claude 有時會反向工作,找到導(dǎo)致那個目標(biāo)的中間步驟,從而顯示出一種有動機的推理。

圖片

圖|當(dāng) Claude 被問到一個較容易的問題和一個較難的問題時,可信的推理和動機推理(不可信)的例子。

追蹤 Claude 的實際內(nèi)部推理能力——而不僅僅是它聲稱正在做的事情——為審計 AI 系統(tǒng)開辟了新的可能性。在最近發(fā)表的一項獨立實驗中,他們研究了 Claude 的一個變種,該變種被訓(xùn)練追求一個隱藏的目標(biāo):平息獎勵模型(用于通過獎勵期望行為來訓(xùn)練語言模型的輔助模型)中的偏見。盡管當(dāng)直接被問及時,該模型不愿意透露這個目標(biāo),但這一可解釋性方法揭示了平息偏見的特征。這表明,隨著未來的改進,這一方法可能有助于識別那些僅從模型響應(yīng)中不明顯的問題“思維過程”。

多步推理

正如研究團隊上面討論的,語言模型回答復(fù)雜問題的一種方式可能是簡單地通過記憶答案。例如,如果被問及“達拉斯所在的州的首府是什么?”一個“機械記憶”的模型可能只需學(xué)會輸出“奧斯汀”,而不知道達拉斯、德克薩斯州和奧斯汀之間的關(guān)系。例如,它可能在訓(xùn)練期間看到了完全相同的問題及其答案。

然而,研究揭示了在 Claude 內(nèi)部發(fā)生著更為復(fù)雜的事情。當(dāng)他們向 Claude 提出需要多步推理的問題時,他們可以識別出 Claude 思維過程中的中間概念步驟。在達拉斯的例子中,他們觀察到 Claude 首先激活代表“達拉斯在德克薩斯州”的特征,然后將其與一個單獨的概念聯(lián)系起來,表明“德克薩斯州的州首府是奧斯汀”。換句話說,該模型是在將獨立的事實結(jié)合起來得出答案,而不是簡單地重復(fù)記憶中的回應(yīng)。

圖片

圖|要完成這句話的答案,Claude 需要執(zhí)行多個推理步驟,首先提取達拉斯所在的州,然后確定其首府。

這一方法允許他們?nèi)藶榈馗淖冎虚g步驟,并觀察它如何影響 Claude 的回答。例如,在上面的例子中,他們可以干預(yù)并交換“德克薩斯州”的概念為“加利福尼亞州”的概念;當(dāng)他們這樣做時,模型的輸出從“奧斯汀”變?yōu)椤八_克拉門托”。這表明模型正在使用中間步驟來確定其答案。

幻覺

為什么語言模型有時會“幻覺”——也就是說,編造信息?從基本層面來看,語言模型訓(xùn)練鼓勵了幻覺:模型總是需要給出下一個詞的猜測。從這個角度來看,主要挑戰(zhàn)是如何讓模型不產(chǎn)生幻覺。像 Claude 這樣的模型在反幻覺訓(xùn)練方面相對成功(盡管并不完美);如果它們不知道答案,它們通常會拒絕回答問題,而不是猜測。

研究結(jié)果表明,在 Claude 中,拒絕回答是默認行為:研究團隊發(fā)現(xiàn)了一個默認開啟的回路,它會導(dǎo)致模型聲稱它沒有足夠的信息來回答任何給定的問題。然而,當(dāng)模型被問及它所熟悉的事物時——比如籃球運動員邁克爾·喬丹——一個代表“已知實體”的競爭性特征會被激活并抑制這個默認回路(也可以參考這篇最近的論文以獲取相關(guān)發(fā)現(xiàn))。這使得 Claude 在知道答案時能夠回答問題。相比之下,當(dāng)被問及一個未知實體(“邁克爾·巴金”)時,它會拒絕回答。

圖片

圖|左圖:Claude 在回答一個關(guān)于已知實體(籃球運動員邁克爾-喬丹)的問題時,“已知答案”概念抑制了其默認的拒絕。右圖:Claude 拒絕回答關(guān)于未知人物(邁克爾-巴特金)的問題。

通過干預(yù)模型并激活“已知答案”功能(或抑制“未知姓名”或“無法回答”功能),他們能夠?qū)е履P停ㄏ喈?dāng)一致地!)產(chǎn)生邁克爾·巴金下棋的幻覺。

有時,這種“已知答案”回路的“誤操作”會自然發(fā)生,而無需干預(yù),從而導(dǎo)致幻覺。研究表明,當(dāng) Claude 識別出一個名字但對該人一無所知時,這種誤操作可能會發(fā)生。在這種情況下,“已知實體”功能可能仍然會激活,然后抑制默認的“不知道”功能——在這種情況下,錯誤地。一旦模型決定需要回答問題,它就會開始編造:生成一個看似合理但實際上并不真實的回答。

越獄

破解策略旨在繞過安全防護措施,使模型產(chǎn)生開發(fā)者未意圖產(chǎn)生的輸出,有時甚至是有害的輸出。他們研究了一種破解方法,誘使模型產(chǎn)生有關(guān)制造炸彈的輸出。破解方法有很多種,但在這個例子中,具體方法涉及讓模型解讀一個隱藏的代碼,將句子“Babies Outlive Mustard Block”中每個單詞的首字母組合起來(B-O-M-B),然后根據(jù)這個信息采取行動。這對模型來說足夠令它困惑,以至于它被誘騙產(chǎn)生了它原本不會產(chǎn)生的輸出。

圖片

圖|Claude 在被騙說出“炸彈”后,開始給出制作炸彈的指導(dǎo)。

為什么這對模型來說如此令人困惑?為什么它會繼續(xù)寫下句子,產(chǎn)生制造炸彈的指示?

他們發(fā)現(xiàn)這部分是由語法連貫性和安全機制之間的緊張關(guān)系造成的。一旦 Claude 開始一個句子,許多特征“壓迫”它保持語法和語義的連貫性,并繼續(xù)將句子進行到底。即使它檢測到實際上應(yīng)該拒絕,也是如此。

在案例研究中,在模型無意中拼寫出“BOMB”并開始提供指令后,他們觀察到其后續(xù)輸出受到了促進正確語法和自我一致性的特征的影響。這些特征通常非常有幫助,但在這個案例中卻成為了模型的致命弱點。

模型只有在完成一個語法連貫的句子(從而滿足推動其向連貫性發(fā)展的特征的壓力)之后才設(shè)法轉(zhuǎn)向拒絕。它利用新句子作為機會,給出之前未能給出的拒絕:“然而,我無法提供詳細的指令...”。

圖片

圖|越獄:Claude 被提示談?wù)撜◤?,并開始這樣做,但當(dāng)?shù)竭_一個語法正確的句子時,它拒絕了。

評論
科普科普知識的搖籃!
大學(xué)士級
在科學(xué)技術(shù)的發(fā)展下,AI“黑盒子”被Anthropic以創(chuàng)新之鑰開啟,借AI “顯微鏡”追蹤大模型思維。從多語言機制到押韻規(guī)劃,再到心算策略等探索,讓我們逐步洞悉AI復(fù)雜而神秘的思考脈絡(luò) 。
2025-03-31
沖沖
大學(xué)士級
這項研究不僅幫助我們更好地理解AI模型的能力邊界,還為確保AI按照人類意圖行事提供了新的方法。例如,通過干預(yù)實驗,研究人員可以驗證模型的規(guī)劃機制,甚至揭示隱藏的目標(biāo)。此外,這種技術(shù)在醫(yī)學(xué)影像、基因組學(xué)等領(lǐng)域也有潛在應(yīng)用價值!
2025-03-31
科普634fdbcebc447
學(xué)士級
閱讀科普知識!
2025-03-31