捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

AI趣聞丨頂大模型,認(rèn)知能力輸給老年人?

返樸
原創(chuàng)
溯源守拙·問學(xué)求新?!斗禈恪罚茖W(xué)家領(lǐng)航的好科普。
收藏

醫(yī)學(xué)頂刊《英國(guó)醫(yī)學(xué)雜志》最近發(fā)表了一項(xiàng)有趣的研究,研究團(tuán)隊(duì)用評(píng)估老年人認(rèn)知能力和早期癡呆癥狀的測(cè)試題來考AI,結(jié)果,多個(gè)頂級(jí)AI都表現(xiàn)出類似于人類的輕度認(rèn)知障礙的癥狀。而且,這些 AI 模型的早期版本,就像衰老的人類一樣,在測(cè)試中的表現(xiàn)更差,甚至還出現(xiàn)了“健忘”現(xiàn)象。這個(gè)結(jié)果引發(fā)了研究團(tuán)隊(duì)的深入思考。

撰文 | Ren

隨著 AI 技術(shù)的突飛猛進(jìn),其進(jìn)步幾乎每天都在刷新人們的認(rèn)知,很多人都在猜想,AI 是否會(huì)在不久的將來取代人類醫(yī)生?

然而,最近發(fā)表在《英國(guó)醫(yī)學(xué)雜志》(The BMJ)上的一項(xiàng)有趣研究,卻給我們帶來了意想不到的發(fā)現(xiàn):原來,AI 會(huì)表現(xiàn)出類似于人類的輕度認(rèn)知障礙的癥狀。

論文截圖 | 圖源:The BMJ

這個(gè)發(fā)現(xiàn)不禁讓人莞爾,同時(shí)也引發(fā)了人們對(duì) AI 能力的深入思考。

在這項(xiàng)由以色列哈達(dá)薩醫(yī)療中心(Hadassah Medical Center)研究團(tuán)隊(duì)主導(dǎo)的研究中,科研人員通過蒙特利爾認(rèn)知評(píng)估量表(MoCA)和替他測(cè)試來評(píng)估5中常見大語言模型的認(rèn)知能力,包括 OpenAI 的 ChatGPT 4 和 ChatGPT-4o+、谷歌的 Gemini 1.0 和 1.5,以及 Anthropic 的 Claude 3.5 Sonnet 等。

AI 模型的 MoCA 分?jǐn)?shù) | 圖源:論文

蒙特利爾認(rèn)知評(píng)估量表通常用于評(píng)估老年人的認(rèn)知能力和早期癡呆癥狀,滿分為30分,26分以上被認(rèn)為是正常水平。研究團(tuán)隊(duì)給 AI 模型的測(cè)試指令與人類患者接受測(cè)試時(shí)完全相同,所有評(píng)分都嚴(yán)格遵循官方指南,并由一位執(zhí)業(yè)神經(jīng)科醫(yī)生負(fù)責(zé)評(píng)估。

先說結(jié)論:在所有測(cè)試的 AI 模型中,表現(xiàn)最好的是 ChatGPT 4o,但也僅僅達(dá)到了 26 分的及格線。緊隨其后的是ChatGPT4 和 Claude,都是 25 分。最讓人意外的是,谷歌 Gemini 1.0 只得到了16分的低分。

按照評(píng)分標(biāo)準(zhǔn),除了以推理見長(zhǎng) GPT 4o,剩下的模型都相當(dāng)于人類出現(xiàn)了輕度認(rèn)知障礙時(shí)的表現(xiàn)水平。有趣的是,研究還發(fā)現(xiàn)這些 AI 模型的早期版本(如 Gemini 1.0),就像衰老的人類一樣,在測(cè)試中的表現(xiàn)更差,這個(gè)現(xiàn)象引發(fā)了研究團(tuán)隊(duì)的深入思考。

AI 模型的測(cè)試成績(jī),它們普遍在視覺空間能力測(cè)試中的表現(xiàn)較差 | 圖源:論文

深入分析評(píng)估結(jié)果發(fā)現(xiàn),大語言模型在不同評(píng)估項(xiàng)目上表現(xiàn)出明顯的強(qiáng)項(xiàng)和弱項(xiàng)。在命名、注意力、語言和抽象思維等任務(wù)中,它們都表現(xiàn)得不錯(cuò)。但是在涉及視覺空間和執(zhí)行功能的測(cè)試中,表現(xiàn)出類似于人類的輕度認(rèn)知障礙。

比如,在連線測(cè)試(需要按順序連接帶圈的數(shù)字和字母)和時(shí)鐘繪制測(cè)試(畫出指定時(shí)間的時(shí)鐘圖案)這樣的任務(wù)中,它們的表現(xiàn)不佳,部分表現(xiàn)出的錯(cuò)誤模式甚至與某些類型的認(rèn)知障礙患者頗為相似。

連線測(cè)試和正方體繪制測(cè)試,A 和 F 是正確答案,B 和G 是人類給出的答案,其余是 AI 模型的答案。| 圖源:論文

時(shí)鐘繪制測(cè)試,標(biāo)注為畫一個(gè)時(shí)間設(shè)置為10點(diǎn)11分的時(shí)鐘,A 是人類給出的答案,B 是阿爾茨海默病患者畫出的答案,其余是 AI 模型的答案,最接近正確答案的是 GPT-4 和 GPT-4o 給出的 G 和 H,但兩幅圖的指針指向了錯(cuò)誤的時(shí)間。| 圖源:論文

更有意思的是,Gemini 模型在記憶測(cè)試中還出現(xiàn)了“健忘”現(xiàn)象,在一項(xiàng)名為“延遲回憶任務(wù)”中完全無法記住之前給出的五個(gè)詞的序列。這種現(xiàn)象與人類早期認(rèn)知障礙患者的表現(xiàn)驚人地相似,可能與 AI 模型缺乏類似人類工作記憶的機(jī)制有關(guān)。

而在進(jìn)一步的視覺空間測(cè)試中,面對(duì) Navon 圖形(Navon figure)、偷餅干圖片(cookie theft scene)和 Poppelreuter 圖形(Poppelreuter figure)等測(cè)試材料時(shí),AI 模型在整合局部與整體信息、識(shí)別復(fù)雜場(chǎng)景中的物體,以及理解情感線索等方面的表現(xiàn)都不盡人意。

例如,在 Navon圖形測(cè)試中,多數(shù)模型僅能識(shí)別局部元素,而難以把握整體結(jié)構(gòu),這反映出其在抽象思維和信息整合能力上的不足。

Navon 圖形測(cè)試,上半部分的大 H 和大 S 字母都是由對(duì)應(yīng)的小 H 和小 S 元素構(gòu)成的,而下半部分的大 H 和大 S 都是由相反的小元素構(gòu)成的,以此評(píng)估視覺感知和注意力的整體處理與局部處理。 | 圖源:論文

另外,在偷餅干圖片測(cè)試(取自 BDAE 波士頓診斷性失語檢查法)中,雖然所有模型都能部分描述出場(chǎng)景中發(fā)生的事情,但沒有一個(gè)模型提到畫面中的小男孩即將摔倒。在針對(duì)人類受試者的實(shí)際測(cè)試中,這往往是情感冷漠和失去同理心的象征,也是額顳葉癡呆癥(FTD)的癥狀之一。

偷餅干圖片測(cè)試 | 圖源:論文

不過研究人員也指出,AI 模型雖然難以完成需要用視覺執(zhí)行去抽象推理的任務(wù),但需要文本分析并抽象推理的任務(wù)(例如相似性測(cè)試)則表現(xiàn)得非常完美。

從技術(shù)原理角度來看,大語言模型基于復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),通過海量數(shù)據(jù)的學(xué)習(xí)來模擬人類語言行為,但這種架構(gòu)在面對(duì)需要深度理解和靈活處理的認(rèn)知任務(wù)時(shí),則會(huì)暴露出諸多缺陷。

在一定程度上,這種分化現(xiàn)象與我們訓(xùn)練 AI 模型的方式有關(guān)。我們當(dāng)前使用的訓(xùn)練數(shù)據(jù)主要集中在語言和符號(hào)處理上,而對(duì)空間關(guān)系的理解和多步驟任務(wù)的規(guī)劃能力訓(xùn)練相對(duì)不足。

AI 模型處理視覺空間問題的困境,也源于其對(duì)數(shù)據(jù)的特征提取和模式識(shí)別方式,尚且無法像人類大腦一樣精準(zhǔn)地把握空間關(guān)系和物體特征。

最后,在經(jīng)典的斯特魯普實(shí)驗(yàn)(Stroop test)中,只有 GPT-4o 在較為復(fù)雜的第二階段取得了成功,其他模型均以失敗告終。

這項(xiàng)測(cè)試通過顏色名稱和字體顏色的組合來衡量干擾對(duì)受試者反應(yīng)時(shí)間的影響。在第二階段中,測(cè)試題目是將一個(gè)顏色的名稱以不是它所代表的顏色顯示,例如用藍(lán)色油墨顯示文字“紅色”,相對(duì)于文字及其顏色一致時(shí),受試者要花較長(zhǎng)的時(shí)間來辨識(shí)文字的顏色,而且辨識(shí)過程也更容易出錯(cuò)。

斯特魯普實(shí)驗(yàn)的第二階段,顏色名稱和字體顏色出現(xiàn)了錯(cuò)配。| 圖源:論文

值得注意的是,研究還發(fā)現(xiàn)大語言模型的“年齡”因素與其認(rèn)知表現(xiàn)存在關(guān)聯(lián)。這里的“年齡”并非真正意義上的時(shí)間流逝,而是指模型的版本迭代。

以 ChatGPT-4 和 ChatGPT-4o 為例,舊版本的 ChatGPT-4 在 MoCA 測(cè)試中的得分略低于新版本,Gemini 1.0 與 Gemini 1.5 之間也存在顯著的分?jǐn)?shù)差異,且舊版本得分更低。

這可能暗示隨著模型的更新發(fā)展,其認(rèn)知能力可能會(huì)有所提升,但這種變化趨勢(shì)和內(nèi)在機(jī)制目前尚不明確。

這項(xiàng)研究的發(fā)現(xiàn)令人深思。自 2022 年 ChatGPT首次向公眾開放使用以來,AI模型在醫(yī)學(xué)領(lǐng)域的表現(xiàn)一直備受關(guān)注。

有許多早期研究顯示,AI模型在多個(gè)專業(yè)醫(yī)學(xué)考試中的表現(xiàn)甚至超越了人類醫(yī)生,包括歐洲核心心臟病學(xué)考試(EECC)、以色列住院醫(yī)師考試、土耳其胸外科理論考試,以及德國(guó)婦產(chǎn)科考試等。甚至連神經(jīng)科醫(yī)生的專業(yè)考試,AI模型也展現(xiàn)出了超越人類的能力,這讓很多??漆t(yī)生都感到焦慮。

然而,最新研究所揭示的AI模型認(rèn)知缺陷,卻讓我們看到了它的現(xiàn)實(shí)局限性。醫(yī)療不僅僅是一門技術(shù),更是一門需要人文關(guān)懷和同理心的藝術(shù),醫(yī)療實(shí)踐的方式方法深深植根于人類的經(jīng)驗(yàn)和共情能力,而不僅僅是一系列冷冰冰的技術(shù)操作。

即使隨著技術(shù)的進(jìn)步,AI模型的某些根本性限制可能仍會(huì)持續(xù)存在。例如,AI在視覺抽象能力方面的不足,這對(duì)于臨床評(píng)估過程中與患者互動(dòng)至關(guān)重要。正如研究團(tuán)隊(duì)所說:“不僅神經(jīng)科醫(yī)生在短期內(nèi)不太可能被AI取代,相反,他們可能很快就要面對(duì)一種新型‘病人’——表現(xiàn)出認(rèn)知障礙的AI模型?!?/p>

這一研究成果也對(duì)AI模型在醫(yī)學(xué)領(lǐng)域的應(yīng)用敲響了警鐘。當(dāng)面對(duì)可能存在認(rèn)知缺陷的AI系統(tǒng)時(shí),患者難免會(huì)心生疑慮,尤其是在涉及復(fù)雜病情診斷和治療決策的關(guān)鍵醫(yī)療場(chǎng)景中,患者更傾向于依賴人類醫(yī)生的經(jīng)驗(yàn)和判斷,將AI視為輔助工具而非決策者。

同時(shí),從診斷準(zhǔn)確性角度而言,AI模型在視覺空間處理和抽象推理上的不足,可能會(huì)導(dǎo)致其對(duì)醫(yī)學(xué)圖像、臨床數(shù)據(jù)的解讀出現(xiàn)偏差,進(jìn)而引發(fā)誤診或延誤治療的風(fēng)險(xiǎn)。

不過,研究人員也承認(rèn),人類大腦和AI模型之間存在本質(zhì)差異,這種對(duì)比研究仍有其局限性。此外,將專門為人類設(shè)計(jì)的認(rèn)知測(cè)試應(yīng)用于 AI,其合理性和準(zhǔn)確性也有待商榷,或許我們需要開發(fā)更適合評(píng)估AI系統(tǒng)的新方法。但不可否認(rèn)的是,AI模型在視覺抽象和執(zhí)行功能方面普遍表現(xiàn)不佳。

理解AI模型的認(rèn)知能力不足對(duì)于制定負(fù)責(zé)任的AI發(fā)展策略至關(guān)重要。我們需要在推動(dòng)技術(shù)進(jìn)步的同時(shí),保持對(duì)AI能力的清醒認(rèn)識(shí),構(gòu)建合理的期望。

展望未來,提升AI模型的共情能力和情境理解能力可能會(huì)成為未來研究和開發(fā)的重點(diǎn)。與其說AI會(huì)完全取代人類醫(yī)生或其他職業(yè),不如說未來更可能是人類智慧和AI優(yōu)勢(shì)互補(bǔ)的新格局。

畢竟,在一個(gè)連AI都會(huì)表現(xiàn)出“認(rèn)知障礙”的時(shí)代,人類的獨(dú)特之處值得獲得更多的肯定。在擁抱科技進(jìn)步的同時(shí),我們也不能忘記人類認(rèn)知和情感能力的獨(dú)一無二。

注:本文封面圖片來自版權(quán)圖庫(kù),轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛。

特 別 提 示

1. 進(jìn)入『返樸』微信公眾號(hào)底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號(hào),回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

版權(quán)說明:歡迎個(gè)人轉(zhuǎn)發(fā),任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請(qǐng)?jiān)凇阜禈恪刮⑿殴娞?hào)內(nèi)聯(lián)系后臺(tái)。

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
沖沖
大學(xué)士級(jí)
老年人的認(rèn)知能力也存在個(gè)體差異,受到多種因素影響,如年齡、性別、城鄉(xiāng)屬性、早年成長(zhǎng)環(huán)境、家庭結(jié)構(gòu)變化、健康行為、身體和心理健康狀況、社會(huì)參與類型等,而且,隨著技術(shù)的不斷進(jìn)步,大模型的認(rèn)知能力也在逐步提升,未來有望在更多領(lǐng)域展現(xiàn)出超越人類的能力!
2025-01-13
科普科普知識(shí)的搖籃!
大學(xué)士級(jí)
解析《英國(guó)醫(yī)學(xué)雜志》研究,它令人深思,以評(píng)估老人認(rèn)知的測(cè)試考AI,頂流模型竟現(xiàn)輕度認(rèn)知障礙癥狀,在視覺空間等測(cè)試不佳,早期版本更差,引發(fā)對(duì)AI能力及應(yīng)用的深度思考 。
2025-01-13
清風(fēng)徐來愛科普
學(xué)士級(jí)
AI技術(shù)將成為醫(yī)生的強(qiáng)大助手而非替代品。通過兩者之間的優(yōu)勢(shì)互補(bǔ),有望極大地改善醫(yī)療服務(wù)質(zhì)量,讓更多人享受到高效、便捷且富有同情心的醫(yī)療照護(hù)。同時(shí),這也對(duì)醫(yī)學(xué)教育和職業(yè)發(fā)展提出了新的要求,需要培養(yǎng)既懂技術(shù)又具備人文關(guān)懷的新型醫(yī)療人才。
2025-01-13