在醫(yī)學(xué)研究和臨床治療中,準(zhǔn)確解讀醫(yī)學(xué)圖像并生成有洞察力的報(bào)告對(duì)病人的護(hù)理是必不可少的,但卻給人類臨床專家?guī)?lái)了沉重的負(fù)擔(dān)。
人工智能(AI),特別是多模態(tài)生成式醫(yī)學(xué)圖像解釋(GenMI)領(lǐng)域的快速發(fā)展,為自動(dòng)化這一復(fù)雜過(guò)程的部分工作創(chuàng)造了機(jī)會(huì)。盡管 GenMI 有望在生成跨學(xué)科報(bào)告方面達(dá)到人類專家水平,但仍在準(zhǔn)確性、透明度等方面面臨障礙。
厘清這些障礙并提出針對(duì)性解決方案,對(duì)于幫助臨床醫(yī)生改善護(hù)理質(zhì)量、加強(qiáng)醫(yī)學(xué)教育、減少工作量、擴(kuò)大專業(yè)準(zhǔn)入并提供實(shí)時(shí)專業(yè)知識(shí)至關(guān)重要。
今天,來(lái)自哈佛醫(yī)學(xué)院的研究團(tuán)隊(duì)在權(quán)威科學(xué)期刊 Nature 上發(fā)文,全面綜述了開(kāi)發(fā)從圖像中生成醫(yī)學(xué)報(bào)告的 AI 系統(tǒng)方面的進(jìn)展和挑戰(zhàn)。
論文鏈接:
https://www.nature.com/articles/s41586-024-07618-3
除了分析醫(yī)療報(bào)告生成的新模型的優(yōu)勢(shì)和應(yīng)用之外,他們倡導(dǎo)一種新的范式,以授權(quán)臨床醫(yī)生及其患者的方式部署 GenMI
在臨床中發(fā)揮 GenMI 的優(yōu)勢(shì)
現(xiàn)有的大多數(shù) AI 解決方案都側(cè)重于自動(dòng)完成醫(yī)學(xué)影像中的單一任務(wù),沒(méi)有考慮到放射學(xué)和臨床成像中涉及的更全面的綜合分析。
因此,AI 有很大潛力在醫(yī)學(xué)成像和報(bào)告方面實(shí)現(xiàn)更廣泛的用途,例如快速撰寫(xiě)出涉及多科室的權(quán)威報(bào)告,攝取多種模式和臨床數(shù)據(jù),生成更加準(zhǔn)確、流暢和可解釋的報(bào)告等。
圖|自動(dòng)生成醫(yī)療報(bào)告的應(yīng)用
目前,醫(yī)療報(bào)告生成框架主要由視覺(jué)編碼器和語(yǔ)言解碼器組成。其中,編碼器將圖像中的視覺(jué)信息提取為向量表示,而解碼器接收一個(gè)向量并產(chǎn)生特定的輸出。
近年來(lái),科研人員在編碼器-解碼器方法的基礎(chǔ)上不斷創(chuàng)新,從而更好地編碼圖像數(shù)據(jù)、考慮外部知識(shí)、篩選異常等。包括大語(yǔ)言模型(LLM)在內(nèi)的大型預(yù)訓(xùn)練通用 AI 系統(tǒng),通過(guò)推動(dòng)開(kāi)發(fā)新的 GenMI 解決方案,徹底改變了醫(yī)學(xué)圖像解釋。
這些 GenMI 方法可以產(chǎn)生更準(zhǔn)確的醫(yī)療報(bào)告,以及使用相同的基礎(chǔ)模型執(zhí)行其他幾個(gè)下游任務(wù)并處理多模態(tài)數(shù)據(jù)。
這些算法大多建立在視覺(jué)語(yǔ)言模型(VLM)的基礎(chǔ)上,VLM 將單個(gè)視覺(jué)和語(yǔ)言模型融合到一個(gè)統(tǒng)一的框架中,可以對(duì)圖像和文本輸入進(jìn)行聯(lián)合編碼。
圖|GenMI 的能力
利用 GenMI 協(xié)助臨床醫(yī)生和患者,在臨床環(huán)境中充分發(fā)揮它們的優(yōu)勢(shì),可以通過(guò)兩個(gè)范例來(lái)理解。
第一個(gè)是部署 AI 住院實(shí)習(xí)醫(yī)師。AI 住院實(shí)習(xí)醫(yī)師首先會(huì)專門起草臨床上準(zhǔn)確的報(bào)告,作為住院實(shí)習(xí)醫(yī)師或醫(yī)生撰寫(xiě)報(bào)告的起點(diǎn)。在開(kāi)發(fā)過(guò)程中,可以在臨床環(huán)境中對(duì)模型進(jìn)行前瞻性測(cè)試。然后,AI 住院實(shí)習(xí)醫(yī)師可以在主治醫(yī)師的監(jiān)督下進(jìn)行微調(diào)或校準(zhǔn),并從所需的修正和補(bǔ)充中學(xué)習(xí)。
圖|部署 AI 住院實(shí)習(xí)醫(yī)師
第二個(gè)是符合人類偏好?;谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)和直接偏好優(yōu)化(DPO)是應(yīng)用于此類任務(wù)的兩種技術(shù)。
對(duì)話式醫(yī)療報(bào)告生成模型,使臨床醫(yī)生可以根據(jù)需要提供反饋和后續(xù)問(wèn)題,還可以與臨床醫(yī)生合作,通過(guò)生成式 AI 改變輸入圖像的屬性,觀察模型預(yù)測(cè)中的相關(guān)差異,并將這些差異與臨床醫(yī)生識(shí)別出的突出特征進(jìn)行比較,從而對(duì) AI 成像工具進(jìn)行審核,還可以對(duì)為患者生成的報(bào)告進(jìn)行調(diào)整,使其更直白,包含更少的醫(yī)學(xué)術(shù)語(yǔ),更多圍繞患者病情。
總的來(lái)說(shuō),臨床醫(yī)生可以通過(guò) 3 種途徑與 AI 系統(tǒng)協(xié)作:
利用 AI 模型的診斷能力,獲得診斷錯(cuò)誤的反饋。模型可以結(jié)合多模態(tài)輸出,其中的解釋加上在原始圖像上的邊界框,可以突出圖像中以前可能被忽略的相關(guān)區(qū)域;
模型快速解析圖像和報(bào)告的能力,有助于臨床醫(yī)生快速搜索類似病例和圖像;
模型可以協(xié)助臨床醫(yī)生決策,其提出的探究性問(wèn)題可以讓臨床醫(yī)生深入了解與特定病癥相關(guān)的診斷模式。
仍需克服 4 大挑戰(zhàn)
然而,研究團(tuán)隊(duì)表示,要想發(fā)揮 GenMI 等 AI 系統(tǒng)的優(yōu)勢(shì),還需要解決基準(zhǔn)、人類過(guò)度依賴、數(shù)據(jù)集和模型偏差以及新模型、新科室等挑戰(zhàn)。
首先,是基準(zhǔn)和評(píng)估指標(biāo)。在安全實(shí)施醫(yī)學(xué)報(bào)告生成模型,AI 住院實(shí)習(xí)醫(yī)師將在住院治療中發(fā)揮更重要的作用之前,必須開(kāi)展評(píng)估下游臨床效果的研究,明確衡量標(biāo)準(zhǔn)。
流行的 LLM 的性能會(huì)隨著時(shí)間的推移而發(fā)生顯著變化,這種差異可能會(huì)造成嚴(yán)重后果。例如,疾病預(yù)測(cè)模型可能會(huì)被操縱以輸出特定的診斷和結(jié)果測(cè)量,從而導(dǎo)致處方過(guò)量、保險(xiǎn)欺詐和偽造臨床試驗(yàn)。
因此,在將 LLM 作為人工智能住院實(shí)習(xí)醫(yī)師的一部分進(jìn)行部署時(shí),必須確保采取一致的安全措施和監(jiān)管。
其次,是臨床醫(yī)生和患者的過(guò)度依賴。臨床醫(yī)生可能出于對(duì)錯(cuò)誤問(wèn)責(zé)的模糊性、確認(rèn)偏差和自動(dòng)化偏差,過(guò)于依賴機(jī)器自動(dòng)化指導(dǎo)等各種原因,不愿意更改 AI 生成報(bào)告中的文字,忽略模型無(wú)法識(shí)別的罕見(jiàn)發(fā)現(xiàn)。
雖然 AI 住院實(shí)習(xí)醫(yī)師可以讓患者直接與真正的臨床專家進(jìn)行交流,但這些交流應(yīng)該在可控的情況下進(jìn)行,這樣患者就不會(huì)依賴 AI 住院實(shí)習(xí)醫(yī)師來(lái)指導(dǎo)他們的醫(yī)療護(hù)理。同時(shí),臨床醫(yī)生應(yīng)向患者傳授正確的查詢方法,并讓他們了解 AI 工具,以便自己進(jìn)行探索。在部署 AI 住院實(shí)習(xí)醫(yī)師的整個(gè)過(guò)程中,必須承認(rèn) AI 系統(tǒng)的局限性,尤其是在直接護(hù)理等只有人類才能處理和提供的更廣泛的語(yǔ)境、同理心和認(rèn)知的領(lǐng)域。
然后,是有偏差的數(shù)據(jù)集和模型。深度學(xué)習(xí)模型,尤其是 LLM,很容易受到訓(xùn)練數(shù)據(jù)固有偏差的影響。在 AI 住院實(shí)習(xí)醫(yī)師的范例中,這種缺陷尤其容易造成問(wèn)題,因?yàn)槟P筒粌H會(huì)在生成的報(bào)告中,還會(huì)在醫(yī)學(xué)教育和臨床醫(yī)生理解等方面延續(xù)這種偏差。
此外,人類的主觀反饋是改進(jìn) AI 住院醫(yī)師的關(guān)鍵因素,而這本身就可能造成有偏見(jiàn)的反饋循環(huán)。訓(xùn)練數(shù)據(jù)的質(zhì)量、規(guī)模和平衡也是決定模型偏差的重要因素,因此亟需更廣泛、更具代表性的數(shù)據(jù)集。
目前,大多數(shù)進(jìn)展都是由 MIMIC-CXR 等數(shù)據(jù)集推動(dòng)的,這些數(shù)據(jù)集僅限于單模態(tài)胸部 X 光掃描,其他數(shù)據(jù)集也不平衡,除了配對(duì)圖像和相關(guān)報(bào)告普遍不足外,與正常掃描相比,異常掃描要少得多,并且往往會(huì)捕捉到更常見(jiàn)的疾病,而罕見(jiàn)的疾病則很少出現(xiàn)。異常也通常只局限于圖像的一小部分,因此模型很難對(duì)其進(jìn)行篩選。
最后,是新的模式和新的科室。目前,將 GenMI 應(yīng)用于三維成像(包括 MRI 和 CT 掃描)的工作十分有限。部分原因是這一領(lǐng)域缺乏大型標(biāo)注數(shù)據(jù)集,只有少數(shù)未發(fā)布、稀少或難以獲取的數(shù)據(jù)集。
除了三維放射圖像,GenMI 還以有限的方式應(yīng)用于其他科室。眼科和皮膚科的報(bào)告生成在一定程度上取得了成功,在其考慮中納入了外部知識(shí)和疾病分類等標(biāo)準(zhǔn)技術(shù)。盡管納入新科室和圖像類型將擴(kuò)展 AI 工具的能力,但獲取大規(guī)模多模態(tài)數(shù)據(jù)集的成本非常高昂,資源充足的公司或有能力收集或授權(quán)使用這些專有數(shù)據(jù)集。
自動(dòng)生成醫(yī)療報(bào)告在減輕臨床負(fù)擔(dān)、擴(kuò)大專家級(jí)臨床醫(yī)療服務(wù)覆蓋面方面有廣闊前景。GenMI 可以生成更高質(zhì)量的報(bào)告,通過(guò)提供交互式臨床專業(yè)知識(shí)授權(quán)臨床醫(yī)生和患者,并通過(guò)擴(kuò)展教育功能改善未來(lái)的臨床護(hù)理。
研究團(tuán)隊(duì)表示,在不同模式和科室的臨床環(huán)境中,制定衡量其效果的公開(kāi)基準(zhǔn)、進(jìn)行持續(xù)的臨床合作和謹(jǐn)慎的模型驗(yàn)證至關(guān)重要,這有助于學(xué)術(shù)界更透明地衡量報(bào)告生成的進(jìn)展,并為臨床監(jiān)管機(jī)構(gòu)未來(lái)的工作提供指導(dǎo),使其安全有效。