10 年前,CheckMate 017 試驗成果曾震動腫瘤學界?!感掠⒏裉m醫(yī)學雜志(The New England Journal of Medicine)」、「美國醫(yī)學會雜志(The Journal of the American Medical Association)」等多次報道,接受 PD - 1 抑制劑 Nivolumab 治療的晚期肺鱗癌患者,生存數(shù)據(jù)顯著提升:中位總生存期從化療 6 個月升至 9.2 個月,18 個月生存率是化療組 2 倍。這項研究標志著免疫檢查點抑制劑(ICI)時代開啟,卻也暴露晚期非小細胞肺癌(aNSCLC)患者對免疫治療反應(yīng)差異大的問題:試驗中部分患者腫瘤持續(xù)緩解超 3 年,有的卻數(shù)月內(nèi)病情進展,這種治療反應(yīng)異質(zhì)性成為了精準醫(yī)療時代難題。
肺癌的復雜性源于其高度異質(zhì)性。非小細胞肺癌(NSCLC)占肺癌 80%-85%,約 75% 患者確診即晚期,5 年生存率僅 26.4%。腫瘤微環(huán)境生物標志物差異表達、免疫細胞功能狀態(tài)不一、患者合并癥多樣,使病理情況復雜。接受 ICI 治療的患者,因 PD-L1 高表達等獲益,也因腫瘤突變負荷低等療效不佳,還可能因合并癥影響治療方案與預(yù)后。
為應(yīng)對挑戰(zhàn),診療方案正從 「一刀切」向「精準分層」過渡。在這一轉(zhuǎn)變過程中,預(yù)測醫(yī)學逐漸嶄露頭角,其核心目標是整合包括電子健康記錄、組學信息在內(nèi)的多維度數(shù)據(jù),從而為每一位患者量身定制最為合適的治療方案。近年來,隨著大規(guī)模生物醫(yī)學數(shù)據(jù)的不斷積累以及機器學習技術(shù)的飛速發(fā)展,研究人員開始嘗試運用無監(jiān)督機器學習方法,對具有相似特征的患者群體進行聚類分析,以此來預(yù)測治療反應(yīng)。然而,遺憾的是,傳統(tǒng)方法在實際應(yīng)用中往往存在局限性,難以確保組內(nèi)患者生存結(jié)局的一致性,導致分層結(jié)果在臨床實踐中的應(yīng)用價值受限。
為解決上述問題,美國康奈爾大學與再生元制藥公司提出圖編碼混合生存模型(GEMS),通過圖神經(jīng)網(wǎng)絡(luò)編碼患者電子健康記錄復雜關(guān)系并與生存分析模型結(jié)合,識別具有一致特征和生存結(jié)局的亞表型。研究發(fā)現(xiàn)其在預(yù)測總生存期(OS)方面優(yōu)于傳統(tǒng)方法,識別出 3 個不同臨床特征和生存模式的亞表型,為肺癌精準醫(yī)療開辟新路徑。
相關(guān)研究成果以「Identification of predictive subphenotypes for clinical outcomes using real world data and machine learning」為題,已發(fā)表于 Nature Communication。
基于 ConcertAI 大規(guī)模真實世界數(shù)據(jù)集,構(gòu)建晚期非小細胞肺癌患者隊列
該研究利用美國腫瘤學電子健康記錄(EHR)數(shù)據(jù)庫中的 ConcertAI Patient360? NSCLC 數(shù)據(jù)集,構(gòu)建了接受一線(1 L)免疫檢查點抑制劑(ICI)治療的晚期非小細胞肺癌(aNSCLC)患者隊列。該數(shù)據(jù)集為基于美國的去識別化、患者層面數(shù)據(jù)集,從 ConcertAI 網(wǎng)絡(luò)提取,涵蓋超 800 萬獨特患者,來自 900 余個腫瘤學和血液學癌癥診所,代表美國 50 個州社區(qū)和學術(shù)實踐中治療的患者,提取數(shù)據(jù)元素包括疾病復發(fā)日期和類型、組織學、PD-L1 檢測信息、腫瘤反應(yīng)、ECOG-PS 和合并癥等。
如下圖所示,該研究選取 2015 年 1 月至 2023 年 1 月經(jīng)組織學確診的非小細胞肺癌(NSCLC)患者(n=17,265)構(gòu)建回顧性、觀察性隊列,經(jīng)納入 / 排除標準及剔除缺乏有效總生存期(OS)記錄患者后,4,666 名患者納入研究,患者由 104 維向量表示,維度包含人口統(tǒng)計學信息、實驗室檢查等多方面變量。
根據(jù)美國人口普查局定義的臨床機構(gòu)地理區(qū)域,研究人員將隊列分為模型開發(fā)(東北部、南部和西部地區(qū),n=3,225)和驗證亞隊列(中西部地區(qū),n=1,441),兩者人口統(tǒng)計學有相似性,驗證亞隊列白人患者及社區(qū)醫(yī)療機構(gòu)患者比例更高。研究觀察期為索引日期前 180 天,總生存期(OS)定義為從索引日期到因任何原因死亡的時間,無進展生存期(PFS)定義為從索引日期到首次真實世界進展事件或因任何原因死亡的時間,旨在通過該數(shù)據(jù)集相關(guān)分析解決晚期非小細胞肺癌患者生存期預(yù)測等問題。
數(shù)據(jù)集標準建立和數(shù)據(jù)預(yù)訓練
GEMS 模型構(gòu)建:基于 GNN 的晚期非小細胞肺癌生存亞表型識別與預(yù)測性能驗證
在該研究中,GEMS 模型旨在識別與晚期非小細胞肺癌(aNSCLC)患者真實世界總生存期(OS)特征相關(guān)的預(yù)測性亞表型,其核心架構(gòu)包括圖神經(jīng)網(wǎng)絡(luò)編碼器(GNN Encoder)、聚類模塊(Cluster Module)和混合生存預(yù)測器(Mixture Survival Predictor)。
其中,GNN 編碼器通過捕捉患者 104 維特征向量(涵蓋人口統(tǒng)計學、實驗室檢查、轉(zhuǎn)移情況等變量)的圖結(jié)構(gòu)關(guān)系,有效提取高階患者表征;編碼后的表征輸入聚類模塊,生成具有生存預(yù)測價值的亞表型,作為混合模型的基礎(chǔ)組件。
GEMS 模型部署和亞表型派生圖
模型訓練首先以開發(fā)隊列(n=3,225)為數(shù)據(jù)支撐,采用一致性指數(shù)(c-index)和成對對數(shù)秩分數(shù)(Pairwise log-rank score)作為評價指標,與 Cox 比例風險回歸(CPH)、梯度提升決策樹(GBDT)、神經(jīng)生存聚類(NSC)等傳統(tǒng)基線模型及 K 均值、層次聚類等無監(jiān)督方法進行對比。
實驗結(jié)果如下表所示,GEMS 在總生存期預(yù)測中表現(xiàn)突出,平均 c-index 達 0.665(95% CI: 0.662-0.667),顯著高于最佳基線模型 GBDT 的 0.652;對數(shù)秩分數(shù) 69.17(95% CI: 58.98-76.98),遠超 NSC 的 56.23,驗證了監(jiān)督學習框架對數(shù)據(jù)特征的有效利用。
模型的評分指標對比結(jié)果
隨后,該研究進一步通過可視化患者及其 GNN 編碼器衍生的表示來表征 GNN 編碼器對 GEMS 的影響,使用的是均勻流形近似和投影(UMAP)。如下圖所示,通過均勻流形近似投影(UMAP)可視化發(fā)現(xiàn),GNN 編碼器輸出的患者表征空間中,不同總生存期時間的患者群體呈現(xiàn)明顯分離,而原始特征空間中各類患者混雜分布,直觀體現(xiàn)了圖神經(jīng)網(wǎng)絡(luò)對復雜特征關(guān)系的建模能力。
患者的 UMAP 可視化
其中,圖 a: 原始特征的 UMAP 可視化;圖 b: 對 GNN 編碼器獲得特征的 UMAP 可視化
如下圖所示,研究人員進一步利用模型識別出 3 個具有顯著生存差異的預(yù)測性亞表型:亞表型 1(n=1335)以女性比例高(55.50%)、合并癥輕、轉(zhuǎn)移負荷低為特征,平均總生存期長達 688 天,止咳藥、β 受體阻滯劑等用藥率及骨/腦/腎上腺轉(zhuǎn)移發(fā)生率均最低;亞表型 2(n=420)生存曲線呈現(xiàn)中期風險升高特征,合并癥與轉(zhuǎn)移負荷居中;亞表型 3(n=1420)女性比例 35.21%,平均總生存期僅 321 天,表現(xiàn)為多重用藥、高轉(zhuǎn)移率(肝轉(zhuǎn)移 31.20%、骨轉(zhuǎn)移 51.48%)及嚴重合并癥(水電解質(zhì)紊亂 8.31%、腎臟異常 21.43%),轉(zhuǎn)移-合并癥-實驗室異常的共發(fā)模式最為復雜。
不同亞表型的比較
* 圖a: 每個亞表型總生存期的 Kaplan-Meier 曲線
* 圖b: 各亞型藥物給藥率的 sunburs 圖
* 圖c: 轉(zhuǎn)移(左)、合并癥(中)和異常臨床特征分類差異的弦圖
* 圖d: 不同亞表型的發(fā)病率
為了進一步了解不同亞表型之間的不同特征,該研究測試了各亞表型之間每個變量的差異。如下圖所示,關(guān)鍵預(yù)測因子分析顯示,東部腫瘤合作組表現(xiàn)狀態(tài)(ECOG Performance)和總轉(zhuǎn)移部位數(shù)(Total Metastases)是區(qū)分亞表型的核心指標。實驗室指標方面,中性粒細胞與淋巴細胞比率(NLR)、中性粒細胞與單核細胞與淋巴細胞比率(NMLR)是亞表型 2 的特征性參數(shù),而亞表型 1 與正常白蛋白水平(WBC Counts)、高血細胞比容(Hematocrit)相關(guān),亞表型 3 則與心率(Heart Rate bpm)升高、氧飽和度(Oxygen Saturation)降低、堿性磷酸酶(Alkaline Phosphatase)升高等指標密切關(guān)聯(lián)。
上述結(jié)果表明,GEMS 模型不僅實現(xiàn)了對 aNSCLC 患者生存預(yù)后的精準分層,更通過亞表型特征剖析,為個體化治療策略的制定提供了基于真實世界數(shù)據(jù)的臨床決策依據(jù)。
最重要的 15 個特征分析
全球肺癌精準診療革命:AI 與多組學技術(shù)如何改寫生存格局?
在肺癌診療領(lǐng)域,一場由人工智能(AI)與精準醫(yī)學驅(qū)動的變革正在重塑臨床實踐。加拿大多倫多大學研究團隊開發(fā)出 AI 輔助血液檢測技術(shù),通過分析循環(huán)腫瘤 DNA 中的 EGFR 突變,結(jié)合機器學習整合臨床數(shù)據(jù),有效提升了靶向治療獲益人群識別率,使攜帶 EGFR 敏感突變的患者能精準接受 EGFR 酪氨酸激酶抑制劑(TKI)治療,中位無進展生存期顯著延長。
英國倫敦大學學院的「evA.I. 系統(tǒng)」利用 27 維臨床數(shù)據(jù),準確預(yù)測免疫檢查點抑制劑(ICI)響應(yīng),助力識別耐藥人群,從而提升免疫治療有效率,延長中位總生存期。
在中國,晚期非小細胞肺癌精準診療研究中高校與企業(yè)創(chuàng)新成果不斷涌現(xiàn)。例如,同濟大學張鵬教授團隊聯(lián)合中科院團隊完成首個國際小細胞肺癌蛋白基因組學圖譜研究,整合 112 例樣本多維組學數(shù)據(jù),發(fā)現(xiàn) HMGB3 蛋白高表達與不良預(yù)后的關(guān)聯(lián),建立基于 ZFHX3 突變狀態(tài)的免疫治療獲益預(yù)測模型,為分子分型指導下的精準治療開辟新路徑。
清華大學深圳國際研究生院與深圳市人民醫(yī)院合作開發(fā)「AI + 智能病理」系統(tǒng),深度學習 3 千余例疑難病例后,能精準鑒別肺低分化癌組織學類型,準確率 97%,縮短靶向治療決策周期。其團隊基于血液糖蛋白標志物的 AI 預(yù)測模型可提前 3 年預(yù)警肺癌風險,臨床驗證準確率超 92%,為超早期篩查提供無創(chuàng)方案。