據(jù)統(tǒng)計,人類目前所探索的天然小分子化學空間尚不足其總量的 10%,而非靶向代謝組學實驗中,超過 90% 的質(zhì)譜圖因缺乏可靠的注釋而淪為「數(shù)據(jù)廢墟」。
在這場分子解密的關鍵戰(zhàn)役中,核心挑戰(zhàn)在于破解串聯(lián)質(zhì)譜(MS/MS)的復雜語言。作為一種現(xiàn)代化學分析的前沿工具,液相色譜—串聯(lián)質(zhì)譜(LC-MS/MS)系統(tǒng)通過液相色譜實現(xiàn)分子的高效分離,隨后利用碰撞誘導解離技術生成碎片離子的質(zhì)譜圖,這一過程類似于將分子拆解后分析其碎片拼圖。
然而,現(xiàn)有的分析工具在拼湊出完整分子圖像方面存在顯著局限性:即便像先進的 SIRIUS 算法,也因過度依賴有限的光譜庫和人工規(guī)則,而面對占總量 80% 以上的未知天然分子時,往往面臨無庫可查的困境。2023 年發(fā)表于《自然?方法》的一項研究指出,全球代謝組學數(shù)據(jù)庫中,僅有 2% 的 MS/MS 譜圖得以成功注釋,而剩余的 98% 猶如深海中的暗礁,嚴重阻礙著新藥發(fā)現(xiàn)與疾病診斷研究的進程。
為了解決這一難題,來自捷克科學院有機化學與生物化學研究所的研究團隊,借鑒了 GPT 系列在語言領域取得的突破性進展,致力于為質(zhì)譜圖打造專屬的翻譯器。研究人員從全球天然產(chǎn)物社交分子網(wǎng)絡(GNPS)中挖掘出 7 億條 MS/MS 譜圖,成功構建起史上規(guī)模最大的質(zhì)譜數(shù)據(jù)集 GeMS,并訓練出擁有 1.16 億參數(shù)的 Transformer 模型 DreaMS。該模型如同讓人工智能從零開始學習分子的「破碎語法」,通過預測掩蔽的光譜峰和色譜保留順序,在未標注的質(zhì)譜圖中成功發(fā)現(xiàn)了隱藏的結構規(guī)律:其生成的 1,024 維表征向量,能夠精準反映分子間的結構相似性,并且對于不同質(zhì)譜條件下的信號波動展現(xiàn)出強大的魯棒性。
研究表明,經(jīng)過微調(diào)的 DreaMS 在多種質(zhì)譜注釋任務中表現(xiàn)卓越,包括預測光譜相似性、分子指紋、化學性質(zhì)以及氟元素的存在等,均超越了傳統(tǒng)算法和近期開發(fā)的機器學習模型。更令人矚目的是,DreaMS 圖譜已整合 2.01 億條譜圖,構建起涵蓋細菌、植物、人體代謝物的超級分子網(wǎng)絡,為化學界打造了一部能夠?qū)崟r更新的「分子百科全書」,為相關領域的研究與應用提供了極具價值的資源。
相關研究成果以「Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS」為題,已發(fā)表于國際權威期刊 Nature Biotechnology。
GeMS 數(shù)據(jù)集:7 億光譜構建超大規(guī)模質(zhì)譜數(shù)據(jù)庫
該研究構建的核心數(shù)據(jù)基礎是從 MassIVE GNPS 存儲庫深度挖掘的 GeMS 數(shù)據(jù)集,其規(guī)模與質(zhì)量在代謝組學領域具有突破性意義。
如下圖所示,研究團隊整合了 25 萬個涵蓋生物與環(huán)境領域的 LC-MS/MS 實驗數(shù)據(jù),從中提取約 7 億條 MS/MS 光譜,并通過嚴格的質(zhì)量控制算法將其劃分為 GeMS-A、GeMS-B、GeMS-C 三個子集。其中,GeMS-A 以 97% 的 Orbitrap 質(zhì)譜儀采集光譜為主,代表最高質(zhì)量標準;GeMS-C 則納入 52% Orbitrap與 41% QTOF 光譜,在保證一定質(zhì)量的同時大幅擴展數(shù)據(jù)規(guī)模。這種分層設計既保留了高精度儀器數(shù)據(jù)的可靠性,又通過包容性更強的子集覆蓋更廣泛的質(zhì)譜技術來源,確保數(shù)據(jù)集的多樣性。
從 GNPS 存儲庫中挖掘 GeMS 數(shù)據(jù)集的工作流程
為解決大規(guī)模數(shù)據(jù)中的冗余問題,研究團隊采用局部敏感哈希(LSH)算法對相似光譜進行高效聚類,通過限制聚類內(nèi)光譜數(shù)量生成九種變體,在維持數(shù)據(jù)代表性的同時優(yōu)化計算效率。最終以緊湊型 HDF5 二進制格式存儲的 GeMS 數(shù)據(jù)集,將原始光譜轉(zhuǎn)化為固定維度的數(shù)值張量,打破了傳統(tǒng)光譜庫的規(guī)模瓶頸——如下圖所示,其數(shù)據(jù)量較現(xiàn)有庫擴大數(shù)個數(shù)量級,且結構標準化程度高,為深度學習模型提供了前所未有的訓練素材。這些數(shù)據(jù)特點使 GeMS 成為首個適合無監(jiān)督/自監(jiān)督學習的超大規(guī)模質(zhì)譜數(shù)據(jù)集,不僅為 DreaMS 模型的預訓練奠定基礎,更通過質(zhì)量分層和格式優(yōu)化,為后續(xù)光譜相似性分析、分子結構表征等任務提供了兼具精度與廣度的數(shù)據(jù)支撐,推動代謝組學研究從依賴有限參考庫的傳統(tǒng)模式,向基于海量原始光譜的智能解析范式轉(zhuǎn)變。
GeMS 數(shù)據(jù)集的 MS/MS 光譜結果
DreaMS 模型:基于自監(jiān)督 Transformer 的質(zhì)譜解析新范式
基于 GeMS 數(shù)據(jù)集,DreaMS 模型旨在通過自監(jiān)督學習從未標注的 MS/MS 光譜中提取分子表征。該模型借鑒自然語言處理中的 BERT 架構,開創(chuàng)了小分子質(zhì)譜領域的自監(jiān)督學習范式。其核心設計包括雙重訓練目標:一是對光譜內(nèi) 30% 的質(zhì)荷比(m/z)進行與強度成比例的隨機掩蔽,并訓練模型重建掩蔽峰,同時引入「母離子標記」聚合光譜級信息(類似語言模型的句子級表征);二是通過同一 LC-MS/MS 實驗的光譜對,學習預測色譜洗脫順序,強化分子結構與出峰規(guī)律的內(nèi)在關聯(lián)。
在模型架構方面,如下圖所示,DreaMS 基于 7 層 Transformer 編碼器,配備 8 頭自注意力機制,可生成 1,024 維表征向量。針對高分辨率質(zhì)荷比數(shù)據(jù),模型采用傅里葉特征(Fourier features)預處理技術,將連續(xù)質(zhì)量值分解為正弦/余弦頻率分量,捕捉整數(shù)與浮點部分的細節(jié),并通過前饋網(wǎng)絡進一步關聯(lián)元素組成預測;強度值經(jīng)淺層網(wǎng)絡處理后與傅里葉特征拼接,作為 Transformer 輸入。此外,DreaMS 顯式引入所有峰對的傅里葉特征差異至自注意力頭(借鑒 Graphormer 架構),直接建模中性損失關系,避免額外標記或復雜計算。
DreaMS 的模型架構
該研究運用線性探測技術,對訓練階段所獲取表征的變化進行了評估。首先,在訓練過程中,基于母離子嵌入向量的邏輯回歸模型可逐漸預測 MACCS 鍵指紋,表明模型在自監(jiān)督中習得分子碎片信息;其次,注意力頭分析顯示,模型優(yōu)先關注表征分子結構的特征峰而非噪聲;最后,表征空間聚類結果表明,即使不同電離條件下的光譜,也能按分子結構線性分布,驗證了其對結構特征的捕捉能力。
DreaMS 從自我監(jiān)督訓練中產(chǎn)生分子結構
DreaMS 模型跨任務遷移:質(zhì)譜分析從單分子解析到全代謝組互聯(lián)
DreaMS 模型作為首個基于自監(jiān)督學習的質(zhì)譜解析基礎模型,在跨任務遷移能力上展現(xiàn)出顯著優(yōu)勢。研究團隊將其適配于四大核心任務:
在光譜相似性分析中,如下圖所示,模型首先通過自監(jiān)督表征實現(xiàn)零樣本匹配,其嵌入空間余弦相似性與分子結構相似性的相關性(如 Tanimoto 系數(shù))超越了需依賴標注數(shù)據(jù)訓練的監(jiān)督算法 MS2DeepScore;針對零樣本對分子結構細微差異不敏感的局限,通過設計包含參考光譜、同分子正樣本與近質(zhì)量負樣本的三元組難例進行對比微調(diào),使前體質(zhì)量偏差在 10ppm 內(nèi)的檢索任務中,微調(diào)后的 DreaMS 顯著優(yōu)于 44 種傳統(tǒng)相似性度量,且嵌入結果對質(zhì)譜儀器差異具備更強魯棒性,UMAP 分析顯示其表征空間嚴格按分子化學式與結構基序聚類。
從具有 10ppm m/z 差異的分子池中進行模型檢索
在分子指紋預測任務中,如下圖所示,DreaMS 突破傳統(tǒng)方法依賴化學式分配或碎片樹生成的復雜流程,單次前向傳遞即可從原始光譜直接預測摩根指紋,檢索 PubChem 數(shù)據(jù)庫的性能與依賴峰化學式標注的深度學習模型 MIST 相當,卻省去了中間計算密集型步驟。針對藥學相關的化學性質(zhì)預測,模型通過微調(diào)同時輸出 Lipinski 五規(guī)則參數(shù)、Bertz 分子復雜性等指標,在大規(guī)模藥物篩選與地外生物標志物搜索場景中均達到當前最優(yōu)性能。
DreaMS在預測分子復雜性方面優(yōu)于現(xiàn)有模型
在最具挑戰(zhàn)性的含氟分子檢測任務中,如下圖所示,DreaMS 通過概率預測模型實現(xiàn) 0.91 的精確度與 0.57 的召回率,遠超依賴碎裂規(guī)則組合搜索、精確度僅 0.51 的 SIRIUS 算法,尤其在結構新穎的分子檢測中展現(xiàn)出強泛化能力,為氟化物相關藥物研發(fā)與環(huán)境監(jiān)測提供了關鍵工具。
DreaMS(藍色)與 SIRIUS(粉色)的對比
基于高效的計算效率(100 萬光譜嵌入計算在 NVIDIA A100 GPU 上僅需 1 小時),如下圖 a-d 所示,研究團隊構建了包含 2.01 億條質(zhì)譜圖的 DreaMS 圖譜,通過局部敏感哈希聚類生成 3,400 萬節(jié)點的三近鄰(3-NN)圖,67% 的邊相似性高于 0.8,99.7% 節(jié)點形成單一連通分量,最短路徑分析顯示其能通過 6 步內(nèi)連接任意光譜與已知庫條目。
在手臂銀屑病代謝組研究中,如下圖 e 所示,圖譜通過光譜連通性揭示了疾病與殺菌劑吡唑醚菌酯的潛在關聯(lián),關聯(lián)路徑涉及污染食物、處理樹木等環(huán)境暴露源,為復雜疾病病因探索提供了全新數(shù)據(jù)驅(qū)動視角。這種從單任務精準注釋到全庫網(wǎng)絡推斷的能力,標志著質(zhì)譜解析技術從「單分子解碼」邁向「全代謝組互聯(lián)」的新時代。
DreaMS 圖譜
產(chǎn)學研協(xié)同,驅(qū)動質(zhì)譜解析技術革新
在小分子質(zhì)譜解析與代謝組學研究領域,全球高校與企業(yè)正以創(chuàng)新技術推動該領域的突破。
在高校研究方面,中國清華大學胡澤平實驗室開發(fā)的 AI 輔助多組學大數(shù)據(jù)分析技術,結合高精準代謝組學方法,成功揭示了腫瘤微環(huán)境中神經(jīng)元與癌細胞的代謝互作機制,發(fā)現(xiàn)了可作為治療靶點的神經(jīng)遞質(zhì)調(diào)控通路,其成果多次被 Nature 系列期刊專題評述。中國科學院大連化物所研發(fā)的「CataAI 表征專家系統(tǒng)」,通過將深度學習技術融入質(zhì)譜數(shù)據(jù)分析流程,利用自建數(shù)據(jù)庫與新算法,實現(xiàn)了從質(zhì)譜圖到分子結構的智能推薦,并針對能源催化材料的復雜表征數(shù)據(jù),開發(fā)了雙階段神經(jīng)網(wǎng)絡模型。
美國加州大學圣地亞哥分校(UCSD)的全球天然產(chǎn)物社交分子網(wǎng)絡(GNPS)平臺,作為本文所述研究的 DreaMS 模型核心數(shù)據(jù)集 GeMS 的來源,持續(xù)推動跨機構質(zhì)譜數(shù)據(jù)共享與整合。其最新研究通過乙醇與甲醇溶劑體系的對比,建立了高通量腸道微生物組代謝組學分析方法,為解析宿主 - 微生物互作機制提供了標準化流程。
在企業(yè)創(chuàng)新實踐中,美國公司安捷倫推出了 Pro iQ 系列等新一代液質(zhì)檢測系統(tǒng),具有卓越的性能和靈敏度,是復雜生物分子監(jiān)測和雜質(zhì)檢測的理想之選。其質(zhì)量范圍擴大至 m/z 2–3000,并通過安捷倫噴射流離子源(AJS)技術提高了靈敏度,支持小分子和大分子的常規(guī)和痕量檢測,為食品安全監(jiān)管提供了顛覆性技術手段。中國企業(yè)凱萊譜科技依托液相色譜串聯(lián)質(zhì)譜技術,自主研發(fā)的 20 余款臨床質(zhì)譜試劑盒產(chǎn)品,覆蓋 300 余個檢測項目,其中血液和尿液中兒茶酚胺代謝物的檢測試劑已寫入中華醫(yī)學會內(nèi)分泌學會專家共識,成為臨床金標準。
總的來說,當前小分子質(zhì)譜解析與代謝組學研究領域,正經(jīng)歷著一場由高校和企業(yè)共同引領的技術革新。這些創(chuàng)新不僅在理論上深化了人類對生物體系復雜性的理解,更是在實際應用中展現(xiàn)出了巨大的潛力,從癌癥早期診斷到心血管疾病預后預測,從催化材料研發(fā)到食品安全監(jiān)管,這場由算法創(chuàng)新與實驗科學共振引發(fā)的革命,或?qū)氐字貥嫃幕A研究到臨床應用的全鏈條生態(tài),為相關領域帶來更為深遠的影響。
最后給大家推薦一個活動,HyperAI超神經(jīng)將于 7 月 5 日在北京舉辦第 7 期 Meet AI Compiler 技術沙龍。我們有幸邀請到了來自 AMD、北京大學、沐曦集成電路等多位資深專家,歡迎大家報名~