蛋白質(zhì)亞細(xì)胞定位(subcellular localization of a protein)是指蛋白質(zhì)在細(xì)胞 結(jié)構(gòu) 中具體的定位情況,這對(duì)蛋白質(zhì)行使其生物學(xué)功能至關(guān)重要。舉個(gè)簡(jiǎn)單例子,如果把細(xì)胞想象成一個(gè)龐大的企業(yè),其中細(xì)胞核、線粒體、細(xì)胞膜等對(duì)應(yīng)總裁辦、發(fā)電部、門崗等不同的部門,那么只有對(duì)應(yīng)的蛋白進(jìn)入正確的「部門」才能使其正常工作,否則便會(huì)導(dǎo)致某些疾病發(fā)生,如癌癥、阿爾茲海默病。因此,精準(zhǔn)定位蛋白質(zhì)亞細(xì)胞可以說(shuō)是生命科學(xué)的核心任務(wù)之一。
盡管科研界已經(jīng)對(duì)不同細(xì)胞系中的數(shù)千種蛋白質(zhì)進(jìn)行了空間定位分析,但到目前為止,已測(cè)量的蛋白質(zhì)與細(xì)胞系組合數(shù)量還只是其中的冰山一角。比如當(dāng)前最大的亞細(xì)胞定位數(shù)據(jù)集——人類蛋白質(zhì)圖譜(Human Protein Atlas,HPA),提供了 13,147 個(gè)基因編碼的蛋白質(zhì)亞細(xì)胞定位(占已知人類蛋白質(zhì)編碼基因的 65%),但是整個(gè)數(shù)據(jù)集包含了 37 個(gè)細(xì)胞系,而每種蛋白質(zhì)最多只能在其中三株中進(jìn)行測(cè)量。與此同時(shí),主流的實(shí)驗(yàn)手段很難在同一細(xì)胞中同時(shí)檢測(cè)所有蛋白質(zhì)數(shù)量,這嚴(yán)重阻礙了全面分析復(fù)雜的蛋白質(zhì)網(wǎng)絡(luò),增加了實(shí)驗(yàn)復(fù)雜度和誤差風(fēng)險(xiǎn)。
除此之外,蛋白質(zhì)定位并非靜止不變的,它的變異性不僅體現(xiàn)在細(xì)胞系之間,甚至在同一細(xì)胞系的單個(gè)細(xì)胞間也會(huì)發(fā)生,而現(xiàn)有數(shù)據(jù)圖譜記錄的蛋白質(zhì)和細(xì)胞系對(duì)僅反映了特定條件下的結(jié)果。因此,即便是現(xiàn)有成果也很難直接套用,需要根據(jù)環(huán)境變化而對(duì)蛋白質(zhì)定位進(jìn)一步探索。
為了解決蛋白質(zhì)亞細(xì)胞定位技術(shù)方法的局限性和生物系統(tǒng)復(fù)雜性之間的矛盾,機(jī)器學(xué)習(xí)被寄予厚望。如今已經(jīng)建模并成功應(yīng)用的如基于蛋白質(zhì)序列的模型、基于細(xì)胞圖像的模型等,雖然在某些方面表現(xiàn)亮眼,但不足之處也十分突出——前者忽視了細(xì)胞類型的特異性定位差異,后者則缺乏推向未知蛋白研究的泛化能力。
有鑒于此,來(lái)自美國(guó)麻省理工學(xué)院和哈佛大學(xué)的研究團(tuán)隊(duì)提出了一種結(jié)合蛋白質(zhì)序列和細(xì)胞圖像來(lái)進(jìn)行未知蛋白質(zhì)亞細(xì)胞定位的預(yù)測(cè)框架,命名為 Predictions of Unseen Proteins’ Subcellular localization(PUPS)。 PUPS 創(chuàng)新地結(jié)合了蛋白質(zhì)語(yǔ)言模型和圖像修復(fù)模型來(lái)預(yù)測(cè)蛋白質(zhì)定位,使其兼并推向未知蛋白預(yù)測(cè)的泛化能力和捕獲細(xì)胞可變性的細(xì)胞類型特定預(yù)測(cè)。實(shí)驗(yàn)證明,該框架能夠準(zhǔn)確預(yù)測(cè)訓(xùn)練數(shù)據(jù)集之外新實(shí)驗(yàn)中蛋白質(zhì)的定位,具有極佳的泛化能力和高度的準(zhǔn)確性,應(yīng)用潛力突出。
PUPS 技術(shù)研究背景,目標(biāo)及現(xiàn)有數(shù)據(jù)的局限性
研究成果以「Prediction of protein subcellular localization in single cells」為題,已發(fā)表于 Nature Methods 。
研究亮點(diǎn):
* 所提研究創(chuàng)新地結(jié)合了蛋白質(zhì)語(yǔ)言模型和圖像繪制模型,利用蛋白質(zhì)序列和細(xì)胞圖像進(jìn)行蛋白質(zhì)定位預(yù)測(cè),彌補(bǔ)了過(guò)往計(jì)算模型的不足
* PUPS 能夠推廣到未知蛋白質(zhì)和細(xì)胞系,從而評(píng)估細(xì)胞系之間以及細(xì)胞系內(nèi)單個(gè)細(xì)胞間蛋白質(zhì)定位的變異性,并識(shí)別與具有可變定位的蛋白質(zhì)相關(guān)的生物過(guò)程
* 在訓(xùn)練數(shù)據(jù)集之外的新實(shí)驗(yàn)中,PUPS 同樣展示了其高度精確的預(yù)測(cè)能力,具有突出的應(yīng)用潛力和醫(yī)學(xué)價(jià)值
數(shù)據(jù)集:以盡可能全面的數(shù)據(jù)打造可信模型
PUPS 的訓(xùn)練數(shù)據(jù)集來(lái)自于人類蛋白質(zhì)圖譜(Human Protein Atlas,HPA),研究團(tuán)隊(duì)將第 16 版 HPA 數(shù)據(jù)匯總到第 22 版當(dāng)中,以盡可能多的收集蛋白質(zhì)的數(shù)據(jù),確保實(shí)驗(yàn)分析的全面性。如下圖所示:
訓(xùn)練集(綠色),保留集 1(橙色),保留集 2(紅色) HPA 中未采用部分(灰色),HPA 中不包含部分(白色)
具體來(lái)說(shuō),訓(xùn)練數(shù)據(jù)集包含 340,553 個(gè)細(xì)胞數(shù)量,蛋白質(zhì)變體共 8,086 種,對(duì)應(yīng) HPA 中 37 種細(xì)胞系中的 2,801 個(gè)基因,這些基因名稱以字母 A-G 開(kāi)頭。另外,訓(xùn)練數(shù)據(jù)集中還額外包含了 10 個(gè)基因,包括 IHO1 、 IMPAD1 、 INKA1 、 ISPD 、 ITPRID1 、 KIAA1211L 、 KIAA1324 、 LRATD1 、 SCYL3 、 TSPAN6 。
保留數(shù)據(jù)集分為兩部分:一部分為保留數(shù)據(jù)集 1,包含 36,552 個(gè)細(xì)胞,蛋白質(zhì)變體由 9,472 種構(gòu)成,對(duì)應(yīng) 3,312 個(gè)基因(含訓(xùn)練集中的 2,801 個(gè)),名稱同樣以 A-G 開(kāi)頭,但來(lái)自不同的細(xì)胞系,與訓(xùn)練集無(wú)重疊。同時(shí),保留數(shù)據(jù)集 1 進(jìn)一步被拆分為兩個(gè)部分,用作評(píng)估集和測(cè)試集,分別包含 11,050 和 25,502 個(gè)細(xì)胞;保留數(shù)據(jù)集 2 含有 24,007 個(gè)細(xì)胞,對(duì)應(yīng) 515 個(gè)基因,其名稱以字母表所有字母開(kāi)頭,即涵蓋 A-Z,蛋白質(zhì)變體共 556 種,來(lái)自完全未在訓(xùn)練集和保留數(shù)據(jù)集 1 中出現(xiàn)的新基因家族,可用于模型泛化能力的測(cè)試。
另需說(shuō)明的是,BJ 細(xì)胞系圖像被同時(shí)保留在了訓(xùn)練集和保留數(shù)據(jù)集 1 中。
在實(shí)驗(yàn)之前,研究團(tuán)隊(duì)對(duì) HPA 中的圖像進(jìn)行了預(yù)處理,簡(jiǎn)單來(lái)說(shuō)包含以下 5 步:
* 第一步,對(duì)每張圖像向下采樣 4 次,最終分辨率降至 0.32 μm/像素,以便減少計(jì)算量并去除高頻 噪聲 ;
* 第二步,結(jié)合高斯模糊(σ=5)和 Otsu 閾值 法從復(fù)雜背景中分離出細(xì)胞核的大致區(qū)域;
* 第三步,使用 remove_small_holes 函數(shù),移除面積小于 300 像素的孔洞,然后將圖像二值化,并去除小于 100 像素的噪聲區(qū)域;
* 第四步,計(jì)算每個(gè)細(xì)胞核的質(zhì)心,并以質(zhì)心為中心,裁剪出 128 x 128 像素的區(qū)域作為單個(gè)細(xì)胞的 ROI;
* 第五步,通過(guò)強(qiáng)度 歸一化 和噪聲過(guò)濾,實(shí)現(xiàn)標(biāo)準(zhǔn)化數(shù)據(jù)分布,減少通道間干擾。
模型架構(gòu):結(jié)合蛋白質(zhì)序列和圖像表征預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位
PUPS 模型主要由兩個(gè)部分組成,一個(gè)用于從蛋白質(zhì)的氨基酸序列中學(xué)習(xí)序列表示;另一個(gè)用于從靶細(xì)胞的標(biāo)志性染色中學(xué)習(xí)圖像表示,然后結(jié)合蛋白質(zhì)序列表示和圖像表示來(lái)預(yù)測(cè)蛋白質(zhì)在靶細(xì)胞中的亞細(xì)胞定位。前者使模型能夠推廣到未知蛋白質(zhì)預(yù)測(cè),后者使模型具備捕獲單細(xì)胞水平的變異性,實(shí)現(xiàn)了細(xì)胞類型特異的定位預(yù)測(cè)。如下圖所示:
未知細(xì)胞系中未知蛋白質(zhì)亞細(xì)胞定位演示
簡(jiǎn)單來(lái)說(shuō),PUPS 利用了預(yù)訓(xùn)練的 ESM-2(Evolutionary Scale Modeling)蛋白質(zhì)語(yǔ)言模型提取蛋白序列 特征 ,同時(shí)用 卷積神經(jīng)網(wǎng)絡(luò) 學(xué)習(xí)細(xì)胞的標(biāo)志性染色圖像特征,最終結(jié)合兩部分信息預(yù)測(cè)蛋白質(zhì)在靶細(xì)胞中的定位。需要說(shuō)明的是,模型所有部分同時(shí)進(jìn)行訓(xùn)練,有助于減少前置任務(wù)的分類損失,以及預(yù)測(cè)蛋白質(zhì)圖像與 HPA 中實(shí)驗(yàn)測(cè)量的蛋白質(zhì)圖像之間的差異。所有參數(shù)使用 Adam 優(yōu)化器進(jìn)行優(yōu)化, 學(xué)習(xí)率 為 1e-4 。
蛋白質(zhì)語(yǔ)言模型
PUPS 通過(guò)使用語(yǔ)言模型、自注意力層以及一個(gè)輔助預(yù)訓(xùn)練任務(wù)來(lái)學(xué)習(xí)序列表征,然后根據(jù)學(xué)習(xí)到的序列表征對(duì)蛋白質(zhì)定位進(jìn)行分類。
具體來(lái)說(shuō),研究團(tuán)隊(duì)通過(guò)將 N 端 2,000 個(gè)氨基酸序列輸入到預(yù)訓(xùn)練 ESM-2 模型中,獲得特定蛋白質(zhì)變體的初始表示,從而為每個(gè)氨基酸殘基生成 1,280 維向量,殘基少于 2,000 的變體采用零填充。這種序列長(zhǎng)度截?cái)嗍菫榱吮苊鈱?duì)序列長(zhǎng)度高達(dá)數(shù)萬(wàn)個(gè)殘基的少數(shù)蛋白質(zhì)進(jìn)行偏倚預(yù)測(cè)。如下圖所示:
基于預(yù)訓(xùn)練 ESM-2 模型與輕量注意力層的蛋白質(zhì)序列表征學(xué)習(xí)模型架構(gòu)
為了使 ESM-2 表征適應(yīng)于蛋白質(zhì)定位預(yù)測(cè),團(tuán)隊(duì)在后續(xù)采用了可分離卷積(separable convolutions)的輕注意力層,應(yīng)用于 ESM-2 表示最終獲得 300 維序列表征。這種蛋白質(zhì)序列表示既用于預(yù)測(cè)定位 標(biāo)簽 的輔助前置任務(wù),同時(shí)也用于與圖像表示相結(jié)合的蛋白質(zhì)圖像預(yù)測(cè)。前置任務(wù)將蛋白質(zhì)序列表示輸入到一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)層,以輸入一個(gè) 29 維向量,表示 29 個(gè)亞細(xì)胞區(qū)室定位標(biāo)簽中的概率分布,然后利用 S 型激活(sigmoid activation)的二元交叉熵?fù)p失將前置任務(wù)輸出結(jié)果與 HPA 注釋的蛋白區(qū)室進(jìn)行比較。
圖像繪制模型
每個(gè)細(xì)胞的圖像輸入包含了細(xì)胞核、微管和內(nèi)質(zhì)網(wǎng)染色這 3 個(gè)標(biāo)志性染色圖像通道,其維度為 3 x 128 x 128,并以細(xì)胞核質(zhì)心為中心。
圖像編碼通過(guò) 5 個(gè)可分離卷積層實(shí)現(xiàn),最終維度 16 x 16 x 512 。每個(gè)卷積層之后依次連接 leakyRelu 激活,批歸一化以及 2D 最大 池化 層。蛋白質(zhì)序列表示被拼接至細(xì)胞圖像表示的所有空間維度,隨后輸入 U-Net 圖像解碼器,為每個(gè)輸入通道學(xué)習(xí)不同 權(quán)重 。此外,模型中的空間維度加權(quán)機(jī)制允許圖像表征的每個(gè)空間維度以不同權(quán)重與序列表征相結(jié)合。
解碼器由 5 個(gè)可分離卷積層構(gòu)成,生成 1 x 128 x 128 的圖像輸出,即對(duì)應(yīng)細(xì)胞的蛋白質(zhì)圖像預(yù)測(cè)。然后將類似于圖像分割 U-Net 的跳躍連接(skip connentions)添加在標(biāo)志染色生成圖像表示的編碼層與同深度生成蛋白質(zhì)圖像預(yù)測(cè)的解碼層之間。研究采用了 均方誤差 損失函數(shù) 訓(xùn)練模型,以最小化預(yù)測(cè)蛋白質(zhì)圖像與實(shí)驗(yàn)測(cè)量蛋白質(zhì)圖像之間的差異。
實(shí)驗(yàn)結(jié)果:實(shí)現(xiàn)單細(xì)胞級(jí)蛋白質(zhì)亞細(xì)胞精準(zhǔn)定位
為了驗(yàn)證模型的可行性和有效性,研究團(tuán)隊(duì)提出多項(xiàng)實(shí)驗(yàn)進(jìn)行驗(yàn)證,PUPS 在多項(xiàng)任務(wù)中均表現(xiàn)出較好的性能,凸顯了其多模型融合的優(yōu)勢(shì)。
預(yù)測(cè)細(xì)胞系間蛋白質(zhì)定位的變異性
為了評(píng)估 PUPS 在定量分析蛋白質(zhì)于細(xì)胞系間定位變異性方面的性能,研究團(tuán)隊(duì)通過(guò)計(jì)算蛋白質(zhì)核內(nèi)比例量化定位變異性,發(fā)現(xiàn)預(yù)測(cè)值與真實(shí)數(shù)據(jù)高度相關(guān),Holdout 1 的 pearson 相關(guān)系數(shù)為 0.794,Holdout 2 的 pearson 相關(guān)系數(shù)為 0.878 。如下圖所示:
PUPS 精準(zhǔn)預(yù)測(cè)不同細(xì)胞系間蛋白質(zhì)定位的差異
隨后進(jìn)一步分析顯示,細(xì)胞系間定位變化最大的蛋白質(zhì)與轉(zhuǎn)錄、細(xì)胞分化和染色質(zhì)調(diào)節(jié)等生物過(guò)程相關(guān),如 ATP13A5 的實(shí)驗(yàn)驗(yàn)證證實(shí)了模型預(yù)測(cè)的準(zhǔn)確性。此外,模型通過(guò)標(biāo)志性染色捕捉細(xì)胞形態(tài)差異,無(wú)需細(xì)胞系標(biāo)簽即可推斷蛋白質(zhì)定位的細(xì)胞系特異性,為研究蛋白質(zhì)功能的細(xì)胞特異性調(diào)控提供了新方法。
預(yù)測(cè)單細(xì)胞間蛋白質(zhì)定位的差異性
為了評(píng)估 PUPS 對(duì)同一細(xì)胞系內(nèi)單細(xì)胞間蛋白質(zhì)定位變異性的預(yù)測(cè)能力,研究團(tuán)隊(duì)計(jì)算了每個(gè)細(xì)胞系中所有單細(xì)胞中蛋白質(zhì)的核內(nèi)比例方差,結(jié)果發(fā)現(xiàn)每種蛋白與細(xì)胞系對(duì)的單細(xì)胞變異性預(yù)測(cè)排名與真實(shí)數(shù)據(jù)高度一致,如 Holdout 2 中前 500 個(gè)高變異對(duì)重疊率超過(guò)了 60%,并且預(yù)測(cè)的核內(nèi)比例分布與實(shí)際結(jié)果一致,排除了預(yù)測(cè)誤差影響。
PUPS 可預(yù)測(cè)細(xì)胞系內(nèi)單細(xì)胞中蛋白質(zhì)定位的可變性
另外 Gene ontology(GO)分析表明,高度可變的蛋白質(zhì)與細(xì)胞分裂、轉(zhuǎn)錄、雙鏈斷裂修復(fù)以及凋亡等過(guò)程有關(guān)。此外,模型通過(guò)細(xì)胞標(biāo)志性染色圖像捕捉形態(tài)等特征,表明了單細(xì)胞變異性不僅具有隨機(jī)性,還與細(xì)胞形態(tài)特征相關(guān),為解釋單細(xì)胞異質(zhì)性機(jī)制提供了新視角。
PUPS 在訓(xùn)練數(shù)據(jù)之外的新實(shí)驗(yàn)中的驗(yàn)證
為了驗(yàn)證 PUPS 在新的實(shí)驗(yàn)環(huán)境下預(yù)測(cè)蛋白質(zhì)定位的泛化能力,研究團(tuán)隊(duì)選擇了 9 種蛋白質(zhì)在 5 個(gè)細(xì)胞系中進(jìn)行驗(yàn)證。如下圖所示:
PUPS 在 HPA 之外的實(shí)驗(yàn)中預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位的能力
ATP13A5 、 CHID1 、 COPA 、 MESD 和 RBM23 為細(xì)胞系間變異最大的蛋白,它們都有不同的 GO term;DDIT3 和 N4BP2 是細(xì)胞系內(nèi)單個(gè)細(xì)胞中變異最大的蛋白;EIF4G1 和 PSME3IP1 是細(xì)胞系間變異最小的蛋白,前者預(yù)計(jì)主要位于細(xì)胞核外,后者預(yù)計(jì)主要位于細(xì)胞核內(nèi)。 5 個(gè)細(xì)胞系中,除 A375 外,其他 HeLa 、 MCF7 、 GAMG 和 HEK293FT 均包含在 HPA 中。
結(jié)果顯示,PUPS 預(yù)測(cè)的蛋白質(zhì)圖像在視覺(jué)上與實(shí)驗(yàn)測(cè)量的圖像相似。利用預(yù)測(cè)蛋白圖像計(jì)算的每個(gè)單細(xì)胞的核蛋白比例與實(shí)驗(yàn)測(cè)量圖像計(jì)算的比例密切相關(guān),pearson 相關(guān)系數(shù)為 0.767 。這表明,PUPS 可以用于定量預(yù)測(cè)以前沒(méi)有實(shí)驗(yàn)測(cè)量或在訓(xùn)練圖譜中使用的蛋白質(zhì)的定位。
PUPS 學(xué)習(xí)到有意義的蛋白質(zhì)和細(xì)胞表征
實(shí)驗(yàn)證明,PUPS 在未知蛋白質(zhì)和細(xì)胞系中預(yù)測(cè)蛋白質(zhì)定位的能力來(lái)自于學(xué)習(xí)到了蛋白質(zhì)序列和細(xì)胞標(biāo)志性圖像的有意義表示。
研究團(tuán)隊(duì)繪制了對(duì)應(yīng)于 12,614 個(gè)基因的 40,622 個(gè)蛋白質(zhì)形態(tài)的蛋白質(zhì)序列表示,具有相似定位的蛋白質(zhì)往往具有相似的序列表示。為進(jìn)一步證明模型能識(shí)別有意義的蛋白質(zhì)序列模式以及預(yù)測(cè)定位,研究團(tuán)隊(duì)使用 Positional Shapley 方法計(jì)算了特定蛋白質(zhì)中每個(gè)氨基酸殘基對(duì)預(yù)測(cè)各細(xì)胞區(qū)室標(biāo)簽預(yù)測(cè)的重要性,如成功解釋了 N4BP2 核定位的預(yù)測(cè)變異性,也與 CUE 結(jié)構(gòu)域通泛素結(jié)合可能改變亞細(xì)胞定位的報(bào)道相符。
PUPS 學(xué)習(xí)有意義的蛋白質(zhì)和細(xì)胞表征
除此了識(shí)別有意義的蛋白質(zhì)序列基序外,研究團(tuán)隊(duì)進(jìn)一步表明了 PUPS 從細(xì)胞標(biāo)志性染色中學(xué)習(xí)單細(xì)胞的有意義表征。其將從標(biāo)志性染色中學(xué)習(xí)到的單細(xì)胞圖像表示可視化,發(fā)現(xiàn)即使細(xì)胞系標(biāo)簽沒(méi)有輸入到模型當(dāng)中,同一細(xì)胞系的單細(xì)胞也具有相似的圖像表示。蛋白質(zhì)和細(xì)胞標(biāo)志性圖像的聯(lián)合表示保留了細(xì)胞系和蛋白質(zhì)之間的分離,而每個(gè)細(xì)胞系內(nèi)的不同蛋白質(zhì)在不同細(xì)胞系之間的順序相似。給定聯(lián)合表示空間中每個(gè)細(xì)胞系的質(zhì)心,從質(zhì)心到特定蛋白質(zhì)的向量在所有細(xì)胞系中大部分是平行的,即在給定序列表示的情況下,預(yù)測(cè)特定蛋白質(zhì)的圖像需要再表示空間中以相同方向移動(dòng),而不管細(xì)胞系是什么,這解釋了 PUPS 通過(guò)學(xué)習(xí)有意義的蛋白質(zhì)和細(xì)胞圖像表示來(lái)推廣到未知蛋白質(zhì)和細(xì)胞系的能力。
此外,PUPS 還能預(yù)測(cè)致病突變對(duì)蛋白質(zhì)定位的影響。例如,針對(duì)核編碼的線粒體蛋白 SDHD 和 ETHE1 的突變研究表明,SDHD 突變會(huì)導(dǎo)致其核定位比例增加,這與疾病中核基因組不穩(wěn)定的機(jī)制一致;ETHE1 突變則顯示胞質(zhì)定位比例升高,與已知的核 – 胞質(zhì)穿梭異常相關(guān)。這些結(jié)果表明,PUPS 可通過(guò)分析序列變異對(duì)定位的影響,為疾病機(jī)制研究提供新線索。
蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)新解
正如上述所言,蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)在生物信息學(xué)和生物學(xué)研究中都具有重大意義,PUPS 提供了一種融合多模態(tài)信息的思路,為該領(lǐng)域的研究畫上了濃墨重彩的一筆。與此同時(shí),該領(lǐng)域的研究經(jīng)過(guò)數(shù)十年的發(fā)展,其成果也早已是百花齊放。
愛(ài)爾蘭都柏林大學(xué)的團(tuán)隊(duì)在 Computational and Structural Biotechology Journal 雜志上發(fā)表了一項(xiàng)研究,其中圍繞蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)介紹了多種計(jì)算方法,包括基于序列、注釋、混合及元預(yù)測(cè)等類別,同時(shí)文章還按真核生物、原核生物、病毒及多類別對(duì)亞細(xì)胞定位預(yù)測(cè)工具進(jìn)行了分類介紹,真核生物預(yù)測(cè)工具如 mLASSO-Hum 、 DeepPSL 等,原核生物預(yù)測(cè)工具如 PRED-LIPO 等。通過(guò)設(shè)計(jì)涵蓋 7 個(gè)主要領(lǐng)域及 28 個(gè)子分類的機(jī)器學(xué)習(xí)和 深度學(xué)習(xí) 分類圖,該研究提供了單類別和多類別預(yù)測(cè)工具分類法,從而方便用戶查找方法、預(yù)測(cè)工具。論文以「Protein subcellular localization prediction tools」發(fā)表。
復(fù)旦大學(xué)生物醫(yī)學(xué)研究院楊力研究組與上海 人工智能 實(shí)驗(yàn)室董楠卿研究組合作,于 4 月 12 日在 Briefings in Bioinformatics 雜志在線發(fā)表了題為「Deep Generative Model for Protein Subcellular Localization」的研究論文。研究同樣基于 ESM2 蛋白質(zhì) 大語(yǔ)言模型 及 U-Net 框架,開(kāi)發(fā)了具備多模態(tài)處理能力的生成式深度學(xué)習(xí)模型 deepGPS 。
據(jù)介紹,deepGPS 能夠接收蛋白質(zhì)序列及細(xì)胞核圖像作為輸入,并生成蛋白質(zhì)定位的文本標(biāo)簽及分布圖像,是一種支持蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的新型「文生圖」(text-to-image)多模態(tài)模型。
隨著人工智能與生物學(xué)研究的融合加速,相關(guān)的創(chuàng)新性實(shí)驗(yàn)也在不斷 涌現(xiàn) ,并逐漸打破傳統(tǒng)方法的弊端,實(shí)現(xiàn)「兩全其美」甚至「十全十美」的表現(xiàn),從而推動(dòng)生物信息學(xué)的快速發(fā)展。