捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

版權歸原作者所有,如有侵權,請聯(lián)系我們

Science:AI模擬5億年生物進化,創(chuàng)造了一種「前所未有」的蛋白質

學術頭條
一起見證人類探索征途上的每一個重大突破。
收藏

圖片

蛋白質是生物體中非常重要的功能性分子,它們的形成過程經過了數十億年的自然選擇和進化。在這一過程中,蛋白質的序列和結構經過無數次隨機突變,并通過生物系統(tǒng)的選擇機制進行篩選,最終形成那些具有特定生物學功能的蛋白質。

近年來,隨著深度學習和語言模型(LM)的發(fā)展,科學家們開始嘗試將這些工具應用于理解生物系統(tǒng),尤其是蛋白質。

Science 雜志發(fā)表了一項重要研究成果,展示了如何利用語言模型來生成和推理蛋白質序列、結構和功能,并提出了一個名為 ESM3 的多模態(tài)生成式模型。該模型不僅能夠生成功能性蛋白質,還能夠模擬超過 5 億年的進化過程,生成與自然界已知蛋白序列不同的全新蛋白質。

圖片

ESM3 模型由人工智能初創(chuàng)公司 Evolutionary Scale 研發(fā),旨在幫助科學家理解、構思和創(chuàng)造蛋白質。在這項工作中,研究人員通過 ESM3 設計了一個新的綠色熒光蛋白(GFP),其基因序列與已知熒光蛋白的差異巨大,如果通過天然熒光蛋白的生物進化,則需要超過 5 億年左右的時間。

這意味著,語言模型不僅可以解讀自然進化中積累的生物數據,還能通過分析進而生成新型生物分子,開辟蛋白質設計和藥物開發(fā)的新路徑。

AI 解碼生物語言

生物體本質上是可編程的。

這是因為自然界的每個生物體都共享相同的遺傳密碼,構成生命物質基礎的蛋白質就是僅由 20 種氨基酸組成。也因此,有人將其比作生命的“字母表”。

生物體中復雜的蛋白質信息蘊含著深層的生物學規(guī)律和演化歷史。近年來,科學家們通過對基因組序列和蛋白質結構的測序,積累了大量的蛋白質數據,包括數十億條序列和數億個結構信息。

隨著 AI 技術的發(fā)展,科學家們開始嘗試利用深度學習模型,如大語言模型(LLM),將這些遺傳信息“解碼”,以揭示蛋白質序列中隱藏的深層模式和邏輯,并通過這些模式推斷、設計全新的蛋白質結構和功能。

當前,已有多個語言模型(如 ProtBERT、ProtGPT)證明了蛋白質序列中的模式能夠被語言模型“解碼”,從而可以幫助理解其功能。這一領域的研究還表明,隨著模型規(guī)模的擴大,語言模型的能力和準確性也隨之提升。

為此,研究人員使用了超過 31.5 億條蛋白質序列、2.36 億個蛋白質結構,以及 5.39 億個帶有功能注釋的蛋白質數據來訓練 ESM3 模型。該模型總共有三種不同的規(guī)模,分別為 14 億、70 億和 980 億參數。

實驗表明,隨著模型參數規(guī)模的增加,ESM3 在生成能力和表示學習上的性能有顯著提升,特別是在生成蛋白質結構時,980 億參數的模型表現(xiàn)出超越現(xiàn)有模型的強大能力。

作為該領域的前沿成果,ESM3 不僅僅是一個傳統(tǒng)的序列生成模型,而是一個多模態(tài)生成模型,能夠同時處理蛋白質的序列、三維結構和功能

ESM3 還展示了其在多種生成任務上的卓越性能。ESM3 使用了一種名為“生成掩碼語言模型”的方法,在輸入中對蛋白質的序列、結構和功能進行隨機掩碼,然后通過模型推理生成缺失的部分。

圖片

(來源:Evolutionary Scale)

研究人員通過隨機掩碼并生成序列和結構,對比生成結果與真實蛋白質的匹配情況,發(fā)現(xiàn)模型能夠生成高質量的蛋白質序列和結構,其與真實結構的平均差異僅為 0.5?。

此外,研究表明,ESM3 能夠通過不同的提示生成具有目標功能的蛋白質,這為蛋白質設計帶來了高度靈活性。與傳統(tǒng)的三維空間中的復雜建模方法不同,ESM3 將三維結構離散化為 token,這使得它能夠與序列和功能信息一同被輸入模型進行處理。這種方法避免了復雜的三維空間擴散架構,使得生成過程更加高效、可控。

生成需 5 億年進化的熒光蛋白

為了展示了 ESM3 模型在生成全新蛋白質方面的巨大潛力,研究人員嘗試選擇綠色熒光蛋白進行挑戰(zhàn)。

綠色熒光蛋白在生物學研究中是非常重要的工具,用于標記和跟蹤細胞內的分子與結構。然而,現(xiàn)有的熒光蛋白大多數來自自然界,且其突變通常限制在已有序列周圍,很難大幅度改變其序列。在少數情況下,利??通量實驗和機器學習,科學家僅能夠引?至多 40-50 個突變(即 80% 的序列同源性),同時保留蛋白的熒光功能。

圖片

(來源:Evolutionary Scale)

為了突破這一瓶頸,研究人員通過對 ESM3 模型進行特定的功能提示,嘗試生成生成一個全新的綠色熒光蛋白,要求該蛋白的序列與已知的綠色熒光蛋白序列相似性較低,但仍要保持其熒光特性。

首先,研究人員定義了一個 229 個氨基酸長的蛋白質序列,其中包含了與綠色熒光蛋白熒光活性相關的關鍵氨基酸,研究人員還提供了綠色熒光蛋白的三維信息,尤其是與形成熒光色素的活性位點相關的氨基酸殘基。

ESM3 模型在接收到這些提示后,會生成一個蛋白質的三維結構,尤其是確?;钚晕稽c的氨基酸位置協(xié)調良好。然后,基于生成的結構,模型進一步推理生成合適的氨基酸序列,并嘗試保持活性位點的正確結構。

在這個過程中,ESM3 不僅僅是根據已有的綠色熒光蛋白結構生成新的序列,還能夠在“已知”結構的基礎上進行創(chuàng)新,生成具有低序列相似性的新型蛋白質。

經過一系列的生成和優(yōu)化步驟,研究人員獲得了多個新的綠色熒光蛋白,其中一個特別的設計被命名為 esmGFP。這個全新的蛋白質與現(xiàn)有的熒光蛋白(如 tagRFP)之間的序列相似性為 58%,與最接近的天然蛋白(eqFP578)之間的序列差異為 107 個氨基酸,序列相似性為 53%。

研究人員還進一步驗證了生成的綠色熒光蛋白是否具有實際的熒光功能。結果表明,盡管 esmGFP 發(fā)光特性有所延遲,成熟時間較長,但最終的熒光亮度與已知的綠色熒光蛋白相似,且具有穩(wěn)定的熒光特性

研究人員還提供了時間校準系統(tǒng)發(fā)育分析,指出如果通過現(xiàn)有蛋白的自然界進化過程得到 esmGFP,則需要超過 5 億年的等效時間。

ESM3 的未來潛力與應用

ESM3 的另一個顯著亮點是其在多模態(tài)條件下的生成和控制能力。

也就是說,研究人員能夠通過提示特定的蛋白質結構、功能或特定的關鍵氨基酸,生成滿足這些條件的新型蛋白質。例如,模型能夠生成具有特定功能位點的蛋白質,同時保持整體結構的完整性。

此外,通過組合不同的提示,模型也能夠生成符合復雜要求的蛋白質。例如,研究人員提示蛋白質的二級結構和功能關鍵詞,并生成了與這些提示高度一致的蛋白質。

ESM3 模型的這種提示響應能力和可控特性,使得它在蛋白質設計領域具有高度實用價值,尤其是在生成與現(xiàn)有已知蛋白質具有顯著差異的新型蛋白質方面。

在 ESM3 模型的幫助下,研究人員不僅能夠設計出新型的綠色熒光蛋白,還能在設計中創(chuàng)新,突破自然進化的局限。這為未來蛋白質工程、合成生物學和藥物開發(fā)等領域提供了新的可能性,也為蛋白質的設計和功能驗證提供了更加高效的工具。

例如,與自然進化相比,ESM3 能夠大大加速蛋白質設計的速度,并生成在自然界中無法輕易獲得的新蛋白質,而這對于基礎研究和應用研究來說都是巨大的突破。

另外,在藥物設計領域中,生成具有特定功能的蛋白質是一個重要的研究方向,而通過 ESM3,研究人員能夠設計出符合特定靶點的蛋白質,減少實驗驗證的時間和成本。

而在合成生物學領域中,ESM3 能夠為開發(fā)新的合成途徑提供幫助,生成具備新功能的酶或代謝途徑。

研究人員還指出,隨著模型規(guī)模和數據量的進一步增加,ESM3 有潛力生成更加復雜和創(chuàng)新的蛋白質。未來,ESM3 的應用可能涵蓋從基礎研究到藥物設計等更多領域,為蛋白質工程開辟全新的可能性。

目前,ESM3 已通過 API 推出公開測試版,使科學家能夠通過編程或基于瀏覽器的交互式 app 來設計蛋白質。科學家們可以通過免費學術訪問層使用 EvolutionaryScale Forge API,也可以使用開放模型的代碼和權重。

作者:木木

評論
中國退役軍人科普員。
庶吉士級
ESM3 能夠通過不同的提示生成具有目標功能的蛋白質,這為蛋白質設計帶來了高度靈活性。
2025-01-19
山東省科技館檸月如風
貢士級
新技術的應用讓我們對蛋白質有了更深層次的理解,我們能夠研制出更高效的生物制劑來應對疾病,生產出有特定用途的新材料,甚至是創(chuàng)造新的生命,新的物種。
2025-01-19
陳吉遷
少師級
利用語言模型來生成和推理蛋白質序列、結構和功能
2025-01-19