2023 年 12 月,谷歌 DeepMind 在「Nature」上發(fā)布其在材料化學(xué)領(lǐng)域的深度學(xué)習(xí)模型 GNoME,宣稱發(fā)現(xiàn)了 220 萬種新的無機材料的晶體結(jié)構(gòu)。距離該突破性成就不到一周,微軟就宣布將要推出用于材料逆向設(shè)計的生成式 AI 模型 MatterGen,并向大家表示,未來完全可以根據(jù)所需要的性質(zhì)直接設(shè)計新材料的結(jié)構(gòu)。
如果說,谷歌的 GNoME 模型向我們展示了 AI 具備在龐大化學(xué)空間中快速發(fā)現(xiàn)新材料的潛力,那微軟的 MatterGen 則進一步證明了生成式 AI 通過逆向設(shè)計精準滿足特定需求的能力,二者展現(xiàn)了 AI 在材料化學(xué)領(lǐng)域的不同切入點,也標(biāo)志著從大規(guī)模發(fā)現(xiàn)到「按需設(shè)計」的新技術(shù)躍遷。1 月 16 日,MatterGen 成果以「A generative model for inorganic materials design」為題,終于在 Nature 上正式見刊,更令人興奮的是,模型現(xiàn)已開源,HyperAI超神經(jīng)已在官網(wǎng)上線教程「MatterGen 無機材料設(shè)計模型 Demo」,一鍵即可部署運行,歡迎大家測試模型性能。
東南大學(xué)王金蘭教授曾在「Inverse design with deep generative models: next step in materials discovery」文章中指出,在傳統(tǒng)的機器學(xué)習(xí)輔助材料設(shè)計研究中,大多是預(yù)測整個化學(xué)空間中候選材料的特性,并進行大規(guī)模篩選,以尋找具有目標(biāo)性能的潛在材料,但逆向設(shè)計能夠直接沿著最優(yōu)路徑生成合格的化合物,她認為,生成模型是逆向設(shè)計材料的一種有效策略,這與微軟的研究不謀而合。
MatterGen 基于擴散模型,可以根據(jù)目標(biāo)空間群生成結(jié)構(gòu),比如在設(shè)計多屬性磁性材料時,提出了既有高磁密度又具有 low supply-chain risk 化學(xué)成分的結(jié)構(gòu)。與此同時,該模型還配備了多個可調(diào)適配模塊,可以根據(jù)化學(xué)性質(zhì)、對稱性和材料特性等約束條件進行微調(diào),生成滿足特定磁性、電子或機械性能的材料,并通過 DFT 進行驗證。由此可見,基于某個場景來「定制化」新材料或許將在不遠的未來成為現(xiàn)實。
除了上述提到的擴散模型,如今主流的生成模型還包含生成對抗網(wǎng)絡(luò) (GANs)、變分自編碼器 (VAEs)、自回歸模型 (Autoregressive Models) 等,其核心原理都是通過學(xué)習(xí)數(shù)據(jù)分布來生成新的樣本。
今天這篇文章,HyperAI超神經(jīng)將為大家介紹生成模型逆向設(shè)計新材料的價值,并探討該技術(shù)在電池材料、高熵合金、超導(dǎo)材料等方面的具體進展。
新材料研發(fā)與蛋白質(zhì)設(shè)計之間的「相似性」
在典型的材料開發(fā)問題中,我們希望找到一種具有特定性能的新材料,其實就是在尋找一種合適的晶體結(jié)構(gòu),使其符合目標(biāo)屬性。
過去,我們開發(fā)新材料的方式主要依賴試錯,這種「正向設(shè)計」的特點是從結(jié)構(gòu)到性質(zhì)的發(fā)現(xiàn)。以最常見的替換法為例,La-Ba-Cu-O 超導(dǎo)體是最早的銅基超導(dǎo)體,但是它只有 35 K 的超導(dǎo),低于液氮溫區(qū),研究人員從結(jié)構(gòu)出發(fā),將 La 替換為 Y 元素后發(fā)現(xiàn),Y-Ba-Cu-O 超導(dǎo)體的超導(dǎo)溫度高于液氮溫區(qū)。然而,這種方法的研發(fā)周期非常長,且存在高度偶然性。
隨著計算機技術(shù)和量子力學(xué)理論的進步,基于密度泛函理論 (DFT) 的材料預(yù)測方法逐漸成熟,結(jié)合結(jié)構(gòu)搜索算法和高通量計算,可以在某些數(shù)據(jù)庫上,根據(jù)某些約束來高效地篩選潛在材料,然后再送到實驗室合成、測試。然而,未知材料的化學(xué)空間極其龐大,不同元素的潛在組合甚至高達百萬級別以上,這導(dǎo)致大規(guī)模篩選的計算成本非常昂貴。
AI 驅(qū)動的逆向設(shè)計提供了一種全新的思路,它跳出材料空間篩選的慣性思維,直接生成滿足目標(biāo)性能的材料結(jié)構(gòu),實現(xiàn)材料的高效設(shè)計和優(yōu)化。
事實上,基于 AI 驅(qū)動的逆向設(shè)計已經(jīng)在生物醫(yī)學(xué)領(lǐng)域取得了突破性進展,2024 年 10 月,諾貝爾化學(xué)獎首次涉及 AI 領(lǐng)域,其中一半獎項被授予美國華盛頓大學(xué)的 David Baker,以表彰他在蛋白質(zhì)設(shè)計上的突出貢獻。在他的多項研究中,我們都可以觀察到其反向使用深度學(xué)習(xí)為設(shè)計功能性新蛋白質(zhì)生成氨基酸序列的案例。
2024 諾貝爾化學(xué)獎獲得者
新材料研發(fā)與蛋白質(zhì)設(shè)計有許多相似之處,比如材料的宏觀性質(zhì)由其微觀結(jié)構(gòu)決定,蛋白質(zhì)也是如此。在蛋白質(zhì)領(lǐng)域,氨基酸序列指導(dǎo)蛋白質(zhì)折疊成特定的二級、三級乃至四級結(jié)構(gòu),進而決定其生物學(xué)功能。與此類似,材料科學(xué)依賴于原子、化學(xué)鍵及官能團的選擇與排列,構(gòu)建分子或更復(fù)雜的材料結(jié)構(gòu),進而決定其性能。
這種相似性使得蛋白質(zhì)設(shè)計中流行的 AI 方法能夠為材料科學(xué)的研究提供借鑒,例如通過逆向設(shè)計優(yōu)化材料性能,探索新結(jié)構(gòu)或開發(fā)全新材料。
與此同時,其他在生物醫(yī)藥領(lǐng)域中涌現(xiàn)的生成模型、視覺模型、語言模型以及其他先進技術(shù),如強化學(xué)習(xí)、注意力機制、擴散模型、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)、模型對齊機制等,在材料科學(xué)中也有著廣闊的應(yīng)用潛力。
值得一提的是,由于新材料不需要經(jīng)歷生物醫(yī)藥的漫長臨床試驗周期,以及排除倫理安全等因素的影響,實際落地的可能性或許更大。
以微軟 MatterGen 為例,探討生成式 AI 逆向設(shè)計材料新范式
微軟的 MatterGen 模型主要是基于擴散架構(gòu),先將原子類型、原子位置、周期性晶格逐步破壞為隨機結(jié)構(gòu),然后訓(xùn)練一個模型反向完成這一過程,讓模型學(xué)習(xí)如何從隨機噪聲逐步還原回原始材料結(jié)構(gòu)。論文的通訊作者謝天認為,這與視頻生成的核心思想非常相似。
以 OpenAI 開發(fā)的文生視頻模型 Sora 為例,研究人員基于自編碼器 (Encoder),通過「視頻壓縮網(wǎng)絡(luò)」的技術(shù),將輸入的圖片或視頻壓縮成一個更低維度的數(shù)據(jù),并將這些壓縮后的視頻分解為「空間時間補丁」,進一步轉(zhuǎn)換成一維的數(shù)據(jù)序列,方便 Transformer 處理。隨后,Transformer 會完成每個空間時間補丁的噪聲去除,再通過解碼器 (Decoder) 將處理后的張量數(shù)據(jù)還原成視頻。
Sora 工作流
而另一方面,在擴散架構(gòu)的基礎(chǔ)上,研究人員讓模型學(xué)習(xí)已知穩(wěn)定材料數(shù)據(jù)的結(jié)構(gòu),一旦模型訓(xùn)練完成,就可以無條件地從隨機分布中采樣,并經(jīng)過反向過程,讓模型基于它對材料規(guī)律的理解,生成符合條件的新材料結(jié)構(gòu)。進一步地,研究人員向網(wǎng)絡(luò)的每一層添加條件來微調(diào)基礎(chǔ)模型,這些條件可以是特定的化學(xué)性質(zhì)、對稱性,或者任何目標(biāo)屬性(磁性、密度等),經(jīng)過微調(diào)后,模型可以根據(jù)指定條件直接生成材料結(jié)構(gòu),并通過計算方法驗證其穩(wěn)定性。
如下所示,在鍶-釩-氧化學(xué)系統(tǒng)的新材料生成案例中,MatterGen 生成的材料結(jié)構(gòu)看起來非常合理 (f-i),計算驗證后發(fā)現(xiàn),這些材料具備穩(wěn)定性。
在目標(biāo)化學(xué)系統(tǒng)中生成材料
進一步地,除了計算驗證之外,團隊還與中科院深圳先進技術(shù)研究院合作,利用 MatterGen 成功合成了新型材料 TaGr2O6,實驗測得其體積模量為 169 GPa,與設(shè)計值 200 GPa 相對誤差低于 20%。與此同時,團隊還希望從科學(xué)家那里獲得反饋,持續(xù)迭代和優(yōu)化模型,以期提高其實際應(yīng)用價值。
值得一提的是,由于大多數(shù)材料設(shè)計問題都涉及尋找具有極端特性的材料,比如室溫超導(dǎo)體、用于電池的超離子導(dǎo)體,傳統(tǒng)的基于搜索的方法很難實現(xiàn),但生成式模型以目標(biāo)屬性為指導(dǎo),可以為發(fā)現(xiàn)這些突破性材料提供機會。微軟正在利用這種模型進行多種材料的探索,涵蓋電池設(shè)計、太陽能電池設(shè)計以及碳捕獲領(lǐng)域。
更多應(yīng)用:以高熵合金、超導(dǎo)材料開發(fā)為例
我們都知道,新材料不僅是驅(qū)動諸如航空航天、新能源、電子信息及生物醫(yī)藥等高科技領(lǐng)域發(fā)展的基石,也是托舉新技術(shù)、新裝備、新工程的中堅力量。然而,目前我國的材料工業(yè)仍以傳統(tǒng)材料為主,在新材料特別是高端新材料方面供給有限,與此同時,由于關(guān)鍵技術(shù)的短缺,我們對進口材料有一定的依賴性,受制于人的短板問題仍然突出。
現(xiàn)如今,隨著生成式 AI 的發(fā)展,材料科學(xué)正在迎來新的研究范式變革,如果我們能夠盡早入場這一新興領(lǐng)域,或?qū)榭朔贪逄峁┛赡?,有望實現(xiàn)「彎道超車」。接下來,筆者將以生成式 AI 在開發(fā)高熵合金、超導(dǎo)材料等應(yīng)用中的具體案例為例,探討這一技術(shù)如何助力新材料實現(xiàn)跨越式發(fā)展。
高熵合金
在諸如燃氣輪機、核反應(yīng)堆和航空推進系統(tǒng)等工程應(yīng)用中,對具備優(yōu)異高溫機械性能的金屬合金需求十分旺盛。耐火高熵合金 (RHEAs) 通過添加不同的高熔點耐火元素,能夠在 1000°C 及以上溫度中保持高強度能力,表現(xiàn)出與高溫合金相當(dāng)?shù)母邷貜姸?,這引起了研究人員們的廣泛關(guān)注。
然而,與其他高溫合金相比,RHEAs 在特定方面(如室溫延展性等)的性能仍受到挑戰(zhàn),過去設(shè)計 RHEAs 時大多依賴于研究人員的經(jīng)驗和直覺,具備高度不確定性,與此同時,RHEAs 可能的組成空間很大,包含數(shù)十億種候選成分,嚴重限制了我們對潛在合金的快速發(fā)現(xiàn)。
對此,賓夕法尼亞州立大學(xué)材料科學(xué)與工程系、計算與數(shù)據(jù)科學(xué)研究所助理教授 Wesley Reinhart 在 Journal of Materials Informatics 上發(fā)表論文「Generative deep learning as a tool for inverse design of high entropy refractory alloys」,并得出了一個初步結(jié)論——生成模型是一種很有前途的材料設(shè)計新方法,尤其是在高熵合金設(shè)計上,該成果被 JMI 評為年度優(yōu)秀論文。
在這篇論文中,研究人員提到,過去 10 年,以密度泛函理論 (DFT) 為例的計算方法已經(jīng)基本成熟,并積累了大量數(shù)據(jù),這為深度學(xué)習(xí)的應(yīng)用提供了基礎(chǔ),推動了「前向模型」的發(fā)展,但遺憾的是,龐大的設(shè)計空間仍然是一個關(guān)鍵挑戰(zhàn),生成式建模的「逆向設(shè)計」為此提供了解決方案。
因此,研究人員利用條件生成對抗網(wǎng)絡(luò) (CGAN) 為生成器提供額外的條件向量,進而控制其輸出。換句話說,條件向量可以提供與目標(biāo)屬性(如合金成分或性能指標(biāo))相關(guān)的信息,建立潛在空間和期望指標(biāo)之間的映射,生成器通過學(xué)習(xí)基于合金成分的合金性能數(shù)據(jù)概率分布,生成符合條件的樣本。值得一提的是,該模型已成功設(shè)計鋁合金,并通過計算方法進行了驗證。
使用條件 GAN 進行材料逆向設(shè)計的生成式建模示意圖
值得一提的是,研究人員還提到,除了利用 CGAN,條件變分自編碼器 (CVAE) 也可用于新材料設(shè)計,但因為訓(xùn)練過程固有的噪聲注入,以及對重建誤差的預(yù)定義度量要求,VAE 的效果不如 GAN。
超導(dǎo)材料
超導(dǎo)材料指的是在某一溫度下電阻為零的導(dǎo)體,其應(yīng)用十分廣泛,覆蓋輸電、電機、交通運輸、航天、微電子、電子計算機、通信、核物理、新能源、生物工程、醫(yī)療以及軍事裝備等領(lǐng)域,自人類發(fā)現(xiàn)超導(dǎo)現(xiàn)象以來,該領(lǐng)域已經(jīng)產(chǎn)生了多個相關(guān)的諾貝爾獎。
發(fā)現(xiàn)具有高臨界溫度 (Tc) 的新型超導(dǎo)體一直材料科學(xué)、凝聚態(tài)物理學(xué)領(lǐng)域的重要任務(wù),美國國家標(biāo)準與技術(shù)研究所等聯(lián)合微軟研究人員,提出了一種新的擴散模型,用于生成具有獨特結(jié)構(gòu)和化學(xué)組成的超導(dǎo)體。該研究以「Inverse Design of Next-generation Superconductors Using Data-driven Deep Generative Models」為題,發(fā)表在 The Journal of Physical Chemistry Letters 上。
在這項成果中,研究人員提到,想要將生成模型用在周期性材料中,面臨的主要挑戰(zhàn)是創(chuàng)建具有平移和旋轉(zhuǎn)不變性的表示形式,這個問題可以用晶體擴散變分自編碼器 (CDVAE) 來解決。
使用 DFT、ALIGNN 和 CDVAE 生成模型的新型超導(dǎo)體的完整逆向設(shè)計工作流程
因此,如上圖所示,研究人員用 1,058 種超導(dǎo)材料的 DFT 數(shù)據(jù)訓(xùn)練 CDVAE 模型,讓其生成 3,000 種新的超導(dǎo)體候選材料。隨后,用預(yù)訓(xùn)練的深度學(xué)習(xí)模型 ALIGNN 預(yù)測這些候選結(jié)構(gòu)的超導(dǎo)性能,篩選后得到了 61 個候選材料。最后,研究人員對這些材料進行 DFT 計算,以驗證預(yù)測結(jié)果,并評估新材料的動態(tài)和熱力學(xué)穩(wěn)定性。15 種具有潛力的候選超導(dǎo)材料結(jié)構(gòu)如下圖所示,研究發(fā)現(xiàn),這樣的方法使得下一代材料的逆向設(shè)計成為可能。
通過 CDVAE 生成并經(jīng) DFT 驗證的頂級超導(dǎo)候選材料(最接近凸包)的頂視圖和側(cè)視圖
當(dāng)然,除了以上提到的案例,生成模型也在其他材料設(shè)計上得到了具體應(yīng)用。筆者特意整理了一些案例,可供大家參考。
*鋰電池設(shè)計
論文題目:Li-ion battery design through microstructural optimization using generative AI
*納米復(fù)合材料設(shè)計
論文題目:Generative AI for Tailored Functionalities in Nanocomposite Materials
*二維材料設(shè)計
論文題目:Computational Discovery of New 2D Materials Using Deep Learning Generative Models
*工程水泥基復(fù)合材料設(shè)計
論文題目:Generative AI for performance-based design of engineered cementitious composite
*機械和仿生材料設(shè)計
論文題目:Enhancing mechanical and bioinspired materials through generative AI approaches
寫在最后
目前,生成式 AI 在材料設(shè)計中的應(yīng)用很多仍停留在試驗階段,為了真正實現(xiàn)技術(shù)落地,除了通過計算評估材料性能外,還需要依賴現(xiàn)實中的實驗驗證。在這方面,如果想要縮小計算篩選與試驗合成新材料的差距,并以最小的人力快速發(fā)現(xiàn)材料,構(gòu)建自動化實驗室、實現(xiàn)閉環(huán)發(fā)現(xiàn)就顯得尤為重要了。
以加州大學(xué)伯克利分校的自動化實驗室 A-Lab 為例,其不僅能自動執(zhí)行實驗步驟,還能基于數(shù)據(jù)自主做出決策,在 17 天的連續(xù)運行中,成功合成了 58 個目標(biāo)材料中的 41 個,成功率高達 71%。由此可見,利用生成式 AI 設(shè)計材料,并通過自動化實驗室進行高效合成與驗證,正成為推動材料科學(xué)快速發(fā)展的一種有效途徑。