捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

山東大學(xué)開(kāi)發(fā)可解釋深度學(xué)習(xí)算法 RetroExplainer,4 步識(shí)別有機(jī)物的逆合成路線

HyperAI超神經(jīng)
原創(chuàng)
人工智能說(shuō)明書(shū),了解 AI 的功效和副作用。
收藏

逆合成旨在找到一系列合適的反應(yīng)物,以高效合成目標(biāo)產(chǎn)物。這是解決有機(jī)合成路線的重要方法,也是有機(jī)合成路線設(shè)計(jì)的最簡(jiǎn)單、最基本的方法。

早期的逆合成研究多依賴編程,隨后這一工作被 AI 接替。然而,現(xiàn)有的逆合成方法多關(guān)注單步逆合成,可解釋性差,且無(wú)法兼顧分子的短程信息和長(zhǎng)程信息,性能受限。

為此,山東大學(xué)的魏樂(lè)義和電子科技大學(xué)的鄒權(quán)課題組共同開(kāi)發(fā)了 RetroExplainer。這一可解釋的深度學(xué)習(xí)算法,可以 4 步識(shí)別有機(jī)物的逆合成路線,給出易得的反應(yīng)物。RetroExplainer 有望為有機(jī)化學(xué)逆合成研究提供強(qiáng)力工具。

作者 | 雪菜

編輯 | 三羊

有機(jī)化學(xué)逆合成 (Retrosynthesis) 旨在找到一系列合適的反應(yīng)物,以高效合成目標(biāo)產(chǎn)物。這一過(guò)程是計(jì)算機(jī)輔助合成中不可或缺的基礎(chǔ)性工作。

圖 1:叔丁醇的逆合成路線

上世紀(jì) 60 年代,Corey 等人嘗試通過(guò)編程進(jìn)行逆合成分析,并開(kāi)發(fā)了有機(jī)化學(xué)模擬合成 (OCSS) 軟件。然而,隨著數(shù)據(jù)量的增加,這一工作很快被 AI 接手。其中,深度學(xué)習(xí) (Deep Learning) 模型被寄予厚望,也產(chǎn)出了相當(dāng)?shù)某晒?/p>

早期的 AI 逆合成研究中,研究者往往基于反應(yīng)模板從產(chǎn)物倒推到反應(yīng)物,即基于模板的逆合成。其中,基于多層感知器的分子指紋 (Molecular Fingerprints) 常被用于產(chǎn)物的編碼和模板的選擇。

隨后,研究人員開(kāi)始探尋無(wú)模板和半模板的合成方法,主要包括:

1、基于序列的逆合成;

2、基于圖表的逆合成。

二者的主要區(qū)別在于分子的表現(xiàn)形式。前者用線性化的字符串表示分子,如 SMILES 規(guī)范;而后者會(huì)使用分子圖模型表示分子,主要包括反應(yīng)中心 (RC, Reaction Center) 的預(yù)測(cè)和合成子 (Synthon) 的完成。

圖 2:部分物質(zhì)的 SMILES 表達(dá)式

雖然現(xiàn)有的逆合成方法已經(jīng)取得了重大進(jìn)展,但仍存在 3 個(gè)內(nèi)源性問(wèn)題

1、基于序列的逆合成會(huì)遺漏分子信息,而基于圖表的逆合成會(huì)忽視分子的序列信息和長(zhǎng)程特征。兩種方法在特征學(xué)習(xí)中都會(huì)受到限制,性能很難再提升;

2、基于深度學(xué)習(xí)的逆合成方法可解釋性很差。雖然基于模板的逆合成能給出易懂的合成路線,但算法的決策機(jī)制依然很模糊,模型的可重復(fù)性和可行性有待考慮;

3、現(xiàn)有方法多聚焦于單步逆合成。這種方法看似可以給出合理的反應(yīng)物,然而這些反應(yīng)物可能很難購(gòu)買,或是需要復(fù)雜的后處理。因此,多步逆合成在實(shí)際的化學(xué)合成中可能更具意義。

為此,山東大學(xué)的魏樂(lè)義和電子科技大學(xué)的鄒權(quán)課題組共同開(kāi)發(fā)了 RetroExplainer。這一算法能夠基于深度學(xué)習(xí)進(jìn)行逆合成預(yù)測(cè),同時(shí)兼顧算法的可解釋性和可行性。RetroExplainer 在幾乎 12 個(gè)基準(zhǔn)數(shù)據(jù)集中的表現(xiàn)優(yōu)于其他算法,提出的合成路線中 86.9% 的反應(yīng)得到了文獻(xiàn)的驗(yàn)證。這一成果已發(fā)表于「Nature Communications」。

這一成果已發(fā)表于「Nature Communications」

論文鏈接:

https://www.nature.com/articles/s41467-023-41698-5

實(shí)驗(yàn)過(guò)程

算法構(gòu)建:模塊 + 子網(wǎng)格

整個(gè)逆合成分析過(guò)程包括 4 步:分子的圖表編碼、多任務(wù)學(xué)習(xí)、決策、多步合成路線預(yù)測(cè)。

RetroExplainer 主要包括 4 個(gè)模塊:多感知多尺度圖 Transformer (MSMS-GT)、動(dòng)態(tài)自適應(yīng)多任務(wù)學(xué)習(xí) (DAMT)、可解釋的決策模塊及路線預(yù)測(cè)模塊。

圖 3:RetroExplainer 及其模塊示意圖

a:RetroExplainer 流程示意圖;

b:MSMS-GT 架構(gòu);

c:DAMT 算法示意圖;

d:與反應(yīng)機(jī)制類似的決策過(guò)程。

MSMS-GT 通過(guò)化學(xué)鍵嵌入和原子的拓?fù)淝度氩东@重要的化學(xué)信息。編碼后的信息通過(guò)多頭注意力 (Multi-Head Attention) 機(jī)制融合成分子向量。

在 DAMT 模塊中,分子信息被同時(shí)輸入至反應(yīng)中心預(yù)測(cè) (RCP)、離去基團(tuán)匹配 (LGM, Leaving Group Match) 和離去基團(tuán)連接 (LGC, Leaving Group Connect) 子網(wǎng)格中。

RCP 會(huì)識(shí)別化學(xué)鍵和原子相鄰氫原子數(shù)量的變化,LGM 會(huì)將產(chǎn)物中的離去基團(tuán)與數(shù)據(jù)庫(kù)中的匹配,LGC 會(huì)將離去基團(tuán)和產(chǎn)物殘基相連。

決策模塊會(huì)基于 5 個(gè)逆合成動(dòng)作和決策曲線的能量分?jǐn)?shù) (E, Energy Score),將產(chǎn)物轉(zhuǎn)換為反應(yīng)物,反向模擬分子組裝過(guò)程。

最終,使用啟發(fā)式樹(shù)搜索算法找到高效的產(chǎn)物合成路線,同時(shí)確保反應(yīng)物的可得性。

性能對(duì)比:USPTO 基準(zhǔn)數(shù)據(jù)集

為驗(yàn)證 RetroExplainer 的性能,研究人員基于美國(guó)專利及商標(biāo)局 (USPTO) 收錄的化學(xué)反應(yīng),與其他 21 種逆合成算法進(jìn)行了對(duì)比,評(píng)價(jià)指標(biāo)為 top-k 準(zhǔn)確率。

表 1:RetroExplainer 與其他算法的性能對(duì)比 (USPTO-50K)

可以看到,基于 USPTO-50K 數(shù)據(jù)集,在 8 項(xiàng)評(píng)價(jià)指標(biāo)中,RetroExplainer 有 5 項(xiàng)優(yōu)于其他算法,其平均準(zhǔn)確率位列第一。雖然 RetroExplainer 在 top-10 準(zhǔn)確率中不及 LocalRetro,但二者的差距僅 1%。

為消除相似分子帶來(lái)的影響,研究人員用谷本相似性 (Tanimoto Similarity) 對(duì)數(shù)據(jù)進(jìn)行了重劃分,并與 R-SMILE、LocalRetro 這兩種準(zhǔn)確率最高的算法進(jìn)行了對(duì)比。

圖 4:RetroExplainer 與 R-SMILES 和 LocalRetro在不同數(shù)據(jù)集的性能對(duì)比

結(jié)果中可以看到,RetroExplainer 在大多數(shù)數(shù)據(jù)集中有更好的表現(xiàn),體現(xiàn)了其穩(wěn)定性和適應(yīng)性。

隨后,研究人員在更大規(guī)模的 USPTO-MIT 和 USPTO-FULL 數(shù)據(jù)集進(jìn)行了算法性能對(duì)比。RetroExplainer 各項(xiàng)指標(biāo)均優(yōu)于其他算法,且與其他算法差距更大,說(shuō)明 RetroExplainer 在大規(guī)模的數(shù)據(jù)分析中更有潛力。

表 2:RetroExplainer 與其他算法的性能對(duì)比(USPTO-MIT 及 USPTO-FULL)

可解釋性:決策可視化

受雙分子親核取代反應(yīng) (SN2) 的啟發(fā),研究人員基于深度學(xué)習(xí)引導(dǎo)的分子組裝設(shè)計(jì)了可解釋的逆合成預(yù)測(cè)過(guò)程。決策過(guò)程包括 6 個(gè)階段:原產(chǎn)物 (P)、離去基團(tuán)匹配 (S-LGM)、初始化 (IT)、離去基團(tuán)連接 (S-LGC)、反應(yīng)中心化學(xué)鍵變化 (S-RCP)、氫原子數(shù)變化 (HC)。

基于每個(gè)階段對(duì)最終決策的貢獻(xiàn),DAMT 的子網(wǎng)格會(huì)為每個(gè)階段生成一個(gè)能量分?jǐn)?shù) (E)。

具體流程如下:

1、P 階段將各階段的 E 初始化為 0;

2、S-LGM 階段,根據(jù) LGM 模塊的預(yù)測(cè)概率,選擇離去基團(tuán);

3、將 S-LGM 階段選擇的離去基團(tuán)的 E 與 RCP、LGM 模塊預(yù)測(cè)的響應(yīng)事件概率相加,得到 IT 階段的能量;

4、S-LGC 和 S-RCP 階段,基于動(dòng)態(tài)規(guī)劃算法,擴(kuò)展搜索樹(shù)中的所有可能節(jié)點(diǎn)。選擇概率大于預(yù)設(shè)閾值的事件,同時(shí)將 E 固定;

5、調(diào)整每個(gè)原子的氫原子數(shù)和形式電荷,確保得到的分子圖符合化合價(jià)規(guī)則,并計(jì)算最終 E。

圖 5:RetroExplainer 的決策過(guò)程

a:RetroExplainer 對(duì) 2 個(gè)預(yù)測(cè)結(jié)果的搜索線路;

b:排名前 12 預(yù)測(cè)路線的決策曲線;

c:6 種代表合成路線的結(jié)構(gòu)變化過(guò)程。

基于 E 的變化繪制決策曲線,就能對(duì) RetroExplainer 的決策過(guò)程進(jìn)行分析,找出 RetroExplainer 的預(yù)測(cè)錯(cuò)誤。

如圖所示,產(chǎn)物的正確合成路線應(yīng)為胺的脫保護(hù)反應(yīng),然而 RetroExplainer 將其排在第 6,排名第 1 的是 C-N 偶聯(lián)反應(yīng)。分析發(fā)現(xiàn),HC 階段中 RetroExplainer 傾向于增加胺的氫原子數(shù),導(dǎo)致了這一差別,說(shuō)明 RetroExplainer 在 HC 階段對(duì)相似結(jié)構(gòu)的分子可能存在同樣的誤判。

通過(guò)對(duì)比 RetroExplainer 排名第 1 和第 2 的反應(yīng),研究人員發(fā)現(xiàn) E 可能與反應(yīng)的難度有關(guān)。雖然反應(yīng) 1 中 I:33 和 C:26 的連接不利于能量的減少,然而在 C:26 處連接一個(gè)氫原子需要前一反應(yīng) 13 倍的能量。同時(shí) I:33 的引入,弱化了 C-N 偶聯(lián)反應(yīng)面臨的選擇性問(wèn)題。

同時(shí),空間位阻也會(huì)對(duì) RetroExplainer 的預(yù)測(cè)結(jié)果產(chǎn)生影響。對(duì)比排名第 4 和第 21 的反應(yīng),它們的分子結(jié)構(gòu)一致,但離去基團(tuán)連在了對(duì)稱的 N 上,導(dǎo)致了 E 的差別。

路徑規(guī)劃:多步預(yù)測(cè)合成路線

為提高 RetroExplainer 預(yù)測(cè)的實(shí)際性,研究人員將其與 Retro 算法相結(jié)合,將后者的單步預(yù)測(cè),替換為多步預(yù)測(cè)。

以支氣管擴(kuò)張劑普羅托醇 (Protokylol) 為例,RetroExplainer 為這一產(chǎn)物設(shè)計(jì)了 4 步的合成路線。隨后,研究人員對(duì)這 4 步反應(yīng)進(jìn)行了文獻(xiàn)調(diào)研,以探究其可行性。

圖 6:RetroExplainer 提出的 4 步合成普羅托醇的路線

圖中藍(lán)色文本是參考文獻(xiàn)中記錄的相似反應(yīng),紅色部分為 RetroExplainer 的決策過(guò)程。

雖然很多反應(yīng)沒(méi)有找到完全一致的參考,但他們找到了相似的高產(chǎn)率反應(yīng)。此外,RetroExplainer 為 101 個(gè)案例設(shè)計(jì)了 176 個(gè)實(shí)驗(yàn),其中 153 個(gè)可以在 SciFinder 中找到相似的反應(yīng)。

上述結(jié)果說(shuō)明,RetroExplainer 對(duì)逆合成的預(yù)測(cè)優(yōu)于目前其他算法。同時(shí),RetroExplainer 決策透明,具有可解釋性,且對(duì)反應(yīng)進(jìn)行多步規(guī)劃,可行性更強(qiáng)。RetroExplainer 有望為有機(jī)化學(xué)逆合成研究提供強(qiáng)力工具。

性能 vs. 可解釋性,矛盾的 AI

可解釋性 (Explainability) 是在各個(gè)場(chǎng)景應(yīng)用 AI 的關(guān)鍵因素。隨著 AI 在無(wú)人駕駛、醫(yī)療診斷、金融保險(xiǎn)等行業(yè)的不斷發(fā)展,AI 的決策過(guò)程顯得愈發(fā)重要,也面臨著越來(lái)越多的實(shí)踐、社會(huì)乃至法律問(wèn)題。

同時(shí),可解釋性能夠幫助用戶理解、維護(hù)和使用 AI,發(fā)現(xiàn)并理解 AI 應(yīng)用領(lǐng)域的新概念。可解釋性還體現(xiàn)了結(jié)果的可行性,并告訴用戶這一決策的收益是最大的。

圖 7:?jiǎn)栴}解決過(guò)程中的解釋環(huán)節(jié)

然而,模型性能和模型的可解釋性是困擾 ScienceAI 的一個(gè)很大問(wèn)題,如果模型性能好、具有很好的跨測(cè)試集魯棒性,那可能用高維深度特征效果會(huì)更好,但它不具備任何物理意義,也就是我們常說(shuō)的「偏科研的可解釋性大都很差」。

相反,如果用好解釋的特征,雖然在物理上非常具有可解釋性,但是實(shí)際模型表現(xiàn)會(huì)有很大的數(shù)據(jù)依賴性,換一個(gè)數(shù)據(jù)集模型性能就會(huì)下降。

二者的矛盾到現(xiàn)在都還沒(méi)有一個(gè)很好的方式統(tǒng)一,但在本研究中,研究人員將 AI 的決策過(guò)程分步可視化,讓使用者清晰地了解到各種預(yù)測(cè)結(jié)果在各階段的得分變化,理解了 AI 的決策過(guò)程,也便于開(kāi)發(fā)者進(jìn)行模型的優(yōu)化。

隨著可解釋 AI 的不斷發(fā)展,人們對(duì)于 AI 的理解會(huì)更加深入,AI 的決策過(guò)程也會(huì)更加易懂。未來(lái),人機(jī)之間的互動(dòng)將不斷增加,交互門檻進(jìn)一步降低,AI 將在更多場(chǎng)景中投入使用,讓生活更加便捷智能。

評(píng)論
????
貢士級(jí)
2023-10-27
田新洲
太傅級(jí)
山東大學(xué)…
2023-10-27
????
貢士級(jí)
2023-10-26