(圖片來源:Chem)
正文
機(jī)器學(xué)習(xí)(Machine Learning, ML)即應(yīng)用程序在無需人工參與的情況下,執(zhí)行流程改進(jìn),并按需更新代碼、擴(kuò)展功能。機(jī)器學(xué)習(xí)可應(yīng)用在圖像識(shí)別、語音識(shí)別、交通預(yù)測(cè)、產(chǎn)品推薦、自動(dòng)駕駛汽車、垃圾郵件和惡意軟件的過濾、虛擬的個(gè)人助理(如:Siri,小度)、股市交易、醫(yī)學(xué)診斷以及自動(dòng)語言翻譯(Fig. 1)。下載化學(xué)加APP到你手機(jī),收獲更多商業(yè)合作機(jī)會(huì)。
(圖片來源:Google)
機(jī)器學(xué)習(xí)在化學(xué)科學(xué)中也得到廣泛應(yīng)用,從藥物發(fā)現(xiàn)、化合物性質(zhì)預(yù)測(cè)再到合成路線的設(shè)計(jì)等(Fig. 2A,Cell, 2020, 180, 688; Chem. Soc. Rev., 1995, 24, 279; Nature, 2018, 555, 604)。然而,將化學(xué)分子轉(zhuǎn)化為計(jì)算機(jī)可讀的數(shù)據(jù)仍然是一個(gè)挑戰(zhàn),這需要考慮數(shù)據(jù)集、輸入和模型之間的復(fù)雜關(guān)系。盡管已經(jīng)開發(fā)了一些表示方法,但由于應(yīng)用的多樣性,目前仍然存在一些挑戰(zhàn)(Chem. Soc. Rev., 2020, 49, 6154; Chem, 2020, 6, 1379; Nature, 2019, 571, 343; Science, 2018, 360, 186; Nat. Mach. Intell., 2020, 2, 573)。Frank Glorius提出一個(gè)理想的解決方案應(yīng)該具備高適應(yīng)性、普適性、預(yù)測(cè)性能以及可解釋性(Fig. 2B),Glorius教授呼吁開發(fā)一種跨越不同分子科學(xué)領(lǐng)域應(yīng)用的通用方法,以提高預(yù)測(cè)準(zhǔn)確性和解釋性。
Fig. 2. Different fields of application and molecular representations for molecular machine learning
(圖片來源:Chem)
Glorius團(tuán)隊(duì)開發(fā)了一種新算法—EvoMPF,用于生成表示分子。這個(gè)方法旨在解決機(jī)器學(xué)習(xí)在研究化學(xué)問題時(shí)遇到的挑戰(zhàn),特別是在特征化過程中過度擬合的情況。Glorius提出了一種靈活的分子查詢語言(SMARTS),該語言可以查詢?cè)摶衔锏膶傩裕ɡ珉s化、電荷和手性)以及鄰近原子數(shù)。經(jīng)過迭代、評(píng)估訓(xùn)練和調(diào)整優(yōu)化,可以生成用于描述分子的分子指紋(MPFs)。進(jìn)化算法利用隨機(jī)生成和突變來生成新的模式,通過訓(xùn)練機(jī)器學(xué)習(xí)模型來評(píng)估每個(gè)MPF的性能。用CatBoost做為機(jī)器學(xué)習(xí)模型,在機(jī)器學(xué)習(xí)的每次迭代進(jìn)化中MPF都能豐富相關(guān)的數(shù)據(jù)集,而整體上不發(fā)生對(duì)數(shù)據(jù)集的過度調(diào)整,從而產(chǎn)生高度可解釋且密集的分子表示,這種就是EvoMPF。Glorius和團(tuán)隊(duì)成員通過這種方法生成的分子具有高度的解釋性,且不會(huì)過度擬合數(shù)據(jù)(Fig. 3)。
(圖片來源:Chem)
優(yōu)化和產(chǎn)率預(yù)測(cè):定量產(chǎn)率預(yù)測(cè)需要考慮分子的組合性質(zhì)、目標(biāo)產(chǎn)物的復(fù)雜性以及數(shù)據(jù)樣本過少的問題。他們指出用于定量預(yù)測(cè)還必須考慮過擬合的問題,必須通過統(tǒng)計(jì)探測(cè)方法評(píng)估模型的泛化能力以及影響。用于測(cè)試算法性能的Doyle-Dreher數(shù)據(jù)集,包含了大量的Buchwald-Hartwig交叉偶聯(lián)反應(yīng)數(shù)據(jù)(Fig. 4A)。在這個(gè)數(shù)據(jù)集中,有多種芳基鹵化物、鈀催化劑和堿與多種異噁唑酮添加劑的組合。為了評(píng)估模型對(duì)新化合物的泛化能力,使用了樣本外(OOS)的數(shù)據(jù)集來進(jìn)行測(cè)試(Fig. 4B)?;谶M(jìn)化算法生成和優(yōu)化描述分子結(jié)構(gòu)的分子指紋(MPFs)。他們使用SMARTS語言來定義查詢分子,然后EvoMPF隨機(jī)生成和優(yōu)化這些模式,以描述數(shù)據(jù)集的關(guān)鍵特征。通過在每次迭代中評(píng)估預(yù)測(cè)性能,他們證明了進(jìn)化算法能夠有效地完成該分子的產(chǎn)率預(yù)測(cè)。在進(jìn)行了一系列實(shí)驗(yàn)后,發(fā)現(xiàn)使用二進(jìn)制特征在組合數(shù)據(jù)集上查詢只需少量數(shù)據(jù)點(diǎn)即可獲得出色的預(yù)測(cè)性能。這表明了所需特征數(shù)量減少,該方法可以快捷的找到合適的描述符(Fig. 4C)。該研究還發(fā)現(xiàn)使用二進(jìn)制特征只需要256個(gè)模式就能夠獲得出色的預(yù)測(cè)性能,盡管使用32個(gè)模式就足以獲得類似的性能(Fig. 4D)。在研究中,Glorius還指出他們的方法在大多數(shù)測(cè)試中略微優(yōu)于復(fù)雜的深度學(xué)習(xí)模型(Deep Learning)和人工設(shè)計(jì)的指紋。這突顯了無特征的重要性,以及該方法在產(chǎn)率預(yù)測(cè)時(shí)的有效性(Fig. 4E)。
(圖片來源:Chem)
應(yīng)用范圍:該研究還了測(cè)試EvoMPF在各種反應(yīng)數(shù)據(jù)集上的性能。由Richardson和Sach發(fā)表的一個(gè)數(shù)據(jù)集包括5,760個(gè)Suzuki-Miyaura交叉偶聯(lián)反應(yīng)(Fig. 5A)。盡管已表明這個(gè)數(shù)據(jù)集是可預(yù)測(cè)的,但目前為止,還沒有方法證明可以將機(jī)器學(xué)到的規(guī)則轉(zhuǎn)移到之前未見過的結(jié)構(gòu)上。由于EvoMPF可以輕松應(yīng)用于小型的數(shù)據(jù)集,因此沒有進(jìn)一步耗時(shí)優(yōu)化,使進(jìn)化和模型參數(shù)保持不變。在這些OOS數(shù)據(jù)集上依舊獲得了較高的預(yù)測(cè)準(zhǔn)確度。有趣的是,在排除所有使用P(OTol)3和SPhos作為配體反應(yīng)的OOS分割中,統(tǒng)計(jì)對(duì)照(即OHE)的表現(xiàn)甚至比EvoMPF好,這表明這些配體對(duì)產(chǎn)率沒有很大的影響。之后,還對(duì)手性磷酸催化劑催化生成不對(duì)稱N, S-縮醛數(shù)據(jù)集進(jìn)行了對(duì)映選擇性的預(yù)測(cè),EvoMPF的表現(xiàn)優(yōu)于相應(yīng)的統(tǒng)計(jì)對(duì)照,并且與更復(fù)雜的多特征指紋(Fig. 5B)以及差異反應(yīng)指紋(DRFPs)相當(dāng)。
Fig. 5. Performance of the MPFs on different quantitative reaction prediction tasks
隨著EvoMPF在小型數(shù)據(jù)集上表現(xiàn)出的準(zhǔn)確性和穩(wěn)定性,研究還測(cè)試了該算法在不同的分子預(yù)測(cè)任務(wù)上的普適性。該研究對(duì)藥理學(xué)終點(diǎn)的預(yù)測(cè),特別是LD50的預(yù)測(cè)表現(xiàn)出色(Fig. 6A)。研究使用了多個(gè)來源的數(shù)據(jù)集其中包含了大量化合物數(shù)據(jù),并進(jìn)行了對(duì)比實(shí)驗(yàn)以驗(yàn)證EvoMPF相對(duì)于傳統(tǒng)方法的優(yōu)越性(Fig. 6B)。結(jié)果表明,EvoMPF能夠有效地處理復(fù)雜的預(yù)測(cè)任務(wù),展現(xiàn)出了極高的穩(wěn)定性。接著將EvoMPF應(yīng)用于QSAR/QSPR領(lǐng)域的四個(gè)基準(zhǔn)數(shù)據(jù)集(Fig. 6E),這些數(shù)據(jù)集涵蓋了不同的任務(wù)和分子特性。通過測(cè)試(HIV病毒的復(fù)制能力、分子的量子力學(xué)性質(zhì)),證明EvoMPF在各種任務(wù)中的穩(wěn)健性和性能優(yōu)勢(shì),甚至在某些情況下超過了圖神經(jīng)網(wǎng)絡(luò)(GNN)的性能,這表明EvoMPF在不同領(lǐng)域和任務(wù)中的廣泛適用性。
Fig. 6. Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks
可解釋和解釋性人工智能:在毒性預(yù)測(cè)的數(shù)據(jù)庫中,研究發(fā)現(xiàn)某些元素的PAPs查詢數(shù)量與其平均毒性、毒性方差以及含有這些元素?cái)?shù)據(jù)點(diǎn)的數(shù)量之間存在著強(qiáng)烈的相關(guān)性,這突顯了EvoMPF的可解釋朝著識(shí)別相關(guān)化合物的方向發(fā)展。隨后,研究將EvoMPF應(yīng)用于Buchwald-Hartwig數(shù)據(jù)集中,驗(yàn)證其生成的特征是否能夠捕獲已知的反應(yīng)趨勢(shì)。通過與人共設(shè)計(jì)的查詢相比較,他們發(fā)現(xiàn)EvoMPF生成的查詢不僅考慮到了人類設(shè)計(jì)的結(jié)構(gòu)特征,還捕捉到了更加微妙的反應(yīng)性趨勢(shì),例如特定配體對(duì)反應(yīng)產(chǎn)率的影響(Fig. 7B)。這證明了EvoMPF生成的特征對(duì)化學(xué)結(jié)構(gòu)與反應(yīng)性有更深層的理解??偟膩碚f,通過EvoMPF生成的特征具有直接的可解釋性,并且能夠反映化學(xué)結(jié)構(gòu)與反應(yīng)性之間的復(fù)雜關(guān)系,這使得研究人員能夠直接從數(shù)據(jù)中洞察整個(gè)反應(yīng)流程,而無需額外的模型分析。
Fig. 7. Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI
總結(jié)
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點(diǎn)或證實(shí)其描述。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn