8x8ⅹ华人永久免费视颍,中文字幕高清在线中文字幕,高清无码午夜福利在线观看,精品国产人成亚洲区

歡迎來(lái)到化學(xué)加!萃聚英才,共享化學(xué)!化學(xué)加,加您更精彩!客服熱線:400-8383-509

化學(xué)加_專(zhuān)業(yè)的精細(xì)化工醫(yī)藥產(chǎn)業(yè)資源供需及整合平臺(tái)

華東師范大學(xué)化學(xué)與分子工程學(xué)院教授何曉:化學(xué)大模型ChemGPT 1.0

來(lái)源:華東師大上海國(guó)際首席技術(shù)官學(xué)院      2024-03-27
導(dǎo)讀:華東師范大學(xué)化學(xué)與分子工程學(xué)院教授、博士生導(dǎo)師,上海市分子智造前沿科學(xué)研究基地主任何曉于2023年12月23日,在“首屆全球CTO科技商學(xué)大會(huì)”上發(fā)表的《化學(xué)大模型ChemGPT 1.0》主題演講。以下為演講內(nèi)容精編。

01

ChemGPT的研究緣起及有機(jī)合成化學(xué)發(fā)展歷程

何曉首先介紹了華東師范大學(xué)開(kāi)展研究化學(xué)大模型ChemGPT的政策背景。他指出,生物醫(yī)藥是事關(guān)國(guó)家重大戰(zhàn)略的核心競(jìng)爭(zhēng)領(lǐng)域,“美國(guó)生物法案”對(duì)眾多國(guó)際前沿問(wèn)題和卡脖子難題進(jìn)行打壓,包括人工智能、芯片等領(lǐng)域?!渡虾J猩镝t(yī)藥產(chǎn)業(yè)發(fā)展“十四五”規(guī)劃》指出,2025年生物醫(yī)藥產(chǎn)業(yè)規(guī)模會(huì)達(dá)到一萬(wàn)億元以上。而生物醫(yī)藥與集成電路、人工智能同為上海市重點(diǎn)發(fā)展的三大產(chǎn)業(yè)。圍繞國(guó)家及上海市戰(zhàn)略需求,華東師大圍繞生物醫(yī)藥和人工智能重點(diǎn)領(lǐng)域開(kāi)展研究。

在介紹研究背景時(shí),何曉指出,分子改變世界,合成創(chuàng)造價(jià)值。2020年,我國(guó)化學(xué)原料和化學(xué)制品制造業(yè)主營(yíng)業(yè)務(wù)收入6.31萬(wàn)億元,原料要出口357億美元。從1828年人工合成尿素作為首例人工合成的化合物分子,到2010年鈀催化的交叉偶聯(lián)方法,新的研究方法和研究院范式的變革不斷推動(dòng)有機(jī)合成化學(xué)的發(fā)展。

何曉講述了合成化學(xué)經(jīng)歷了從分子制造到分子“智”造的發(fā)展歷程。指出分子智造以高質(zhì)量數(shù)據(jù)收集為基礎(chǔ),結(jié)合機(jī)器學(xué)習(xí),利用自動(dòng)化合成平臺(tái),實(shí)現(xiàn)區(qū)別于傳統(tǒng)合成模式的分子高校精準(zhǔn)創(chuàng)制。通過(guò)理論計(jì)算+大數(shù)據(jù)+機(jī)器學(xué)習(xí),以智能設(shè)計(jì)提高合成路線的精準(zhǔn)度,進(jìn)行綠色高效的自動(dòng)合成提高功能分子(小分子藥物)研發(fā)效率。

接下來(lái),何曉講述了分子智造、有機(jī)合成化學(xué)新的變革以及國(guó)際分子化學(xué)的進(jìn)展情況及我國(guó)相關(guān)研究存在的問(wèn)題。分子智造是有機(jī)合成化學(xué)國(guó)際競(jìng)爭(zhēng)的新的主戰(zhàn)場(chǎng),實(shí)際上,我國(guó)在分子智造領(lǐng)域研究剛剛開(kāi)始,與國(guó)際高水平研究有差距,目前存在的關(guān)鍵問(wèn)題包括:首先,重要反應(yīng)的特色數(shù)據(jù)庫(kù)確實(shí),缺乏自主知識(shí)產(chǎn)權(quán),深度數(shù)據(jù)分析背景噪音大;第二,缺乏化學(xué)邏輯算法,理性設(shè)計(jì)和智能設(shè)計(jì)缺乏有機(jī)結(jié)合,模型與結(jié)果的可解釋性不足;第三,模型砌塊較為基礎(chǔ),缺乏結(jié)果反饋訓(xùn)練,解放雙手卻無(wú)法解放大腦。

何曉介紹了華東師范大學(xué)分子智造主要研究?jī)?nèi)容。2021年,在上海市教委的支持下,華東師范大學(xué)成立了分子智造前沿科學(xué)研究基地。主要研究?jī)?nèi)容包括:第一,分子智造基礎(chǔ)科學(xué)研究體系的建立,主要包括新算法的開(kāi)發(fā),特色數(shù)據(jù)的構(gòu)建;第二,合成化學(xué)智能設(shè)計(jì)體系的構(gòu)建,進(jìn)行智能設(shè)計(jì)與理性設(shè)計(jì)的融合,基于智能設(shè)計(jì)的合成路線分析與優(yōu)化,面向制藥行業(yè)的分子智造軟件開(kāi)發(fā);第三,智能合成化學(xué)平臺(tái)的建立,基于智能設(shè)計(jì)的功能分子智造,分子智造與超限智造的結(jié)合,智能設(shè)計(jì)與自動(dòng)合成的聯(lián)用;第四,AI導(dǎo)向數(shù)字化智能平臺(tái)建設(shè),此平臺(tái)基于分子智造的理念,通過(guò)對(duì)不同合成領(lǐng)域?qū)嶒?yàn)過(guò)程數(shù)字化,實(shí)現(xiàn)利用單一平臺(tái)解決合成化學(xué)中多個(gè)學(xué)科的重要科學(xué)問(wèn)題。此外,作為拓展,與智能加、智能教育、科普等結(jié)合建設(shè)分子智造社會(huì)拓展平臺(tái)。

02

華東師大ChemGPT 1.0模型及技術(shù)亮點(diǎn)

何曉概述了ChemGPT的設(shè)計(jì)路徑。通過(guò)高質(zhì)量數(shù)據(jù)庫(kù)的構(gòu)建,與逆合成模型預(yù)測(cè),將化學(xué)反應(yīng)用計(jì)算機(jī)可識(shí)別的方式表達(dá),然后利用深度模型學(xué)習(xí)化合物之間的反應(yīng)規(guī)則,預(yù)測(cè)化合物的單步反應(yīng),再基于單步模型的預(yù)測(cè)結(jié)果,利用機(jī)器學(xué)習(xí)算法自動(dòng)構(gòu)建多步反應(yīng)路徑。通過(guò)構(gòu)建精確且多樣的化學(xué)性質(zhì)數(shù)據(jù)庫(kù),引入新的物理描述符,對(duì)分子體系全面化學(xué)性質(zhì)的監(jiān)督學(xué)習(xí),發(fā)展了對(duì)各類(lèi)分子體系普遍使用的全新泛函CF22D,為理論與計(jì)算化學(xué)提供新工具。何曉指出,基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)訓(xùn)練新的密碼泛函方法CF22D對(duì)弱相互作用的預(yù)測(cè)最為準(zhǔn)確。通過(guò)發(fā)展新的物理描述符,運(yùn)用人工智能方法,高精度預(yù)測(cè)化學(xué)反應(yīng)機(jī)理,相關(guān)的研究發(fā)表在Nature和Science等主流期刊上。

何曉對(duì)華東師范大學(xué)ChemGPT 1.0的架構(gòu)進(jìn)行介紹。通過(guò)化學(xué)知識(shí)收集、化學(xué)合成反應(yīng),基于LLM模式進(jìn)行預(yù)訓(xùn)練,通過(guò)接口開(kāi)發(fā)最終進(jìn)行網(wǎng)頁(yè)、公眾號(hào)、小程序等部署。ChemGPT可以進(jìn)行針對(duì)化學(xué)的專(zhuān)業(yè)知識(shí)問(wèn)答、實(shí)時(shí)查詢(xún)和GPT逆合成。其數(shù)據(jù)集包含了化學(xué)、生物等自然科學(xué)的豐富數(shù)據(jù),包含化學(xué)性質(zhì)問(wèn)答類(lèi)數(shù)據(jù)734種,科學(xué)類(lèi)(涵蓋化學(xué))問(wèn)答類(lèi)數(shù)據(jù)11679種,化學(xué)類(lèi)問(wèn)答類(lèi)數(shù)據(jù)658種,包括生活常識(shí)、化學(xué)知識(shí)問(wèn)答等。此外,包含維基百科詞條一萬(wàn)多條,轉(zhuǎn)換成200多萬(wàn)的問(wèn)答數(shù)據(jù)。同時(shí),進(jìn)行反應(yīng)數(shù)據(jù)庫(kù)的構(gòu)建,從化學(xué)反應(yīng)數(shù)據(jù)庫(kù)中學(xué)習(xí)潛在的反應(yīng)規(guī)則,并對(duì)單步反應(yīng)進(jìn)行預(yù)測(cè)。當(dāng)前數(shù)據(jù)庫(kù)面臨的挑戰(zhàn)包括:一是數(shù)據(jù)量有限,泛化能力受限;二是標(biāo)注數(shù)據(jù)的質(zhì)量較低,影響模型訓(xùn)練和評(píng)估;三是數(shù)據(jù)偏差和樣本不平衡,預(yù)測(cè)能力不足。目前采取數(shù)據(jù)集融合方式作為解決方案。

何曉分析了ChemGPT模型和技術(shù)上的亮點(diǎn)。第一,制作了高質(zhì)量化學(xué)對(duì)話數(shù)據(jù)集,由問(wèn)答類(lèi)和專(zhuān)業(yè)背景類(lèi)兩部分組成;第二,針對(duì)化學(xué)領(lǐng)域中化合物逆合成的難題,通過(guò)數(shù)據(jù)拼接、數(shù)據(jù)疊加、數(shù)據(jù)加權(quán)和數(shù)據(jù)合成方式構(gòu)建了逆合成數(shù)據(jù)庫(kù)。更大規(guī)模的數(shù)據(jù)提高了反應(yīng)性,高質(zhì)量的標(biāo)注數(shù)據(jù)提高模型的準(zhǔn)確性和可靠性,解決數(shù)據(jù)平衡問(wèn)題,提高功能分子研發(fā)效率;第三,創(chuàng)新對(duì)話模型和逆合成模型,多模型多模塊融合技術(shù)進(jìn)行集成。對(duì)話模型和逆合成模型分別基于ChatGLM和llama基座模型進(jìn)行改進(jìn),使用全量微調(diào),在A800的GPU集群上使用2個(gè)月的時(shí)間完成對(duì)模型進(jìn)行微調(diào)。提出并使用了多模型多模塊融合技術(shù)進(jìn)行集成,但無(wú)需安裝插件,能同時(shí)支持化學(xué)專(zhuān)業(yè)知識(shí)領(lǐng)域、化學(xué)逆合成、生物醫(yī)療、通用領(lǐng)域的知識(shí)問(wèn)答,支持自動(dòng)上網(wǎng)查資料幫助模型返回高質(zhì)量實(shí)時(shí)問(wèn)答、繪畫(huà)功能等。

何曉還介紹了目前的一些工作進(jìn)展。基于LLM的多部逆合成路線搜索,將路徑搜索問(wèn)題建模為優(yōu)化問(wèn)題,使用演化算法(EA)進(jìn)行求解?;谘莼惴ǎ‥A)的多步逆合成路徑搜索,有兩個(gè)優(yōu)勢(shì):一是基于路徑的縱向搜索,速度快;二是多點(diǎn)搜索策略,可提供多套可行方案。華東師大科研團(tuán)隊(duì)構(gòu)建分子逆合成多步搜索模型,將路徑搜索問(wèn)題建模為優(yōu)化問(wèn)題,并利用演化算法(EA)進(jìn)行求解,EA深度有限搜索策略,相比于MCTS,路徑搜索時(shí)間降低34%-98%。構(gòu)建自動(dòng)化學(xué)合成反應(yīng)技術(shù)體系,完成自動(dòng)化學(xué)合成反應(yīng)技術(shù)體系整體構(gòu)建和框架設(shè)計(jì),以微流控芯片為基礎(chǔ)的化學(xué)合成實(shí)驗(yàn)將原反應(yīng)時(shí)間縮短80%。此外,研究團(tuán)隊(duì)還將機(jī)器篩選與人工智能相結(jié)合,干濕迭代形成閉環(huán),通過(guò)AI設(shè)計(jì)新的反應(yīng)條件等。

微信截圖_20240327092832.png

聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點(diǎn)或證實(shí)其描述。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn

<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>