

近日,好意思国耶鲁大学博士毕业生李昊特和结合者建筑了一套叫 MOSAIC 的 AI 系统,把化学合成学问分红了 2,498 个专科范畴,每个范畴测验一个群众模子。
这套系统在测试中对突出 35 种全新化合物的合成得手率达到了 71%,甚而帮谈判东谈主员完成了之前文件报谈失败的化学响应和前所未见的新响应。
使用时给定 AI 一个化学结响应式,它不光告诉你这物资花样,还告成给你一份不错进施行室操作的详备法子,包括用什么试剂、加些许量、加热多久、若何提纯,甚而连每一步的详实事项齐写好了。日前,联系论文发表于《当然》。

图 | 李昊特(开首:https://scholar.google.com/citations?user=nXimADQAAAAJhl=en)
这项谈判的起点,来自于谈判东谈主员对化学学科近况的不雅察。化学是一门以施手脚基础、教导性极强的学科。东谈主们学到的学问和妙技大多来自前东谈主的齐集,这底本是功德,但问题在于,今天每年有上百万篇化学论文发表,莫得任何一个化学家能读完扫数文件,更无谓说记取其中的细节了。
化学渗入在生存的方方面面,从制药、材料、催化到农业和花费品,新药物的建筑、新材料的合成齐需要多数的试错。
一个有机化学响应的优化时时波及多个参数:溶剂、浓度、响应方法、时间、温度弧线,何况这些参数还会相互影响。探索一个新响应,鄙俗需要多数的时间进入和试错资本。
在这么的布景下,谈判东谈主员想作念一个系统:输入一个办法分子,系统不仅告诉你能不行合成,还能给出不错告成进施行室操作的详备法子。
但是,通用大模子固然能聊天,但你要让它给出一个具体化学响应的施行法子,它鄙俗说得驴唇不对马嘴。它会用看起来很专科的术语杜撰一套决策,温度区分、试剂区分、方法也区分,按照它说的去作念很可能什么齐得不到,甚而炸掉响应瓶。

MOSAIC 的作念律例是把通盘化学合成学问空间分割成 2,498 个小区域,每个区域选一个群众。比如某个群众特意厚爱一种叫 Buchwald-Hartwig 的偶联响应,尤其是氯代芳醇环的那种。
当你输入一个新的化学响适时,系统先在学问空间里找到离它最近的群众,然后让这个群众来讲述。
为了判断哪个群众离得近,谈判东谈主员先测验了一个叫 KMN 的神经网罗。这个网罗能把化学响应悠扬成 128 维的数字向量,专科上叫响应特异性指纹。向量之间的距离越近,开云体育app2026世界杯中国官网下载阐发两个响应越同样。
有了这个空间,他们用了一个叫 FAISS 的高效检索用具,把学问库聚类成 2,498 个沃罗诺伊单位,每个单位即是一个群众的土地。
测验的时候,先让一个基础模子把所罕有据齐学一遍,再针对每个群众处所的子集作念二次微调。对一个新响应作念估量时,系统先算出它的向量,找到最近的几个沃罗诺伊单位,激活对应的群众,然后让群众输出无缺的施行决策。
谈判东谈主员率先尝试了测验一个无缺的大模子,但很快强壮到需要的筹画资源太大了,几百上千张 GPU 卡,大多数施行室无法恒久测试。
自后他们调换念念路,从最基础的作念起,只把模子在单个类型响应上微调。死字发现,浮浅的办法反而获得了好的死字。
传统方法需要几百上千张 GPU 卡,MOSAIC 只需要几张卡就能跑,何况是可捏续滋长的。新数据来了不需要再行测验通盘系统,只需要在学问空间里加新的沃罗诺伊单位,测验新的群众,2026世界杯中国官方app照旧存在的群众不受影响。
搜索的时候系统会同期从已有和新索引里找死字,合比肩序后输出。这种去中心化的贪图对资源有限的学术施行室相配友好。对大多数谈判者来说,用单个或几个 A100 GPU 就能让这个架构捏续突出。
谈判东谈主员用 MOSAIC 估量了 37 种新化合物的合成门道,其中有 35 种在第一次尝试时就得手了。更让东谈主不测的是一个 5-氮杂吲哚生息物的合成,这类化合物在之前文件报谈中被标注为是难以用现存方法制备的。
而 MOSAIC 给出的估量距离最近的群众中心距离是 320,远高于鄙俗的置信阈值 150,这意味着这个响应在学问库里险些找不到附近的前例。
但是,谈判东谈主员总计按照估量作念了施行并得手杀青了居品,同期 MOSAIC 找到了一个之前未被报谈过的环化方法。这阐发这套系统不单是照搬已有学问,它有一定的泛化才调,能在已有学问的旯旮组合出新的方法。
谈判东谈主员强调,最紧迫的施行死字就来自于这种全新机理的响应估量。只是总计参照模子给出的估量,他们就获得了施行上的得手,何况让之前已报谈过的换取底物上失败案例得以杀青。论文审稿东谈主对这少许也唱和有加,以为全新响应的改进是本次论文的一大亮点。
他们还发现了一个很有兴趣的规则,他们把扫数合成尝试的死字和估量的置信度作念了对比。当估量距离小于 100 时,施行得手率突出 75%。当距离大于 200 时,得手率降到 50% 控制。
这个置信度办法成了施行优先级排序的灵验用具,高置信度的响应不错斗胆尝试,低置信度的响应值得探索但也需要留更多容错空间。
论文审稿东谈主稀奇招供这个真的度办法,以为它弥补了一个恒久存在的瓶颈,畴前唯有群众才能评估大模子估量的横蛮,咫尺有了一个可量化的办法。
在估量试剂和溶剂时,单次估量的精准匹配率唯有 22.4% 和 29.8%,但若是让三个群众一齐投票,精准匹配率险些翻倍到 43% 和 32.8%,部分匹配的得手率更是达到了 94.8%,这阐发聚首多个群众的主见能大幅辅助估量可靠性。

李昊特告诉 DeepTech,这项谈判刚运转的时候,有共同作家一度怀疑它的价值,事理是照旧有像 Chemcrow 这么的架构,告成通过给 GPT-4 讲话领导的面容完成一系列化学操作,看起来照旧涵盖了谈判办法。
但团队里有东谈主从不同视角不雅察,发现买卖模子自己存在荫藏的谬误,对化学的领悟还有相配大的辅助空间。谈判东谈主员通过施行数据阐发注解了这少许,这个插曲让团队深入体会到孤苦念念考的紧迫性,不行因为存在可行决策,就罢手寻找更好的方法。
固然 MOSAIC 不错以较高概率处理内容化学问题,但模子咫尺还不行解释我方的估量。可解释性是面前谈判的要点,谈判东谈主员但愿下一步的模子不仅能给出高得手率的决策,还能阐发晰为什么采取这个要求、为什么这个响应能得手,而这亦然真确让 AI 领悟化学的枢纽一步。
谈判东谈主员以为这项时刻在药物合成、材料发现等标的有着优秀的悠扬出息。MOSAIC 最告成的专揽即是全自动机器合成平台,它不错生成高得手率的施行决策,然后告成交给机器东谈主平台去实施,用来探索新药物、新材料。
另外,MOSAIC 不错和现存的大型化学搜索平台,比如 Reaxys 和 SciFinder 结合起来。畴前在这些平台上搜索一个响应,可能会复返千千万万条同样的文件,让东谈主无从下手,MOSAIC 不错把这些死字整理成最少、最告成可用的决策。
在施行室里时间是最贵的资本,MOSAIC 旨在匡助化学范畴的谈判东谈主员快速筛选有但愿的施行标的,把搜索千千万万篇文件的时间缩到几分钟。
咫尺,谈判东谈主员照旧将 MOSAIC 开源,是以感兴味的东谈主士均可使用。
参考尊府:
联系论文 https://doi.org/10.1038/s41586-026-10131-4
小九体育在线直播官网运营/排版:何晨龙
注:封面/首图由 AI 辅助生成2026世界杯比赛APP官网下载首页
