免化所白芳课题组开发了基于语言模型的化合物合成可及性预测AI算法DeepSA

日期：2023-11-03文章来源：图书信息中心

近日，上海科技大学免疫化学研究所白芳课题组在国际学术期刊Journal of Cheminformatics上发表题为“DeepSA: A Deep-learning Driven Predictor of Compound Synthesis Accessibility ”的研究论文，该工作设计了一个名为DeepSA的化学语言模型，用于化合物合成可及性预测。

随着ChatGPT和LLM的蓬勃发展，以分子生成模型为代表的一系列AIGC算法不断涌现，为生物医药等各个领域注入了新活力。分子生成模型是一种新颖的从头药物设计方法，不仅可以帮助药物化学家加快对于化学空间的搜索效率，也能够降低药物发现的投入消耗。近年来，基于深度学习的分子生成模型不断出现，然而，这些模型所生成分子的结构有时过于复杂，导致合成难度过大，即分子合成可及性低，从而阻碍了药物的开发进程。因此，在药物发现早期对于分子可进行准确评估，可减少分子合成过程中投入，加速药物研发。本研究基于化学语言模型，发展了高效、高准确性的化合物合成可及性评估方法DeepSA（如图1）。

图1. DeepSA的模型框架

用于训练DeepSA模型的数据来源于ZINC，ChEMBL，GDB等公共数据库中的80万个分子，通过逆合成分析算法得到了每个分子的合成难度标签，合成步数大于十的分子被视为难合成分子，反之则为易合成。分子通过SMILES编码输入模型之中，借鉴自然语言处理领域的经验，利用基于Transformer的多种预训练语言模型(RoBERTa，DeBERTa， ELECTRA等）对分子在token和position层面进行embedding处理，提取分子特征，之后利用多层感知机进行特征解码，输出该分子的合成可及性得分。DeepSA在较大规模的具有实际合成路线的分子中进行了检验，其性能优于其他现有合成可及性预测算法，并具有优良的鲁棒性。同时，DeepSA在识别难以合成的分子方面具有很高的早期富集率，可以帮助用户准确选择分子进行合成。

作者提供了该算法的在线预测服务，部署在课题组网站中（https://bailab.siais.shanghaitech.edu.cn/deepsa），方便用户使用，模型的训练和推理源代码也可在Github中进行获取（https://github.com/Shihang-Wang-58/DeepSA），方便相关研究人员使用或更改模型，以满足个性需求。作者认为，DeepSA可以作为计算化学领域中分子生成模型的优秀过滤器，提升分子生成的性能。

免化所白芳课题组2022级硕士研究生王世航和2021级博士研究生王林为论文共同第一作者，白芳研究员为论文的通讯作者。上海科技大学为第一完成单位。该项工作得到了科技部重点研发计划、临港实验室、国家自然科学基金委、上海市科委和上海市教委项目（上海市生物大分子与精准医药前沿科学研究基地等）的支持。该项工作也得到iHuman研究所程建军研究员和上科大高性能计算平台的大力支持。

论文链接：https://doi.org/10.1186/s13321-023-00771-3

导航

免化所白芳课题组开发了基于语言模型的化合物合成可及性预测AI算法DeepSA