最近,我校徐路教授课题组应化学计量学国际权威期刊Chemometrics and Intelligent Laboratory Systems(SCI二区)编委的邀请,撰写并发表了题为“定量构效关系综述:数据集、分子描述符和数学模型的发展和现状”的29页长篇综述。材料与化工专业硕士研究生李建敏、赵添为本文的共同第一作者。
开发适用于一般分子的定量构效关系(QSAR)模型对理论化学和分子设计具有重要意义。本文综述了分子QSAR研究的发展和现状,包括数据集、分子描述符和数学模型。代表性的文献计量分析揭示了在过去十年中这一领域的演变趋势。基于美国化学会化学信息学杂志Journal of Chemical Information and Modeling的近10年(2014-2023)文献计量分析显示,QSAR研究越来越活跃,QSAR研究将涉及更大、更精确(回归多于分类)的数据集、更严格的分子描述符和更先进的数学模型。这些趋势表明了人们对广泛适用的QSAR模型的追求。
在回顾和评论现有方法的优缺点的基础上,文章探讨了开发广泛适用和通用的QSAR模型的要求和可能途径。这一目标对QSAR提出了一系列挑战,包括:(1)拥有足够数量的构效关系实例作为训练数据,以应对分子结构和作用机制的复杂性和多样性;(2)开发和使用精确的分子描述符以避免“垃圾进,垃圾出”的情况,同时平衡描述符维度和计算成本;以及(3)使用强大且灵活的数学模型,例如深度学习模型,来拟合描述符和活动之间的复杂函数关系。随着更大、更高质量的数据集、更精确的分子描述符和更强大的机器学习方法的出现,QSAR模型的可解释性和适用范围将不断提高,并在分子设计的各个领域发挥更重要的作用。
最后,作者指出,考虑到著名的AlexNet网络已经学习并分类了1000类图像,QSAR领域最终可能会出现一个单一的网络模型,可以同时学习和预测一般分子的数百或数千个活性或性质。而此前该课题组提出的基于深度学习、高质量电子云/场和大数据的深度电子云/场-活性关系(DECAR/DFAR)方法似乎标志着这一个新阶段的开始。这一综述文章的发表,表明该课题组在QSAR领域的前期研究获得了国际学术界的肯定和关注。
(供稿:大健康学院 编辑:张东方 一审:田淼 二审:梁光华 三审:叶丹)