神经网络 (NN) 越来越多地用于预测新材料、化学反应的速率和产率以及药物-靶标相互作用等。对于这些应用,它们比量子力学模拟等传统方法快几个数量级。然而,这种敏捷性的代价是可靠性。由于机器学习模型仅进行插值,因此在训练数据域之外使用时它们可能会失败。
但让麻省理工学院材料科学与工程系的 Jeffrey Cheah 职业发展教授 Rafael Gómez-Bombarelli 以及研究生 Daniel Schwalbe-Koda 和 Aik Rui Tan 担心的部分是建立这些机器学习 (ML) 模型的局限性是乏味和劳动密集型的。
这对于预测“势能面”(PES) 或分子在其所有配置中的能量图尤其如此。这些表面将分子的复杂性编码为平地、山谷、峰、谷和沟壑。最系统的稳定配置通常位于深坑中——原子和分子通常无法从中逃脱的量子力学鸿沟。
在最近的Nature Communications论文中,研究团队提出了一种通过使用“对抗性攻击”来划分神经网络“安全区”的方法。对抗性攻击已经针对其他类别的问题进行了研究,例如图像分类,但这是它们第一次被用于对 PES 中的分子几何进行采样。
“多年来,人们一直在使用不确定性进行 ML 潜力的主动学习。关键区别在于他们需要运行完整的 ML模拟并评估 NN 是否可靠,如果不可靠,则获取更多数据、重新训练和重新-simulate。这意味着确定正确的模型需要很长时间,而且必须多次运行 ML 模拟”,Gómez-Bombarelli 解释道。
麻省理工学院的 Gómez-Bombarelli 实验室致力于第一性原理模拟和机器学习的协同综合,大大加快了这一过程。实际模拟只针对这些分子的一小部分运行,所有这些数据都被输入到一个神经网络中,该网络学习如何预测其余分子的相同特性。他们已经成功地为越来越多的新型材料展示了这些方法,包括用于从水中制氢的催化剂、用于电动汽车的更便宜的聚合物电解质、用于分子筛分的沸石、磁性材料等。
然而,挑战在于这些神经网络的智能程度取决于它们所训练的数据。考虑到 PES 地图,99% 的数据可能会落入一个坑,完全遗漏了更感兴趣的山谷。
这种错误的预测可能会产生灾难性的后果——想想一辆无法识别过马路人的自动驾驶汽车。
找出模型不确定性的一种方法是通过它的多个版本运行相同的数据。
说明:在研究人员的对抗训练过程中,原子配置会朝着增加不确定性和减少能量的方向扭曲,以识别现实但难以找到的新输入。由于不确定性被量化为独立神经网络之间的分歧,用于训练神经网络的算法技巧也找到了最大不确定性的方向。学分:丹尼尔·施瓦尔贝-科达
对于这个项目,研究人员让多个神经网络从相同的数据中预测势能面。在网络对预测相当确定的情况下,不同网络的输出之间的差异很小,并且表面在很大程度上收敛。当网络不确定时,不同模型的预测差异很大,产生一系列输出,其中任何一个都可能是正确的表面。
“神经网络委员会”的预测传播是当时的“不确定性”。一个好的模型不仅应该表明最佳预测,还应该表明这些预测中的每一个的不确定性。就像神经网络说“材料 A 的这个属性的值为 X,我对此非常有信心”。
这本来是一个优雅的解决方案,但对于组合空间的绝对规模。“每个模拟(神经网络的地面馈送)可能需要数万到数千个 CPU 小时,”Schwalbe-Koda 解释说。为了使结果有意义,必须在 PES 中足够多的点上运行多个模型,这是一个非常耗时的过程。
相反,新方法仅从预测置信度低的区域中采样数据点,对应于分子的特定几何形状。然后这些分子被轻微拉伸或变形,从而使神经网络委员会的不确定性最大化。通过模拟计算这些分子的额外数据,然后添加到初始训练池中。
再次训练神经网络,并计算一组新的不确定性。重复此过程,直到与表面上各个点相关的不确定性变得明确且无法进一步降低。
Gómez-Bombarelli 解释说:“我们渴望在我们关心的区域(即模拟将访问的区域)中拥有一个完美的模型,而不必运行完整的 ML 模拟,通过确保我们使它非常在不太可能的高可能性地区表现良好。”
本文介绍了这种方法的几个例子,包括预测沸石中复杂的超分子相互作用。这些材料是海绵状晶体,可作为具有高形状选择性的分子筛。它们可应用于催化、气体分离和离子交换等领域。
由于对大型沸石结构进行模拟非常昂贵,研究人员展示了他们的方法如何显着节省计算模拟。他们使用了 15,000 多个示例来训练神经网络来预测这些系统的势能面。尽管生成数据集需要大量成本,但最终结果却很一般,只有大约 80% 的基于神经网络的模拟是成功的。为了使用传统主动学习方法提高模型的性能,研究人员计算了额外的 5,000 个数据点,将神经网络潜力的性能提高到 92%。
然而,当使用对抗性方法重新训练神经网络时,作者发现仅使用 500 个额外点,性能就跃升至 97%。研究人员说,这是一个了不起的结果,尤其是考虑到这些额外的点中的每一个都需要数百个 CPU 小时。
这可能是探索研究人员用来预测材料行为和化学反应进程的模型极限的最现实方法。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!