Water Research |基于分子结构开发机器学习方法来识别候选的持久性、可移动性和毒性

来源:哔哩哔哩 时间:2023-08-23 10:40:49

Developing machine learning approaches to identify candidate persistent, mobile and toxic (PMT) and very persistent and very mobile (vPvM) substances based on molecular structure

出版:Water Research

作者:Min Han, Biao Jin, Jun Liang , Chen Huang , Hans Peter H. Arp

原文链接:/doi/.1c01339


【资料图】

摘要:

这项研究的目标是确定全球市场上哪些物质可以被归类为持久性、易迁移和有毒(PMT)物质或非常持久性、非常易迁移(vPvM)物质,以防止或减少这些物质对饮用水的污染。该研究基于不同的分子描述符(MDs)开发了机器学习模型,并定义了适用范围,以筛选PMT/vPvM物质。该模型使用3111个物质进行训练,这些物质具有基于专家权威证据的PMT/vPvM危害分类,其中考虑到了最高质量的可用数据。该模型基于一个假设,即PMT/vPvM物质含有相似的MDs,代表着耐降解的化学结构,与低吸附性(或高溶解度)相关联,并且在某些情况下与已知的毒性机制相关联。通过整合不同的分子描述方法、数据平衡策略和机器学习算法,测试了所有可能的模型组合。模型可以一步预测候选的PMT/vPvM物质,同时将我们的方法与分别预测P、M和T的方法进行了对比(即三步预测)。结果表明,单步模型在内部测试集中对于PMT/vPvM鉴定(即正样本)实现了92%的准确率,并且在中国太湖检测到的化学污染物的外部测试集上也实现了90%的准确率。此外,模型的预测机制通过Shapley加性解释(SHAP)进行了解释。这项工作展示了大数据无机筛选模型在识别潜在符合PMT/vPvM标准的物质方面的进展。

具体任务包括:

(1) 利用和测试不同的分子描述方法、数据平衡方法和机器学习算法的模型组合;

(2) 通过采用上述模型组件来比较所有可能的模型组合,以找出基于性能指标的最佳组合;

(3) 通过将模型预测结果与在中国太湖检测到的有机化学物质的专家验证结果进行交叉验证,确定最佳模型;

(4) 基于SHAP方法解释PMT/vPvM鉴定的模型机制。

数据来源:该研究的数据来源主要包括之前的研究中用于PMT/vPvM评估的实验数据或证据权重数据。评估基于REACH注册物质和药物及个人护理产品(PPCPs)进行,基于德国环境局于2019年制定的PMT/vPvM标准。选择了共3111种化学物质作为数据集,这些化学物质具有高质量的实验数据或证据权重数据,可用于判断其持久性、迁移性和毒性。

模型结构:

该研究使用了以下的模型组合方法:

11种机器学习算法:逻辑回归(LR)、决策树(DT)、随机森林(RF)、线性支持向量机(LSVM)、径向基函数核支持向量机(RSVM)、多项式核支持向量机(PSVM)、k最近邻(KNN)、高斯朴素贝叶斯(GaussianNB)、伯努利朴素贝叶斯(BernoulliNB)、极限梯度提升(XGBoost)和梯度树提升(GBDT)。

集成模型:通过结合上述11种机器学习算法构建的模型。

为了寻找最优的模型组合,研究人员尝试了不同的分子描述方法、数据平衡方法和机器学习算法的960种可能组合。首先,采用默认参数对这些组合进行训练,并比较它们的性能。由于可用数据有限,采用了五折交叉验证方法,将数据集随机划分为五个大小相似、互斥的子集,并通过分层抽样确保每个子集都包含相同比例的正样本和负样本。然后,使用不同的数据平衡方法对训练数据进行平衡,并使用平衡后的数据进行模型训练和构建。测试数据用于评估不同模型的性能。

通过五次迭代的训练和测试过程,得到了五个顺序测试中评估指标的均值,以评估模型的性能。基于评估指标,选择了表现最佳的四个模型。此外,还应用了内部的五折交叉验证和网格搜索方法,根据训练数据返回的召回率来优化所选模型的超参数。通过这些优化后的超参数,对四个最佳模型在内部测试集上进行了性能评估。

1.模型性能与优化

研究发现,在PMT/vPvM预测中,通过采用重新采样方法平衡数据集,并结合适当的机器学习算法和分子描述方法,可以提高模型性能。其中,“EasyEnsemble”方法在平衡准确率和召回率等指标方面表现最佳。值得注意的是,不同的重新采样方法对模型性能的影响存在差异,同时机器学习算法和分子描述方法的选择也会对模型性能产生重要影响。因此,在开发PMT/vPvM预测模型时,需要综合考虑这些因素以获取最佳性能。

大多数模型未能通过满足所有评估指标来获得良好的性能。相对而言,基于EasyEnsemble方法的模型(除EasyEnsemble-PSVM和EasyEnsemble-BernoulliNB外)在所有组合建模策略中表现最佳。

图3展示了0-2D MDs-EasyEnsemble-XGBoost和0-3D MDs-EasyEnsemble-XGBoost模型的特征选择结果。通过这些比较,选择了最有潜力的模型,这些模型结合了不同的超参数优化策略,包括0-2D MDs(10%特征)-EasyEnsemble-XGBoost模型(模型1)、0-2D MDs(80%特征)-EasyEnsemble-XGBoost模型(模型2)、0-3D MDs(40%特征)-EasyEnsemble-XGBoost模型(模型3)和MACCSFP-EasyEnsemble-XGBoost模型(模型4)。

2.适用范围和模型评估

通过计算验证数据与训练数据在5折数据集上的平均相似度和最大相似度,得出了模型性能评估指标,包括超出异常度(AD)的化合物数量、平衡准确率和召回率。所有模型的超出AD的化合物数量都在%以内,确保了测试数据集的足够大小。经过比较,选择了最佳模型,并确定了最大相似度作为相似度度量标准,并选择了阈值为。进一步对264个未考虑的化合物进行测试,结果显示模型1具有最高的召回率、平衡准确率、准确率、F1值和AUCROC值,表明它给出了最可靠的预测。在25个PMT/vPvM物质中,只有2个被错误分类,其中包括一个PMT物质和一个vPvM物质。然而,还有41个非PMT/vPvM物质被错误地预测为PMT/vPvM物质。此外,将一步法模型与三步法模型进行比较,发现一步法模型在召回率、平衡准确率、G_mean和F1方面表现更好。综上所述,一步法模型在优先考虑的评估指标下取得了更好的性能。

3.模型应用与解释

使用集成学习算法改进模型预测的过程,并提供了关于特征与PMT/vPvM物质识别之间关联的解释。根据模型解释的结果,不同的特征对化合物的流动性、亲水性和分子结构起着重要作用。其中一些特征与非PMT/vPvM预测相关,而另一些特征与PMT/vPvM预测相关。这些发现对于理解分子结构对PMT/vPvM特征的影响具有重要意义。然而,也存在一些模型解释之间的差异,需要进一步研究和验证。

总结:

这项研究是首次利用机器学习工具来识别PMT/vPvM物质的研究之一,也是第一次仅基于专家评估的符合PMT/vPvM标准的物质,并考虑到PMT/vPvM与分子描述符的关系。该研究旨在开发一种能够进行一步PMT/vPvM预测的模型,其概念与基于三步(即P、M和T分别评估)的传统方法不同。

采用了不同的分子描述方法、数据平衡策略和机器学习算法来开发不同的模型。最终,通过结合0-2D MDs、特征选择(选取10%的特征)、EasyEnsemble-XGBoost等,得到了最佳的一步模型,在应用于内部测试数据集和中国太湖检测到的有机污染物时,成功率达到了PMT/vPvM识别的最佳性能(≥92%)。

为了更好地理解所开发模型的预测机制,采用了SHAP方法,并且结果表明,模型通过从分子结构中提取和学习关键信息,为不同化学物质的PMT/vPvM属性提供了令人满意的预测。这些结果共同表明,特定的分子结构可以与PMT/vPvM物质相关联,并且机器学习是一种有效的工具,用于识别候选的PMT/vPvM物质,从而实现安全和可持续的化学品管理策略。

这是本账号第一次发布机器学习 x 环境科学交叉领域的论文带读内容,未来会继续阅读环境领域顶刊,感兴趣的小伙伴可以点个赞,祝大家科研顺利!

标签:

x 广告
x 广告

Copyright ©  2015-2022 欧洲文旅网版权所有  备案号:沪ICP备2022005074号-23   联系邮箱: 58 55 97 3@qq.com