Water Research |基于分子结构开发机器学习方法来识别候选的持久性、可移动性和毒性
Developing machine learning approaches to identify candidate persistent, mobile and toxic (PMT) and very persistent and very mobile (vPvM) substances based on molecular structure
出版:Water Research
作者:Min Han, Biao Jin, Jun Liang , Chen Huang , Hans Peter H. Arp
原文链接:/doi/.1c01339
【资料图】
摘要:
这项研究的目标是确定全球市场上哪些物质可以被归类为持久性、易迁移和有毒(PMT)物质或非常持久性、非常易迁移(vPvM)物质,以防止或减少这些物质对饮用水的污染。该研究基于不同的分子描述符(MDs)开发了机器学习模型,并定义了适用范围,以筛选PMT/vPvM物质。该模型使用3111个物质进行训练,这些物质具有基于专家权威证据的PMT/vPvM危害分类,其中考虑到了最高质量的可用数据。该模型基于一个假设,即PMT/vPvM物质含有相似的MDs,代表着耐降解的化学结构,与低吸附性(或高溶解度)相关联,并且在某些情况下与已知的毒性机制相关联。通过整合不同的分子描述方法、数据平衡策略和机器学习算法,测试了所有可能的模型组合。模型可以一步预测候选的PMT/vPvM物质,同时将我们的方法与分别预测P、M和T的方法进行了对比(即三步预测)。结果表明,单步模型在内部测试集中对于PMT/vPvM鉴定(即正样本)实现了92%的准确率,并且在中国太湖检测到的化学污染物的外部测试集上也实现了90%的准确率。此外,模型的预测机制通过Shapley加性解释(SHAP)进行了解释。这项工作展示了大数据无机筛选模型在识别潜在符合PMT/vPvM标准的物质方面的进展。
具体任务包括:
(1) 利用和测试不同的分子描述方法、数据平衡方法和机器学习算法的模型组合;
(2) 通过采用上述模型组件来比较所有可能的模型组合,以找出基于性能指标的最佳组合;
(3) 通过将模型预测结果与在中国太湖检测到的有机化学物质的专家验证结果进行交叉验证,确定最佳模型;
(4) 基于SHAP方法解释PMT/vPvM鉴定的模型机制。
数据来源:该研究的数据来源主要包括之前的研究中用于PMT/vPvM评估的实验数据或证据权重数据。评估基于REACH注册物质和药物及个人护理产品(PPCPs)进行,基于德国环境局于2019年制定的PMT/vPvM标准。选择了共3111种化学物质作为数据集,这些化学物质具有高质量的实验数据或证据权重数据,可用于判断其持久性、迁移性和毒性。
模型结构:
该研究使用了以下的模型组合方法:
11种机器学习算法:逻辑回归(LR)、决策树(DT)、随机森林(RF)、线性支持向量机(LSVM)、径向基函数核支持向量机(RSVM)、多项式核支持向量机(PSVM)、k最近邻(KNN)、高斯朴素贝叶斯(GaussianNB)、伯努利朴素贝叶斯(BernoulliNB)、极限梯度提升(XGBoost)和梯度树提升(GBDT)。
集成模型:通过结合上述11种机器学习算法构建的模型。
为了寻找最优的模型组合,研究人员尝试了不同的分子描述方法、数据平衡方法和机器学习算法的960种可能组合。首先,采用默认参数对这些组合进行训练,并比较它们的性能。由于可用数据有限,采用了五折交叉验证方法,将数据集随机划分为五个大小相似、互斥的子集,并通过分层抽样确保每个子集都包含相同比例的正样本和负样本。然后,使用不同的数据平衡方法对训练数据进行平衡,并使用平衡后的数据进行模型训练和构建。测试数据用于评估不同模型的性能。
通过五次迭代的训练和测试过程,得到了五个顺序测试中评估指标的均值,以评估模型的性能。基于评估指标,选择了表现最佳的四个模型。此外,还应用了内部的五折交叉验证和网格搜索方法,根据训练数据返回的召回率来优化所选模型的超参数。通过这些优化后的超参数,对四个最佳模型在内部测试集上进行了性能评估。
1.模型性能与优化
研究发现,在PMT/vPvM预测中,通过采用重新采样方法平衡数据集,并结合适当的机器学习算法和分子描述方法,可以提高模型性能。其中,“EasyEnsemble”方法在平衡准确率和召回率等指标方面表现最佳。值得注意的是,不同的重新采样方法对模型性能的影响存在差异,同时机器学习算法和分子描述方法的选择也会对模型性能产生重要影响。因此,在开发PMT/vPvM预测模型时,需要综合考虑这些因素以获取最佳性能。
大多数模型未能通过满足所有评估指标来获得良好的性能。相对而言,基于EasyEnsemble方法的模型(除EasyEnsemble-PSVM和EasyEnsemble-BernoulliNB外)在所有组合建模策略中表现最佳。
图3展示了0-2D MDs-EasyEnsemble-XGBoost和0-3D MDs-EasyEnsemble-XGBoost模型的特征选择结果。通过这些比较,选择了最有潜力的模型,这些模型结合了不同的超参数优化策略,包括0-2D MDs(10%特征)-EasyEnsemble-XGBoost模型(模型1)、0-2D MDs(80%特征)-EasyEnsemble-XGBoost模型(模型2)、0-3D MDs(40%特征)-EasyEnsemble-XGBoost模型(模型3)和MACCSFP-EasyEnsemble-XGBoost模型(模型4)。
2.适用范围和模型评估
通过计算验证数据与训练数据在5折数据集上的平均相似度和最大相似度,得出了模型性能评估指标,包括超出异常度(AD)的化合物数量、平衡准确率和召回率。所有模型的超出AD的化合物数量都在%以内,确保了测试数据集的足够大小。经过比较,选择了最佳模型,并确定了最大相似度作为相似度度量标准,并选择了阈值为。进一步对264个未考虑的化合物进行测试,结果显示模型1具有最高的召回率、平衡准确率、准确率、F1值和AUCROC值,表明它给出了最可靠的预测。在25个PMT/vPvM物质中,只有2个被错误分类,其中包括一个PMT物质和一个vPvM物质。然而,还有41个非PMT/vPvM物质被错误地预测为PMT/vPvM物质。此外,将一步法模型与三步法模型进行比较,发现一步法模型在召回率、平衡准确率、G_mean和F1方面表现更好。综上所述,一步法模型在优先考虑的评估指标下取得了更好的性能。
3.模型应用与解释
使用集成学习算法改进模型预测的过程,并提供了关于特征与PMT/vPvM物质识别之间关联的解释。根据模型解释的结果,不同的特征对化合物的流动性、亲水性和分子结构起着重要作用。其中一些特征与非PMT/vPvM预测相关,而另一些特征与PMT/vPvM预测相关。这些发现对于理解分子结构对PMT/vPvM特征的影响具有重要意义。然而,也存在一些模型解释之间的差异,需要进一步研究和验证。
总结:
这项研究是首次利用机器学习工具来识别PMT/vPvM物质的研究之一,也是第一次仅基于专家评估的符合PMT/vPvM标准的物质,并考虑到PMT/vPvM与分子描述符的关系。该研究旨在开发一种能够进行一步PMT/vPvM预测的模型,其概念与基于三步(即P、M和T分别评估)的传统方法不同。
采用了不同的分子描述方法、数据平衡策略和机器学习算法来开发不同的模型。最终,通过结合0-2D MDs、特征选择(选取10%的特征)、EasyEnsemble-XGBoost等,得到了最佳的一步模型,在应用于内部测试数据集和中国太湖检测到的有机污染物时,成功率达到了PMT/vPvM识别的最佳性能(≥92%)。
为了更好地理解所开发模型的预测机制,采用了SHAP方法,并且结果表明,模型通过从分子结构中提取和学习关键信息,为不同化学物质的PMT/vPvM属性提供了令人满意的预测。这些结果共同表明,特定的分子结构可以与PMT/vPvM物质相关联,并且机器学习是一种有效的工具,用于识别候选的PMT/vPvM物质,从而实现安全和可持续的化学品管理策略。
这是本账号第一次发布机器学习 x 环境科学交叉领域的论文带读内容,未来会继续阅读环境领域顶刊,感兴趣的小伙伴可以点个赞,祝大家科研顺利!
标签:
- Water Research |基于分子结构开发机器学习方法来识别候选的持久性、可移动性和毒性
- 097期嘉仔大乐透预测奖号:大小比参考
- 青海春天:8月22日获融资买入138.05万元
- 西班牙国王费利佩六世提名阿尔维托·努涅斯·费霍为首相候选人
- 杭州第九批土拍收金118亿 万科、保利、绿城拿地也难掩寒意
- 踏实放心!延庆体育局全方位做好民族传统体育运动会竞赛保障
- 东微半导大宗交易成交5.00万股 成交额653.60万元
- 欧菲光2023年上半年净利润同比减亏 盈利能力和经营业绩均有所改善
- 融通内需驱动混合A年内涨22%
- 凌云股份(600480.SH)收到欧洲豪华品牌车企项目定点通知 生命周期总销售金额约20-25亿元
- 收评:三大指数午后拉升翻红 传媒板块涨幅居前
- 8月22日稀土永磁板块跌幅达2%
- 湿玉米面条怎么做好吃(湿玉米粉的做法大全)
- 高善文、李蓓发文!点赞中国央行,加仓中国股票,“很可能送给大家一个好的买点”
- 《泡沫经济》:一部完全由ChatGPT原创的证券炒股桌游!
- 苹果新季生长期调研报告(西部产区篇)
- 青岛市不断提升政策精准度 激发市场主体发展活力
- 紫天科技(300280):北京卓信大华资产评估有限公司对重组审核问询函的回复之核查意见
- 西班牙女足决赛首发有7名巴萨球员,与2010年男足决赛人数相同
- 民少音频设备 关于民少音频设备介绍
- 市马路街小学获“活力校园年度盛典特别纪录奖”
- 海螺水泥:上半年净利64.68亿元 同比降34.26%
- 仅约2.8万元/平方米,深圳702套人才房来了,大专学历也可申请
- 协议离婚需要费用吗
- 第十一届福建创新创业大赛在榕落幕
- 2023年养老金上调3.8%,退休人员预计能否涨200元?计算方法有哪些?
- 【迎“烤”验? 拼一“夏”④】高温与我一起“忙招商” “坐在办公室 哪里会有企业来”
- 小米小爱音箱app
- 珠海海天公园停车场收费标准
- 关注 | 美国男篮16分逆转德国 热身赛5战全胜出征世界杯