©北京泰科博思科技有限公司   /   京ICP备09107432号-1   /   网站建设:中企动力 北京

解决方案

Solution

>
>
>
【COSMOlogic 应用实例】华东理工大学成果展示:物理-化学耦合机器学习方法探索羰基硫化物吸收捕获的活性溶剂
产品名称

【COSMOlogic 应用实例】华东理工大学成果展示:物理-化学耦合机器学习方法探索羰基硫化物吸收捕获的活性溶剂

所属分类
产品中心
联系我们
相关资料
方案详情
行业
性质
热力学性质(溶解度、粘度等)
分类
COSMOlogic

摘要:

大多数机器学习(ML)模型只解释与反应有关的吸收的一个(化学或物理)方面,因此无法预测反应物质在化学溶剂中的溶解度。在此,我们提出了一种物理-化学耦合ML方法来探索捕获活性有机硫化物COS的吸收溶剂。将Henry定律计算的物理吸收与反应平衡计算的化学吸收相结合,得到了2824个分子的COS溶解度。建立了反应的ML模型ΔG,考察了物理吸收和化学吸收对反应的贡献。结合三种吸收模型构建了耦合ML方法。四种商业溶剂的实验结果验证了耦合ML方法能很好地预测COS在反应性和非反应性溶剂中的溶解度。此外,利用基于描述符的分子生成方法发现了96个cospref化合物。目前的研究重点是耦合ML模型预测COS的吸收,并为设计增强物理化学协同作用的分子/材料提供了一般策略。

 

引言:

从广阔的化学空间中成功识别候选溶剂可以有力地促进广泛的工业应用,包括捕获不需要的物种,分离和纯化有价值的成分,以符合日益严格的环境法规或使化学品生产成为可能。

 

在这项工作中,为了解决单因素建模方法的局限性,提出了一种物理-化学耦合ML方法,用于智能探索和识别有前途的吸收溶剂。选择COS作为反应物质有两个原因:首先,它是一种典型的有机硫化物,常见于各种化石燃料和废气中;其次,物理溶解和化学反应对COS在碱性有机溶剂中的吸收有水平挂钩作用。本文采用通用的GDB-13化学数据库,随机选取一个子集创建分子数据集用于训练模型。结合亨利定律常数计算的物理吸收量和反应平衡计算的化学吸收量,评价了训练数据集中化合物中COS的溶解度。建立了反应ΔG的ML模型,利用分布式随机森林算法检验物理和化学吸收的贡献。在此基础上,结合化学吸收(CHEMab)模型、物理吸收(物理物理-ab)模型和物理化学耦合(物理物理-ab)模型,构建了物理化学耦合ML方法。采用基于描述符的分子生成方法,我们成功地探索了一些对COS具有很大溶解亲和力的溶剂化合物。本研究强调了COS反应性吸收捕获溶剂生成的耦合ML模型,为吸收溶剂的合理分子设计提供了一般策略。

 

方法:

COS吸收预测方法的设计策略如图1所示。分子结构首先从GDB-13数据集中收集。

 

计算细节:

用cosmos-rs理论计算了所有感兴趣化合物中COS的亨利定律常数。首先,在PM6理论层面,利用Gaussian09软件进行大规模计算,生成最优分子构象。计算结果表明,在PM6理论水平上得到的几何形状与密度泛函理论(DFT)计算得到的几何形状非常一致。随后,在BP86/TZVP理论水平上得到了电荷密度分布曲线。因此,使用COSMOtherm 软件包在1℃和25℃下计算了各种化合物中COS的亨利定律常数。

 

结果与讨论:

COS吸附到反应溶液中的物理-化学耦合过程如图2所示。

 

分子生成技术包括三个任务:(1)评估分子描述符的重要性,(2)设计合适的分子图,(3)在分子图中插入特定的官能团(图3)。

 

在图4(a)中,作者展示了不同化合物(包括己胺(SMILES: ccccn)、N-甲基丁胺(SMILES: CCCCNC)和4-(乙胺)-N-丁胺(SMILES: CCNCCCCN))产生的产物的化学反应的吉布斯自由能(ΔG)。产物分子中-NHC(=O)SH基团比-NHC(=S)OH基团具有更大的反应可能性。

 

对于含有叔胺基和仲胺基的胺类化合物,确定与COS直接反应的官能团是至关重要的。根据图4(b)所示的DFT计算,COS与4-(乙基氨基)- N-丁胺(SMILES:CCNCCCCN)的二级氨基发生反应。

 

图5(a)为1atm下不同温度下COS吸收量的变化情况。随着温度的升高,化学吸收量所占比例从5℃时的45.38%下降到55℃时的4.22%,而物理吸收量的绝对值则不断降低。在压力变化的情况下,如图5(b)所示,压力的增加导致物理和化学吸收量的增加,总吸收量从1atm时的1.95mmol上升到10atm时的16.03mmol。而化学吸收量占总吸收量的18.53%,几乎是一个固定的百分比。因此,增加压力有利于该吸收过程的总溶解量。

 

图6(a)中使用的所有分子都是由n-甲基丙胺(SMILES:CNCCC)和丁胺(SMILES:CCCCN)通过添加支链或含氧官能团或转化为环胺生成的。在这里,我们从选定的分子中揭示了nchem和ΔG之间的强相关性(图6(b))。此外,作者开发了一种综合的方法来阐明COS在溶剂中的实际吸收(图6(c))。该模型包括三个部分:创建具有相同数量的活性和非活性化合物的分子数据库,计算二维分子描述符,开发ΔG预测模型。

 

图7(a)和7(b)显示了潜在化合物和训练数据集中分子的脂水分配系数(LogP)和分子量(Mw)的分布。

 

图8(a)显示了两种ML模型的预测结果。PHYL-ab模型在预测化合物(no.1415-2824)在没有化学反应的情况下的COS吸收方面具有很高的准确性。然而,它无法预测含有一级或二级氨基官能团的化合物(1-1414号分子)对COS的吸收量。物理-化学耦合ML方法可以在化学吸收主导溶解的情况下准确预测COS的溶解度,但当物理吸收对COS的整体吸收有压倒性影响时,就不准确了。在物理吸收情况下,预测值和理论值之间的差异表现出不可预测的模式。在图8(b)中,这种偏差可以通过耦合ML方法来解决,该方法准确地描述了理论溶解度。

 

这些描述符对SHAP值的影响也在图9中进行了定量阐述。LogP值在0.15~0.20之间的原子范德华表面积之和logp_vsa6对物理物理-ab模型的正贡献最大(图9(a))。摩尔折射率反映了分子的体积和与溶质-溶剂相互作用有关的伦敦色散力,对物理吸收有积极的影响。SMR_VSA7表示导致摩尔折射率值在3.05~3.63之间的原子范德华表面积之和(图9(b))。另一方面,代表SP3杂化C原子的分数的FractionCSP3对物理吸收预测的贡献为负(图9(C))。这可以解释SP3杂化碳原子具有均匀的。分子中价电子的数量(Num Valence Electrons)对物理吸收有负面影响(图9(d))。

 

这些描述符及其在模型中的相对重要性如图10(a)所示,每个描述符的SHAP值如图10(b)所示。

 

此外,未包含在PHYL-ab或CHEM-ab模型中的Kappa1对COS吸收的负影响最为显著(图10(c))。

 

BertzCT,一种量化分子复杂性的拓扑指数,也与结构呈负相关(图10(d))。Chi0n是表示分子复杂性的描述符,对复杂结构的可能性有积极作用(图10(e))。最小e状态描述符MinEstateIndex小于0.95时,对预测结果没有显著影响(图10(f))。

 

此外,SMR_VSA7(图10(g))和NumValence Electrons描述符在COUP-ab模型中排名较低。FractionCSP3描述符排名相同,但其对应的SHAP值范围缩小了(减少了26%)(图10(h))。

 

图11(a)将生成分子的预测值与训练分子的预测值进行比较。总的来说,生成的分子的吸收量高于训练分子的吸收量,这表明我们的分子生成方法有望创造出具有吸收捕获COS能力的潜在溶剂。采用局部解释模型来理解不同分子描述符对COS吸收的综合影响。选择四种具有COS吸收高预测值的代表性溶剂分子,使用加性力布局进行可视化(图11(b))。

 

总结:

在这项研究中,我们提出了一种物理-化学耦合ML方法来准确预测活性分子羰基硫化物(COS)在潜在溶剂中的吸收。通过筛选GDB-13数据库中的分子,构建了包含2,824,734个潜在溶剂化合物的初始数据集,并随机选择2,824个分子子集作为训练数据集。PHYL-ab模型采用ANN算法构建,COUP-ab和CHEM-ab模型采用GBM算法构建,ΔG模型采用DRF算法构建。然后通过整合CHEM-ab、物理物理-ab和COUP-ab三个ML模型,根据ΔG(-13和13kJ/mol)的阈值选择合适的模型,构建了物理化学耦合ML方法。对四种商业溶剂(MEA、DEA、MDEA和TEA)中COS溶解度的实验测量证实,我们的耦合ML方法在准确预测COS吸收方面优于物理或化学模型。PHYL-ab模型主要由分子间相互作用和电子分布决定,CHEM-ab模型主要由氨基官能团的位阻和电荷状态决定,COUP-ab模型主要依赖于分子结构复杂性和电子分布。此外,利用基于描述符的分子生成方法,找到了96种具有良好COS吸收能力的潜在溶剂。目前的研究提出了一种通过吸收过程智能识别捕获活性物质的潜在溶剂的一般策略,并为加强物理化学耦合事件的分子/材料设计提供了见解。

 

文章详情:https://doi.org/10.1016/j.ces.2023.118984

 

北京泰科博思科技有限公司是COSMOLOGIC官方指定代理商,有关软件详情或者技术支持请咨询北京泰科。


电话:010-64951848

邮箱:sales@tech-box.com.cn

 

北京泰科为广大学习分子模拟科研人员提供了交流讨论平台,泰科建立了Turbomole交流群,群里有专业老师解答问题,如有兴趣一起交流,欢迎来电/邮申请入群,作者期待您的参与!

 

北京泰科涉及行业

材料研发

基于BIOVIA Materials Studio材料设计平台,提供涉及电池、航空航天、国防军工、建筑、涂料涂层等多领域材料研发软件及综合解决方案。

 

药物研发

针对药物设计、药物研发等提供基于Discovery Studio、COSMOLOGIC等软件的ADME、构象比对、溶剂筛选、结晶、成盐、共晶筛选、稳定性、溶解度pKa、分配系数等性质的模拟预测软件及方案。

 

化工设计

面向精细化工、新能源、石油化工等领域提供精馏萃取催化剂设计、热力学性质(溶解度、粘度等)、提纯表面处理吸附等性质模拟软件平台及解决方案。

 

数据挖掘

基于Pipeline Pilot提供数据搜集、数据清洗、特征工程、机器学习、流程设计等多种数据挖掘综合解决方案。

 

一体化实验室

• 实验室信息管理

• 电子实验记录本/SOP执行

• 试剂耗材管理

• 仪器管理

• 数据管理

 

部分产品

量化材料类

• Crystal:固体化学和物理性质计算软件

• Diamond:晶体结构数据可视化分析

• Endeavour:强大的求解晶体结构的软件

• Molpro:高精度量化软件

• Molcas:多参考态量软件                   

• Turbomole:快速稳定量化软件

• TeraChem:GPU上运行的量化计算软件

• Spartan:分子计算建模软件

 

数据分析类

• GelComparll:凝胶电泳图谱分析软件

• SimaPro:生命周期评估软件             

• Unscrambler:完整多变量数据分析和实验设计软件      

• CSDS:剑桥晶体结构数据库

• lCDD:国际衍射数据中心数据库                

• ICSD:无机晶体结构数据库

• Pearson’s CD:晶体数据库

 

公司简介:

北京泰科博思科技有限公司(Beijing Tech-Box S&T Co. Ltd.)成立于2007年,是国内领先的分子模拟及虚拟仿真综合解决方案提供商。

 

北京泰科博思科技有限公司与国际领先的模拟软件厂商、开发团队深入合作,为高校、科研院所和企业在材料、化工、药物、生命科学、环境、人工智能及数据挖掘、虚拟仿真教学等领域提供专业的整体解决方案。用户根据需要在我们的平台上高效的进行各种模拟实验,指导实际的生产设计。

 

北京泰科博思科技有限公司拥有一支一流的技术服务团队和资深的专家咨询团队,以客户真正需求出发,服务客户,为客户创造价值。我们秉承“职业、敬业、担当、拼搏、合作”的企业精神,致力于用国际领先的软件产品和专业全面的技术支持服务,成为客户可信赖的合作伙伴。 

未找到相应参数组,请于后台属性模板中添加
暂未实现,敬请期待
暂未实现,敬请期待

更多解决方案

——

【COSMOlogic应用实例】助溶剂对聚对苯二甲酸乙二醇酯(PET)低温糖酵解的影响
【COSMOlogic应用实例】助溶剂对聚对苯二甲酸乙二醇酯(PET)低温糖酵解的影响
COSMOLOGIC
【Materials Studio应用实例】MFe2O4铁氧体在电化学、光催化和光电子应用中的结构、机械、电子和光学性质
【Materials Studio应用实例】MFe2O4铁氧体在电化学、光催化和光电子应用中的结构、机械、电子和光学性质
BIOVIA Materials Studio
【COSMOlogic应用实例】可蒸馏离子液体预处理生物质是一种有效的循环利用和回收方法
【COSMOlogic应用实例】可蒸馏离子液体预处理生物质是一种有效的循环利用和回收方法
COSMOLOGIC
【Materials Studio应用实例】DFT和MD法对阳离子尼罗蓝和阴离子甲基橙在水中金属氯化物表面吸附的比较研究
【Materials Studio应用实例】DFT和MD法对阳离子尼罗蓝和阴离子甲基橙在水中金属氯化物表面吸附的比较研究
BIOVIA Materials Studio
【Materials Studio应用实例】l-丙氨酸、dl-丙氨酸、β-丙氨酸和丙氨酸氯化氢分子晶体的研究:结构和DFT分析
【Materials Studio应用实例】l-丙氨酸、dl-丙氨酸、β-丙氨酸和丙氨酸氯化氢分子晶体的研究:结构和DFT分析
Materials Studio
【COSMOlogic应用实例】乙酰丙酸还原胺化法制备吡咯烷酮的可持续合成与提取
【COSMOlogic应用实例】乙酰丙酸还原胺化法制备吡咯烷酮的可持续合成与提取
COSMOLOGIC