2025-11-14T00:37:10.948372

Generative Deep Learning Framework for Inverse Design of Fuels

Yalamanchi, Pal, Mohan et al.

In the present work, a generative deep learning framework combining a Co-optimized Variational Autoencoder (Co-VAE) architecture with quantitative structure-property relationship (QSPR) techniques is developed to enable accelerated inverse design of fuels. The Co-VAE integrates a property prediction component coupled with the VAE latent space, enhancing molecular reconstruction and accurate estimation of Research Octane Number (RON) (chosen as the fuel property of interest). A subset of the GDB-13 database, enriched with a curated RON database, is used for model training. Hyperparameter tuning is further utilized to optimize the balance among reconstruction fidelity, chemical validity, and RON prediction. An independent regression model is then used to refine RON prediction, while a differential evolution algorithm is employed to efficiently navigate the VAE latent space and identify promising fuel molecule candidates with high RON. This methodology addresses the limitations of traditional fuel screening approaches by capturing complex structure-property relationships within a comprehensive latent representation. The generative model can be adapted to different target properties, enabling systematic exploration of large chemical spaces relevant to fuel design applications. Furthermore, the demonstrated framework can be readily extended by incorporating additional synthesizability criteria to improve applicability and reliability for de novo design of new fuels.

academic

Generative Deep Learning Framework for Inverse Design of Fuels

基本信息

论文ID: 2504.12075
标题: Generative Deep Learning Framework for Inverse Design of Fuels
作者: Kiran K. Yalamanchi, Pinaki Pal, Balaji Mohan, Abdullah S. AlRamadan, Jihad A. Badra, Yuanjiang Pei
分类: cs.LG physics.chem-ph
发表时间: 2025年10月13日 (arXiv v3版本)
论文链接: https://arxiv.org/abs/2504.12075v3

摘要

本研究开发了一个结合共优化变分自编码器(Co-VAE)架构与定量结构-性质关系(QSPR)技术的生成式深度学习框架，用于燃料的逆向设计。Co-VAE将性质预测组件与VAE潜在空间耦合，增强了分子重构和研究辛烷值(RON)的准确估计。研究使用GDB-13数据库的子集，并结合精心策划的RON数据库进行模型训练。通过超参数调优来优化重构保真度、化学有效性和RON预测之间的平衡。独立的回归模型用于优化RON预测，差分进化算法用于高效导航VAE潜在空间并识别具有高RON的候选燃料分子。

研究背景与动机

问题定义

现代汽车技术的进步和严格环境法规的实施创造了对创新燃料的迫切需求，这些燃料需要具备：

高抗爆性能以支持先进发动机操作
清洁燃烧特性以减少排放
高效的发动机性能

问题重要性

传统的燃料开发方法严重依赖实验试错和专家直觉，这种方法不仅耗时，而且无法充分探索潜在燃料分子的巨大化学空间。考虑到化学空间的复杂性和实验成本，需要数据驱动的方法来加速燃料发现和优化。

现有方法局限性

QSPR方法局限性：虽然能预测已知结构的性质，但不能生成新的分子候选物，且通常基于有限数据集和手工特征，可能无法在广泛化学空间中泛化
传统生成模型：缺乏对特定燃料性质的针对性优化
分离式方法：生成和预测模块独立训练，缺乏协同优化

研究动机

基于药物分子设计中生成式深度学习的成功应用，研究者开始将这些方法应用于燃料分子设计。本研究旨在开发一个集成的生成-预测框架，能够高效导航化学空间以识别具有期望燃料性质的分子。

核心贡献

提出了Co-VAE架构：将性质预测组件直接集成到VAE中，实现分子重构和RON预测的联合优化
开发了模块化框架：分离生成和预测组件，允许独立训练和优化，提高了鲁棒性和性能
构建了综合数据集：结合GDB-13数据库子集和精心策划的RON数据库，涵盖357,907个分子
实现了高效筛选策略：使用差分进化算法在潜在空间中搜索高RON分子，生成了921个新的高性能燃料候选物
建立了完整的验证流程：包括化学有效性检查和性质预测一致性验证

方法详解

任务定义

输入：分子的SMILES表示（独热编码）输出：具有高研究辛烷值(RON > 110)的新燃料分子 约束条件：

分子必须化学有效
仅包含C、H、O原子
最多10个重原子
最多2个环状结构

模型架构

Co-VAE架构

Co-VAE扩展了标准VAE，包含三个主要组件：

编码器：双层LSTM网络处理独热编码的SMILES字符串，通过全连接层生成潜在空间的均值和对数方差
解码器：从潜在变量重构分子结构，使用全连接层和LSTM网络
性质预测器：双层前馈神经网络，从潜在空间均值预测RON值

损失函数

Loss = BCE + β × KLD + L_RON

其中：

BCE：二元交叉熵重构损失
KLD：Kullback-Leibler散度正则化项
L_RON：RON预测的平均绝对误差
β：平衡参数，从0逐渐增加到0.25（75个epoch）

回归模型优化

使用潜在空间嵌入训练独立的回归模型：

评估13种不同算法（XGBoost、CatBoost、LightGBM等）
使用NSGA-II多目标优化进行超参数调优
CatBoost表现最佳：R² = 0.929, MAE = 5.365, RMSE = 8.090

技术创新点

联合优化策略：Co-VAE同时优化分子重构和性质预测，使潜在空间学习到对RON预测有意义的特征
模块化设计：分离生成和预测组件，允许使用更复杂的回归算法和优化策略
渐进式β退火：避免后验坍塌问题，平衡重构保真度和潜在空间正则化
双重验证机制：确保生成分子的化学有效性和性质预测一致性

实验设置

数据集

GDB-13子集：

原始数据：970万+小分子（≤13重原子）
筛选条件：仅C、H、O原子，≤10重原子，≤2环
最终规模：357,907个分子

RON数据集：

来源：文献中ASTM标准RON值
规模：332个分子及其RON值
数据分割：训练集、验证集(10)、测试集(10)

评价指标

重构准确性：SMILES字符串重构的准确率
化学有效性：生成分子通过RDKit验证的比例
RON预测性能：MAE、RMSE、R²

对比方法

评估了13种回归算法：

集成方法：XGBoost、CatBoost、LightGBM、RandomForest
线性方法：LinearRegression、Ridge、Lasso、ElasticNet
其他：SVR、KNeighbors、DecisionTree、TabNet、AutoTS

实现细节

超参数优化：贝叶斯优化（bayes_opt包）
训练策略：16次随机评估 + 40次序列优化
验证方法：10折交叉验证
搜索算法：差分进化（SciPy实现）

实验结果

主要结果

Co-VAE性能（最优配置）

重构准确性：77.56%
化学有效性：55.19%
RON MAE：9.26

回归模型性能排名

模型	MAE	RMSE	R²
CatBoost	5.365	8.090	0.929
XGBoost	6.513	10.496	0.880
LightGBM	6.959	10.556	0.878
RandomForest	7.310	10.689	0.872

最终CatBoost模型（10折交叉验证）

R² = 0.869 ± 0.102
MAE = 4.935 ± 1.041
RMSE = 7.879 ± 2.964

分子生成结果

生成总数：1189个独特有效的SMILES
独特分子：1185个化学物质
新分子：921个未在训练集中出现的分子
目标性能：所有分子预测RON > 110

消融实验

通过超参数优化验证了各组件的重要性：

LSTM层数：2层最优
隐藏层大小：151最优
潜在空间维度：73最优
β退火策略的有效性得到验证

案例分析

生成的高RON分子主要特征：

支链结构丰富
含醇、醚、醛官能团
碳原子数分布：4-10个
氧原子数分布：0-4个

实验发现

结构-性质关系：支链度和含氧官能团与高RON正相关
模型泛化能力：能够生成训练集外的有效高性能分子
搜索效率：差分进化算法能有效导航73维潜在空间

相关工作

生成式分子设计

VAE、GAN、强化学习在药物设计中的应用
Liu等人的多目标模仿学习燃料设计框架
Rittig等人的图机器学习高辛烷值燃料设计

QSPR方法

传统基团贡献方法
vom Lehn等人的机器学习QSPR模型
Chen等人的大规模燃料候选筛选

集成方法

Liu等人的VAE联合优化架构
本研究的模块化设计相比集成方法的优势

结论与讨论

主要结论

Co-VAE成功将生成和预测任务联合优化，学习到对RON预测有意义的潜在表示
模块化设计允许使用先进的回归算法，显著提高预测精度
差分进化搜索策略能有效识别高性能燃料候选物
框架具有良好的可扩展性，可适应不同目标性质

局限性

数据规模不平衡：RON数据集相比GDB-13子集规模较小
化学空间限制：仅考虑C、H、O原子，排除了其他重要燃料组分
单一性质优化：仅针对RON，未考虑其他燃料性质
实验验证缺失：生成分子需要实验验证其实际性能

未来方向

多性质优化：集成能量密度、挥发性、排放特性等多个燃料性质
可合成性约束：加入合成难度、成本、毒性等实际约束
数据集扩展：包含更多元素和更大的RON数据库
混合燃料设计：扩展到多组分燃料混合物的设计
不确定性量化：集成UQ方法提高预测可信度

深度评价

优点

方法创新性：Co-VAE架构巧妙地结合了生成和预测任务，是燃料设计领域的重要进展
实验充分性：系统的超参数优化、多种算法对比、严格的验证流程
结果说服力：生成了大量化学有效的高RON候选分子，证明了方法的实用性
写作清晰度：论文结构清晰，技术细节描述详细，易于理解和复现

不足

评估局限性：缺乏实验验证，仅依赖计算预测可能存在偏差
化学空间受限：仅考虑简单的C、H、O化合物，限制了应用范围
单目标优化：实际燃料设计需要考虑多个相互制约的性质
可合成性忽略：生成的分子可能在实际合成中面临困难

影响力

学术贡献：为AI驱动的燃料设计提供了新的方法论框架
实用价值：可加速燃料筛选过程，减少实验成本
可复现性：提供了详细的实现细节和超参数设置
扩展性：框架设计具有良好的可扩展性，可适应其他化学设计任务

适用场景

燃料初筛：在大规模实验之前进行计算筛选
分子优化：基于已知分子进行结构改进
化学空间探索：发现传统方法难以识别的新型燃料分子
教育研究：作为AI化学应用的教学和研究案例

参考文献

论文引用了32篇重要参考文献，涵盖：

生成式深度学习在分子设计中的应用
QSPR方法和机器学习在燃料性质预测中的应用
VAE架构和优化策略
化学信息学工具和数据库

总体评价：这是一篇高质量的研究论文，在燃料分子设计领域提出了创新的AI方法。虽然存在一些局限性，但其方法论贡献和实际应用价值值得肯定。该工作为AI驱动的化学设计提供了重要参考，具有良好的学术和实用价值。