2025-11-14T00:37:10.948372

Generative Deep Learning Framework for Inverse Design of Fuels

Yalamanchi, Pal, Mohan et al.

In the present work, a generative deep learning framework combining a Co-optimized Variational Autoencoder (Co-VAE) architecture with quantitative structure-property relationship (QSPR) techniques is developed to enable accelerated inverse design of fuels. The Co-VAE integrates a property prediction component coupled with the VAE latent space, enhancing molecular reconstruction and accurate estimation of Research Octane Number (RON) (chosen as the fuel property of interest). A subset of the GDB-13 database, enriched with a curated RON database, is used for model training. Hyperparameter tuning is further utilized to optimize the balance among reconstruction fidelity, chemical validity, and RON prediction. An independent regression model is then used to refine RON prediction, while a differential evolution algorithm is employed to efficiently navigate the VAE latent space and identify promising fuel molecule candidates with high RON. This methodology addresses the limitations of traditional fuel screening approaches by capturing complex structure-property relationships within a comprehensive latent representation. The generative model can be adapted to different target properties, enabling systematic exploration of large chemical spaces relevant to fuel design applications. Furthermore, the demonstrated framework can be readily extended by incorporating additional synthesizability criteria to improve applicability and reliability for de novo design of new fuels.

academic

Cadre d'apprentissage profond génératif pour la conception inverse de carburants

Informations de base

ID de l'article : 2504.12075
Titre : Generative Deep Learning Framework for Inverse Design of Fuels
Auteurs : Kiran K. Yalamanchi, Pinaki Pal, Balaji Mohan, Abdullah S. AlRamadan, Jihad A. Badra, Yuanjiang Pei
Classification : cs.LG physics.chem-ph
Date de publication : 13 octobre 2025 (version arXiv v3)
Lien de l'article : https://arxiv.org/abs/2504.12075v3

Résumé

Cette étude développe un cadre d'apprentissage profond génératif combinant une architecture d'autoencodeur variationnel co-optimisé (Co-VAE) avec des techniques de relations quantitatives structure-propriété (QSPR) pour la conception inverse de carburants. Le Co-VAE couple un composant de prédiction de propriétés avec l'espace latent du VAE, améliorant la reconstruction moléculaire et l'estimation précise de l'indice d'octane de recherche (RON). L'étude utilise un sous-ensemble de la base de données GDB-13 combiné avec une base de données RON soigneusement compilée pour l'entraînement du modèle. L'équilibre entre la fidélité de reconstruction, la validité chimique et la prédiction du RON est optimisé par ajustement des hyperparamètres. Des modèles de régression indépendants sont utilisés pour optimiser la prédiction du RON, tandis que l'algorithme d'évolution différentielle est employé pour naviguer efficacement dans l'espace latent du VAE et identifier les molécules de carburant candidates présentant un RON élevé.

Contexte et motivation de la recherche

Définition du problème

Les progrès de la technologie automobile moderne et la mise en œuvre de réglementations environnementales strictes créent un besoin urgent de carburants innovants possédant :

Une résistance élevée au cliquetis pour soutenir les opérations de moteurs avancés
Des caractéristiques de combustion propre pour réduire les émissions
Des performances moteur efficaces

Importance du problème

Les méthodes traditionnelles de développement de carburants dépendent fortement de l'essai-erreur expérimental et de l'intuition d'experts, une approche qui est non seulement chronophage mais ne permet pas d'explorer adéquatement l'immense espace chimique des molécules de carburant potentielles. Compte tenu de la complexité de l'espace chimique et des coûts expérimentaux, des approches pilotées par les données sont nécessaires pour accélérer la découverte et l'optimisation de carburants.

Limitations des approches existantes

Limitations des méthodes QSPR : Bien qu'elles puissent prédire les propriétés de structures connues, elles ne peuvent pas générer de nouveaux candidats moléculaires et reposent généralement sur des ensembles de données limités et des caractéristiques manuelles, ce qui peut ne pas se généraliser dans un large espace chimique
Modèles génératifs traditionnels : Manquent d'optimisation ciblée pour les propriétés spécifiques des carburants
Approches séparées : Les modules de génération et de prédiction sont entraînés indépendamment, sans co-optimisation

Motivation de la recherche

S'appuyant sur les applications réussies de l'apprentissage profond génératif dans la conception de molécules pharmaceutiques, les chercheurs ont commencé à appliquer ces méthodes à la conception de molécules de carburant. Cette étude vise à développer un cadre génératif-prédictif intégré capable de naviguer efficacement dans l'espace chimique pour identifier les molécules possédant les propriétés de carburant souhaitées.

Contributions principales

Proposition de l'architecture Co-VAE : Intègre directement un composant de prédiction de propriétés dans le VAE, réalisant l'optimisation conjointe de la reconstruction moléculaire et de la prédiction du RON
Développement d'un cadre modulaire : Sépare les composants de génération et de prédiction, permettant l'entraînement et l'optimisation indépendants, améliorant la robustesse et les performances
Construction d'un ensemble de données complet : Combine un sous-ensemble de la base de données GDB-13 et une base de données RON soigneusement compilée, couvrant 357 907 molécules
Mise en œuvre d'une stratégie de criblage efficace : Utilise l'algorithme d'évolution différentielle pour rechercher des molécules à RON élevé dans l'espace latent, générant 921 nouveaux candidats de carburant haute performance
Établissement d'un processus de validation complet : Incluant des vérifications de validité chimique et une validation de cohérence de prédiction de propriétés

Détails méthodologiques

Définition de la tâche

Entrée : Représentation SMILES de molécules (codage one-hot) Sortie : Nouvelles molécules de carburant avec un indice d'octane de recherche élevé (RON > 110) Contraintes :

Les molécules doivent être chimiquement valides
Contiennent uniquement des atomes C, H, O
Maximum 10 atomes lourds
Maximum 2 structures cycliques

Architecture du modèle

Architecture Co-VAE

Le Co-VAE étend le VAE standard avec trois composants principaux :

Encodeur : Réseau LSTM à deux couches traitant les chaînes SMILES codées en one-hot, générant la moyenne et la log-variance de l'espace latent via des couches entièrement connectées
Décodeur : Reconstruit la structure moléculaire à partir de variables latentes, utilisant des couches entièrement connectées et un réseau LSTM
Prédicteur de propriétés : Réseau de neurones feedforward à deux couches prédisant la valeur du RON à partir de la moyenne de l'espace latent

Fonction de perte

Loss = BCE + β × KLD + L_RON

Où :

BCE : Perte de reconstruction par entropie croisée binaire
KLD : Terme de régularisation de divergence de Kullback-Leibler
L_RON : Erreur absolue moyenne pour la prédiction du RON
β : Paramètre d'équilibre, augmentant progressivement de 0 à 0,25 (75 epochs)

Optimisation du modèle de régression

Entraînement de modèles de régression indépendants utilisant les plongements de l'espace latent :

Évaluation de 13 algorithmes différents (XGBoost, CatBoost, LightGBM, etc.)
Optimisation multi-objectifs utilisant NSGA-II pour l'ajustement des hyperparamètres
CatBoost affiche les meilleures performances : R² = 0,929, MAE = 5,365, RMSE = 8,090

Points d'innovation technique

Stratégie d'optimisation conjointe : Le Co-VAE optimise simultanément la reconstruction moléculaire et la prédiction de propriétés, permettant à l'espace latent d'apprendre des caractéristiques significatives pour la prédiction du RON
Conception modulaire : Sépare les composants de génération et de prédiction, permettant l'utilisation d'algorithmes de régression plus complexes et de stratégies d'optimisation
Recuit bêta progressif : Évite le problème d'effondrement postérieur, équilibrant la fidélité de reconstruction et la régularisation de l'espace latent
Mécanisme de validation double : Assure la validité chimique des molécules générées et la cohérence de la prédiction de propriétés

Configuration expérimentale

Ensemble de données

Sous-ensemble GDB-13 :

Données originales : Plus de 9,7 millions de petites molécules (≤13 atomes lourds)
Critères de filtrage : Uniquement atomes C, H, O, ≤10 atomes lourds, ≤2 cycles
Taille finale : 357 907 molécules

Ensemble de données RON :

Source : Valeurs RON selon la norme ASTM de la littérature
Taille : 332 molécules et leurs valeurs RON
Division des données : Ensemble d'entraînement, ensemble de validation (10), ensemble de test (10)

Métriques d'évaluation

Précision de reconstruction : Taux de précision de la reconstruction des chaînes SMILES
Validité chimique : Proportion de molécules générées validées par RDKit
Performance de prédiction du RON : MAE, RMSE, R²

Méthodes de comparaison

Évaluation de 13 algorithmes de régression :

Méthodes d'ensemble : XGBoost, CatBoost, LightGBM, RandomForest
Méthodes linéaires : LinearRegression, Ridge, Lasso, ElasticNet
Autres : SVR, KNeighbors, DecisionTree, TabNet, AutoTS

Détails d'implémentation

Optimisation des hyperparamètres : Optimisation bayésienne (paquet bayes_opt)
Stratégie d'entraînement : 16 évaluations aléatoires + 40 optimisations séquentielles
Méthode de validation : Validation croisée 10 fois
Algorithme de recherche : Évolution différentielle (implémentation SciPy)

Résultats expérimentaux

Résultats principaux

Performance Co-VAE (configuration optimale)

Précision de reconstruction : 77,56 %
Validité chimique : 55,19 %
MAE du RON : 9,26

Classement des performances des modèles de régression

Modèle	MAE	RMSE	R²
CatBoost	5,365	8,090	0,929
XGBoost	6,513	10,496	0,880
LightGBM	6,959	10,556	0,878
RandomForest	7,310	10,689	0,872

Modèle CatBoost final (validation croisée 10 fois)

R² = 0,869 ± 0,102
MAE = 4,935 ± 1,041
RMSE = 7,879 ± 2,964

Résultats de génération moléculaire

Nombre total généré : 1 189 SMILES uniques valides
Molécules uniques : 1 185 substances chimiques
Nouvelles molécules : 921 molécules n'apparaissant pas dans l'ensemble d'entraînement
Performance cible : Toutes les molécules avec RON prédit > 110

Études d'ablation

Validation de l'importance de chaque composant par optimisation des hyperparamètres :

Nombre de couches LSTM : 2 couches optimales
Taille de la couche cachée : 151 optimal
Dimension de l'espace latent : 73 optimal
Efficacité de la stratégie de recuit bêta validée

Analyse de cas

Caractéristiques principales des molécules de carburant à RON élevé générées :

Structure riche en ramifications
Contenant des groupes fonctionnels alcool, éther, aldéhyde
Distribution du nombre d'atomes de carbone : 4-10
Distribution du nombre d'atomes d'oxygène : 0-4

Découvertes expérimentales

Relations structure-propriété : Le degré de ramification et les groupes fonctionnels contenant de l'oxygène sont positivement corrélés avec un RON élevé
Capacité de généralisation du modèle : Capable de générer des molécules valides haute performance en dehors de l'ensemble d'entraînement
Efficacité de recherche : L'algorithme d'évolution différentielle navigue efficacement dans l'espace latent 73-dimensionnel

Travaux connexes

Conception moléculaire générative

Applications du VAE, GAN, apprentissage par renforcement dans la conception pharmaceutique
Cadre de conception de carburants par apprentissage par imitation multi-objectifs de Liu et al.
Conception de carburants à haut indice d'octane par apprentissage automatique graphique de Rittig et al.

Méthodes QSPR

Méthodes traditionnelles de contribution de groupes
Modèles QSPR d'apprentissage automatique de vom Lehn et al.
Criblage à grande échelle de candidats carburants de Chen et al.

Méthodes d'ensemble

Architecture VAE co-optimisée de Liu et al.
Avantages de la conception modulaire de cette étude par rapport aux méthodes d'ensemble

Conclusions et discussion

Conclusions principales

Le Co-VAE optimise avec succès les tâches de génération et de prédiction conjointement, apprenant des représentations latentes significatives pour la prédiction du RON
La conception modulaire permet l'utilisation d'algorithmes de régression avancés, améliorant significativement la précision de prédiction
La stratégie de recherche par évolution différentielle identifie efficacement les candidats carburants haute performance
Le cadre possède une bonne extensibilité et peut s'adapter à différentes propriétés cibles

Limitations

Déséquilibre de la taille des données : L'ensemble de données RON est plus petit que le sous-ensemble GDB-13
Restrictions de l'espace chimique : Considère uniquement les atomes C, H, O, excluant d'autres composants de carburant importants
Optimisation d'une seule propriété : Cible uniquement le RON, ne considérant pas d'autres propriétés de carburant
Absence de validation expérimentale : Les molécules générées nécessitent une validation expérimentale de leurs performances réelles

Directions futures

Optimisation multi-propriétés : Intégration de la densité énergétique, de la volatilité, des caractéristiques d'émission et d'autres propriétés de carburant
Contraintes de synthétisabilité : Incorporation de la difficulté de synthèse, du coût, de la toxicité et d'autres contraintes pratiques
Extension de l'ensemble de données : Inclusion d'éléments supplémentaires et d'une base de données RON plus importante
Conception de carburants mixtes : Extension à la conception de mélanges de carburants multi-composants
Quantification de l'incertitude : Intégration de méthodes UQ pour améliorer la fiabilité des prédictions

Évaluation approfondie

Points forts

Innovativité méthodologique : L'architecture Co-VAE combine intelligemment les tâches de génération et de prédiction, représentant une avancée importante dans le domaine de la conception de carburants
Suffisance expérimentale : Optimisation systématique des hyperparamètres, comparaison de multiples algorithmes, processus de validation rigoureux
Pouvoir de conviction des résultats : Génération d'un grand nombre de candidats moléculaires à RON élevé chimiquement valides, démontrant l'utilité pratique de la méthode
Clarté de la rédaction : Structure d'article claire, description détaillée des détails techniques, facile à comprendre et à reproduire

Insuffisances

Limitations d'évaluation : Absence de validation expérimentale, s'appuyant uniquement sur des prédictions informatiques qui peuvent contenir des biais
Espace chimique limité : Considère uniquement les composés simples C, H, O, limitant la portée d'application
Optimisation mono-objectif : La conception réelle de carburants nécessite de considérer plusieurs propriétés mutuellement contraignantes
Synthétisabilité négligée : Les molécules générées peuvent faire face à des difficultés de synthèse pratique

Impact

Contribution académique : Fournit un nouveau cadre méthodologique pour la conception de carburants pilotée par l'IA
Valeur pratique : Peut accélérer le processus de criblage de carburants, réduisant les coûts expérimentaux
Reproductibilité : Fournit des détails d'implémentation détaillés et des paramètres d'hyperparamètres
Extensibilité : La conception du cadre possède une bonne extensibilité, adaptable à d'autres tâches de conception chimique

Scénarios d'application

Criblage initial de carburants : Criblage informatique avant les expériences à grande échelle
Optimisation moléculaire : Amélioration structurelle basée sur des molécules connues
Exploration de l'espace chimique : Découverte de nouvelles molécules de carburant difficiles à identifier par les méthodes traditionnelles
Recherche éducative : Cas d'étude pour l'enseignement et la recherche sur les applications de l'IA en chimie

Références

L'article cite 32 références importantes couvrant :

Applications de l'apprentissage profond génératif dans la conception moléculaire
Méthodes QSPR et apprentissage automatique dans la prédiction de propriétés de carburants
Architecture VAE et stratégies d'optimisation
Outils d'informatique chimique et bases de données

Évaluation globale : Ceci est un article de recherche de haute qualité proposant une méthode d'IA innovante dans le domaine de la conception de molécules de carburant. Bien qu'il présente certaines limitations, ses contributions méthodologiques et sa valeur d'application pratique sont dignes de reconnaissance. Ce travail fournit une référence importante pour la conception chimique pilotée par l'IA et possède une valeur académique et pratique considérable.