2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, SuÃ¡rez-Dou, Davoine et al.

Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the SchrÃ¶dinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.

academic

QCell: Conjunto de Datos Mecánico-Cuántico Integral Abarcando Fragmentos Biomoleculares Diversos

Información Básica

ID del Artículo: 2510.09939
Título: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
Autores: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
Clasificación: physics.chem-ph
Fecha de Publicación: 11 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09939

Resumen

Los avances recientes en campos de fuerza de aprendizaje automático (MLFFs) están revolucionando la simulación molecular al establecer un puente entre la precisión mecánico-cuántica y la eficiencia computacional de los potenciales mecánicos. Sin embargo, el desarrollo de MLFFs confiables para sistemas biomoleculares sigue limitado por la escasez de conjuntos de datos mecánico-cuánticos de alta calidad y diversidad química que abarquen todas las categorías biomoleculares principales expresadas en células vivas. Es fundamental que tales conjuntos de datos integrales se calculen utilizando aproximaciones de resolución de la ecuación de Schrödinger no empíricas o mínimamente empíricas. Para abordar estas limitaciones, los autores introducen el conjunto de datos QCell, una colección seleccionada de 525,000 cálculos mecánico-cuánticos nuevos que abarcan fragmentos biomoleculares de carbohidratos, ácidos nucleicos, lípidos, dímeros e iones. QCell complementa los conjuntos de datos existentes, llevando el número total de puntos de datos disponibles a 41 millones de sistemas moleculares, todos calculados utilizando teoría funcional de la densidad híbrida con interacciones de dispersión multicuerpo no local, capturados en el nivel mecánico-cuántico PBE0+MBD(-NL).

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Los conjuntos de datos mecánico-cuánticos existentes cubren principalmente moléculas pequeñas y proteínas, presentando brechas significativas en tres categorías biomoleculares principales —ácidos nucleicos, lípidos y carbohidratos— que representan aproximadamente el 40% de la biomasa celular.
Importancia:
- El espacio químico biomolecular posee características únicas, con complejidad derivada principalmente del espacio conformacional de bloques de construcción químicos relativamente limitados y repetitivos
- El modelado preciso de interacciones biomoleculares es crítico para la química computacional y la biofísica
- Los MLFFs requieren conjuntos de datos QM diversificados y de alta calidad para representar fielmente el espacio químico encontrado en sistemas biomoleculares
Limitaciones de Métodos Existentes:
- Los métodos QM tradicionales ofrecen alta precisión pero baja eficiencia computacional
- Los campos de fuerza atómicos empíricos ofrecen alta eficiencia pero precisión limitada
- Los conjuntos de datos existentes como GEMS, QCML y OMol25, aunque representan progreso, aún presentan brechas significativas en las tres categorías biomoleculares principales
Motivación de la Investigación:
- Llenar las brechas en conjuntos de datos biomoleculares
- Utilizar un nivel de teoría mecánico-cuántica no empírica consistente
- Proporcionar recursos de entrenamiento integrales para la próxima generación de MLFFs

Contribuciones Principales

Construcción del Conjunto de Datos QCell: Contiene 525,881 cálculos QM nuevos de fragmentos biomoleculares, abarcando ácidos nucleicos, lípidos, carbohidratos, iones/agua y dímeros no covalentes
Expansión de Cobertura de Datos: Combinado con conjuntos de datos existentes, alcanza 41 millones de puntos de datos de sistemas moleculares, abarcando 82 elementos químicos
Nivel Teórico Unificado: Todos los cálculos utilizan el nivel PBE0+MBD(-NL), asegurando consistencia de datos
Muestreo Conformacional Profundo: Enfoque en la diversidad conformacional de entornos químicos biológicamente relevantes
Verificación Técnica: Validación de la calidad del conjunto de datos mediante análisis estructural y entrenamiento de campos de fuerza de aprendizaje automático

Explicación Detallada de Métodos

Flujo de Trabajo de Construcción del Conjunto de Datos

El conjunto de datos QCell se construye mediante un flujo de trabajo de cinco pasos:

Gestión de Biblioteca de Bloques de Construcción y Generación de Estructura 3D Inicial
Muestreo Conformacional Extenso (dinámica molecular o herramientas de generación conformacional dedicadas)
Selección de Fragmentos Representativos
Preoptimización mediante Método DFTB+MBD
Cálculos Mecánico-Cuánticos de Alta Calidad PBE0+MBD(-NL)

Métodos Específicos para Cada Categoría Molecular

Ácidos Nucleicos

Utilización de Nucleic Acid Builder para construir heptámeros de ADN de doble hélice solvatados (formas A-, B-, Z-ADN)
Simulación de dinámica molecular con campo de fuerza OL21
Extracción de fragmentos trímeros de doble cadena central de trayectorias de heptámeros
Inclusión de dímeros de pares de bases de ADN y fragmentos de ARN en fase gaseosa

Lípidos

Utilización de CHARMM-GUI Membrane Builder para generar estructuras de membranas de fosfolípidos
Cobertura de fosfolípidos POPC, POPE, POPG, POPS y colesterol
Simulaciones de producción de 500 ns con campo de fuerza Lipid21
Selección de monómeros, dímeros y trímeros de ácidos grasos basada en proximidad geométrica

Carbohidratos

Construcción de biblioteca de 52 monosacáridos comunes, incluyendo configuraciones de isómeros α/β de pentosas y hexosas
Construcción de disacáridos y enlaces azúcar-péptido utilizando PyMOL
Generación de conformaciones utilizando programa CREST, umbral de energía máxima de 12 kcal/mol
Agrupamiento por ángulos diedros de enlace y selección de conformaciones representativas

Iones y Agua

Preparación de sistemas de iones solvatados, con iones colocados en el centro de una caja de agua
Iones monovalentes utilizando campo de fuerza MBpol, iones divalentes utilizando campo de fuerza AMBER
Captura de efectos de solvatación en diferentes niveles de hidratación (1-100 moléculas de agua)

Detalles de Cálculos Mecánico-Cuánticos

Nivel Teórico: PBE0+MBD(-NL) - funcional híbrido no empírico más tratamiento de dispersión multicuerpo
Software: Código FHI-aims
Conjunto de Bases: Conjunto "tight" para moléculas pequeñas, conjunto "intermediate" para moléculas >350 átomos
Criterios de Convergencia: Energía total 10^-5 eV, suma de valores propios 10^-3 eV, densidad de carga 10^-5 electrons/Å³, fuerzas 10^-4 eV/Å

Configuración Experimental

Composición del Conjunto de Datos

Categoría	Cantidad	Número de Átomos	Elementos	Nivel Teórico
Ácidos Nucleicos	34,838	14-382	H,C,N,O,Na,Mg,S,P	PBE0+MBD-NL
Lípidos	16,000	125-402	H,C,N,O,P	PBE0+MBD
Carbohidratos	74,087	35-75	H,C,N,O	PBE0+MBD
Iones/Agua	30,000	4-303	H,O,Na,Cl,K,Mg,Ca	PBE0+MBD-NL
Dímeros No Covalentes	370,956	2-34	20 elementos	PBE0+MBD-NL

Métricas de Evaluación

Verificación de descriptores geométricos estructurales
Error absoluto medio (MAE) de fuerzas de campos de fuerza de aprendizaje automático
Comparación de funciones de distribución radial con valores de referencia experimentales

Verificación de Aprendizaje Automático

Entrenamiento de MLFFs utilizando arquitectura SO3LR para evaluar la calidad del conjunto de datos:

Tres tamaños de modelo: pequeño, mediano, grande
Función de pérdida conjunta: fuerzas, momento dipolar, relación Hirshfeld, energía (pesos 100:10:10:1)
Truncamiento de largo alcance de 10 Å, entrenamiento en GPU A100 durante 180 horas

Resultados Experimentales

Resultados de Verificación Estructural

Ácidos Nucleicos: Las distribuciones de distancia fosfato-fosfato y ángulos de flexión del esqueleto de fragmentos de ADN reproducen los valores esperados para ADN A-, B- y Z-
Lípidos: Las distribuciones de radio de giro de fragmentos de ácidos grasos reflejan razonablemente la extensión de cadena y el empaquetamiento
Carbohidratos: Los ángulos diedros de enlaces N/O-glucosídicos abarcan el espacio conformacional completo, reproduciendo todos los rotámeros principales
Iones/Agua: Las funciones de distribución radial coinciden con distancias de hidratación experimentales, con posiciones precisas de picos ión-oxígeno monovalente y O-O

Rendimiento de Aprendizaje Automático

Resultados de MAE de fuerzas para diferentes subconjuntos de datos:

Ácidos Nucleicos: ~0.8 kcal/mol/Å (modelo grande)
Lípidos: ~0.6 kcal/mol/Å (modelo grande)
Carbohidratos: ~0.5 kcal/mol/Å (modelo grande)
Iones/Agua: ~0.7 kcal/mol/Å (modelo grande)
DES370k: ~0.8 kcal/mol/Å (modelo grande)

Los errores disminuyen sistemáticamente con la capacidad del modelo, con la mayoría de subconjuntos alcanzando por debajo de 1 kcal/mol/Å, demostrando la consistencia interna del conjunto de datos y la capacidad de generalización de MLFFs modernos en sistemas de diversidad química.

Trabajo Relacionado

Conjuntos de Datos QM Existentes

QM7-X: Moléculas orgánicas pequeñas, 4.19 millones de puntos de datos
MD22: Trayectorias de dinámica molecular
GEMS: Estrategia de fragmentación jerárquica de proteínas
SPICE: Moléculas similares a fármacos y péptidos
QCML: Mapeo sistemático del espacio químico de moléculas pequeñas
OMol25: Conjunto de heterogeneidad química

Ventajas de Este Trabajo

Primera cobertura sistemática de las tres categorías biomoleculares principales: ácidos nucleicos, lípidos y carbohidratos
Nivel teórico no empírico unificado asegura consistencia de datos
Muestreo conformacional profundo enfocado en entornos químicos biológicamente relevantes
Perfectamente compatible con conjuntos de datos existentes para entrenamiento unificado

Conclusiones y Discusión

Conclusiones Principales

El conjunto de datos QCell llena exitosamente brechas importantes en datos QM biomoleculares
El nivel teórico unificado PBE0+MBD(-NL) asegura compatibilidad con conjuntos de datos existentes
La verificación estructural confirma la razonabilidad química y diversidad del conjunto de datos
La verificación de aprendizaje automático demuestra rendimiento predictivo excelente

Limitaciones

Las funciones de distribución radial de iones divalentes muestran ligeras desviaciones de valores experimentales
El tamaño de fragmentos está limitado a 402 átomos máximo
Enfoque principal en elementos biológicamente relevantes, diversidad de elementos relativamente limitada
El equilibrio entre entornos de fase gaseosa y solución aún requiere optimización adicional

Direcciones Futuras

Extensión a fragmentos biomoleculares más grandes
Inclusión de más efectos de solvente y condiciones ambientales
Verificación y calibración adicional con datos experimentales
Desarrollo de nuevas arquitecturas MLFF especializadas para biomoléculas

Evaluación Profunda

Fortalezas

Llena Brechas Importantes: Primera solución sistemática a la insuficiencia de datos en ácidos nucleicos, lípidos y carbohidratos
Metodología Rigurosa: Empleo de métodos mecánico-cuánticos no empíricos con fundamentos teóricos sólidos
Alta Calidad de Datos: Múltiples verificaciones aseguran razonabilidad de estructuras y energías
Gran Valor Práctico: Compatible con conjuntos de datos existentes, aplicable directamente al entrenamiento de MLFF
Acceso Abierto: Conjunto de datos disponible públicamente, promoviendo el desarrollo del campo

Deficiencias

Costo Computacional: Los cálculos PBE0+MBD(-NL) tienen alto costo, limitando la expansión del tamaño del conjunto de datos
Limitaciones de Fragmentos: La limitación máxima de 402 átomos puede no capturar completamente interacciones de largo alcance
Simplificación Ambiental: Consideración principalmente de fase gaseosa y solvatación simple, modelado insuficiente de entornos biológicos complejos
Verificación Limitada: Falta de comparación directa con métodos de alta precisión (como CCSD(T))

Impacto

Contribución Académica: Proporciona base de datos importante para el desarrollo de MLFF biomoleculares
Valor Práctico: Aplicable directamente a diseño de fármacos, simulación de biomoléculas y otros campos
Reproducibilidad: Descripción detallada de métodos y datos abiertos aseguran reproducibilidad
Impulso al Desarrollo: Puede promover desarrollo de nuevos métodos de modelado biomolecular

Escenarios de Aplicación

Entrenamiento de MLFF Biomoleculares: Uso directo para entrenar campos de fuerza universales que cubran múltiples biomoléculas
Diseño de Fármacos: Proporciona datos para modelado de interacciones proteína-ligando y ADN-fármaco
Biología de Membranas: Los datos de lípidos pueden aplicarse a investigación de proteínas de membrana e interacciones de membrana
Biología de Azúcares: Los datos de carbohidratos apoyan investigación de glucoproteínas y glucolípidos
Desarrollo de Métodos: Proporciona datos de referencia para nuevos métodos de química cuántica y arquitecturas MLFF

Referencias

Este artículo cita 58 referencias importantes que abarcan métodos de química cuántica, campos de fuerza de aprendizaje automático, simulación de biomoléculas y conjuntos de datos relacionados, proporcionando una base teórica sólida y apoyo técnico para la investigación.