2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, Suárez-Dou, Davoine et al.
Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the Schrödinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.
academic

QCell: Conjunto de Datos Mecánico-Cuántico Integral Abarcando Fragmentos Biomoleculares Diversos

Información Básica

  • ID del Artículo: 2510.09939
  • Título: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
  • Autores: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
  • Clasificación: physics.chem-ph
  • Fecha de Publicación: 11 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09939

Resumen

Los avances recientes en campos de fuerza de aprendizaje automático (MLFFs) están revolucionando la simulación molecular al establecer un puente entre la precisión mecánico-cuántica y la eficiencia computacional de los potenciales mecánicos. Sin embargo, el desarrollo de MLFFs confiables para sistemas biomoleculares sigue limitado por la escasez de conjuntos de datos mecánico-cuánticos de alta calidad y diversidad química que abarquen todas las categorías biomoleculares principales expresadas en células vivas. Es fundamental que tales conjuntos de datos integrales se calculen utilizando aproximaciones de resolución de la ecuación de Schrödinger no empíricas o mínimamente empíricas. Para abordar estas limitaciones, los autores introducen el conjunto de datos QCell, una colección seleccionada de 525,000 cálculos mecánico-cuánticos nuevos que abarcan fragmentos biomoleculares de carbohidratos, ácidos nucleicos, lípidos, dímeros e iones. QCell complementa los conjuntos de datos existentes, llevando el número total de puntos de datos disponibles a 41 millones de sistemas moleculares, todos calculados utilizando teoría funcional de la densidad híbrida con interacciones de dispersión multicuerpo no local, capturados en el nivel mecánico-cuántico PBE0+MBD(-NL).

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los conjuntos de datos mecánico-cuánticos existentes cubren principalmente moléculas pequeñas y proteínas, presentando brechas significativas en tres categorías biomoleculares principales —ácidos nucleicos, lípidos y carbohidratos— que representan aproximadamente el 40% de la biomasa celular.
  2. Importancia:
    • El espacio químico biomolecular posee características únicas, con complejidad derivada principalmente del espacio conformacional de bloques de construcción químicos relativamente limitados y repetitivos
    • El modelado preciso de interacciones biomoleculares es crítico para la química computacional y la biofísica
    • Los MLFFs requieren conjuntos de datos QM diversificados y de alta calidad para representar fielmente el espacio químico encontrado en sistemas biomoleculares
  3. Limitaciones de Métodos Existentes:
    • Los métodos QM tradicionales ofrecen alta precisión pero baja eficiencia computacional
    • Los campos de fuerza atómicos empíricos ofrecen alta eficiencia pero precisión limitada
    • Los conjuntos de datos existentes como GEMS, QCML y OMol25, aunque representan progreso, aún presentan brechas significativas en las tres categorías biomoleculares principales
  4. Motivación de la Investigación:
    • Llenar las brechas en conjuntos de datos biomoleculares
    • Utilizar un nivel de teoría mecánico-cuántica no empírica consistente
    • Proporcionar recursos de entrenamiento integrales para la próxima generación de MLFFs

Contribuciones Principales

  1. Construcción del Conjunto de Datos QCell: Contiene 525,881 cálculos QM nuevos de fragmentos biomoleculares, abarcando ácidos nucleicos, lípidos, carbohidratos, iones/agua y dímeros no covalentes
  2. Expansión de Cobertura de Datos: Combinado con conjuntos de datos existentes, alcanza 41 millones de puntos de datos de sistemas moleculares, abarcando 82 elementos químicos
  3. Nivel Teórico Unificado: Todos los cálculos utilizan el nivel PBE0+MBD(-NL), asegurando consistencia de datos
  4. Muestreo Conformacional Profundo: Enfoque en la diversidad conformacional de entornos químicos biológicamente relevantes
  5. Verificación Técnica: Validación de la calidad del conjunto de datos mediante análisis estructural y entrenamiento de campos de fuerza de aprendizaje automático

Explicación Detallada de Métodos

Flujo de Trabajo de Construcción del Conjunto de Datos

El conjunto de datos QCell se construye mediante un flujo de trabajo de cinco pasos:

  1. Gestión de Biblioteca de Bloques de Construcción y Generación de Estructura 3D Inicial
  2. Muestreo Conformacional Extenso (dinámica molecular o herramientas de generación conformacional dedicadas)
  3. Selección de Fragmentos Representativos
  4. Preoptimización mediante Método DFTB+MBD
  5. Cálculos Mecánico-Cuánticos de Alta Calidad PBE0+MBD(-NL)

Métodos Específicos para Cada Categoría Molecular

Ácidos Nucleicos

  • Utilización de Nucleic Acid Builder para construir heptámeros de ADN de doble hélice solvatados (formas A-, B-, Z-ADN)
  • Simulación de dinámica molecular con campo de fuerza OL21
  • Extracción de fragmentos trímeros de doble cadena central de trayectorias de heptámeros
  • Inclusión de dímeros de pares de bases de ADN y fragmentos de ARN en fase gaseosa

Lípidos

  • Utilización de CHARMM-GUI Membrane Builder para generar estructuras de membranas de fosfolípidos
  • Cobertura de fosfolípidos POPC, POPE, POPG, POPS y colesterol
  • Simulaciones de producción de 500 ns con campo de fuerza Lipid21
  • Selección de monómeros, dímeros y trímeros de ácidos grasos basada en proximidad geométrica

Carbohidratos

  • Construcción de biblioteca de 52 monosacáridos comunes, incluyendo configuraciones de isómeros α/β de pentosas y hexosas
  • Construcción de disacáridos y enlaces azúcar-péptido utilizando PyMOL
  • Generación de conformaciones utilizando programa CREST, umbral de energía máxima de 12 kcal/mol
  • Agrupamiento por ángulos diedros de enlace y selección de conformaciones representativas

Iones y Agua

  • Preparación de sistemas de iones solvatados, con iones colocados en el centro de una caja de agua
  • Iones monovalentes utilizando campo de fuerza MBpol, iones divalentes utilizando campo de fuerza AMBER
  • Captura de efectos de solvatación en diferentes niveles de hidratación (1-100 moléculas de agua)

Detalles de Cálculos Mecánico-Cuánticos

  • Nivel Teórico: PBE0+MBD(-NL) - funcional híbrido no empírico más tratamiento de dispersión multicuerpo
  • Software: Código FHI-aims
  • Conjunto de Bases: Conjunto "tight" para moléculas pequeñas, conjunto "intermediate" para moléculas >350 átomos
  • Criterios de Convergencia: Energía total 10^-5 eV, suma de valores propios 10^-3 eV, densidad de carga 10^-5 electrons/ų, fuerzas 10^-4 eV/Å

Configuración Experimental

Composición del Conjunto de Datos

CategoríaCantidadNúmero de ÁtomosElementosNivel Teórico
Ácidos Nucleicos34,83814-382H,C,N,O,Na,Mg,S,PPBE0+MBD-NL
Lípidos16,000125-402H,C,N,O,PPBE0+MBD
Carbohidratos74,08735-75H,C,N,OPBE0+MBD
Iones/Agua30,0004-303H,O,Na,Cl,K,Mg,CaPBE0+MBD-NL
Dímeros No Covalentes370,9562-3420 elementosPBE0+MBD-NL

Métricas de Evaluación

  • Verificación de descriptores geométricos estructurales
  • Error absoluto medio (MAE) de fuerzas de campos de fuerza de aprendizaje automático
  • Comparación de funciones de distribución radial con valores de referencia experimentales

Verificación de Aprendizaje Automático

Entrenamiento de MLFFs utilizando arquitectura SO3LR para evaluar la calidad del conjunto de datos:

  • Tres tamaños de modelo: pequeño, mediano, grande
  • Función de pérdida conjunta: fuerzas, momento dipolar, relación Hirshfeld, energía (pesos 100:10:10:1)
  • Truncamiento de largo alcance de 10 Å, entrenamiento en GPU A100 durante 180 horas

Resultados Experimentales

Resultados de Verificación Estructural

  1. Ácidos Nucleicos: Las distribuciones de distancia fosfato-fosfato y ángulos de flexión del esqueleto de fragmentos de ADN reproducen los valores esperados para ADN A-, B- y Z-
  2. Lípidos: Las distribuciones de radio de giro de fragmentos de ácidos grasos reflejan razonablemente la extensión de cadena y el empaquetamiento
  3. Carbohidratos: Los ángulos diedros de enlaces N/O-glucosídicos abarcan el espacio conformacional completo, reproduciendo todos los rotámeros principales
  4. Iones/Agua: Las funciones de distribución radial coinciden con distancias de hidratación experimentales, con posiciones precisas de picos ión-oxígeno monovalente y O-O

Rendimiento de Aprendizaje Automático

Resultados de MAE de fuerzas para diferentes subconjuntos de datos:

  • Ácidos Nucleicos: ~0.8 kcal/mol/Å (modelo grande)
  • Lípidos: ~0.6 kcal/mol/Å (modelo grande)
  • Carbohidratos: ~0.5 kcal/mol/Å (modelo grande)
  • Iones/Agua: ~0.7 kcal/mol/Å (modelo grande)
  • DES370k: ~0.8 kcal/mol/Å (modelo grande)

Los errores disminuyen sistemáticamente con la capacidad del modelo, con la mayoría de subconjuntos alcanzando por debajo de 1 kcal/mol/Å, demostrando la consistencia interna del conjunto de datos y la capacidad de generalización de MLFFs modernos en sistemas de diversidad química.

Trabajo Relacionado

Conjuntos de Datos QM Existentes

  • QM7-X: Moléculas orgánicas pequeñas, 4.19 millones de puntos de datos
  • MD22: Trayectorias de dinámica molecular
  • GEMS: Estrategia de fragmentación jerárquica de proteínas
  • SPICE: Moléculas similares a fármacos y péptidos
  • QCML: Mapeo sistemático del espacio químico de moléculas pequeñas
  • OMol25: Conjunto de heterogeneidad química

Ventajas de Este Trabajo

  • Primera cobertura sistemática de las tres categorías biomoleculares principales: ácidos nucleicos, lípidos y carbohidratos
  • Nivel teórico no empírico unificado asegura consistencia de datos
  • Muestreo conformacional profundo enfocado en entornos químicos biológicamente relevantes
  • Perfectamente compatible con conjuntos de datos existentes para entrenamiento unificado

Conclusiones y Discusión

Conclusiones Principales

  1. El conjunto de datos QCell llena exitosamente brechas importantes en datos QM biomoleculares
  2. El nivel teórico unificado PBE0+MBD(-NL) asegura compatibilidad con conjuntos de datos existentes
  3. La verificación estructural confirma la razonabilidad química y diversidad del conjunto de datos
  4. La verificación de aprendizaje automático demuestra rendimiento predictivo excelente

Limitaciones

  1. Las funciones de distribución radial de iones divalentes muestran ligeras desviaciones de valores experimentales
  2. El tamaño de fragmentos está limitado a 402 átomos máximo
  3. Enfoque principal en elementos biológicamente relevantes, diversidad de elementos relativamente limitada
  4. El equilibrio entre entornos de fase gaseosa y solución aún requiere optimización adicional

Direcciones Futuras

  1. Extensión a fragmentos biomoleculares más grandes
  2. Inclusión de más efectos de solvente y condiciones ambientales
  3. Verificación y calibración adicional con datos experimentales
  4. Desarrollo de nuevas arquitecturas MLFF especializadas para biomoléculas

Evaluación Profunda

Fortalezas

  1. Llena Brechas Importantes: Primera solución sistemática a la insuficiencia de datos en ácidos nucleicos, lípidos y carbohidratos
  2. Metodología Rigurosa: Empleo de métodos mecánico-cuánticos no empíricos con fundamentos teóricos sólidos
  3. Alta Calidad de Datos: Múltiples verificaciones aseguran razonabilidad de estructuras y energías
  4. Gran Valor Práctico: Compatible con conjuntos de datos existentes, aplicable directamente al entrenamiento de MLFF
  5. Acceso Abierto: Conjunto de datos disponible públicamente, promoviendo el desarrollo del campo

Deficiencias

  1. Costo Computacional: Los cálculos PBE0+MBD(-NL) tienen alto costo, limitando la expansión del tamaño del conjunto de datos
  2. Limitaciones de Fragmentos: La limitación máxima de 402 átomos puede no capturar completamente interacciones de largo alcance
  3. Simplificación Ambiental: Consideración principalmente de fase gaseosa y solvatación simple, modelado insuficiente de entornos biológicos complejos
  4. Verificación Limitada: Falta de comparación directa con métodos de alta precisión (como CCSD(T))

Impacto

  1. Contribución Académica: Proporciona base de datos importante para el desarrollo de MLFF biomoleculares
  2. Valor Práctico: Aplicable directamente a diseño de fármacos, simulación de biomoléculas y otros campos
  3. Reproducibilidad: Descripción detallada de métodos y datos abiertos aseguran reproducibilidad
  4. Impulso al Desarrollo: Puede promover desarrollo de nuevos métodos de modelado biomolecular

Escenarios de Aplicación

  1. Entrenamiento de MLFF Biomoleculares: Uso directo para entrenar campos de fuerza universales que cubran múltiples biomoléculas
  2. Diseño de Fármacos: Proporciona datos para modelado de interacciones proteína-ligando y ADN-fármaco
  3. Biología de Membranas: Los datos de lípidos pueden aplicarse a investigación de proteínas de membrana e interacciones de membrana
  4. Biología de Azúcares: Los datos de carbohidratos apoyan investigación de glucoproteínas y glucolípidos
  5. Desarrollo de Métodos: Proporciona datos de referencia para nuevos métodos de química cuántica y arquitecturas MLFF

Referencias

Este artículo cita 58 referencias importantes que abarcan métodos de química cuántica, campos de fuerza de aprendizaje automático, simulación de biomoléculas y conjuntos de datos relacionados, proporcionando una base teórica sólida y apoyo técnico para la investigación.