2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, SuÃ¡rez-Dou, Davoine et al.

Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the SchrÃ¶dinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.

academic

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

基本信息

论文ID: 2510.09939
标题: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
作者: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
分类: physics.chem-ph
发表时间: 2025年10月11日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09939

摘要

机器学习力场(MLFFs)的最新进展通过在量子力学精度与机械势的计算效率之间架起桥梁，正在革命性地改变分子模拟。然而，生物分子系统可靠MLFFs的开发仍受限于高质量、化学多样性量子力学数据集的匮乏，这些数据集需要涵盖活细胞中表达的所有主要生物分子类别。关键是，这样的综合数据集必须使用非经验或最小经验的薛定谔方程求解近似来计算。为解决这些限制，作者引入了QCell数据集——一个包含525,000个新量子力学计算的精选集合，涵盖碳水化合物、核酸、脂质、二聚体和离子簇的生物分子片段。QCell补充了现有数据集，使可用数据点总数达到4100万个分子系统，全部使用混合密度泛函理论与非局域多体色散相互作用计算，由PBE0+MBD(-NL)量子力学水平捕获。

研究背景与动机

问题定义

核心问题: 现有量子力学数据集主要覆盖小分子和蛋白质，对于核酸、脂质和碳水化合物这三大生物分子类别存在显著空白，而这些分子约占细胞生物质量的40%。
重要性:
- 生物分子化学空间具有独特特征，其复杂性主要来自相对有限的重复化学构建块的构象空间
- 准确建模生物分子相互作用对计算化学和生物物理学至关重要
- MLFFs需要多样化和高质量的QM数据集来忠实表示生物分子系统中遇到的化学空间
现有方法局限性:
- 传统QM方法精度高但计算效率低
- 经验原子力场效率高但精度有限
- 现有数据集如GEMS、QCML、OMol25虽有进展，但在三大生物分子类别上仍有显著空白
研究动机:
- 填补生物分子数据集的空白
- 使用一致的非经验量子力学理论水平
- 为下一代MLFFs提供全面的训练资源

核心贡献

构建了QCell数据集: 包含525,881个新的生物分子片段QM计算，涵盖核酸、脂质、碳水化合物、离子/水和非共价二聚体
扩展了数据覆盖范围: 与现有数据集结合，总数据点达到4100万个分子系统，涵盖82种化学元素
统一的理论水平: 所有计算均使用PBE0+MBD(-NL)水平，确保数据一致性
深度构象采样: 专注于生物相关化学环境的构象多样性
技术验证: 通过结构分析和机器学习力场训练验证了数据集质量

方法详解

数据集构建流程

QCell数据集采用五步工作流程构建：

构建块库管理和初始3D结构生成
广泛构象采样 (分子动力学或专用构象生成工具)
代表性片段选择
DFTB+MBD方法预优化
高质量PBE0+MBD(-NL)量子力学计算

各分子类别的具体方法

核酸

使用Nucleic Acid Builder构建溶剂化双螺旋DNA七聚体(A-、B-、Z-DNA形式)
采用OL21力场进行分子动力学模拟
从七聚体轨迹中提取中心双链三聚体片段
包含DNA碱基对二聚体和气相RNA片段

脂质

使用CHARMM-GUI Membrane Builder生成磷脂膜结构
涵盖POPC、POPE、POPG、POPS磷脂和胆固醇
采用Lipid21力场进行500 ns生产模拟
基于几何邻近性选择脂肪酸单体、二聚体和三聚体

碳水化合物

构建52种常见单糖库，包括戊糖和己糖的α/β异构体配置
使用PyMOL构建二糖和糖-肽连接
采用CREST程序生成构象，12 kcal/mol最大能量阈值
按连接二面角聚类并选择代表性构象

离子和水

制备溶剂化离子系统，离子置于水盒中心
单价离子使用MBpol力场，双价离子使用AMBER力场
捕获不同水合水平(1-100个水分子)的溶剂化效应

量子力学计算细节

理论水平: PBE0+MBD(-NL) - 非经验混合泛函加多体色散处理
软件: FHI-aims代码
基组: 小分子使用"tight"基组，>350原子分子使用"intermediate"基组
收敛标准: 总能量10^-5 eV，本征值和10^-3 eV，电荷密度10^-5 electrons/Å³，力10^-4 eV/Å

实验设置

数据集组成

类别	数量	原子数	元素	理论水平
核酸	34,838	14-382	H,C,N,O,Na,Mg,S,P	PBE0+MBD-NL
脂质	16,000	125-402	H,C,N,O,P	PBE0+MBD
碳水化合物	74,087	35-75	H,C,N,O	PBE0+MBD
离子/水	30,000	4-303	H,O,Na,Cl,K,Mg,Ca	PBE0+MBD-NL
非共价二聚体	370,956	2-34	20种元素	PBE0+MBD-NL