Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the Schrödinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.
academic- 论文ID: 2510.09939
- 标题: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
- 作者: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
- 分类: physics.chem-ph
- 发表时间: 2025年10月11日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.09939
机器学习力场(MLFFs)的最新进展通过在量子力学精度与机械势的计算效率之间架起桥梁,正在革命性地改变分子模拟。然而,生物分子系统可靠MLFFs的开发仍受限于高质量、化学多样性量子力学数据集的匮乏,这些数据集需要涵盖活细胞中表达的所有主要生物分子类别。关键是,这样的综合数据集必须使用非经验或最小经验的薛定谔方程求解近似来计算。为解决这些限制,作者引入了QCell数据集——一个包含525,000个新量子力学计算的精选集合,涵盖碳水化合物、核酸、脂质、二聚体和离子簇的生物分子片段。QCell补充了现有数据集,使可用数据点总数达到4100万个分子系统,全部使用混合密度泛函理论与非局域多体色散相互作用计算,由PBE0+MBD(-NL)量子力学水平捕获。
- 核心问题: 现有量子力学数据集主要覆盖小分子和蛋白质,对于核酸、脂质和碳水化合物这三大生物分子类别存在显著空白,而这些分子约占细胞生物质量的40%。
- 重要性:
- 生物分子化学空间具有独特特征,其复杂性主要来自相对有限的重复化学构建块的构象空间
- 准确建模生物分子相互作用对计算化学和生物物理学至关重要
- MLFFs需要多样化和高质量的QM数据集来忠实表示生物分子系统中遇到的化学空间
- 现有方法局限性:
- 传统QM方法精度高但计算效率低
- 经验原子力场效率高但精度有限
- 现有数据集如GEMS、QCML、OMol25虽有进展,但在三大生物分子类别上仍有显著空白
- 研究动机:
- 填补生物分子数据集的空白
- 使用一致的非经验量子力学理论水平
- 为下一代MLFFs提供全面的训练资源
- 构建了QCell数据集: 包含525,881个新的生物分子片段QM计算,涵盖核酸、脂质、碳水化合物、离子/水和非共价二聚体
- 扩展了数据覆盖范围: 与现有数据集结合,总数据点达到4100万个分子系统,涵盖82种化学元素
- 统一的理论水平: 所有计算均使用PBE0+MBD(-NL)水平,确保数据一致性
- 深度构象采样: 专注于生物相关化学环境的构象多样性
- 技术验证: 通过结构分析和机器学习力场训练验证了数据集质量
QCell数据集采用五步工作流程构建:
- 构建块库管理和初始3D结构生成
- 广泛构象采样 (分子动力学或专用构象生成工具)
- 代表性片段选择
- DFTB+MBD方法预优化
- 高质量PBE0+MBD(-NL)量子力学计算
- 使用Nucleic Acid Builder构建溶剂化双螺旋DNA七聚体(A-、B-、Z-DNA形式)
- 采用OL21力场进行分子动力学模拟
- 从七聚体轨迹中提取中心双链三聚体片段
- 包含DNA碱基对二聚体和气相RNA片段
- 使用CHARMM-GUI Membrane Builder生成磷脂膜结构
- 涵盖POPC、POPE、POPG、POPS磷脂和胆固醇
- 采用Lipid21力场进行500 ns生产模拟
- 基于几何邻近性选择脂肪酸单体、二聚体和三聚体
- 构建52种常见单糖库,包括戊糖和己糖的α/β异构体配置
- 使用PyMOL构建二糖和糖-肽连接
- 采用CREST程序生成构象,12 kcal/mol最大能量阈值
- 按连接二面角聚类并选择代表性构象
- 制备溶剂化离子系统,离子置于水盒中心
- 单价离子使用MBpol力场,双价离子使用AMBER力场
- 捕获不同水合水平(1-100个水分子)的溶剂化效应
- 理论水平: PBE0+MBD(-NL) - 非经验混合泛函加多体色散处理
- 软件: FHI-aims代码
- 基组: 小分子使用"tight"基组,>350原子分子使用"intermediate"基组
- 收敛标准: 总能量10^-5 eV,本征值和10^-3 eV,电荷密度10^-5 electrons/ų,力10^-4 eV/Å
| 类别 | 数量 | 原子数 | 元素 | 理论水平 |
|---|
| 核酸 | 34,838 | 14-382 | H,C,N,O,Na,Mg,S,P | PBE0+MBD-NL |
| 脂质 | 16,000 | 125-402 | H,C,N,O,P | PBE0+MBD |
| 碳水化合物 | 74,087 | 35-75 | H,C,N,O | PBE0+MBD |
| 离子/水 | 30,000 | 4-303 | H,O,Na,Cl,K,Mg,Ca | PBE0+MBD-NL |
| 非共价二聚体 | 370,956 | 2-34 | 20种元素 | PBE0+MBD-NL |
- 结构几何描述符验证
- 机器学习力场的力均绝对误差(MAE)
- 与实验参考值的径向分布函数比较
使用SO3LR架构训练MLFFs,评估数据集质量:
- 三种模型尺寸:小型、中型、大型
- 联合损失函数:力、偶极矩、Hirshfeld比率、能量(权重100:10:10:1)
- 10 Å长程截断,A100 GPU训练180小时
- 核酸: DNA片段的磷酸-磷酸距离和骨架弯曲角度分布重现了A-、B-、Z-DNA的预期值
- 脂质: 脂肪酸片段的回转半径分布合理反映了链延伸和堆积
- 碳水化合物: N/O-糖苷连接二面角涵盖全构象空间,重现所有主要旋转异构态
- 离子/水: 径向分布函数与实验水合距离匹配,单价离子-氧和O-O峰位置准确
不同数据集子集的力MAE结果:
- 核酸: ~0.8 kcal/mol/Å (大型模型)
- 脂质: ~0.6 kcal/mol/Å (大型模型)
- 碳水化合物: ~0.5 kcal/mol/Å (大型模型)
- 离子/水: ~0.7 kcal/mol/Å (大型模型)
- DES370k: ~0.8 kcal/mol/Å (大型模型)
误差随模型容量系统性降低,大多数子集达到1 kcal/mol/Å以下,证明了数据集内部一致性和现代MLFFs跨化学多样性系统的泛化能力。
- QM7-X: 小有机分子,419万数据点
- MD22: 分子动力学轨迹
- GEMS: 蛋白质分层片段化策略
- SPICE: 类药物分子和肽
- QCML: 小分子化学空间系统映射
- OMol25: 化学异质性集合
- 首次系统性覆盖核酸、脂质、碳水化合物三大生物分子类别
- 统一的非经验理论水平确保数据一致性
- 深度构象采样专注生物相关化学环境
- 与现有数据集完美兼容,可统一训练
- QCell数据集成功填补了生物分子QM数据的重要空白
- 统一的PBE0+MBD(-NL)理论水平确保了与现有数据集的兼容性
- 结构验证证实了数据集的化学合理性和多样性
- 机器学习验证显示了优秀的预测性能
- 双价离子的径向分布函数与实验值略有偏差
- 片段大小限制在402个原子以内
- 主要关注生物相关元素,元素多样性相对有限
- 气相和溶液相环境的平衡仍需进一步优化
- 扩展到更大的生物分子片段
- 包含更多的溶剂效应和环境条件
- 与实验数据的进一步验证和校准
- 开发专门针对生物分子的新MLFF架构
- 填补重要空白: 首次系统性解决核酸、脂质、碳水化合物数据不足问题
- 方法严谨: 采用非经验量子力学方法,理论基础扎实
- 数据质量高: 多重验证确保结构和能量的合理性
- 实用价值大: 与现有数据集兼容,可直接用于MLFF训练
- 开放获取: 数据集公开可用,促进领域发展
- 计算成本: PBE0+MBD(-NL)计算成本较高,限制了数据集规模扩展
- 片段局限: 最大402原子的限制可能无法充分捕获长程相互作用
- 环境简化: 主要考虑气相和简单溶剂化,复杂生物环境建模不足
- 验证有限: 缺乏与高精度方法(如CCSD(T))的直接比较
- 学术贡献: 为生物分子MLFF发展提供了重要数据基础
- 实用价值: 可直接应用于药物设计、生物分子模拟等领域
- 可复现性: 详细的方法描述和开放数据确保可复现性
- 推动发展: 可能促进新的生物分子建模方法发展
- 生物分子MLFF训练: 直接用于训练覆盖多种生物分子的通用力场
- 药物设计: 为蛋白质-配体、DNA-药物相互作用建模提供数据
- 膜生物学: 脂质数据可用于膜蛋白和膜相互作用研究
- 糖生物学: 碳水化合物数据支持糖蛋白和糖脂研究
- 方法开发: 为新的量子化学方法和MLFF架构提供基准测试数据
本文引用了58篇重要参考文献,涵盖了量子化学方法、机器学习力场、生物分子模拟和相关数据集的关键工作,为研究提供了坚实的理论基础和技术支撑。