2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, SuÃ¡rez-Dou, Davoine et al.

Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the SchrÃ¶dinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.

academic

QCell: 多様な生物分子フラグメントを網羅する包括的量子力学データセット

基本情報

論文ID: 2510.09939
タイトル: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
著者: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
分類: physics.chem-ph
発表日: 2025年10月11日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.09939

要旨

機械学習力場(MLFFs)の最近の進展は、量子力学精度と古典的ポテンシャルの計算効率の間に橋渡しをすることで、分子シミュレーションに革命をもたらしている。しかし、生物分子系に対する信頼性の高いMLFFsの開発は、生きた細胞で発現するすべての主要な生物分子カテゴリーを網羅する、高品質で化学的に多様な量子力学データセットの不足によって制限されている。重要なことに、そのような包括的なデータセットは、非経験的または最小限の経験的シュレーディンガー方程式求解近似を使用して計算される必要がある。これらの制限に対処するため、著者らはQCellデータセットを導入した。これは525,000個の新しい量子力学計算の厳選されたコレクションであり、炭水化物、核酸、脂質、二量体、およびイオンクラスターの生物分子フラグメントを網羅している。QCellは既存のデータセットを補完し、利用可能なデータポイントの総数を4,100万個の分子系に拡張し、すべてハイブリッド密度汎関数理論と非局所多体分散相互作用を使用して計算され、PBE0+MBD(-NL)量子力学レベルで捕捉されている。

研究背景と動機

問題定義

中心的課題: 既存の量子力学データセットは主に小分子とタンパク質をカバーしており、核酸、脂質、炭水化物の3つの主要な生物分子カテゴリーに対して顕著な空白が存在する。これらの分子は細胞生物質量の約40%を占める。
重要性:
- 生物分子の化学空間は独特の特性を持ち、その複雑性は比較的限定された反復的な化学構成要素の構象空間から主に生じる
- 生物分子相互作用の正確なモデリングは計算化学および生物物理学にとって重要である
- MLFFsは、生物分子系で遭遇する化学空間を忠実に表現するために、多様で高品質のQMデータセットを必要とする
既存方法の限界:
- 従来のQM方法は精度が高いが計算効率が低い
- 経験的原子力場は効率的だが精度が限定的である
- GEMS、QCML、OMol25などの既存データセットは進歩しているが、3つの主要な生物分子カテゴリーにおいて依然として顕著な空白がある
研究動機:
- 生物分子データセットの空白を埋める
- 一貫した非経験的量子力学理論レベルを使用する
- 次世代MLFFsのための包括的な訓練リソースを提供する

中核的貢献

QCellデータセットの構築: 核酸、脂質、炭水化物、イオン/水、および非共有結合二量体を網羅する525,881個の新しい生物分子フラグメントQM計算を含む
データカバレッジの拡張: 既存データセットと組み合わせて、総データポイント数は4,100万個の分子系に達し、82種類の化学元素を網羅する
統一された理論レベル: すべての計算はPBE0+MBD(-NL)レベルを使用し、データの一貫性を確保する
深い構象サンプリング: 生物学的に関連する化学環境における構象の多様性に焦点を当てる
技術的検証: 構造分析と機械学習力場の訓練を通じてデータセット品質を検証する

方法の詳細

データセット構築ワークフロー

QCellデータセットは5段階のワークフローで構築される:

構成要素ライブラリ管理と初期3D構造生成
広範な構象サンプリング(分子動力学または専用構象生成ツール)
代表的フラグメントの選択
DFTB+MBD方法による事前最適化
高品質PBE0+MBD(-NL)量子力学計算

各分子カテゴリーの具体的方法

核酸

Nucleic Acid Builderを使用して溶媒化二重らせんDNA七量体(A-、B-、Z-DNA形式)を構築
OL21力場を使用した分子動力学シミュレーション
七量体軌跡から中心二重鎖三量体フラグメントを抽出
DNA塩基対二量体と気相RNA フラグメントを含む

脂質

CHARMM-GUI Membrane Builderを使用してリン脂質膜構造を生成
POPC、POPE、POPG、POPS リン脂質およびコレステロールを網羅
Lipid21力場を使用した500 nsの本番シミュレーション
幾何学的近接性に基づいて脂肪酸単量体、二量体、三量体を選択

炭水化物

ペントースおよびヘキソースのα/β異性体配置を含む52種類の一般的な単糖ライブラリーを構築
PyMOLを使用して二糖および糖-ペプチド結合を構築
CREST プログラムを使用して構象を生成(最大エネルギー閾値12 kcal/mol)
結合二面角でクラスタリングし、代表的構象を選択

イオンと水

溶媒化イオン系を調製し、イオンを水ボックスの中心に配置
一価イオンにはMBpol力場、二価イオンにはAMBER力場を使用
異なる水和レベル(1-100個の水分子)での溶媒化効果を捕捉

量子力学計算の詳細

理論レベル: PBE0+MBD(-NL) - 非経験的ハイブリッド汎関数に多体分散処理を加えたもの
ソフトウェア: FHI-aimsコード
基底関数: 小分子には「tight」基底関数、>350原子分子には「intermediate」基底関数を使用
収束基準: 全エネルギー10^-5 eV、固有値の和10^-3 eV、電荷密度10^-5 electrons/Å³、力10^-4 eV/Å

実験設定

データセット構成

カテゴリー	数量	原子数	元素	理論レベル
核酸	34,838	14-382	H,C,N,O,Na,Mg,S,P	PBE0+MBD-NL
脂質	16,000	125-402	H,C,N,O,P	PBE0+MBD
炭水化物	74,087	35-75	H,C,N,O	PBE0+MBD
イオン/水	30,000	4-303	H,O,Na,Cl,K,Mg,Ca	PBE0+MBD-NL
非共有結合二量体	370,956	2-34	20種類の元素	PBE0+MBD-NL