2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, SuÃ¡rez-Dou, Davoine et al.

Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the SchrÃ¶dinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.

academic

QCell: 다양한 생물분자 단편을 포괄하는 종합 양자역학 데이터셋

기본 정보

논문 ID: 2510.09939
제목: QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments
저자: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
분류: physics.chem-ph
발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09939

초록

기계학습 력장(MLFFs)의 최근 발전은 양자역학 정확도와 고전 포텐셜의 계산 효율성 사이의 간극을 메워 분자 시뮬레이션에 혁명을 일으키고 있습니다. 그러나 생물분자 시스템을 위한 신뢰할 수 있는 MLFF 개발은 살아있는 세포에서 발현되는 모든 주요 생물분자 범주를 포괄해야 하는 고품질의 화학적으로 다양한 양자역학 데이터셋의 부족으로 인해 제한되고 있습니다. 중요한 것은 이러한 포괄적인 데이터셋이 비경험적이거나 최소 경험적 슈뢰딩거 방정식 풀이 근사를 사용하여 계산되어야 한다는 점입니다. 이러한 제한을 해결하기 위해 저자들은 QCell 데이터셋을 소개합니다. 이는 탄수화물, 핵산, 지질, 이량체 및 이온 클러스터의 생물분자 단편을 포괄하는 525,000개의 새로운 양자역학 계산으로 이루어진 정선된 컬렉션입니다. QCell은 기존 데이터셋을 보완하여 사용 가능한 데이터 포인트의 총 개수를 4,100만 개의 분자 시스템으로 확장하며, 모두 PBE0+MBD(-NL) 양자역학 수준에서 포착된 하이브리드 밀도범함수 이론과 비국소 다체 분산 상호작용을 사용하여 계산되었습니다.

연구 배경 및 동기

문제 정의

핵심 문제: 기존 양자역학 데이터셋은 주로 소분자와 단백질을 다루며, 핵산, 지질, 탄수화물이라는 세 가지 주요 생물분자 범주에서 현저한 공백이 존재합니다. 이들 분자는 세포 생물량의 약 40%를 차지합니다.
중요성:
- 생물분자 화학 공간은 독특한 특징을 가지며, 복잡성은 주로 제한된 반복 화학 구성 요소의 구조 공간에서 비롯됩니다
- 생물분자 상호작용의 정확한 모델링은 계산 화학 및 생물물리학에 필수적입니다
- MLFF는 생물분자 시스템에서 만나는 화학 공간을 충실히 표현하기 위해 다양하고 고품질의 QM 데이터셋이 필요합니다
기존 방법의 한계:
- 전통적인 QM 방법은 정확도는 높지만 계산 효율성이 낮습니다
- 경험적 원자 력장은 효율성은 높지만 정확도가 제한적입니다
- GEMS, QCML, OMol25 같은 기존 데이터셋은 진전이 있지만 세 가지 주요 생물분자 범주에서 여전히 현저한 공백이 있습니다
연구 동기:
- 생물분자 데이터셋의 공백 채우기
- 일관된 비경험적 양자역학 이론 수준 사용
- 차세대 MLFF를 위한 포괄적인 훈련 자원 제공

핵심 기여

QCell 데이터셋 구축: 핵산, 지질, 탄수화물, 이온/물 및 비공유 이량체를 포괄하는 525,881개의 새로운 생물분자 단편 QM 계산 포함
데이터 커버리지 확장: 기존 데이터셋과 결합하여 총 4,100만 개의 분자 시스템 데이터 포인트, 82개 화학 원소 포괄
통일된 이론 수준: 모든 계산이 PBE0+MBD(-NL) 수준을 사용하여 데이터 일관성 보장
심층 구조 샘플링: 생물학적으로 관련된 화학 환경의 구조 다양성에 초점
기술 검증: 구조 분석 및 기계학습 력장 훈련을 통한 데이터셋 품질 검증

방법론 상세 설명

데이터셋 구축 절차

QCell 데이터셋은 5단계 워크플로우를 통해 구축됩니다:

구성 요소 라이브러리 관리 및 초기 3D 구조 생성
광범위한 구조 샘플링 (분자동역학 또는 전용 구조 생성 도구)
대표적 단편 선택
DFTB+MBD 방법을 통한 사전 최적화
고품질 PBE0+MBD(-NL) 양자역학 계산

각 분자 범주별 구체적 방법

핵산

핵산 빌더를 사용하여 용매화된 이중 나선 DNA 7량체(A-, B-, Z-DNA 형태) 구축
OL21 력장을 사용한 분자동역학 시뮬레이션 수행
7량체 궤적에서 중심 이중 나선 3량체 단편 추출
DNA 염기쌍 이량체 및 기상 RNA 단편 포함

지질

CHARMM-GUI 막 빌더를 사용하여 인지질 막 구조 생성
POPC, POPE, POPG, POPS 인지질 및 콜레스테롤 포괄
Lipid21 력장을 사용한 500 ns 생산 시뮬레이션 수행
기하학적 근접성을 기반으로 지방산 단량체, 이량체 및 3량체 선택

탄수화물

펜토스 및 헥소스의 α/β 이성질체 배치를 포함한 52종 일반적 단당류 라이브러리 구축
PyMOL을 사용하여 이당류 및 당-펩타이드 연결 구축
CREST 프로그램을 사용하여 구조 생성, 최대 에너지 임계값 12 kcal/mol
연결 이면각에 따라 클러스터링하고 대표적 구조 선택

이온 및 물

용매화된 이온 시스템 준비, 이온을 물 상자 중심에 배치
1가 이온은 MBpol 력장, 2가 이온은 AMBER 력장 사용
다양한 수화 수준(1-100개 물 분자)의 용매화 효과 포착

양자역학 계산 세부사항

이론 수준: PBE0+MBD(-NL) - 비경험적 하이브리드 범함수에 다체 분산 처리 추가
소프트웨어: FHI-aims 코드
기저 집합: 소분자는 "tight" 기저 집합, >350 원자 분자는 "intermediate" 기저 집합
수렴 기준: 총 에너지 10^-5 eV, 고유값 합 10^-3 eV, 전하 밀도 10^-5 electrons/Å³, 힘 10^-4 eV/Å

실험 설정

데이터셋 구성

범주	수량	원자 수	원소	이론 수준
핵산	34,838	14-382	H,C,N,O,Na,Mg,S,P	PBE0+MBD-NL
지질	16,000	125-402	H,C,N,O,P	PBE0+MBD
탄수화물	74,087	35-75	H,C,N,O	PBE0+MBD
이온/물	30,000	4-303	H,O,Na,Cl,K,Mg,Ca	PBE0+MBD-NL
비공유 이량체	370,956	2-34	20종 원소	PBE0+MBD-NL