2025-11-12T18:43:10.001533

QCell: Comprehensive Quantum-Mechanical Dataset Spanning Diverse Biomolecular Fragments

Kabylda, Suárez-Dou, Davoine et al.
Recent advances in machine learning force fields (MLFFs) are revolutionizing molecular simulations by bridging the gap between quantum-mechanical (QM) accuracy and the computational efficiency of mechanistic potentials. However, the development of reliable MLFFs for biomolecular systems remains constrained by the scarcity of high-quality, chemically diverse QM datasets that span all of the major classes of biomolecules expressed in living cells. Crucially, such a comprehensive dataset must be computed using non-empirical or minimally empirical approximations to solving the Schrödinger equation. To address these limitations, we introduce the QCell dataset -- a curated collection of 525k new QM calculations for biomolecular fragments encompassing carbohydrates, nucleic acids, lipids, dimers, and ion clusters. QCell complements existing datasets, bringing the total number of available data points to 41 million molecular systems, all calculated using hybrid density functional theory with nonlocal many-body dispersion interactions, as captured by the PBE0+MBD(-NL) level of quantum mechanics. The QCell dataset therefore provides a valuable resource for training next-generation MLFFs capable of modeling the intricate interactions that govern biomolecular dynamics beyond small molecules and proteins.
academic

QCell: বৈচিত্র্যময় জৈব-আণবিক খণ্ডগুলি বিস্তৃত ব্যাপক কোয়ান্টাম-মেকানিক্যাল ডেটাসেট

মৌলিক তথ্য

  • পেপার আইডি: 2510.09939
  • শিরোনাম: QCell: বৈচিত্র্যময় জৈব-আণবিক খণ্ডগুলি বিস্তৃত ব্যাপক কোয়ান্টাম-মেকানিক্যাল ডেটাসেট
  • লেখক: Adil Kabylda, Sergio Suárez-Dou, Nils Davoine, Florian N. Brünig, Alexandre Tkatchenko
  • শ্রেণীবিভাগ: physics.chem-ph
  • প্রকাশনার সময়: ২০২৫ সালের ১১ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.09939

সারসংক্ষেপ

মেশিন লার্নিং বল ক্ষেত্র (MLFFs) এর সাম্প্রতিক অগ্রগতি কোয়ান্টাম মেকানিক্যাল নির্ভুলতা এবং যান্ত্রিক সম্ভাবনার গণনামূলক দক্ষতার মধ্যে সেতু তৈরি করে আণবিক অনুকরণে বিপ্লব ঘটাচ্ছে। তবে, জৈব-আণবিক সিস্টেমের জন্য নির্ভরযোগ্য MLFFs এর উন্নয়ন উচ্চ মানের, রাসায়নিক বৈচিত্র্যময় কোয়ান্টাম মেকানিক্যাল ডেটাসেটের অভাব দ্বারা সীমাবদ্ধ, যা জীবন্ত কোষে প্রকাশিত সমস্ত প্রধান জৈব-আণবিক শ্রেণী অন্তর্ভুক্ত করতে হবে। গুরুত্বপূর্ণভাবে, এই ধরনের ব্যাপক ডেটাসেট অ-অভিজ্ঞতামূলক বা ন্যূনতম অভিজ্ঞতামূলক শ্রোডিংগার সমীকরণ সমাধান আনুমানিক ব্যবহার করে গণনা করতে হবে। এই সীমাবদ্ধতাগুলি সমাধান করার জন্য, লেখকরা QCell ডেটাসেট প্রবর্তন করেছেন—কার্বোহাইড্রেট, নিউক্লিক অ্যাসিড, লিপিড, ডাইমার এবং আয়ন ক্লাস্টারের জৈব-আণবিক খণ্ডগুলি বিস্তৃত ৫২৫,০০০টি নতুন কোয়ান্টাম মেকানিক্যাল গণনার একটি সুনির্বাচিত সংগ্রহ। QCell বিদ্যমান ডেটাসেটগুলি পরিপূরক করে, উপলব্ধ ডেটা পয়েন্টের মোট সংখ্যা ৪১ মিলিয়ন আণবিক সিস্টেমে পৌঁছায়, সবই হাইব্রিড ঘনত্ব কার্যকরী তত্ত্ব এবং অ-স্থানীয় বহু-শরীর বিচ্ছুরণ মিথস্ক্রিয়া সহ গণনা করা হয়, PBE0+MBD(-NL) কোয়ান্টাম মেকানিক্যাল স্তর দ্বারা ক্যাপচার করা হয়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: বিদ্যমান কোয়ান্টাম মেকানিক্যাল ডেটাসেটগুলি প্রধানত ছোট অণু এবং প্রোটিনগুলি কভার করে, নিউক্লিক অ্যাসিড, লিপিড এবং কার্বোহাইড্রেটের তিনটি প্রধান জৈব-আণবিক শ্রেণীতে উল্লেখযোগ্য ফাঁক রয়েছে, যা কোষীয় জৈব ভর্তির প্রায় ৪০% গঠন করে।

२. গুরুত্ব:

  • জৈব-আণবিক রাসায়নিক স্থান অনন্য বৈশিষ্ট্য রয়েছে, যার জটিলতা প্রধানত সীমিত পুনরাবৃত্তিমূলক রাসায়নিক বিল্ডিং ব্লকের কনফরমেশনাল স্থান থেকে আসে
  • জৈব-আণবিক মিথস্ক্রিয়া সঠিক মডেলিং গণনামূলক রসায়ন এবং জৈব-পদার্থবিজ্ঞানের জন্য গুরুত্বপূর্ণ
  • MLFFs জৈব-আণবিক সিস্টেমে সম্মুখীন রাসায়নিক স্থান বিশ্বস্তভাবে প্রতিনিধিত্ব করতে বৈচিত্র্যময় এবং উচ্চ মানের QM ডেটাসেট প্রয়োজন

३. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:

  • ঐতিহ্যবাহী QM পদ্ধতি উচ্চ নির্ভুলতা কিন্তু কম গণনামূলক দক্ষতা
  • অভিজ্ঞতামূলক পরমাণু বল ক্ষেত্র উচ্চ দক্ষতা কিন্তু সীমিত নির্ভুলতা
  • GEMS, QCML, OMol25 এর মতো বিদ্যমান ডেটাসেটগুলি অগ্রগতি সত্ত্বেও তিনটি প্রধান জৈব-আণবিক শ্রেণীতে উল্লেখযোগ্য ফাঁক রয়েছে

४. গবেষণা প্রেরণা:

  • জৈব-আণবিক ডেটাসেটের ফাঁক পূরণ করা
  • সামঞ্জস্যপূর্ণ অ-অভিজ্ঞতামূলক কোয়ান্টাম মেকানিক্যাল তাত্ত্বিক স্তর ব্যবহার করা
  • পরবর্তী প্রজন্মের MLFFs এর জন্য ব্যাপক প্রশিক্ষণ সম্পদ প্রদান করা

মূল অবদান

१. QCell ডেটাসেট নির্মাণ: নিউক্লিক অ্যাসিড, লিপিড, কার্বোহাইড্রেট, আয়ন/জল এবং অ-সহযোগী ডাইমার বিস্তৃত ৫২৫,৮৮১টি নতুন জৈব-আণবিক খণ্ড QM গণনা অন্তর্ভুক্ত করে

२. ডেটা কভারেজ সম্প্রসারণ: বিদ্যমান ডেটাসেটগুলির সাথে মিলিত হয়ে, মোট ডেটা পয়েন্ট ৪১ মিলিয়ন আণবিক সিস্টেমে পৌঁছায়, ৮২টি রাসায়নিক উপাদান কভার করে

३. একীভূত তাত্ত্বিক স্তর: সমস্ত গণনা PBE0+MBD(-NL) স্তরে সম্পাদিত হয়, ডেটা সামঞ্জস্য নিশ্চিত করে

४. গভীর কনফরমেশনাল নমুনা: জৈব-প্রাসঙ্গিক রাসায়নিক পরিবেশের কনফরমেশনাল বৈচিত্র্যে ফোকাস করা

५. প্রযুক্তিগত যাচাইকরণ: কাঠামোগত বিশ্লেষণ এবং মেশিন লার্নিং বল ক্ষেত্র প্রশিক্ষণের মাধ্যমে ডেটাসেট গুণমান যাচাই করা হয়েছে

পদ্ধতি বিস্তারিত

ডেটাসেট নির্মাণ প্রবাহ

QCell ডেটাসেট পাঁচ-ধাপ কর্মপ্রবাহ ব্যবহার করে নির্মিত হয়েছে:

१. বিল্ডিং ব্লক লাইব্রেরি ব্যবস্থাপনা এবং প্রাথমিক 3D কাঠামো প্রজন্ম

२. ব্যাপক কনফরমেশনাল নমুনা (আণবিক গতিশীলতা বা নিবেদিত কনফরমেশনাল প্রজন্ম সরঞ্জাম)

३. প্রতিনিধিমূলক খণ্ড নির্বাচন

४. DFTB+MBD পদ্ধতি পূর্ব-অপ্টিমাইজেশন

५. উচ্চ মানের PBE0+MBD(-NL) কোয়ান্টাম মেকানিক্যাল গণনা

প্রতিটি আণবিক শ্রেণীর জন্য নির্দিষ্ট পদ্ধতি

নিউক্লিক অ্যাসিড

  • নিউক্লিক অ্যাসিড বিল্ডার ব্যবহার করে দ্রবীভূত ডাবল-হেলিক্স DNA সাত-মার নির্মাণ (A-, B-, Z-DNA ফর্ম)
  • OL21 বল ক্ষেত্র ব্যবহার করে আণবিক গতিশীলতা অনুকরণ
  • সাত-মার ট্র্যাজেক্টরি থেকে কেন্দ্রীয় দ্বি-স্ট্র্যান্ড ত্রি-মার খণ্ড নিষ্কাশন
  • DNA বেস জোড়া ডাইমার এবং গ্যাস-পর্যায় RNA খণ্ড অন্তর্ভুক্ত করে

লিপিড

  • CHARMM-GUI মেমব্রেন বিল্ডার ব্যবহার করে ফসফোলিপিড মেমব্রেন কাঠামো উৎপন্ন করা
  • POPC, POPE, POPG, POPS ফসফোলিপিড এবং কোলেস্টেরল কভার করে
  • Lipid21 বল ক্ষেত্র ব্যবহার করে ৫০০ ns উৎপাদন অনুকরণ
  • জ্যামিতিগত সান্নিধ্যের উপর ভিত্তি করে ফ্যাটি অ্যাসিড মনোমার, ডাইমার এবং ত্রি-মার নির্বাচন

কার্বোহাইড্রেট

  • ৫২টি সাধারণ মনোস্যাকারাইড লাইব্রেরি নির্মাণ, পেন্টোজ এবং হেক্সোজের α/β আইসোমার কনফিগারেশন অন্তর্ভুক্ত করে
  • PyMOL ব্যবহার করে ডিস্যাকারাইড এবং চিনি-পেপটাইড লিঙ্কেজ নির্মাণ
  • CREST প্রোগ্রাম ব্যবহার করে কনফরমেশন উৎপন্ন করা, ১२ kcal/mol সর্বাধিক শক্তি থ্রেশহোল্ড
  • সংযোগ দ্বিমুখী কোণ দ্বারা ক্লাস্টারিং এবং প্রতিনিধিমূলক কনফরমেশন নির্বাচন

আয়ন এবং জল

  • দ্রবীভূত আয়ন সিস্টেম প্রস্তুতি, আয়ন জল বাক্সের কেন্দ্রে স্থাপন করা
  • একমূল্যবান আয়নের জন্য MBpol বল ক্ষেত্র, দ্বিমূল্যবান আয়নের জন্য AMBER বল ক্ষেত্র
  • বিভিন্ন জলযুক্ত স্তর (১-১০০ জল অণু) এর দ্রবীভূত প্রভাব ক্যাপচার করা

কোয়ান্টাম মেকানিক্যাল গণনা বিবরণ

  • তাত্ত্বিক স্তর: PBE0+MBD(-NL) - অ-অভিজ্ঞতামূলক হাইব্রিড কার্যকরী প্লাস বহু-শরীর বিচ্ছুরণ চিকিত্সা
  • সফটওয়্যার: FHI-aims কোড
  • বেসিস সেট: ছোট অণুর জন্য "tight" বেসিস সেট, >350 পরমাণু অণুর জন্য "intermediate" বেসিস সেট
  • সংগ্রহ মানদণ্ড: মোট শক্তি 10^-5 eV, eigenvalue যোগ 10^-3 eV, চার্জ ঘনত্ব 10^-5 electrons/ų, বল 10^-4 eV/Å

পরীক্ষামূলক সেটআপ

ডেটাসেট সংমিশ্রণ

শ্রেণীপরিমাণপরমাণু সংখ্যাউপাদানতাত্ত্বিক স্তর
নিউক্লিক অ্যাসিড৩४,८३८१४-३८२H,C,N,O,Na,Mg,S,PPBE0+MBD-NL
লিপিড१६,०००१२५-४०२H,C,N,O,PPBE0+MBD
কার্বোহাইড্রেট७४,०८७३५-७५H,C,N,OPBE0+MBD
আয়ন/জল३०,०००४-३०३H,O,Na,Cl,K,Mg,CaPBE0+MBD-NL
অ-সহযোগী ডাইমার३७०,९५६२-३४२० প্রকার উপাদানPBE0+MBD-NL

মূল্যায়ন মেট্রিক্স

  • কাঠামোগত জ্যামিতি বর্ণনাকারী যাচাইকরণ
  • মেশিন লার্নিং বল ক্ষেত্রের বল পরম গড় ত্রুটি (MAE)
  • পরীক্ষামূলক রেফারেন্স মানের সাথে রেডিয়াল বিতরণ ফাংশন তুলনা

মেশিন লার্নিং যাচাইকরণ

SO3LR আর্কিটেকচার ব্যবহার করে MLFFs প্রশিক্ষণ, ডেটাসেট গুণমান মূল্যায়ন:

  • তিনটি মডেল আকার: ছোট, মাঝারি, বড়
  • যৌথ ক্ষতি ফাংশন: বল, দ্বিমুখী মুহূর্ত, Hirshfeld অনুপাত, শক্তি (ওজন 100:10:10:1)
  • १० Å দীর্ঘ-পরিসর কাটঅফ, A100 GPU প্রশিক্ষণ १८० ঘন্টা

পরীক্ষামূলক ফলাফল

কাঠামোগত যাচাইকরণ ফলাফল

१. নিউক্লিক অ্যাসিড: DNA খণ্ডের ফসফেট-ফসফেট দূরত্ব এবং কঙ্কাল বাঁকানো কোণ বিতরণ A-, B-, Z-DNA এর প্রত্যাশিত মান পুনরুৎপাদন করে

२. লিপিড: ফ্যাটি অ্যাসিড খণ্ডের গাইরেশন ব্যাসার্ধ বিতরণ যুক্তিসঙ্গতভাবে শৃঙ্খল সম্প্রসারণ এবং স্ট্যাকিং প্রতিফলিত করে

३. কার্বোহাইড্রেট: N/O-গ্লাইকোসিডিক সংযোগ দ্বিমুখী কোণ সম্পূর্ণ কনফরমেশনাল স্থান কভার করে, সমস্ত প্রধান ঘূর্ণন আইসোমার পুনরুৎপাদন করে

४. আয়ন/জল: রেডিয়াল বিতরণ ফাংশন পরীক্ষামূলক জলযুক্ত দূরত্বের সাথে মিলে যায়, একমূল্যবান আয়ন-অক্সিজেন এবং O-O শিখর অবস্থান নির্ভুল

মেশিন লার্নিং কর্মক্ষমতা

বিভিন্ন ডেটাসেট উপসেটের বল MAE ফলাফল:

  • নিউক্লিক অ্যাসিড: ~०.८ kcal/mol/Å (বড় মডেল)
  • লিপিড: ~०.६ kcal/mol/Å (বড় মডেল)
  • কার্বোহাইড্রেট: ~०.५ kcal/mol/Å (বড় মডেল)
  • আয়ন/জল: ~०.७ kcal/mol/Å (বড় মডেল)
  • DES370k: ~०.८ kcal/mol/Å (বড় মডেল)

ত্রুটি মডেল ক্ষমতার সাথে সিস্টেমেটিক্যালি হ্রাস পায়, বেশিরভাগ উপসেট १ kcal/mol/Å এর নিচে পৌঁছায়, ডেটাসেট অভ্যন্তরীণ সামঞ্জস্য এবং আধুনিক MLFFs এর রাসায়নিক বৈচিত্র্যময় সিস্টেম জুড়ে সাধারণীকরণ ক্ষমতা প্রমাণ করে।

সম্পর্কিত কাজ

বিদ্যমান QM ডেটাসেট

  • QM7-X: ছোট জৈব অণু, ४.१९ মিলিয়ন ডেটা পয়েন্ট
  • MD22: আণবিক গতিশীলতা ট্র্যাজেক্টরি
  • GEMS: প্রোটিন শ্রেণীবদ্ধ খণ্ড কৌশল
  • SPICE: ওষুধ-সদৃশ অণু এবং পেপটাইড
  • QCML: ছোট অণু রাসায়নিক স্থান সিস্টেমেটিক ম্যাপিং
  • OMol25: রাসায়নিক বৈচিত্র্যময় সংগ্রহ

এই পেপারের সুবিধা

  • নিউক্লিক অ্যাসিড, লিপিড, কার্বোহাইড্রেট তিনটি প্রধান জৈব-আণবিক শ্রেণীর প্রথম সিস্টেমেটিক কভারেজ
  • একীভূত অ-অভিজ্ঞতামূলক তাত্ত্বিক স্তর ডেটা সামঞ্জস্য নিশ্চিত করে
  • গভীর কনফরমেশনাল নমুনা জৈব-প্রাসঙ্গিক রাসায়নিক পরিবেশে ফোকাস করে
  • বিদ্যমান ডেটাসেটের সাথে নিখুঁত সামঞ্জস্য, একীভূত প্রশিক্ষণ সম্ভব

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. QCell ডেটাসেট জৈব-আণবিক QM ডেটার গুরুত্বপূর্ণ ফাঁক সফলভাবে পূরণ করেছে

२. একীভূত PBE0+MBD(-NL) তাত্ত্বিক স্তর বিদ্যমান ডেটাসেটের সাথে সামঞ্জস্য নিশ্চিত করেছে

३. কাঠামোগত যাচাইকরণ ডেটাসেটের রাসায়নিক যুক্তিসঙ্গততা এবং বৈচিত্র্য প্রমাণ করেছে

४. মেশিন লার্নিং যাচাইকরণ চমৎকার পূর্বাভাস কর্মক্ষমতা প্রদর্শন করেছে

সীমাবদ্ধতা

१. দ্বিমূল্যবান আয়নের রেডিয়াল বিতরণ ফাংশন পরীক্ষামূলক মানের সাথে সামান্য বিচ্যুতি

२. খণ্ড আকার ४०२ পরমাণুর মধ্যে সীমাবদ্ধ

३. প্রধানত জৈব-প্রাসঙ্গিক উপাদানে ফোকাস করা, উপাদান বৈচিত্র্য তুলনামূলকভাবে সীমিত

४. গ্যাস-পর্যায় এবং দ্রবণ-পর্যায় পরিবেশের ভারসাম্য আরও অপ্টিমাইজেশন প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. বৃহত্তর জৈব-আণবিক খণ্ডে সম্প্রসারণ

२. আরও দ্রবক প্রভাব এবং পরিবেশগত অবস্থা অন্তর্ভুক্ত করা

३. পরীক্ষামূলক ডেটার সাথে আরও যাচাইকরণ এবং ক্যালিব্রেশন

४. জৈব-আণবিক-নির্দিষ্ট নতুন MLFF আর্কিটেকচার উন্নয়ন

গভীর মূল্যায়ন

শক্তি

१. গুরুত্বপূর্ণ ফাঁক পূরণ: নিউক্লিক অ্যাসিড, লিপিড, কার্বোহাইড্রেট ডেটা অভাবের সমস্যা প্রথমবারের মতো সিস্টেমেটিক্যালি সমাধান করা

२. কঠোর পদ্ধতি: অ-অভিজ্ঞতামূলক কোয়ান্টাম মেকানিক্যাল পদ্ধতি ব্যবহার করা, শক্তিশালী তাত্ত্বিক ভিত্তি

३. উচ্চ ডেটা গুণমান: একাধিক যাচাইকরণ কাঠামো এবং শক্তির যুক্তিসঙ্গততা নিশ্চিত করে

४. বড় ব্যবহারিক মূল্য: বিদ্যমান ডেটাসেটের সাথে সামঞ্জস্যপূর্ণ, MLFF প্রশিক্ষণে সরাসরি ব্যবহারযোগ্য

५. খোলা অ্যাক্সেস: ডেটাসেট জনসাধারণের জন্য উপলব্ধ, ক্ষেত্র উন্নয়ন প্রচার করে

অপূর্ণতা

१. গণনামূলক খরচ: PBE0+MBD(-NL) গণনা খরচ বেশি, ডেটাসেট আকার সম্প্রসারণ সীমাবদ্ধ করে

२. খণ্ড সীমাবদ্ধতা: সর্বাধিক ४०२ পরমাণু সীমাবদ্ধতা দীর্ঘ-পরিসর মিথস্ক্রিয়া সম্পূর্ণভাবে ক্যাপচার করতে পারে না

३. পরিবেশ সরলীকরণ: প্রধানত গ্যাস-পর্যায় এবং সরল দ্রবীভূতকরণ বিবেচনা করা, জটিল জৈব পরিবেশ মডেলিং অপর্যাপ্ত

४. সীমিত যাচাইকরণ: উচ্চ-নির্ভুলতা পদ্ধতির সাথে সরাসরি তুলনার অভাব (যেমন CCSD(T))

প্রভাব

१. একাডেমিক অবদান: জৈব-আণবিক MLFF উন্নয়নের জন্য গুরুত্বপূর্ণ ডেটা ভিত্তি প্রদান করা

२. ব্যবহারিক মূল্য: ওষুধ ডিজাইন, জৈব-আণবিক অনুকরণ ইত্যাদি ক্ষেত্রে সরাসরি প্রয়োগ করা যায়

३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত পদ্ধতি বর্ণনা এবং খোলা ডেটা পুনরুৎপাদনযোগ্যতা নিশ্চিত করে

४. উন্নয়ন প্রচার: নতুন জৈব-আণবিক মডেলিং পদ্ধতি উন্নয়ন প্রচার করতে পারে

প্রযোজ্য পরিস্থিতি

१. জৈব-আণবিক MLFF প্রশিক্ষণ: বহু-প্রকার জৈব-আণবিক কভার করে এমন সর্বজনীন বল ক্ষেত্র প্রশিক্ষণে সরাসরি ব্যবহার করা

२. ওষুধ ডিজাইন: প্রোটিন-লিগ্যান্ড, DNA-ওষুধ মিথস্ক্রিয়া মডেলিংয়ের জন্য ডেটা প্রদান করা

३. মেমব্রেন জীববিজ্ঞান: লিপিড ডেটা মেমব্রেন প্রোটিন এবং মেমব্রেন মিথস্ক্রিয়া গবেষণায় ব্যবহার করা যায়

४. চিনি জীববিজ্ঞান: কার্বোহাইড্রেট ডেটা গ্লাইকোপ্রোটিন এবং গ্লাইকোলিপিড গবেষণা সমর্থন করে

५. পদ্ধতি উন্নয়ন: নতুন কোয়ান্টাম রসায়ন পদ্ধতি এবং MLFF আর্কিটেকচারের জন্য বেঞ্চমার্ক পরীক্ষার ডেটা প্রদান করা

সংদর্ভ

এই পেপারটি ৫৮টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যা কোয়ান্টাম রসায়ন পদ্ধতি, মেশিন লার্নিং বল ক্ষেত্র, জৈব-আণবিক অনুকরণ এবং সম্পর্কিত ডেটাসেটের মূল কাজগুলি অন্তর্ভুক্ত করে, গবেষণার জন্য শক্তিশালী তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।