মেশিন লার্নিং বল ক্ষেত্র (MLFFs) এর সাম্প্রতিক অগ্রগতি কোয়ান্টাম মেকানিক্যাল নির্ভুলতা এবং যান্ত্রিক সম্ভাবনার গণনামূলক দক্ষতার মধ্যে সেতু তৈরি করে আণবিক অনুকরণে বিপ্লব ঘটাচ্ছে। তবে, জৈব-আণবিক সিস্টেমের জন্য নির্ভরযোগ্য MLFFs এর উন্নয়ন উচ্চ মানের, রাসায়নিক বৈচিত্র্যময় কোয়ান্টাম মেকানিক্যাল ডেটাসেটের অভাব দ্বারা সীমাবদ্ধ, যা জীবন্ত কোষে প্রকাশিত সমস্ত প্রধান জৈব-আণবিক শ্রেণী অন্তর্ভুক্ত করতে হবে। গুরুত্বপূর্ণভাবে, এই ধরনের ব্যাপক ডেটাসেট অ-অভিজ্ঞতামূলক বা ন্যূনতম অভিজ্ঞতামূলক শ্রোডিংগার সমীকরণ সমাধান আনুমানিক ব্যবহার করে গণনা করতে হবে। এই সীমাবদ্ধতাগুলি সমাধান করার জন্য, লেখকরা QCell ডেটাসেট প্রবর্তন করেছেন—কার্বোহাইড্রেট, নিউক্লিক অ্যাসিড, লিপিড, ডাইমার এবং আয়ন ক্লাস্টারের জৈব-আণবিক খণ্ডগুলি বিস্তৃত ৫২৫,০০০টি নতুন কোয়ান্টাম মেকানিক্যাল গণনার একটি সুনির্বাচিত সংগ্রহ। QCell বিদ্যমান ডেটাসেটগুলি পরিপূরক করে, উপলব্ধ ডেটা পয়েন্টের মোট সংখ্যা ৪১ মিলিয়ন আণবিক সিস্টেমে পৌঁছায়, সবই হাইব্রিড ঘনত্ব কার্যকরী তত্ত্ব এবং অ-স্থানীয় বহু-শরীর বিচ্ছুরণ মিথস্ক্রিয়া সহ গণনা করা হয়, PBE0+MBD(-NL) কোয়ান্টাম মেকানিক্যাল স্তর দ্বারা ক্যাপচার করা হয়।
১. মূল সমস্যা: বিদ্যমান কোয়ান্টাম মেকানিক্যাল ডেটাসেটগুলি প্রধানত ছোট অণু এবং প্রোটিনগুলি কভার করে, নিউক্লিক অ্যাসিড, লিপিড এবং কার্বোহাইড্রেটের তিনটি প্রধান জৈব-আণবিক শ্রেণীতে উল্লেখযোগ্য ফাঁক রয়েছে, যা কোষীয় জৈব ভর্তির প্রায় ৪০% গঠন করে।
२. গুরুত্ব:
३. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
४. গবেষণা প্রেরণা:
१. QCell ডেটাসেট নির্মাণ: নিউক্লিক অ্যাসিড, লিপিড, কার্বোহাইড্রেট, আয়ন/জল এবং অ-সহযোগী ডাইমার বিস্তৃত ৫২৫,৮৮১টি নতুন জৈব-আণবিক খণ্ড QM গণনা অন্তর্ভুক্ত করে
२. ডেটা কভারেজ সম্প্রসারণ: বিদ্যমান ডেটাসেটগুলির সাথে মিলিত হয়ে, মোট ডেটা পয়েন্ট ৪১ মিলিয়ন আণবিক সিস্টেমে পৌঁছায়, ৮২টি রাসায়নিক উপাদান কভার করে
३. একীভূত তাত্ত্বিক স্তর: সমস্ত গণনা PBE0+MBD(-NL) স্তরে সম্পাদিত হয়, ডেটা সামঞ্জস্য নিশ্চিত করে
४. গভীর কনফরমেশনাল নমুনা: জৈব-প্রাসঙ্গিক রাসায়নিক পরিবেশের কনফরমেশনাল বৈচিত্র্যে ফোকাস করা
५. প্রযুক্তিগত যাচাইকরণ: কাঠামোগত বিশ্লেষণ এবং মেশিন লার্নিং বল ক্ষেত্র প্রশিক্ষণের মাধ্যমে ডেটাসেট গুণমান যাচাই করা হয়েছে
QCell ডেটাসেট পাঁচ-ধাপ কর্মপ্রবাহ ব্যবহার করে নির্মিত হয়েছে:
१. বিল্ডিং ব্লক লাইব্রেরি ব্যবস্থাপনা এবং প্রাথমিক 3D কাঠামো প্রজন্ম
२. ব্যাপক কনফরমেশনাল নমুনা (আণবিক গতিশীলতা বা নিবেদিত কনফরমেশনাল প্রজন্ম সরঞ্জাম)
३. প্রতিনিধিমূলক খণ্ড নির্বাচন
४. DFTB+MBD পদ্ধতি পূর্ব-অপ্টিমাইজেশন
५. উচ্চ মানের PBE0+MBD(-NL) কোয়ান্টাম মেকানিক্যাল গণনা
| শ্রেণী | পরিমাণ | পরমাণু সংখ্যা | উপাদান | তাত্ত্বিক স্তর |
|---|---|---|---|---|
| নিউক্লিক অ্যাসিড | ৩४,८३८ | १४-३८२ | H,C,N,O,Na,Mg,S,P | PBE0+MBD-NL |
| লিপিড | १६,००० | १२५-४०२ | H,C,N,O,P | PBE0+MBD |
| কার্বোহাইড্রেট | ७४,०८७ | ३५-७५ | H,C,N,O | PBE0+MBD |
| আয়ন/জল | ३०,००० | ४-३०३ | H,O,Na,Cl,K,Mg,Ca | PBE0+MBD-NL |
| অ-সহযোগী ডাইমার | ३७०,९५६ | २-३४ | २० প্রকার উপাদান | PBE0+MBD-NL |
SO3LR আর্কিটেকচার ব্যবহার করে MLFFs প্রশিক্ষণ, ডেটাসেট গুণমান মূল্যায়ন:
१. নিউক্লিক অ্যাসিড: DNA খণ্ডের ফসফেট-ফসফেট দূরত্ব এবং কঙ্কাল বাঁকানো কোণ বিতরণ A-, B-, Z-DNA এর প্রত্যাশিত মান পুনরুৎপাদন করে
२. লিপিড: ফ্যাটি অ্যাসিড খণ্ডের গাইরেশন ব্যাসার্ধ বিতরণ যুক্তিসঙ্গতভাবে শৃঙ্খল সম্প্রসারণ এবং স্ট্যাকিং প্রতিফলিত করে
३. কার্বোহাইড্রেট: N/O-গ্লাইকোসিডিক সংযোগ দ্বিমুখী কোণ সম্পূর্ণ কনফরমেশনাল স্থান কভার করে, সমস্ত প্রধান ঘূর্ণন আইসোমার পুনরুৎপাদন করে
४. আয়ন/জল: রেডিয়াল বিতরণ ফাংশন পরীক্ষামূলক জলযুক্ত দূরত্বের সাথে মিলে যায়, একমূল্যবান আয়ন-অক্সিজেন এবং O-O শিখর অবস্থান নির্ভুল
বিভিন্ন ডেটাসেট উপসেটের বল MAE ফলাফল:
ত্রুটি মডেল ক্ষমতার সাথে সিস্টেমেটিক্যালি হ্রাস পায়, বেশিরভাগ উপসেট १ kcal/mol/Å এর নিচে পৌঁছায়, ডেটাসেট অভ্যন্তরীণ সামঞ্জস্য এবং আধুনিক MLFFs এর রাসায়নিক বৈচিত্র্যময় সিস্টেম জুড়ে সাধারণীকরণ ক্ষমতা প্রমাণ করে।
१. QCell ডেটাসেট জৈব-আণবিক QM ডেটার গুরুত্বপূর্ণ ফাঁক সফলভাবে পূরণ করেছে
२. একীভূত PBE0+MBD(-NL) তাত্ত্বিক স্তর বিদ্যমান ডেটাসেটের সাথে সামঞ্জস্য নিশ্চিত করেছে
३. কাঠামোগত যাচাইকরণ ডেটাসেটের রাসায়নিক যুক্তিসঙ্গততা এবং বৈচিত্র্য প্রমাণ করেছে
४. মেশিন লার্নিং যাচাইকরণ চমৎকার পূর্বাভাস কর্মক্ষমতা প্রদর্শন করেছে
१. দ্বিমূল্যবান আয়নের রেডিয়াল বিতরণ ফাংশন পরীক্ষামূলক মানের সাথে সামান্য বিচ্যুতি
२. খণ্ড আকার ४०२ পরমাণুর মধ্যে সীমাবদ্ধ
३. প্রধানত জৈব-প্রাসঙ্গিক উপাদানে ফোকাস করা, উপাদান বৈচিত্র্য তুলনামূলকভাবে সীমিত
४. গ্যাস-পর্যায় এবং দ্রবণ-পর্যায় পরিবেশের ভারসাম্য আরও অপ্টিমাইজেশন প্রয়োজন
१. বৃহত্তর জৈব-আণবিক খণ্ডে সম্প্রসারণ
२. আরও দ্রবক প্রভাব এবং পরিবেশগত অবস্থা অন্তর্ভুক্ত করা
३. পরীক্ষামূলক ডেটার সাথে আরও যাচাইকরণ এবং ক্যালিব্রেশন
४. জৈব-আণবিক-নির্দিষ্ট নতুন MLFF আর্কিটেকচার উন্নয়ন
१. গুরুত্বপূর্ণ ফাঁক পূরণ: নিউক্লিক অ্যাসিড, লিপিড, কার্বোহাইড্রেট ডেটা অভাবের সমস্যা প্রথমবারের মতো সিস্টেমেটিক্যালি সমাধান করা
२. কঠোর পদ্ধতি: অ-অভিজ্ঞতামূলক কোয়ান্টাম মেকানিক্যাল পদ্ধতি ব্যবহার করা, শক্তিশালী তাত্ত্বিক ভিত্তি
३. উচ্চ ডেটা গুণমান: একাধিক যাচাইকরণ কাঠামো এবং শক্তির যুক্তিসঙ্গততা নিশ্চিত করে
४. বড় ব্যবহারিক মূল্য: বিদ্যমান ডেটাসেটের সাথে সামঞ্জস্যপূর্ণ, MLFF প্রশিক্ষণে সরাসরি ব্যবহারযোগ্য
५. খোলা অ্যাক্সেস: ডেটাসেট জনসাধারণের জন্য উপলব্ধ, ক্ষেত্র উন্নয়ন প্রচার করে
१. গণনামূলক খরচ: PBE0+MBD(-NL) গণনা খরচ বেশি, ডেটাসেট আকার সম্প্রসারণ সীমাবদ্ধ করে
२. খণ্ড সীমাবদ্ধতা: সর্বাধিক ४०२ পরমাণু সীমাবদ্ধতা দীর্ঘ-পরিসর মিথস্ক্রিয়া সম্পূর্ণভাবে ক্যাপচার করতে পারে না
३. পরিবেশ সরলীকরণ: প্রধানত গ্যাস-পর্যায় এবং সরল দ্রবীভূতকরণ বিবেচনা করা, জটিল জৈব পরিবেশ মডেলিং অপর্যাপ্ত
४. সীমিত যাচাইকরণ: উচ্চ-নির্ভুলতা পদ্ধতির সাথে সরাসরি তুলনার অভাব (যেমন CCSD(T))
१. একাডেমিক অবদান: জৈব-আণবিক MLFF উন্নয়নের জন্য গুরুত্বপূর্ণ ডেটা ভিত্তি প্রদান করা
२. ব্যবহারিক মূল্য: ওষুধ ডিজাইন, জৈব-আণবিক অনুকরণ ইত্যাদি ক্ষেত্রে সরাসরি প্রয়োগ করা যায়
३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত পদ্ধতি বর্ণনা এবং খোলা ডেটা পুনরুৎপাদনযোগ্যতা নিশ্চিত করে
४. উন্নয়ন প্রচার: নতুন জৈব-আণবিক মডেলিং পদ্ধতি উন্নয়ন প্রচার করতে পারে
१. জৈব-আণবিক MLFF প্রশিক্ষণ: বহু-প্রকার জৈব-আণবিক কভার করে এমন সর্বজনীন বল ক্ষেত্র প্রশিক্ষণে সরাসরি ব্যবহার করা
२. ওষুধ ডিজাইন: প্রোটিন-লিগ্যান্ড, DNA-ওষুধ মিথস্ক্রিয়া মডেলিংয়ের জন্য ডেটা প্রদান করা
३. মেমব্রেন জীববিজ্ঞান: লিপিড ডেটা মেমব্রেন প্রোটিন এবং মেমব্রেন মিথস্ক্রিয়া গবেষণায় ব্যবহার করা যায়
४. চিনি জীববিজ্ঞান: কার্বোহাইড্রেট ডেটা গ্লাইকোপ্রোটিন এবং গ্লাইকোলিপিড গবেষণা সমর্থন করে
५. পদ্ধতি উন্নয়ন: নতুন কোয়ান্টাম রসায়ন পদ্ধতি এবং MLFF আর্কিটেকচারের জন্য বেঞ্চমার্ক পরীক্ষার ডেটা প্রদান করা
এই পেপারটি ৫৮টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যা কোয়ান্টাম রসায়ন পদ্ধতি, মেশিন লার্নিং বল ক্ষেত্র, জৈব-আণবিক অনুকরণ এবং সম্পর্কিত ডেটাসেটের মূল কাজগুলি অন্তর্ভুক্ত করে, গবেষণার জন্য শক্তিশালী তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।