2025-11-24T07:55:17.096511

Multitask finetuning and acceleration of chemical pretrained models for small molecule drug property prediction

Adrian, Chung, Boyd et al.

Chemical pretrained models, sometimes referred to as foundation models, are receiving considerable interest for drug discovery applications. The general chemical knowledge extracted from self-supervised training has the potential to improve predictions for critical drug discovery endpoints, including on-target potency and ADMET properties. Multi-task learning has previously been successfully leveraged to improve predictive models. Here, we show that enabling multitasking in finetuning of chemical pretrained graph neural network models such as Kinetic GROVER Multi-Task (KERMT), an enhanced version of the GROVER model, and Knowledge-guided Pre-training of Graph Transformer (KGPT) significantly improves performance over non-pretrained graph neural network models. Surprisingly, we find that the performance improvement from finetuning KERMT in a multitask manner is most significant at larger data sizes. Additionally, we publish two multitask ADMET data splits to enable more accurate benchmarking of multitask deep learning methods for drug property prediction. Finally, we provide an accelerated implementation of the KERMT model on GitHub, unlocking large-scale pretraining, finetuning, and inference in industrial drug discovery workflows.

academic

ছোট অণু ওষুধ সম্পত্তি পূর্বাভাসের জন্য রাসায়নিক প্রশিক্ষিত মডেলের মাল্টিটাস্ক ফাইনটিউনিং এবং ত্বরণ

মৌলিক তথ্য

পেপার আইডি: 2510.12719
শিরোনাম: ছোট অণু ওষুধ সম্পত্তি পূর্বাভাসের জন্য রাসায়নিক প্রশিক্ষিত মডেলের মাল্টিটাস্ক ফাইনটিউনিং এবং ত্বরণ
লেখক: Matthew Adrian, Yunsie Chung, Kevin Boyd, Saee Paliwal, Srimukh Prasad Veccham, Alan C. Cheng
প্রতিষ্ঠান: Merck & Co., Inc. এবং NVIDIA BioNeMo
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং), q-bio.QM (পরিমাণগত জীববিজ্ঞান পদ্ধতি)
প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.12719v1

সারসংক্ষেপ

রাসায়নিক প্রশিক্ষিত মডেল (যা ভিত্তি মডেল নামেও পরিচিত) ওষুধ আবিষ্কার প্রয়োগে ব্যাপক মনোযোগ আকর্ষণ করেছে। স্ব-তত্ত্বাবধানিত প্রশিক্ষণের মাধ্যমে নিষ্কাশিত সাধারণ রাসায়নিক জ্ঞান লক্ষ্য কার্যকারিতা এবং ADMET বৈশিষ্ট্য সহ মূল ওষুধ আবিষ্কার শেষ পয়েন্টের পূর্বাভাস উন্নত করার সম্ভাবনা রাখে। এই গবেষণা দেখায় যে রাসায়নিক প্রশিক্ষিত গ্রাফ নিউরাল নেটওয়ার্ক মডেল (যেমন KERMT এবং KPGT) এর ফাইনটিউনিংয়ে মাল্টিটাস্ক লার্নিং সক্ষম করা অ-প্রশিক্ষিত গ্রাফ নিউরাল নেটওয়ার্ক মডেলের তুলনায় কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। আশ্চর্যজনকভাবে, KERMT মাল্টিটাস্ক ফাইনটিউনিংয়ের কর্মক্ষমতা উন্নতি বৃহত্তর ডেটা স্কেলে সবচেয়ে উল্লেখযোগ্য। অতিরিক্তভাবে, লেখকরা দুটি মাল্টিটাস্ক ADMET ডেটাসেট বিভাজন প্রকাশ করেছেন এবং KERMT মডেলের একটি ত্বরিত বাস্তবায়ন প্রদান করেছেন।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

ডেটা স্বল্পতার চ্যালেঞ্জ: ওষুধ আবিষ্কারে, বিশেষত লক্ষ্য কার্যকারিতা পূর্বাভাস কাজে, লেবেলযুক্ত ডেটা সাধারণত সীমিত (10¹ থেকে 10⁶ অণু), যখন সম্পূর্ণ রাসায়নিক স্থান আনুমানিক 10⁶⁰ অণু নিয়ে গঠিত
ঐতিহ্যবাহী পদ্ধতির সীমাবদ্ধতা: তত্ত্বাবধানিত শেখার গ্রাফ নিউরাল নেটওয়ার্ক ছোট ডেটা পরিস্থিতিতে সীমিত কর্মক্ষমতা প্রদর্শন করে, সাধারণত র্যান্ডম ফরেস্ট এর মতো শাস্ত্রীয় পদ্ধতির উপর নির্ভর করে
মাল্টিটাস্ক লার্নিংয়ের সম্ভাবনা: ADMET বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক বিদ্যমান, যা মাল্টিটাস্ক লার্নিংয়ের সুযোগ প্রদান করে, কিন্তু এখনও রাসায়নিক প্রশিক্ষিত মডেল ফাইনটিউনিংয়ে পর্যাপ্তভাবে অন্বেষণ করা হয়নি

গবেষণা প্রেরণা

বড় আকারের লেবেলবিহীন রাসায়নিক ডেটা ব্যবহার করে প্রশিক্ষণ, সাধারণ রাসায়নিক জ্ঞান এবং প্যাটার্ন শিখতে
রাসায়নিক প্রশিক্ষিত মডেল ফাইনটিউনিংয়ে মাল্টিটাস্ক লার্নিংয়ের সম্ভাবনা অন্বেষণ করা
শিল্প-স্তরের ওষুধ আবিষ্কার প্রক্রিয়ায় গণনামূলক দক্ষতার সমস্যা সমাধান করা

মূল অবদান

প্রথম পদ্ধতিগত গবেষণা: রাসায়নিক প্রশিক্ষিত মডেল ফাইনটিউনিংয়ে মাল্টিটাস্ক লার্নিং পদ্ধতি প্রবর্তন
KERMT মডেল উন্নতি: GROVER এর একটি উন্নত সংস্করণ প্রস্তাব, বিতরণকৃত প্রশিক্ষণ এবং ত্বরিত অনুমান সমর্থন করে
বিপরীত স্বজ্ঞাত আবিষ্কার: প্রমাণ করে যে KERMT বৃহত্তর ডেটা স্কেলে আরও ভাল কর্মক্ষমতা প্রদর্শন করে, প্রশিক্ষিত মডেলগুলি প্রধানত ছোট ডেটা পরিস্থিতিতে সুবিধাজনক এই অনুমানকে চ্যালেঞ্জ করে
বেঞ্চমার্ক ডেটাসেট: দুটি মাল্টিটাস্ক ADMET ডেটাসেট বিভাজন প্রকাশ, পদ্ধতি তুলনামূলক মূল্যায়ন প্রচার করে
প্রকৌশল অপ্টিমাইজেশন: শিল্প-স্তরের প্রয়োগ সমর্থন করে ত্বরিত বাস্তবায়ন প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: অণুর SMILES স্ট্রিং বা আণবিক গ্রাফ প্রতিনিধিত্ব আউটপুট: একাধিক ADMET বৈশিষ্ট্য বা লক্ষ্য কার্যকারিতার পূর্বাভাস মান লক্ষ্য: মাল্টিটাস্ক লার্নিংয়ের মাধ্যমে ওষুধ সম্পত্তি পূর্বাভাস কাজে রাসায়নিক প্রশিক্ষিত মডেলের কর্মক্ষমতা উন্নত করা

মডেল আর্কিটেকচার

KERMT (গতিশীল GROVER মাল্টি-টাস্ক)

মৌলিক আর্কিটেকচার: GROVER এর গ্রাফ ট্রান্সফর্মার মডেলের উপর ভিত্তি করে
প্রশিক্ষণ কাজ:
- নোড/প্রান্ত-স্তরের শ্রেণীবিভাগ: নোড/প্রান্ত এমবেডিং থেকে k-hop স্থানীয় সাবগ্রাফ সনাক্ত করা
- গ্রাফ-স্তরের মাল্টি-লেবেল শ্রেণীবিভাগ: গ্রাফ এমবেডিং থেকে অণুতে উপস্থিত কার্যকরী গোষ্ঠী সনাক্ত করা
পরামিতি স্কেল: ~৫১ মিলিয়ন পরামিতি (ভিত্তি সংস্করণ)
প্রশিক্ষণ ডেটা: ১১ মিলিয়ন যৌগ (ZINC15 এবং ChEMBL থেকে)

KPGT (জ্ঞান-নির্দেশিত গ্রাফ ট্রান্সফর্মার প্রশিক্ষণ)

বৈশিষ্ট্য: আণবিক লাইন গ্রাফ প্রতিনিধিত্ব + জ্ঞান নোড (K-node) ব্যবহার করে
প্রশিক্ষণ কাজ:
- মুখোশযুক্ত নোড এবং K-node বৈশিষ্ট্য পূর্বাভাস
- RDKit ফিঙ্গারপ্রিন্ট পূর্বাভাস
- ২০০টি আণবিক বর্ণনাকারী পূর্বাভাস
পরামিতি স্কেল: ~১০০ মিলিয়ন পরামিতি
প্রশিক্ষণ ডেটা: ২ মিলিয়ন অণু (ChEMBL29)

মাল্টিটাস্ক ফাইনটিউনিং কৌশল

একক-কাজ ফাইনটিউনিং: শুধুমাত্র এনকোডার এবং ফিডফরওয়ার্ড নেটওয়ার্ক ওজন আপডেট করে একক সম্পত্তি পূর্বাভাস দেয়
মাল্টিটাস্ক ফাইনটিউনিং: ফিডফরওয়ার্ড নেটওয়ার্ক n টি সম্পত্তির সাথে সামঞ্জস্যপূর্ণ n টি মান আউটপুট করে, এনকোডার ওজন একযোগে আপডেট হয়

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

বিতরণকৃত প্রশিক্ষণ: PyTorch DDP ব্যবহার করে মাল্টি-GPU সমান্তরাল প্রশিক্ষণ বাস্তবায়ন, ৮টি GPU এ ৮৬% স্কেলিং দক্ষতা অর্জন করে
ত্বরিত অনুমান: cuik-molmaker প্যাকেজ একীভূত করে, ২.২ গুণ ফাইনটিউনিং ত্বরণ এবং ২.৯ গুণ অনুমান ত্বরণ অর্জন করে
স্বয়ংক্রিয় হাইপারপ্যারামিটার অপ্টিমাইজেশন: হাইপারপ্যারামিটার অনুসন্ধানের জন্য Optuna একীভূত করে
মেমরি অপ্টিমাইজেশন: গতিশীলভাবে আণবিক গ্রাফ এবং বর্ণনাকারী তৈরি করে, ৩৪% মেমরি ব্যবহার হ্রাস করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

অভ্যন্তরীণ ডেটাসেট (Merck)

ADMET ডেটা: ৩০টি শেষ পয়েন্ট, ৮০০,৭৩৩টি যৌগ (২০২৪ সাল পর্যন্ত)
লক্ষ্য কার্যকারিতা: লক্ষ্য ১ (৭৪৪ যৌগ), লক্ষ্য ২ (১,১৬৩ যৌগ)
বিভাজন পদ্ধতি: ৮০-২০ সময় বিভাজন (২০১৮ সালের এপ্রিল সীমানা হিসাবে)

জনসাধারণের ডেটাসেট

সাহিত্য ADMET ডেটা: ২৫টি শেষ পয়েন্ট, ১১৪,১১২টি যৌগ
Biogen ডেটাসেট: ৬টি শেষ পয়েন্ট, ৩,৫২১টি যৌগ
BindingDB: EGFR (৯,৪৬২ যৌগ), BTK (৯,৩৩৭ যৌগ) ইত্যাদি
বিভাজন পদ্ধতি: PCA হ্রাসকৃত Morgan ফিঙ্গারপ্রিন্টের ক্লাস্টারিং বিভাজনের উপর ভিত্তি করে

মূল্যায়ন মেট্রিক্স

প্রধান মেট্রিক: Pearson r² সম্পর্ক সহগ
সহায়ক মেট্রিক: নির্ধারণ সহগ R², গড় পরম ত্রুটি (MAE), মূল গড় বর্গ ত্রুটি (RMSE)
শ্রেণীবিভাগ মূল্যায়ন: শ্রেণীবিভাগ সমৃদ্ধি প্লট, উচ্চ কার্যকারিতা অণুর সঠিক শ্রেণীবিভাগ হার মূল্যায়ন

তুলনামূলক পদ্ধতি

ভিত্তিরেখা: Chemprop (D-MPNN)
প্রশিক্ষিত মডেল: MoLFormer, KPGT, KERMT
মূল্যায়ন মোড: একক-কাজ (ST) এবং মাল্টিটাস্ক (MT) ভেরিয়েন্ট

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

অভ্যন্তরীণ ADMET ডেটা কর্মক্ষমতা

Merck অভ্যন্তরীণ ডেটার সময় বিভাজন পরীক্ষায়:

KERMT MT: ৫টি মূল শেষ পয়েন্টে সর্বোত্তম বা সমান সর্বোত্তম কর্মক্ষমতা
কর্মক্ষমতা উন্নতি: ৩০টি শেষ পয়েন্টে Chemprop MT এর তুলনায় ১৮টিতে আরও ভাল কর্মক্ষমতা
গড় উন্নতি: Chemprop এর তুলনায় Pearson r² ০.০২ এবং KPGT এর তুলনায় ০.০৪ বৃদ্ধি

নির্দিষ্ট ফলাফল (Pearson r²):

Papp: KERMT MT (০.৭১২) বনাম Chemprop MT (০.৬৫৭)
EPSA: KERMT MT (০.৮২২) বনাম Chemprop MT (০.৮০৫)
Fu,p মানব: KERMT MT (০.৬৬৬) বনাম Chemprop MT (০.৬৪১)

জনসাধারণের ডেটাসেট কর্মক্ষমতা

জনসাধারণের ADMET ডেটা: KPGT আরও ভাল কর্মক্ষমতা (২৫টি শেষ পয়েন্টে ৯টিতে সর্বোত্তম), KERMT MT শুধুমাত্র ৩/২৫ সর্বোত্তম
Biogen ডেটা: নমুনা আকার ছোট হওয়ার কারণে, ফলাফল আস্থা কম
ডেটা স্কেল নির্ভরতা: KERMT বড় ডেটাসেটে (>১০k নমুনা) আরও ভাল কর্মক্ষমতা প্রদর্শন করে, KPGT ছোট ডেটাসেটে (<৩k নমুনা) আরও ভাল

ডেটা স্কেল বিশ্লেষণ

মূল আবিষ্কার: KERMT এর সুবিধা বৃহত্তর ডেটা স্কেলে আরও স্পষ্ট

সংকটপূর্ণ পয়েন্ট: প্রশিক্ষণ সেট >৬০k ডেটা পয়েন্ট হলে, KERMT Chemprop এর চেয়ে উল্লেখযোগ্যভাবে ভাল
পরামিতি স্কেল প্রভাব: KERMT (৫১০০ মিলিয়ন পরামিতি) Chemprop (৫০০ মিলিয়ন পরামিতি) এর চেয়ে ছোট ডেটায় অতিফিটিং এর জন্য আরও সংবেদনশীল
মাল্টিটাস্ক সুবিধা: কাজের সংখ্যা বৃদ্ধির সাথে (১→৩০টি কাজ), KERMT কর্মক্ষমতা ক্রমাগত উন্নত হয়

রাসায়নিক স্থান সাধারণীকরণ ক্ষমতা

Tanimoto সাদৃশ্য বিশ্লেষণের মাধ্যমে:

সামঞ্জস্যপূর্ণ সুবিধা: KERMT সমস্ত সাদৃশ্য ব্যবধানে (০.৩৫-০.৭) Chemprop এর চেয়ে ভাল
সাধারণীকরণ ক্ষমতা: যদিও কম সাদৃশ্য যৌগের জন্য বিশেষভাবে ডিজাইন করা হয়নি, সামগ্রিক সাধারণীকরণ ক্ষমতা শক্তিশালী
চক্রীয় পেপটাইড পূর্বাভাস: চক্রীয় পেপটাইড উপসেটে দুটি মডেলের কর্মক্ষমতা সমান (Pearson r² = ০.৩৬)

প্রশিক্ষণ ডেটা প্রভাব

অভ্যন্তরীণ ডেটা ব্যবহার করে পুনরায় প্রশিক্ষণের পরীক্ষা দেখায়:

সীমিত উন্নতি: এমনকি প্রশিক্ষণ ডেটা ডাউনস্ট্রিম কাজের সাথে আরও সমান্তরাল হলেও, কর্মক্ষমতা উন্নতি সীমিত
চক্রীয় পেপটাইড কর্মক্ষমতা: ভিত্তি KERMT মডেল অভ্যন্তরীণ প্রশিক্ষিত মডেলের চেয়ে চক্রীয় পেপটাইড কাজে আরও ভাল (৫/১২ বনাম ১/১২ কাজ)
অন্তর্দৃষ্টি: প্রাসঙ্গিক তথ্য আরও ভালভাবে ক্যাপচার করার জন্য প্রশিক্ষণ কাজ উন্নত করার প্রয়োজন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

মাল্টিটাস্ক ফাইনটিউনিং কার্যকারিতা: KERMT মাল্টিটাস্ক ফাইনটিউনিং উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে, বিশেষত বৃহত্তর ডেটা পরিস্থিতিতে
ডেটা স্কেল নির্ভরতা: প্রশিক্ষিত মডেলগুলি প্রধানত ছোট ডেটায় সুবিধাজনক এই ঐতিহ্যবাহী দৃষ্টিভঙ্গি চ্যালেঞ্জ করে
মডেল নির্বাচন নির্দেশনা: বড় এবং মাঝারি ডেটার জন্য KERMT MT ব্যবহার সুপারিশ করে, ছোট ডেটার জন্য KPGT ST ব্যবহার করে
প্রকৌশল সম্ভাব্যতা: ত্বরিত বাস্তবায়ন শিল্প-স্তরের প্রয়োগ সম্ভব করে তোলে

সীমাবদ্ধতা

প্রশিক্ষণ কাজ অপ্টিমাইজেশন: বর্তমান প্রশিক্ষণ কাজ ডাউনস্ট্রিম কাজের সাথে সম্পর্কিত তথ্য পর্যাপ্তভাবে ক্যাপচার করতে পারে না
চক্রীয় পেপটাইড পূর্বাভাস: চক্রীয় পেপটাইড এর মতো বিশেষ আণবিক ধরনে উন্নতি সীমিত
ডেটাসেট পার্থক্য: অভ্যন্তরীণ এবং জনসাধারণের ডেটাসেট ফলাফল অসামঞ্জস্যপূর্ণ, পদ্ধতি সাধারণীকরণ মূল্যায়ন প্রভাবিত করে
গণনামূলক সম্পদ প্রয়োজন: বড় পরামিতি মডেল আরও গণনামূলক সম্পদ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

প্রশিক্ষণ কাজ উন্নতি: মাল্টিটাস্ক লার্নিংয়ের জন্য আরও উপযুক্ত প্রশিক্ষণ উদ্দেশ্য ডিজাইন করা
মডুলার ফাইনটিউনিং: বিভিন্ন ডেটা স্কেলে আংশিক হিমায়িত এনকোডারের প্রভাব গবেষণা করা
ক্রস-মোডাল সম্প্রসারণ: প্রোটিন-ছোট অণু যৌথ প্রশিক্ষণ অন্বেষণ করা
বেঞ্চমার্ক ডেটাসেট: আরও উচ্চ-মানের মাল্টিটাস্ক বেঞ্চমার্ক বিকাশ করা

গভীর মূল্যায়ন

সুবিধা

উচ্চ ব্যবহারিক মূল্য: শিল্প ওষুধ আবিষ্কারে প্রকৃত সমস্যা সরাসরি সমাধান করে
ব্যাপক পরীক্ষা: একাধিক ডেটাসেট, মডেল এবং মূল্যায়ন মাত্রা অন্তর্ভুক্ত করে
বিপরীত স্বজ্ঞাত আবিষ্কার: ক্ষেত্র অনুমান চ্যালেঞ্জ করে, নতুন অন্তর্দৃষ্টি প্রদান করে
প্রকৌশল অবদান: সম্পূর্ণ ওপেন-সোর্স বাস্তবায়ন এবং ত্বরণ অপ্টিমাইজেশন প্রদান করে
ডেটা অবদান: মানক মাল্টিটাস্ক বেঞ্চমার্ক ডেটাসেট প্রকাশ করে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: KERMT বৃহত্তর ডেটায় কেন আরও ভাল কর্মক্ষমতা প্রদর্শন করে তার গভীর তাত্ত্বিক ব্যাখ্যা অভাব
প্রশিক্ষণ কৌশল: মাল্টিটাস্ক লার্নিংয়ের জন্য অপ্টিমাইজ করা প্রশিক্ষণ পদ্ধতি পর্যাপ্তভাবে অন্বেষণ করা হয়নি
পরিসংখ্যানগত তাৎপর্য: কিছু ফলাফলের পরিসংখ্যানগত তাৎপর্য বিশ্লেষণ আরও কঠোর হতে পারে
গণনামূলক খরচ বিশ্লেষণ: গণনামূলক খরচের বিস্তারিত তুলনামূলক বিশ্লেষণ অভাব

প্রভাব

একাডেমিক প্রভাব: রাসায়নিক তথ্যবিজ্ঞান এবং মাল্টিটাস্ক লার্নিং ক্রস-ডিসিপ্লিনারি ক্ষেত্রে গুরুত্বপূর্ণ রেফারেন্স প্রদান করে
শিল্প প্রয়োগ: ফার্মাসিউটিক্যাল কোম্পানির ADMET পূর্বাভাস প্রক্রিয়ায় সরাসরি প্রযোজ্য
ওপেন-সোর্স অবদান: কোড এবং ডেটার উন্মুক্তকরণ ক্ষেত্র উন্নয়ন প্রচার করে
পদ্ধতিগত অবদান: রাসায়নিক প্রশিক্ষিত মডেল মূল্যায়নের জন্য নতুন মান প্রতিষ্ঠা করে

প্রযোজ্য পরিস্থিতি

বড় ফার্মাসিউটিক্যাল কোম্পানি: বড় আকারের ADMET ডেটা সহ সংস্থা
বহু-সম্পত্তি অপ্টিমাইজেশন: একাধিক আণবিক সম্পত্তি একযোগে পূর্বাভাস করার প্রয়োজন এমন পরিস্থিতি
শিল্প প্রক্রিয়া: উচ্চ-দক্ষতা অনুমান প্রয়োজন এমন উৎপাদন পরিবেশ
গবেষণা বেঞ্চমার্ক: মাল্টিটাস্ক রাসায়নিক সম্পত্তি পূর্বাভাসের জন্য মান ভিত্তিরেখা হিসাবে

তথ্যসূত্র

পেপারটি ৪৭টি গুরুত্বপূর্ণ তথ্যসূত্র উদ্ধৃত করে, যা অন্তর্ভুক্ত করে:

রাসায়নিক প্রশিক্ষিত মডেলের মৌলিক কাজ (GROVER, MoLFormer, KPGT)
ADMET পূর্বাভাসের শাস্ত্রীয় পদ্ধতি এবং ডেটাসেট
মাল্টিটাস্ক লার্নিংয়ের তাত্ত্বিক ভিত্তি
আণবিক প্রতিনিধিত্ব শেখা এবং গ্রাফ নিউরাল নেটওয়ার্ক
ওষুধ আবিষ্কারে মেশিন লার্নিং প্রয়োগের পর্যালোচনা

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের প্রয়োগ গবেষণা পেপার, যা তাত্ত্বিক অবদান, পরীক্ষামূলক যাচাইকরণ এবং প্রকৌশল বাস্তবায়নে উল্লেখযোগ্য মূল্য প্রদান করে। বিশেষত এর বিপরীত স্বজ্ঞাত আবিষ্কার এবং সম্পূর্ণ ওপেন-সোর্স অবদান রাসায়নিক তথ্যবিজ্ঞান ক্ষেত্রের উন্নয়ন প্রচারে গুরুত্বপূর্ণ তাৎপর্য রাখে।