বৃহৎ ভাষা মডেল (LLM) স্বাস্থ্যসেবা প্রয়োগে বিশাল সম্ভাবনা রাখে এবং জৈব চিকিৎসা ক্ষেত্রে অভিযোজিত মডেলগুলি চিকিৎসা কাজে উন্নত কর্মক্ষমতা প্রদানের প্রতিশ্রুতি দেয়। তবে, জৈব চিকিৎসা ক্ষেত্র অভিযোজনের ক্লিনিকাল কাজে কার্যকারিতা এখনও অনিশ্চিত। এই গবেষণা ১২টি জৈব চিকিৎসা অভিযোজিত মডেল এবং তাদের সাধারণ ক্ষেত্রের ভিত্তি মডেলগুলির ছয়টি ক্লিনিকাল কাজে সরাসরি তুলনা করেছে। ফলাফলগুলি দেখায় যে ১২টি জৈব চিকিৎসা মডেলের ১১টি কর্মক্ষমতা হ্রাস প্রদর্শন করেছে, যা জৈব চিকিৎসা অভিযোজনের ইতিবাচক প্রভাব সম্পর্কে পূর্ববর্তী রিপোর্টকৃত ফলাফলকে চ্যালেঞ্জ করে। উল্লেখযোগ্যভাবে, পূর্ববর্তী ইতিবাচক ফলাফলগুলি প্রধানত বহুনির্বাচনী মূল্যায়নের উপর নির্ভর করে, যা বাস্তব-বিশ্ব ক্লিনিকাল প্রয়োগে কর্মক্ষমতা প্রতিফলিত করতে পারে না।
এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: জৈব চিকিৎসা ক্ষেত্রে বিশেষায়িত প্রশিক্ষণ সত্যিই বৃহৎ ভাষা মডেলগুলির প্রকৃত ক্লিনিকাল কাজে কর্মক্ষমতা উন্নত করতে পারে কিনা?
১. ব্যবহারিক প্রয়োগের চাহিদা: স্বাস্থ্যসেবায় LLM বিশাল সম্ভাবনা রাখে, যা রোগীর যত্নের গুণমান এবং দক্ষতা উন্নত করতে পারে २. সম্পদ বিনিয়োগ বিবেচনা: জৈব চিকিৎসা LLM উন্নয়নের জন্য বিশাল কম্পিউটেশনাল সম্পদ এবং বিশেষায়িত ডেটা প্রয়োজন ३. নিরাপত্তা বিবেচনা: চিকিৎসা প্রয়োগ মডেল নির্ভুলতা এবং নির্ভরযোগ্যতার জন্য অত্যন্ত দাবিদার
१. মূল্যায়ন পদ্ধতির সীমাবদ্ধতা: পূর্ববর্তী গবেষণা প্রধানত বহুনির্বাচনী প্রশ্ন (MCQA) মূল্যায়নের উপর নির্ভর করে, প্রকৃত ক্লিনিকাল নথির পরীক্ষার অভাব २. অসামঞ্জস্যপূর্ণ সিদ্ধান্ত: সাম্প্রতিক গবেষণা জৈব চিকিৎসা ক্ষেত্র অভিযোজনের কার্যকারিতা প্রশ্ন করতে শুরু করেছে ३. সিস্টেমেটিক তুলনার অভাব: একাধিক জৈব চিকিৎসা মডেল এবং তাদের ভিত্তি মডেলের মধ্যে সরাসরি সিস্টেমেটিক তুলনার অভাব
লেখকরা প্রকৃত ক্লিনিকাল কাজে সিস্টেমেটিক মূল্যায়নের মাধ্যমে জৈব চিকিৎসা প্রশিক্ষণের প্রকৃত প্রভাব প্রকাশ করতে এবং এই ক্ষেত্রের উন্নয়নের জন্য উদ্দেশ্যমূলক প্রমাণ প্রদান করতে চান।
१. সিস্টেমেটিক মূল্যায়ন কাঠামো: CLUE (ক্লিনিকাল ভাষা বোঝার মূল্যায়ন) মূল্যায়ন কাঠামো তৈরি করা হয়েছে, যাতে ৬টি প্রকৃত ক্লিনিকাল কাজ রয়েছে २. বৃহৎ-স্কেল মডেল তুলনা: ২৪টি ভাষা মডেল মূল্যায়ন করা হয়েছে, যার মধ্যে ১२টি জৈব চিকিৎসা মডেল এবং তাদের ভিত্তি মডেল রয়েছে ३. বিপ্লবী আবিষ্কার: ১१/१२ জৈব চিকিৎসা মডেল ক্লিনিকাল কাজে কর্মক্ষমতা হ্রাস দেখিয়েছে, যা ঐতিহ্যবাহী জ্ঞানকে চ্যালেঞ্জ করে ४. ওপেন সোর্স অবদান: সম্পূর্ণ মূল্যায়ন পাইপলাইন ওপেন সোর্স করা হয়েছে, পুনরুৎপাদনযোগ্য গবেষণা প্রচার করে ५. গভীর ত্রুটি বিশ্লেষণ: জৈব চিকিৎসা মডেলের প্রধান সমস্যা চিহ্নিত করা হয়েছে: হ্যালুসিনেশন, নির্দেশনা অনুসরণ ক্ষমতা হ্রাস ইত্যাদি
CLUE মূল্যায়ন কাঠামোতে ৬টি ক্লিনিকাল কাজ রয়েছে, দুটি কঠিনতা স্তরে বিভক্ত:
স্তর १ (সহজ কাজ, সংক্ষিপ্ত ইনপুট):
স্তর २ (জটিল কাজ, দীর্ঘ ইনপুট):
মূল্যায়িত জৈব চিকিৎসা মডেলগুলির মধ্যে রয়েছে:
१. প্রকৃত ক্লিনিকাল কাজ মূল্যায়ন: ঐতিহ্যবাহী MCQA এর বিপরীতে, প্রকৃত ক্লিনিকাল নথি এবং কাজ ব্যবহার করা হয় २. বহু-মাত্রিক সূচক: ROUGE, BERTScore, UMLS সত্তা F१ এবং অন্যান্য একাধিক সূচক একত্রিত করা হয় ३. সিস্টেমেটিক তুলনা: প্রতিটি জৈব চিকিৎসা মডেল তার ভিত্তি মডেলের সাথে সরাসরি তুলনা করা হয় ४. ত্রুটি প্যাটার্ন বিশ্লেষণ: হ্যালুসিনেশন, পুনরাবৃত্তি লুপ ইত্যাদি নির্দিষ্ট ত্রুটি প্রকার গভীরভাবে বিশ্লেষণ করা হয়
| মডেল বিভাগ | স্তর १ গড় কর্মক্ষমতা পরিবর্তন | স্তর २ গড় কর্মক্ষমতা পরিবর্তন | সামগ্রিক প্রবণতা |
|---|---|---|---|
| Meditron-७B | -७.०८ | - | হ্রাস |
| Meditron-७०B | -४.५९ | - | হ্রাস |
| BioMistral-७B | +०.२६ | +०.७१ | সামান্য বৃদ্ধি |
| BioMistral-७B-DARE | +२.९३ | +२.७० | বৃদ্ধি |
| OpenBioLLM-८B | -१५.१७ | -१३.५४ | উল্লেখযোগ্য হ্রাস |
| Med४२-८B | +२.५१ | -१.४० | মিশ্র |
মূল আবিষ্কার: १. শুধুমাত্র BioMistral-७B-DARE সমস্ত কাজে ভিত্তি মডেলের চেয়ে উন্নত २. ११/१२ মডেল কমপক্ষে একটি কাজে কর্মক্ষমতা হ্রাস দেখিয়েছে ३. ४টি মডেল সমস্ত কাজে কর্মক্ষমতা হ্রাস দেখিয়েছে
কাজের জটিলতার প্রভাব:
মডেল আকারের প্রভাব:
ত্রুটি প্যাটার্ন উদাহরণ: १. হ্যালুসিনেশন সমস্যা: LongHealth কাজ ३ এ, Llama३-OpenBioLLM-८B ভিত্তি মডেলের ५६.२५ স্কোর থেকে १.५५ এ হ্রাস পেয়েছে २. পুনরাবৃত্তি লুপ: জৈব চিকিৎসা মডেল প্রায়ই টোকেন পুনরাবৃত্তিতে আটকে যায়, অসংযুক্ত আউটপুট তৈরি করে ३. ICD-१० কোডিং ত্রুটি: মডেল বৈধ কোড পূর্বাভাসের পরিবর্তে ক্রমবর্ধমান সংখ্যা প্রবণতা দেখায়
१. MCQA মূল্যায়নের সাথে পার্থক্য: ঐতিহ্যবাহী বহুনির্বাচনী মূল্যায়ন ইতিবাচক প্রভাব দেখায়, কিন্তু প্রকৃত ক্লিনিকাল কাজ কর্মক্ষমতা হ্রাস পায় २. ভিত্তি মডেল গুণমানের গুরুত্ব: আরও নতুন সাধারণ মডেল (যেমন Llama-३) জৈব চিকিৎসা অভিযোজনের চেয়ে বেশি গুরুত্বপূর্ণ ३. নির্দেশনা অনুসরণ ক্ষমতা হ্রাস: জৈব চিকিৎসা প্রশিক্ষণ মডেলের নির্দেশনা অনুসরণ ক্ষমতা ক্ষতিগ্রস্ত করে
সাম্প্রতিক গবেষণা জৈব চিকিৎসা অভিযোজনের কার্যকারিতা প্রশ্ন করতে শুরু করেছে:
এই পেপার সিস্টেমেটিক প্রকৃত ক্লিনিকাল কাজ মূল্যায়নের মাধ্যমে এই বিতর্কের জন্য অভিজ্ঞতামূলক প্রমাণ প্রদান করে।
१. জৈব চিকিৎসা প্রশিক্ষণ সর্বদা উপকারী নয়: বেশিরভাগ জৈব চিকিৎসা মডেল প্রকৃত ক্লিনিকাল কাজে কর্মক্ষমতা হ্রাস দেখায় २. সাধারণ মডেলের প্রতিযোগিতামূলকতা: Meta-Llama-३.१-७०B এর মতো সাধারণ মডেল সর্বোত্তম কর্মক্ষমতা দেখায় ३. মূল্যায়ন পদ্ধতির গুরুত্ব: MCQA মূল্যায়ন বিভ্রান্তিকর হতে পারে, প্রকৃত কাজ মূল্যায়ন আরও গুরুত্বপূর্ণ ४. ওজন মার্জের সম্ভাবনা: BioMistral-DARE এর সাফল্য ওজন মার্জ একটি প্রতিশ্রুতিশীল দিক তা নির্দেশ করে
१. কম্পিউটেশনাল সম্পদ সীমাবদ্ধতা: বিভিন্ন তাপমাত্রা সেটিংস, চিন্তার শৃঙ্খল প্রম্পট ইত্যাদি কৌশল অন্বেষণ করা হয়নি २. ডেটা দূষণ ঝুঁকি: জনসাধারণের ডেটাসেট ব্যবহার করে সম্পূর্ণভাবে ডেটা দূষণ এড়ানো যায় না ३. ক্লিনিকাল পরিবেশের পার্থক্য: মূল্যায়ন প্রকৃত ক্লিনিকাল পরিবেশে পরিচালিত হয়নি ४. নিরাপত্তা মূল্যায়ন অপর্যাপ্ত: নিরাপত্তা যাচাই করতে সম্ভাব্য ক্লিনিকাল ট্রায়াল প্রয়োজন
१. উন্নত প্রশিক্ষণ পদ্ধতি: আরও ভাল ক্ষেত্র অভিযোজন কৌশল অন্বেষণ করা २. ডেটা গুণমান উন্নতি: উচ্চ-মানের প্রশিক্ষণ ডেটা ব্যবহার করা ३. ওজন মার্জ প্রযুক্তি: ওজন মার্জ পদ্ধতি আরও গবেষণা করা ४. ক্লিনিকাল ট্রায়াল যাচাইকরণ: প্রকৃত ক্লিনিকাল পরিবেশে পরীক্ষা করা
१. গবেষণা ডিজাইন কঠোর: १२টি জৈব চিকিৎসা মডেল এবং ভিত্তি মডেলের সিস্টেমেটিক তুলনা २. কাজ ডিজাইন ব্যবহারিক: প্রকৃত ক্লিনিকাল নথি এবং কাজ ব্যবহার করা, প্রকৃত প্রয়োগের কাছাকাছি ३. আবিষ্কার বিপ্লবী: ক্ষেত্রে মূলধারার দৃষ্টিভঙ্গি চ্যালেঞ্জ করা ४. ওপেন সোর্স অবদান উচ্চ মূল্য: সম্পূর্ণ মূল্যায়ন কাঠামো পরবর্তী গবেষণা প্রচার করে ५. ত্রুটি বিশ্লেষণ গভীর: হ্যালুসিনেশন, পুনরাবৃত্তি ইত্যাদি নির্দিষ্ট সমস্যা বিস্তারিত বিশ্লেষণ
१. নমুনা আকার সীমিত: কিছু কাজের নমুনা সংখ্যা তুলনামূলকভাবে ছোট (যেমন সমস্যা সারসংক্ষেপ মাত্র २३७) २. মূল্যায়ন পরিসীমা সীমিত: প্রধানত ইংরেজি এবং নির্দিষ্ট ধরনের ক্লিনিকাল কাজে ফোকাস করা ३. তাত্ত্বিক বিশ্লেষণের অভাব: জৈব চিকিৎসা প্রশিক্ষণ কেন কর্মক্ষমতা হ্রাস করে তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব ४. প্রশিক্ষণ বিবরণ অপর্যাপ্ত: বিভিন্ন জৈব চিকিৎসা মডেলের নির্দিষ্ট প্রশিক্ষণ প্রক্রিয়া বর্ণনা সীমিত
१. একাডেমিক মূল্য: জৈব চিকিৎসা LLM গবেষণার জন্য গুরুত্বপূর্ণ প্রতিফলন প্রদান করে २. ব্যবহারিক নির্দেশনা: অনুশীলনকারীদের মডেল নির্বাচনে আরও যুক্তিসঙ্গত সিদ্ধান্ত নিতে সাহায্য করে ३. পদ্ধতিগত অবদান: CLUE মূল্যায়ন কাঠামো ব্যাপকভাবে গ্রহণ করা যেতে পারে ४. সম্পদ অপ্টিমাইজেশন: জৈব চিকিৎসা মডেল উন্নয়নে অন্ধ বিনিয়োগ এড়ায়
१. মডেল নির্বাচন সিদ্ধান্ত: চিকিৎসা AI প্রয়োগের জন্য উপযুক্ত ভিত্তি মডেল নির্বাচন করা २. গবেষণা দিকনির্দেশনা: জৈব চিকিৎসা LLM গবেষণার জন্য নতুন চিন্তাভাবনা প্রদান করা ३. মূল্যায়ন মান নির্ধারণ: চিকিৎসা AI মূল্যায়নের জন্য আরও কঠোর মান প্রতিষ্ঠা করা ४. বিনিয়োগ সিদ্ধান্ত রেফারেন্স: সম্পর্কিত বিনিয়োগ এবং সম্পদ বরাদ্দের জন্য ভিত্তি প্রদান করা
१. Chen, Z. et al. (२०२३). MEDITRON-७०B: বৃহৎ ভাষা মডেলের জন্য চিকিৎসা প্রশিক্ষণ স্কেলিং। २. Labrak, Y. et al. (२०२४). BioMistral: চিকিৎসা ক্ষেত্রের জন্য ওপেন-সোর্স প্রশিক্ষিত বৃহৎ ভাষা মডেলের সংগ্রহ। ३. Jeong, D. P. et al. (२०२४). বৃহৎ ভাষা এবং দৃষ্টি-ভাষা মডেলের চিকিৎসা অভিযোজন: আমরা অগ্রগতি করছি কিনা? ४. Ceballos-Arroyo, A. M. et al. (२०२४). ওপেন (ক্লিনিকাল) LLM নির্দেশনা বাক্যাংশের প্রতি সংবেদনশীল।
সারসংক্ষেপ: এই পেপার কঠোর পরীক্ষামূলক ডিজাইনের মাধ্যমে প্রকৃত ক্লিনিকাল কাজে জৈব চিকিৎসা প্রশিক্ষণের সীমাবদ্ধতা প্রকাশ করে, এই ক্ষেত্রের জন্য গুরুত্বপূর্ণ প্রতিফলন প্রদান করে। যদিও সিদ্ধান্তগুলি অপ্রত্যাশিত হতে পারে, তবে এর পদ্ধতিগত কঠোরতা এবং আবিষ্কারের গুরুত্ব এটিকে চিকিৎসা AI ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে। গবেষণা আমাদের বিশেষায়িত প্রশিক্ষণের প্রভাব মূল্যায়নে আরও সতর্ক হতে এবং চিকিৎসা প্রয়োগে সাধারণ মডেলের মূল্য স্বীকার করতে স্মরণ করিয়ে দেয়।