2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.
Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
academic

জৈব চিকিৎসা প্রশিক্ষণ কি আরও ভাল চিকিৎসা কর্মক্ষমতার দিকে পরিচালিত করে?

মৌলিক তথ্য

  • পেপার আইডি: 2404.04067
  • শিরোনাম: জৈব চিকিৎসা প্রশিক্ষণ কি আরও ভাল চিকিৎসা কর্মক্ষমতার দিকে পরিচালিত করে?
  • লেখক: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
  • শ্রেণীবিভাগ: cs.CL cs.AI cs.LG
  • প্রকাশনার সময়/সম্মেলন: arXiv প্রিপ্রিন্ট (এপ্রিল ২০২৪ জমা, অক্টোবর ২০২৫ আপডেট)
  • পেপার লিংক: https://arxiv.org/abs/2404.04067v5

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) স্বাস্থ্যসেবা প্রয়োগে বিশাল সম্ভাবনা রাখে এবং জৈব চিকিৎসা ক্ষেত্রে অভিযোজিত মডেলগুলি চিকিৎসা কাজে উন্নত কর্মক্ষমতা প্রদানের প্রতিশ্রুতি দেয়। তবে, জৈব চিকিৎসা ক্ষেত্র অভিযোজনের ক্লিনিকাল কাজে কার্যকারিতা এখনও অনিশ্চিত। এই গবেষণা ১২টি জৈব চিকিৎসা অভিযোজিত মডেল এবং তাদের সাধারণ ক্ষেত্রের ভিত্তি মডেলগুলির ছয়টি ক্লিনিকাল কাজে সরাসরি তুলনা করেছে। ফলাফলগুলি দেখায় যে ১২টি জৈব চিকিৎসা মডেলের ১১টি কর্মক্ষমতা হ্রাস প্রদর্শন করেছে, যা জৈব চিকিৎসা অভিযোজনের ইতিবাচক প্রভাব সম্পর্কে পূর্ববর্তী রিপোর্টকৃত ফলাফলকে চ্যালেঞ্জ করে। উল্লেখযোগ্যভাবে, পূর্ববর্তী ইতিবাচক ফলাফলগুলি প্রধানত বহুনির্বাচনী মূল্যায়নের উপর নির্ভর করে, যা বাস্তব-বিশ্ব ক্লিনিকাল প্রয়োগে কর্মক্ষমতা প্রতিফলিত করতে পারে না।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: জৈব চিকিৎসা ক্ষেত্রে বিশেষায়িত প্রশিক্ষণ সত্যিই বৃহৎ ভাষা মডেলগুলির প্রকৃত ক্লিনিকাল কাজে কর্মক্ষমতা উন্নত করতে পারে কিনা?

গুরুত্ব

১. ব্যবহারিক প্রয়োগের চাহিদা: স্বাস্থ্যসেবায় LLM বিশাল সম্ভাবনা রাখে, যা রোগীর যত্নের গুণমান এবং দক্ষতা উন্নত করতে পারে २. সম্পদ বিনিয়োগ বিবেচনা: জৈব চিকিৎসা LLM উন্নয়নের জন্য বিশাল কম্পিউটেশনাল সম্পদ এবং বিশেষায়িত ডেটা প্রয়োজন ३. নিরাপত্তা বিবেচনা: চিকিৎসা প্রয়োগ মডেল নির্ভুলতা এবং নির্ভরযোগ্যতার জন্য অত্যন্ত দাবিদার

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. মূল্যায়ন পদ্ধতির সীমাবদ্ধতা: পূর্ববর্তী গবেষণা প্রধানত বহুনির্বাচনী প্রশ্ন (MCQA) মূল্যায়নের উপর নির্ভর করে, প্রকৃত ক্লিনিকাল নথির পরীক্ষার অভাব २. অসামঞ্জস্যপূর্ণ সিদ্ধান্ত: সাম্প্রতিক গবেষণা জৈব চিকিৎসা ক্ষেত্র অভিযোজনের কার্যকারিতা প্রশ্ন করতে শুরু করেছে ३. সিস্টেমেটিক তুলনার অভাব: একাধিক জৈব চিকিৎসা মডেল এবং তাদের ভিত্তি মডেলের মধ্যে সরাসরি সিস্টেমেটিক তুলনার অভাব

গবেষণা প্রেরণা

লেখকরা প্রকৃত ক্লিনিকাল কাজে সিস্টেমেটিক মূল্যায়নের মাধ্যমে জৈব চিকিৎসা প্রশিক্ষণের প্রকৃত প্রভাব প্রকাশ করতে এবং এই ক্ষেত্রের উন্নয়নের জন্য উদ্দেশ্যমূলক প্রমাণ প্রদান করতে চান।

মূল অবদান

१. সিস্টেমেটিক মূল্যায়ন কাঠামো: CLUE (ক্লিনিকাল ভাষা বোঝার মূল্যায়ন) মূল্যায়ন কাঠামো তৈরি করা হয়েছে, যাতে ৬টি প্রকৃত ক্লিনিকাল কাজ রয়েছে २. বৃহৎ-স্কেল মডেল তুলনা: ২৪টি ভাষা মডেল মূল্যায়ন করা হয়েছে, যার মধ্যে ১२টি জৈব চিকিৎসা মডেল এবং তাদের ভিত্তি মডেল রয়েছে ३. বিপ্লবী আবিষ্কার: ১१/१२ জৈব চিকিৎসা মডেল ক্লিনিকাল কাজে কর্মক্ষমতা হ্রাস দেখিয়েছে, যা ঐতিহ্যবাহী জ্ঞানকে চ্যালেঞ্জ করে ४. ওপেন সোর্স অবদান: সম্পূর্ণ মূল্যায়ন পাইপলাইন ওপেন সোর্স করা হয়েছে, পুনরুৎপাদনযোগ্য গবেষণা প্রচার করে ५. গভীর ত্রুটি বিশ্লেষণ: জৈব চিকিৎসা মডেলের প্রধান সমস্যা চিহ্নিত করা হয়েছে: হ্যালুসিনেশন, নির্দেশনা অনুসরণ ক্ষমতা হ্রাস ইত্যাদি

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

CLUE মূল্যায়ন কাঠামোতে ৬টি ক্লিনিকাল কাজ রয়েছে, দুটি কঠিনতা স্তরে বিভক্ত:

স্তর १ (সহজ কাজ, সংক্ষিপ্ত ইনপুট):

  • MedNLI: MIMIC-III ক্লিনিকাল নোটের উপর ভিত্তি করে প্রাকৃতিক ভাষা অনুমান
  • MeQSum: ভোক্তা স্বাস্থ্য প্রশ্নের সারসংক্ষেপ
  • সমস্যা সারসংক্ষেপ: SOAP কাঠামো ক্লিনিকাল নোট থেকে রোগীর সমস্যা নিষ্কাশন

স্তর २ (জটিল কাজ, দীর্ঘ ইনপুট):

  • LongHealth: দীর্ঘ নথি বোঝা এবং প্রশ্নোত্তর
  • MeDiSumQA: ছাড়পত্র সারসংক্ষেপ প্রশ্নোত্তর এবং সরলীকরণ
  • MeDiSumCode: ICD-10 কোডিং পূর্বাভাস

মডেল আর্কিটেকচার

মূল্যায়িত জৈব চিকিৎসা মডেলগুলির মধ্যে রয়েছে:

  • Meditron সিরিজ (७B/७०B): Llama-२ ক্রমাগত প্রশিক্ষণের উপর ভিত্তি করে
  • BioMistral সিরিজ: Mistral-७B প্রশিক্ষণের উপর ভিত্তি করে
  • OpenBioLLM সিরিজ (८B/७०B): SFT+DPO ব্যবহার করে Llama-३ এর উপর ভিত্তি করে
  • Med४२ সিরিজ (८B/७०B): Llama-३ প্রশিক্ষণের উপর ভিত্তি করে
  • অন্যান্য মডেল: Internist.ai, Aloe, Meditron३ ইত্যাদি

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. প্রকৃত ক্লিনিকাল কাজ মূল্যায়ন: ঐতিহ্যবাহী MCQA এর বিপরীতে, প্রকৃত ক্লিনিকাল নথি এবং কাজ ব্যবহার করা হয় २. বহু-মাত্রিক সূচক: ROUGE, BERTScore, UMLS সত্তা F१ এবং অন্যান্য একাধিক সূচক একত্রিত করা হয় ३. সিস্টেমেটিক তুলনা: প্রতিটি জৈব চিকিৎসা মডেল তার ভিত্তি মডেলের সাথে সরাসরি তুলনা করা হয় ४. ত্রুটি প্যাটার্ন বিশ্লেষণ: হ্যালুসিনেশন, পুনরাবৃত্তি লুপ ইত্যাদি নির্দিষ্ট ত্রুটি প্রকার গভীরভাবে বিশ্লেষণ করা হয়

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • MedNLI: १,४२५ নমুনা, MIMIC-III ক্লিনিকাল নোটের উপর ভিত্তি করে
  • MeQSum: १,००० ভোক্তা স্বাস্থ্য অনুসন্ধান
  • সমস্যা সারসংক্ষেপ: २३७ SOAP কাঠামো ক্লিনিকাল নোট
  • LongHealth: ४०० দীর্ঘ নথি প্রশ্নোত্তর (গড় ५,५३७ শব্দ)
  • MeDiSumQA: ४५३ ছাড়পত্র সারসংক্ষেপ প্রশ্নোত্তর
  • MeDiSumCode: ५०० ICD-१० কোডিং কাজ

মূল্যায়ন সূচক

  • পাঠ্য উৎপাদন কাজ: ROUGE-१/२/L, BERTScore, UMLS সত্তা F१
  • শ্রেণীবিভাগ কাজ: নির্ভুলতা, F१ স্কোর
  • কোডিং কাজ: সঠিক মিল, আনুমানিক মিল, বৈধ কোড অনুপাত

তুলনা পদ্ধতি

  • १२টি জৈব চিকিৎসা মডেল এবং তাদের সংশ্লিষ্ট ভিত্তি মডেল
  • অতিরিক্ত সাধারণ ক্ষেত্র মডেল রেফারেন্স বেঞ্চমার্ক হিসাবে

বাস্তবায়ন বিবরণ

  • কম্পিউটেশনাল সম্পদ: NVIDIA DGX A१०० ६४०GB নোড, প্রায় १५३६ GPU ঘন্টা
  • প্রম্পট কৌশল: স্তর १ ३-shot ব্যবহার করে, স্তর २ १-shot ব্যবহার করে (LongHealth ছাড়া)
  • মডেল কনফিগারেশন: Hugging Face ডিফল্ট নির্দেশনা টেমপ্লেট ব্যবহার করা হয়

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেল বিভাগস্তর १ গড় কর্মক্ষমতা পরিবর্তনস্তর २ গড় কর্মক্ষমতা পরিবর্তনসামগ্রিক প্রবণতা
Meditron-७B-७.०८-হ্রাস
Meditron-७०B-४.५९-হ্রাস
BioMistral-७B+०.२६+०.७१সামান্য বৃদ্ধি
BioMistral-७B-DARE+२.९३+२.७०বৃদ্ধি
OpenBioLLM-८B-१५.१७-१३.५४উল্লেখযোগ্য হ্রাস
Med४२-८B+२.५१-१.४०মিশ্র

মূল আবিষ্কার: १. শুধুমাত্র BioMistral-७B-DARE সমস্ত কাজে ভিত্তি মডেলের চেয়ে উন্নত २. ११/१२ মডেল কমপক্ষে একটি কাজে কর্মক্ষমতা হ্রাস দেখিয়েছে ३. ४টি মডেল সমস্ত কাজে কর্মক্ষমতা হ্রাস দেখিয়েছে

বিলোপন পরীক্ষা

কাজের জটিলতার প্রভাব:

  • স্তর १ কাজ: কিছু মডেল সামান্য বৃদ্ধি দেখিয়েছে
  • স্তর २ কাজ: বেশিরভাগ মডেল উল্লেখযোগ্য হ্রাস দেখিয়েছে

মডেল আকারের প্রভাব:

  • ८B প্যারামিটার মডেল: উন্নতি পাওয়া সহজ
  • ७०B প্যারামিটার মডেল: প্রশিক্ষণের পরে কর্মক্ষমতা হ্রাস পাওয়া সহজ

কেস বিশ্লেষণ

ত্রুটি প্যাটার্ন উদাহরণ: १. হ্যালুসিনেশন সমস্যা: LongHealth কাজ ३ এ, Llama३-OpenBioLLM-८B ভিত্তি মডেলের ५६.२५ স্কোর থেকে १.५५ এ হ্রাস পেয়েছে २. পুনরাবৃত্তি লুপ: জৈব চিকিৎসা মডেল প্রায়ই টোকেন পুনরাবৃত্তিতে আটকে যায়, অসংযুক্ত আউটপুট তৈরি করে ३. ICD-१० কোডিং ত্রুটি: মডেল বৈধ কোড পূর্বাভাসের পরিবর্তে ক্রমবর্ধমান সংখ্যা প্রবণতা দেখায়

পরীক্ষামূলক আবিষ্কার

१. MCQA মূল্যায়নের সাথে পার্থক্য: ঐতিহ্যবাহী বহুনির্বাচনী মূল্যায়ন ইতিবাচক প্রভাব দেখায়, কিন্তু প্রকৃত ক্লিনিকাল কাজ কর্মক্ষমতা হ্রাস পায় २. ভিত্তি মডেল গুণমানের গুরুত্ব: আরও নতুন সাধারণ মডেল (যেমন Llama-३) জৈব চিকিৎসা অভিযোজনের চেয়ে বেশি গুরুত্বপূর্ণ ३. নির্দেশনা অনুসরণ ক্ষমতা হ্রাস: জৈব চিকিৎসা প্রশিক্ষণ মডেলের নির্দেশনা অনুসরণ ক্ষমতা ক্ষতিগ্রস্ত করে

সম্পর্কিত কাজ

জৈব চিকিৎসা LLM উন্নয়ন

  • বাণিজ্যিক মডেল: Med-PaLM, MedGemini
  • ওপেন সোর্স মডেল: Meditron, Biomistral, Internist.ai, Med४२

প্রশ্নকারী কণ্ঠস্বর

সাম্প্রতিক গবেষণা জৈব চিকিৎসা অভিযোজনের কার্যকারিতা প্রশ্ন করতে শুরু করেছে:

  • Jeong et al. (२०२४): জৈব চিকিৎসা LLM কোন স্পষ্ট সুবিধা খুঁজে পায়নি
  • Ceballos-Arroyo et al. (२०२४): ক্ষেত্র অভিযোজন নির্দেশনা অনুসরণ ক্ষতিগ্রস্ত করতে পারে

এই পেপারের অবস্থান

এই পেপার সিস্টেমেটিক প্রকৃত ক্লিনিকাল কাজ মূল্যায়নের মাধ্যমে এই বিতর্কের জন্য অভিজ্ঞতামূলক প্রমাণ প্রদান করে।

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

१. জৈব চিকিৎসা প্রশিক্ষণ সর্বদা উপকারী নয়: বেশিরভাগ জৈব চিকিৎসা মডেল প্রকৃত ক্লিনিকাল কাজে কর্মক্ষমতা হ্রাস দেখায় २. সাধারণ মডেলের প্রতিযোগিতামূলকতা: Meta-Llama-३.१-७०B এর মতো সাধারণ মডেল সর্বোত্তম কর্মক্ষমতা দেখায় ३. মূল্যায়ন পদ্ধতির গুরুত্ব: MCQA মূল্যায়ন বিভ্রান্তিকর হতে পারে, প্রকৃত কাজ মূল্যায়ন আরও গুরুত্বপূর্ণ ४. ওজন মার্জের সম্ভাবনা: BioMistral-DARE এর সাফল্য ওজন মার্জ একটি প্রতিশ্রুতিশীল দিক তা নির্দেশ করে

সীমাবদ্ধতা

१. কম্পিউটেশনাল সম্পদ সীমাবদ্ধতা: বিভিন্ন তাপমাত্রা সেটিংস, চিন্তার শৃঙ্খল প্রম্পট ইত্যাদি কৌশল অন্বেষণ করা হয়নি २. ডেটা দূষণ ঝুঁকি: জনসাধারণের ডেটাসেট ব্যবহার করে সম্পূর্ণভাবে ডেটা দূষণ এড়ানো যায় না ३. ক্লিনিকাল পরিবেশের পার্থক্য: মূল্যায়ন প্রকৃত ক্লিনিকাল পরিবেশে পরিচালিত হয়নি ४. নিরাপত্তা মূল্যায়ন অপর্যাপ্ত: নিরাপত্তা যাচাই করতে সম্ভাব্য ক্লিনিকাল ট্রায়াল প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. উন্নত প্রশিক্ষণ পদ্ধতি: আরও ভাল ক্ষেত্র অভিযোজন কৌশল অন্বেষণ করা २. ডেটা গুণমান উন্নতি: উচ্চ-মানের প্রশিক্ষণ ডেটা ব্যবহার করা ३. ওজন মার্জ প্রযুক্তি: ওজন মার্জ পদ্ধতি আরও গবেষণা করা ४. ক্লিনিকাল ট্রায়াল যাচাইকরণ: প্রকৃত ক্লিনিকাল পরিবেশে পরীক্ষা করা

গভীর মূল্যায়ন

শক্তি

१. গবেষণা ডিজাইন কঠোর: १२টি জৈব চিকিৎসা মডেল এবং ভিত্তি মডেলের সিস্টেমেটিক তুলনা २. কাজ ডিজাইন ব্যবহারিক: প্রকৃত ক্লিনিকাল নথি এবং কাজ ব্যবহার করা, প্রকৃত প্রয়োগের কাছাকাছি ३. আবিষ্কার বিপ্লবী: ক্ষেত্রে মূলধারার দৃষ্টিভঙ্গি চ্যালেঞ্জ করা ४. ওপেন সোর্স অবদান উচ্চ মূল্য: সম্পূর্ণ মূল্যায়ন কাঠামো পরবর্তী গবেষণা প্রচার করে ५. ত্রুটি বিশ্লেষণ গভীর: হ্যালুসিনেশন, পুনরাবৃত্তি ইত্যাদি নির্দিষ্ট সমস্যা বিস্তারিত বিশ্লেষণ

অপূর্ণতা

१. নমুনা আকার সীমিত: কিছু কাজের নমুনা সংখ্যা তুলনামূলকভাবে ছোট (যেমন সমস্যা সারসংক্ষেপ মাত্র २३७) २. মূল্যায়ন পরিসীমা সীমিত: প্রধানত ইংরেজি এবং নির্দিষ্ট ধরনের ক্লিনিকাল কাজে ফোকাস করা ३. তাত্ত্বিক বিশ্লেষণের অভাব: জৈব চিকিৎসা প্রশিক্ষণ কেন কর্মক্ষমতা হ্রাস করে তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব ४. প্রশিক্ষণ বিবরণ অপর্যাপ্ত: বিভিন্ন জৈব চিকিৎসা মডেলের নির্দিষ্ট প্রশিক্ষণ প্রক্রিয়া বর্ণনা সীমিত

প্রভাব

१. একাডেমিক মূল্য: জৈব চিকিৎসা LLM গবেষণার জন্য গুরুত্বপূর্ণ প্রতিফলন প্রদান করে २. ব্যবহারিক নির্দেশনা: অনুশীলনকারীদের মডেল নির্বাচনে আরও যুক্তিসঙ্গত সিদ্ধান্ত নিতে সাহায্য করে ३. পদ্ধতিগত অবদান: CLUE মূল্যায়ন কাঠামো ব্যাপকভাবে গ্রহণ করা যেতে পারে ४. সম্পদ অপ্টিমাইজেশন: জৈব চিকিৎসা মডেল উন্নয়নে অন্ধ বিনিয়োগ এড়ায়

প্রযোজ্য পরিস্থিতি

१. মডেল নির্বাচন সিদ্ধান্ত: চিকিৎসা AI প্রয়োগের জন্য উপযুক্ত ভিত্তি মডেল নির্বাচন করা २. গবেষণা দিকনির্দেশনা: জৈব চিকিৎসা LLM গবেষণার জন্য নতুন চিন্তাভাবনা প্রদান করা ३. মূল্যায়ন মান নির্ধারণ: চিকিৎসা AI মূল্যায়নের জন্য আরও কঠোর মান প্রতিষ্ঠা করা ४. বিনিয়োগ সিদ্ধান্ত রেফারেন্স: সম্পর্কিত বিনিয়োগ এবং সম্পদ বরাদ্দের জন্য ভিত্তি প্রদান করা

সংদর্ভ

१. Chen, Z. et al. (२०२३). MEDITRON-७०B: বৃহৎ ভাষা মডেলের জন্য চিকিৎসা প্রশিক্ষণ স্কেলিং। २. Labrak, Y. et al. (२०२४). BioMistral: চিকিৎসা ক্ষেত্রের জন্য ওপেন-সোর্স প্রশিক্ষিত বৃহৎ ভাষা মডেলের সংগ্রহ। ३. Jeong, D. P. et al. (२०२४). বৃহৎ ভাষা এবং দৃষ্টি-ভাষা মডেলের চিকিৎসা অভিযোজন: আমরা অগ্রগতি করছি কিনা? ४. Ceballos-Arroyo, A. M. et al. (२०२४). ওপেন (ক্লিনিকাল) LLM নির্দেশনা বাক্যাংশের প্রতি সংবেদনশীল।


সারসংক্ষেপ: এই পেপার কঠোর পরীক্ষামূলক ডিজাইনের মাধ্যমে প্রকৃত ক্লিনিকাল কাজে জৈব চিকিৎসা প্রশিক্ষণের সীমাবদ্ধতা প্রকাশ করে, এই ক্ষেত্রের জন্য গুরুত্বপূর্ণ প্রতিফলন প্রদান করে। যদিও সিদ্ধান্তগুলি অপ্রত্যাশিত হতে পারে, তবে এর পদ্ধতিগত কঠোরতা এবং আবিষ্কারের গুরুত্ব এটিকে চিকিৎসা AI ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে। গবেষণা আমাদের বিশেষায়িত প্রশিক্ষণের প্রভাব মূল্যায়নে আরও সতর্ক হতে এবং চিকিৎসা প্রয়োগে সাধারণ মডেলের মূল্য স্বীকার করতে স্মরণ করিয়ে দেয়।