2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.

Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.

academic

क्या जैव चिकित्सा प्रशिक्षण बेहतर चिकित्सा प्रदर्शन की ओर ले जाता है?

मूल जानकारी

पेपर ID: 2404.04067
शीर्षक: Does Biomedical Training Lead to Better Medical Performance?
लेखक: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
वर्गीकरण: cs.CL cs.AI cs.LG
प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (अप्रैल 2024 में प्रस्तुत, अक्टूबर 2025 में अपडेट)
पेपर लिंक: https://arxiv.org/abs/2404.04067v5

सारांश

बड़े भाषा मॉडल (LLMs) स्वास्थ्यसेवा अनुप्रयोगों में विशाल संभावना रखते हैं, और जैव चिकित्सा क्षेत्र के अनुकूलित मॉडल चिकित्सा कार्यों पर बेहतर प्रदर्शन का वादा करते हैं। हालांकि, जैव चिकित्सा क्षेत्र अनुकूलन की नैदानिक कार्यों पर प्रभावशीलता अभी भी अनिश्चित है। इस अनुसंधान ने 12 जैव चिकित्सा अनुकूलित मॉडल और उनके सामान्य डोमेन आधार मॉडल की छह नैदानिक कार्यों पर सीधी तुलना की। परिणाम दिखाते हैं कि 12 जैव चिकित्सा मॉडल में से 11 प्रदर्शन में गिरावट दिखाते हैं, जो जैव चिकित्सा अनुकूलन के सकारात्मक प्रभाव की पहले की रिपोर्ट को चुनौती देता है। उल्लेखनीय रूप से, पहले के सकारात्मक परिणाम मुख्य रूप से बहुविकल्पीय मूल्यांकन पर निर्भर थे, जो वास्तविक दुनिया के नैदानिक अनुप्रयोगों में प्रदर्शन को प्रतिबिंबित नहीं कर सकते।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: क्या जैव चिकित्सा क्षेत्र का विशेष प्रशिक्षण वास्तव में बड़े भाषा मॉडल को वास्तविक नैदानिक कार्यों में बेहतर प्रदर्शन प्रदान कर सकता है?

महत्व

व्यावहारिक अनुप्रयोग की आवश्यकता: LLMs स्वास्थ्यसेवा में विशाल संभावना रखते हैं, रोगी देखभाल की गुणवत्ता और दक्षता में सुधार कर सकते हैं
संसाधन निवेश विचार: जैव चिकित्सा LLMs के विकास के लिए बड़ी कम्प्यूटेशनल संसाधन और विशेषज्ञ डेटा की आवश्यकता होती है
सुरक्षा विचार: चिकित्सा अनुप्रयोग मॉडल की सटीकता और विश्वसनीयता के लिए अत्यधिक मांग करते हैं

मौजूदा विधि की सीमाएं

मूल्यांकन विधि की सीमाएं: पिछले अनुसंधान मुख्य रूप से बहुविकल्पीय प्रश्न (MCQA) मूल्यांकन पर निर्भर थे, वास्तविक नैदानिक दस्तावेजों की परीक्षा की कमी
असंगत निष्कर्ष: हाल के अनुसंधान जैव चिकित्सा क्षेत्र अनुकूलन की प्रभावशीलता पर सवाल उठाना शुरू कर रहे हैं
व्यवस्थित तुलना की कमी: कई जैव चिकित्सा मॉडल और उनके आधार मॉडल की सीधी व्यवस्थित तुलना की कमी

अनुसंधान प्रेरणा

लेखक वास्तविक नैदानिक कार्यों पर व्यवस्थित मूल्यांकन के माध्यम से जैव चिकित्सा प्रशिक्षण के वास्तविक प्रभाव को उजागर करना चाहते हैं, इस क्षेत्र के विकास के लिए वस्तुनिष्ठ साक्ष्य प्रदान करते हैं।

मुख्य योगदान

व्यवस्थित मूल्यांकन ढांचा: CLUE (Clinical Language Understanding Evaluation) मूल्यांकन ढांचा बनाया गया, जिसमें 6 वास्तविक नैदानिक कार्य शामिल हैं
बड़े पैमाने पर मॉडल तुलना: 24 भाषा मॉडल का मूल्यांकन किया गया, जिसमें 12 जैव चिकित्सा मॉडल और उनके आधार मॉडल शामिल हैं
विघ्नकारी खोज: 11/12 जैव चिकित्सा मॉडल नैदानिक कार्यों पर प्रदर्शन में गिरावट दिखाते हैं, पारंपरिक विचारों को चुनौती देते हैं
ओपन सोर्स योगदान: पूर्ण मूल्यांकन पाइपलाइन को ओपन सोर्स किया गया, पुनरुत्पादनीय अनुसंधान को बढ़ावा देता है
गहन त्रुटि विश्लेषण: जैव चिकित्सा मॉडल की मुख्य समस्याओं की पहचान की गई: भ्रम, निर्देश पालन क्षमता में गिरावट आदि

विधि विवरण

कार्य परिभाषा

CLUE मूल्यांकन ढांचा 6 नैदानिक कार्य शामिल करता है, दो कठिनाई स्तरों में विभाजित:

स्तर 1 (सरल कार्य, छोटा इनपुट):

MedNLI: MIMIC-III नैदानिक नोट्स पर आधारित प्राकृतिक भाषा अनुमान
MeQSum: उपभोक्ता स्वास्थ्य प्रश्न सारांश
समस्या सारांश: SOAP संरचित नैदानिक नोट्स से रोगी समस्याओं का निष्कर्षण

स्तर 2 (जटिल कार्य, लंबा इनपुट):

LongHealth: लंबे दस्तावेज समझ और प्रश्नोत्तर
MeDiSumQA: डिस्चार्ज सारांश प्रश्नोत्तर और सरलीकरण
MeDiSumCode: ICD-10 कोडिंग भविष्यवाणी

मॉडल आर्किटेक्चर

मूल्यांकन किए गए जैव चिकित्सा मॉडल में शामिल हैं:

Meditron श्रृंखला (7B/70B): Llama-2 पर आधारित निरंतर प्रशिक्षण
BioMistral श्रृंखला: Mistral-7B पर प्रशिक्षित
OpenBioLLM श्रृंखला (8B/70B): Llama-3 पर SFT+DPO का उपयोग करके आधारित
Med42 श्रृंखला (8B/70B): Llama-3 पर प्रशिक्षित
अन्य मॉडल: Internist.ai, Aloe, Meditron3 आदि

तकनीकी नवाचार बिंदु

वास्तविक नैदानिक कार्य मूल्यांकन: पारंपरिक MCQA के विपरीत, वास्तविक नैदानिक दस्तावेज और कार्य का उपयोग
बहु-आयामी संकेतक: ROUGE, BERTScore, UMLS इकाई F1 आदि कई संकेतकों को जोड़ता है
व्यवस्थित तुलना: प्रत्येक जैव चिकित्सा मॉडल की सीधी तुलना इसके आधार मॉडल से की जाती है
त्रुटि पैटर्न विश्लेषण: भ्रम, दोहराव चक्र आदि विशिष्ट त्रुटि प्रकारों का गहन विश्लेषण

प्रयोगात्मक सेटअप

डेटासेट

MedNLI: 1,425 नमूने, MIMIC-III नैदानिक नोट्स पर आधारित
MeQSum: 1,000 उपभोक्ता स्वास्थ्य पूछताछ
समस्या सारांश: 237 SOAP संरचित नैदानिक नोट्स
LongHealth: 400 लंबे दस्तावेज प्रश्नोत्तर (औसत 5,537 शब्द)
MeDiSumQA: 453 डिस्चार्ज सारांश प्रश्नोत्तर
MeDiSumCode: 500 ICD-10 कोडिंग कार्य

मूल्यांकन संकेतक

पाठ निर्माण कार्य: ROUGE-1/2/L, BERTScore, UMLS इकाई F1
वर्गीकरण कार्य: सटीकता, F1 स्कोर
कोडिंग कार्य: सटीक मिलान, अनुमानित मिलान, वैध कोड प्रतिशत

तुलना विधि

12 जैव चिकित्सा मॉडल और उनके संबंधित आधार मॉडल
संदर्भ बेंचमार्क के रूप में अतिरिक्त सामान्य डोमेन मॉडल

कार्यान्वयन विवरण

कम्प्यूटेशनल संसाधन: NVIDIA DGX A100 640GB नोड, लगभग 1536 GPU घंटे
संकेत रणनीति: स्तर 1 के लिए 3-shot, स्तर 2 के लिए 1-shot (LongHealth को छोड़कर)
मॉडल कॉन्फ़िगरेशन: Hugging Face डिफ़ॉल्ट निर्देश टेम्पलेट का उपयोग

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल श्रेणी	स्तर 1 औसत प्रदर्शन परिवर्तन	स्तर 2 औसत प्रदर्शन परिवर्तन	कुल प्रवृत्ति
Meditron-7B	-7.08	-	गिरावट
Meditron-70B	-4.59	-	गिरावट
BioMistral-7B	+0.26	+0.71	हल्का सुधार
BioMistral-7B-DARE	+2.93	+2.70	सुधार
OpenBioLLM-8B	-15.17	-13.54	महत्वपूर्ण गिरावट
Med42-8B	+2.51	-1.40	मिश्रित

मुख्य निष्कर्ष:

केवल BioMistral-7B-DARE सभी कार्यों पर आधार मॉडल से बेहतर है
11/12 मॉडल कम से कम एक कार्य पर प्रदर्शन में गिरावट दिखाते हैं
4 मॉडल सभी कार्यों पर प्रदर्शन में गिरावट दिखाते हैं

विलोपन प्रयोग

कार्य जटिलता प्रभाव:

स्तर 1 कार्य: कुछ मॉडल में हल्का सुधार
स्तर 2 कार्य: अधिकांश मॉडल में महत्वपूर्ण गिरावट

मॉडल आकार प्रभाव:

8B पैरामीटर मॉडल: सुधार प्राप्त करने में अधिक आसान
70B पैरामीटर मॉडल: प्रशिक्षण के बाद प्रदर्शन में गिरावट के लिए अधिक प्रवण

केस विश्लेषण

त्रुटि पैटर्न उदाहरण:

भ्रम समस्या: LongHealth कार्य 3 में, Llama3-OpenBioLLM-8B आधार मॉडल के 56.25 अंकों से 1.55 अंकों तक गिर गया
दोहराव चक्र: जैव चिकित्सा मॉडल अक्सर टोकन दोहराव में फंस जाते हैं, असंगत आउटपुट उत्पन्न करते हैं
ICD-10 कोडिंग त्रुटि: मॉडल वैध कोड की भविष्यवाणी के बजाय संख्याओं को बढ़ाने की प्रवृत्ति रखते हैं

प्रयोगात्मक निष्कर्ष

MCQA मूल्यांकन के साथ अंतर: पारंपरिक बहुविकल्पीय मूल्यांकन सकारात्मक प्रभाव दिखाता है, लेकिन वास्तविक नैदानिक कार्य प्रदर्शन में गिरावट
आधार मॉडल गुणवत्ता का महत्व: अधिक नए सामान्य मॉडल (जैसे Llama-3) जैव चिकित्सा अनुकूलन से अधिक महत्वपूर्ण हैं
निर्देश पालन क्षमता में गिरावट: जैव चिकित्सा प्रशिक्षण मॉडल की निर्देश पालन क्षमता को नुकसान पहुंचाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

जैव चिकित्सा प्रशिक्षण हमेशा लाभकारी नहीं है: अधिकांश जैव चिकित्सा मॉडल वास्तविक नैदानिक कार्यों पर प्रदर्शन में गिरावट दिखाते हैं
सामान्य मॉडल की प्रतिस्पर्धात्मकता: Meta-Llama-3.1-70B जैसे सामान्य मॉडल सर्वश्रेष्ठ प्रदर्शन करते हैं
मूल्यांकन विधि का महत्व: MCQA मूल्यांकन भ्रामक हो सकता है, वास्तविक कार्य मूल्यांकन अधिक महत्वपूर्ण है
वजन विलय की संभावना: BioMistral-DARE की सफलता दर्शाती है कि वजन विलय एक आशाजनक दिशा है

सीमाएं

कम्प्यूटेशनल संसाधन सीमा: विभिन्न तापमान सेटिंग्स, विचार श्रृंखला संकेत आदि तकनीकों की खोज नहीं की गई
डेटा प्रदूषण जोखिम: सार्वजनिक डेटासेट का उपयोग डेटा प्रदूषण को पूरी तरह से रोक नहीं सकता
नैदानिक पर्यावरण अंतर: मूल्यांकन वास्तविक नैदानिक पर्यावरण में नहीं किया गया
सुरक्षा मूल्यांकन अपर्याप्त: वास्तविक नैदानिक पर्यावरण में सुरक्षा सत्यापन के लिए संभावी नैदानिक परीक्षण की आवश्यकता है

भविष्य की दिशा

प्रशिक्षण विधि में सुधार: बेहतर डोमेन अनुकूलन रणनीति की खोज
डेटा गुणवत्ता में सुधार: उच्च गुणवत्ता वाले प्रशिक्षण डेटा का उपयोग
वजन विलय तकनीक: वजन विलय विधियों का आगे अनुसंधान
नैदानिक परीक्षण सत्यापन: वास्तविक नैदानिक पर्यावरण में परीक्षण

गहन मूल्यांकन

शक्तियां

कठोर अनुसंधान डिजाइन: 12 जैव चिकित्सा मॉडल और आधार मॉडल की व्यवस्थित तुलना
व्यावहारिक कार्य डिजाइन: वास्तविक नैदानिक दस्तावेज और कार्य का उपयोग, वास्तविक अनुप्रयोग के करीब
विघ्नकारी खोज: क्षेत्र में मुख्यधारा के विचारों को चुनौती देता है
उच्च ओपन सोर्स योगदान मूल्य: पूर्ण मूल्यांकन ढांचा बाद के अनुसंधान को बढ़ावा देता है
गहन त्रुटि विश्लेषण: भ्रम, दोहराव आदि विशिष्ट समस्याओं का विस्तृत विश्लेषण

कमजोरियां

सीमित नमूना आकार: कुछ कार्यों के नमूनों की संख्या अपेक्षाकृत कम है (जैसे समस्या सारांश केवल 237)
मूल्यांकन सीमा: मुख्य रूप से अंग्रेजी और विशिष्ट प्रकार के नैदानिक कार्यों पर केंद्रित
सैद्धांतिक विश्लेषण की कमी: जैव चिकित्सा प्रशिक्षण प्रदर्शन में गिरावट क्यों लाता है इसके लिए गहन सैद्धांतिक व्याख्या की कमी
प्रशिक्षण विवरण अपर्याप्त: विभिन्न जैव चिकित्सा मॉडल की विशिष्ट प्रशिक्षण प्रक्रिया का सीमित विवरण

प्रभाव

शैक्षणिक मूल्य: जैव चिकित्सा LLM अनुसंधान के लिए महत्वपूर्ण प्रतिबिंब प्रदान करता है
व्यावहारिक मार्गदर्शन: चिकित्सा AI अनुप्रयोगों के लिए मॉडल चयन में अधिक तर्कसंगत निर्णय लेने में मदद करता है
पद्धति योगदान: CLUE मूल्यांकन ढांचा व्यापक रूप से अपनाया जा सकता है
संसाधन अनुकूलन: जैव चिकित्सा मॉडल विकास में अंधाधुंध निवेश से बचाता है

लागू परिदृश्य

मॉडल चयन निर्णय: चिकित्सा AI अनुप्रयोगों के लिए उपयुक्त आधार मॉडल चुनने में सहायता
अनुसंधान दिशा मार्गदर्शन: जैव चिकित्सा LLM अनुसंधान के लिए नई सोच प्रदान करता है
मूल्यांकन मानदंड निर्धारण: चिकित्सा AI मूल्यांकन के लिए अधिक कठोर मानदंड स्थापित करता है
निवेश निर्णय संदर्भ: संबंधित निवेश और संसाधन आवंटन के लिए साक्ष्य प्रदान करता है

संदर्भ

Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

सारांश: यह पेपर कठोर प्रयोगात्मक डिजाइन के माध्यम से वास्तविक नैदानिक कार्यों में जैव चिकित्सा प्रशिक्षण की सीमाओं को उजागर करता है, इस क्षेत्र के लिए महत्वपूर्ण प्रतिबिंब प्रदान करता है। हालांकि निष्कर्ष आश्चर्यजनक हो सकते हैं, लेकिन इसकी पद्धति की कठोरता और खोजों का महत्व इसे चिकित्सा AI क्षेत्र का महत्वपूर्ण योगदान बनाता है। अनुसंधान हमें विशेष प्रशिक्षण के प्रभाव का अधिक सावधानीपूर्वक मूल्यांकन करने की आवश्यकता की याद दिलाता है, और चिकित्सा अनुप्रयोगों में सामान्य मॉडल के मूल्य को महत्व देता है।