Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.
- معرّف الورقة: 2404.04067
- العنوان: Does Biomedical Training Lead to Better Medical Performance?
- المؤلفون: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
- التصنيف: cs.CL cs.AI cs.LG
- وقت النشر/المؤتمر: arXiv preprint (تم التقديم في أبريل 2024، تم التحديث في أكتوبر 2025)
- رابط الورقة: https://arxiv.org/abs/2404.04067v5
تتمتع نماذج اللغة الكبيرة (LLMs) بإمكانيات هائلة في تطبيقات الرعاية الصحية، حيث تعد النماذج المكيفة للمجال البيوطبي بتقديم أداء أفضل في المهام الطبية. ومع ذلك، فإن فعالية التكيف البيوطبي للمهام السريرية لا تزال غير مؤكدة. تجري هذه الدراسة مقارنة مباشرة بين 12 نموذجاً مكيفاً بيوطبياً ونماذج أساسية من المجال العام على ستة مهام سريرية. تُظهر النتائج أن 11 من أصل 12 نموذجاً بيوطبياً أظهرت انخفاضاً في الأداء، مما يطعن في النتائج السابقة التي أبلغت عن تأثيرات إيجابية للتكيف البيوطبي. والجدير بالملاحظة أن النتائج الإيجابية السابقة اعتمدت بشكل أساسي على التقييمات متعددة الخيارات، والتي قد لا تعكس الأداء في التطبيقات السريرية الحقيقية.
المشكلة الأساسية التي تسعى الدراسة إلى حلها هي: هل التدريب المتخصص في المجال البيوطبي يحسّن فعلاً أداء نماذج اللغة الكبيرة في مهام سريرية حقيقية؟
- احتياجات التطبيق العملي: تتمتع نماذج اللغة الكبيرة بإمكانيات هائلة في الرعاية الصحية، يمكنها تحسين جودة وكفاءة رعاية المرضى
- اعتبارات الموارد: يتطلب تطوير نماذج اللغة الكبيرة البيوطبية موارد حسابية ضخمة وبيانات متخصصة
- اعتبارات السلامة: تتطلب التطبيقات الطبية دقة وموثوقية عالية جداً من النموذج
- حدود طرق التقييم: اعتمدت الدراسات السابقة بشكل أساسي على تقييمات الاختيار من متعدد (MCQA)، وتفتقر إلى الاختبار على المستندات السريرية الحقيقية
- عدم اتساق الاستنتاجات: بدأت الدراسات الحديثة بالتشكيك في فعالية التكيف البيوطبي
- نقص المقارنة المنهجية: غياب المقارنة المنهجية المباشرة بين نماذج بيوطبية متعددة ونماذجها الأساسية
يسعى المؤلفون من خلال التقييم المنهجي على مهام سريرية حقيقية إلى الكشف عن التأثير الحقيقي للتدريب البيوطبي، وتوفير أدلة موضوعية لتطور هذا المجال.
- إطار عمل التقييم المنهجي: بناء إطار عمل CLUE (Clinical Language Understanding Evaluation) يتضمن 6 مهام سريرية فعلية
- مقارنة نماذج واسعة النطاق: تقييم 24 نموذج لغة، بما في ذلك 12 نموذجاً بيوطبياً ونماذجها الأساسية
- اكتشافات ثورية: اكتشاف أن 11/12 من النماذج البيوطبية تظهر انخفاضاً في الأداء على المهام السريرية، مما يطعن في المعرفة التقليدية
- مساهمات مفتوحة المصدر: نشر خط أنابيب التقييم الكامل لتعزيز البحث القابل للتكرار
- تحليل أخطاء متعمق: تحديد المشاكل الرئيسية في النماذج البيوطبية: الهلوسة، انخفاض القدرة على اتباع التعليمات، وغيرها
يتضمن إطار عمل CLUE التقييمي 6 مهام سريرية، مقسمة إلى مستويي صعوبة:
المستوى 1 (المهام البسيطة، المدخلات القصيرة):
- MedNLI: الاستدلال باللغة الطبيعية بناءً على ملاحظات MIMIC-III السريرية
- MeQSum: تلخيص أسئلة الصحة الاستهلاكية
- Problem Summary: استخراج مشاكل المريض من ملاحظات SOAP السريرية المنظمة
المستوى 2 (المهام المعقدة، المدخلات الطويلة):
- LongHealth: فهم المستندات الطويلة والإجابة على الأسئلة
- MeDiSumQA: الإجابة على الأسئلة وتبسيط ملخصات الخروج
- MeDiSumCode: التنبؤ برموز ICD-10
تتضمن النماذج البيوطبية المقيّمة:
- سلسلة Meditron (7B/70B): التدريب المستمر بناءً على Llama-2
- سلسلة BioMistral: التدريب بناءً على Mistral-7B
- سلسلة OpenBioLLM (8B/70B): التدريب بناءً على Llama-3 باستخدام SFT+DPO
- سلسلة Med42 (8B/70B): التدريب بناءً على Llama-3
- نماذج أخرى: Internist.ai, Aloe, Meditron3، وغيرها
- تقييم المهام السريرية الحقيقية: بخلاف MCQA التقليدي، استخدام المستندات والمهام السريرية الحقيقية
- مؤشرات متعددة الأبعاد: دمج ROUGE و BERTScore و UMLS entity F1 وغيرها
- مقارنة منهجية: مقارنة مباشرة لكل نموذج بيوطبي مع نموذجه الأساسي
- تحليل أنماط الأخطاء: تحليل متعمق للهلوسة والحلقات المتكررة وأنواع الأخطاء المحددة الأخرى
- MedNLI: 1,425 عينة، بناءً على ملاحظات MIMIC-III السريرية
- MeQSum: 1,000 استفسار صحي استهلاكي
- Problem Summary: 237 ملاحظة SOAP سريرية منظمة
- LongHealth: 400 سؤال وجواب على مستندات طويلة (متوسط 5,537 كلمة)
- MeDiSumQA: 453 سؤال وجواب على ملخصات الخروج
- MeDiSumCode: 500 مهمة ترميز ICD-10
- مهام توليد النصوص: ROUGE-1/2/L و BERTScore و UMLS entity F1
- مهام التصنيف: الدقة و F1 score
- مهام الترميز: المطابقة الدقيقة والمطابقة التقريبية ونسبة الرموز الصحيحة
- 12 نموذجاً بيوطبياً مع نماذجها الأساسية المقابلة
- نماذج إضافية من المجال العام كمعايير مرجعية
- الموارد الحسابية: عقدة NVIDIA DGX A100 بسعة 640GB، حوالي 1536 ساعة GPU
- استراتيجية الإشارة: استخدام 3-shot للمستوى 1 و 1-shot للمستوى 2 (باستثناء LongHealth)
- إعدادات النموذج: استخدام قوالب التعليمات الافتراضية لـ Hugging Face
| فئة النموذج | متوسط تغيير الأداء المستوى 1 | متوسط تغيير الأداء المستوى 2 | الاتجاه العام |
|---|
| Meditron-7B | -7.08 | - | انخفاض |
| Meditron-70B | -4.59 | - | انخفاض |
| BioMistral-7B | +0.26 | +0.71 | تحسن طفيف |
| BioMistral-7B-DARE | +2.93 | +2.70 | تحسن |
| OpenBioLLM-8B | -15.17 | -13.54 | انخفاض ملحوظ |
| Med42-8B | +2.51 | -1.40 | مختلط |
الاكتشافات الرئيسية:
- فقط BioMistral-7B-DARE يتفوق على النموذج الأساسي في جميع المهام
- 11/12 نموذجاً يظهر انخفاضاً في الأداء على الأقل في مهمة واحدة
- 4 نماذج تظهر انخفاضاً في الأداء على جميع المهام
تأثير تعقيد المهمة:
- مهام المستوى 1: بعض النماذج تظهر تحسناً طفيفاً
- مهام المستوى 2: معظم النماذج تظهر انخفاضاً ملحوظاً
تأثير حجم النموذج:
- نماذج 8B: أكثر عرضة للحصول على تحسينات
- نماذج 70B: أكثر عرضة لانخفاض الأداء بعد التدريب
أمثلة على أنماط الأخطاء:
- مشكلة الهلوسة: في المهمة 3 من LongHealth، انخفض Llama3-OpenBioLLM-8B من 56.25 نقطة في النموذج الأساسي إلى 1.55 نقطة
- الحلقات المتكررة: تقع النماذج البيوطبية بشكل متكرر في تكرار الرموز، مما ينتج عنه مخرجات غير متماسكة
- أخطاء ترميز ICD-10: تميل النماذج إلى زيادة الأرقام بدلاً من التنبؤ برموز صحيحة
- الاختلاف عن تقييم MCQA: تقييم الاختيار من متعدد التقليدي يظهر تأثيرات إيجابية، لكن المهام السريرية الفعلية تظهر انخفاضاً في الأداء
- أهمية جودة النموذج الأساسي: النماذج العامة الأحدث (مثل Llama-3) أكثر أهمية من التكيف البيوطبي
- انخفاض القدرة على اتباع التعليمات: يضر التدريب البيوطبي بقدرة النموذج على اتباع التعليمات
- النماذج التجارية: Med-PaLM و MedGemini
- النماذج مفتوحة المصدر: Meditron و Biomistral و Internist.ai و Med42
بدأت الدراسات الحديثة بالتشكيك في فعالية التكيف البيوطبي:
- Jeong et al. (2024): اكتشاف عدم وجود ميزة واضحة لنماذج اللغة البيوطبية
- Ceballos-Arroyo et al. (2024): قد يضر التكيف المجالي بقدرة اتباع التعليمات
توفر هذه الورقة أدلة تجريبية لهذا النقاش من خلال تقييم منهجي لمهام سريرية حقيقية.
- التدريب البيوطبي ليس دائماً مفيداً: معظم النماذج البيوطبية تظهر انخفاضاً في الأداء على المهام السريرية الفعلية
- القدرة التنافسية للنماذج العامة: تظهر نماذج مثل Meta-Llama-3.1-70B أفضل أداء
- أهمية طرق التقييم: قد يضلل تقييم MCQA، والتقييم على المهام الحقيقية أكثر أهمية
- إمكانية دمج الأوزان: يشير نجاح BioMistral-DARE إلى أن دمج الأوزان اتجاه واعد
- حدود الموارد الحسابية: لم يتم استكشاف إعدادات درجة حرارة مختلفة وتقنيات سلسلة الفكر
- خطر تلوث البيانات: استخدام مجموعات بيانات عامة لا يمكن تجنب تلوث البيانات تماماً
- الاختلافات في البيئة السريرية: لم يتم إجراء التقييم في بيئة سريرية حقيقية
- عدم كفاية تقييم السلامة: يتطلب التحقق من السلامة تجارب سريرية استشرافية
- تحسين طرق التدريب: استكشاف استراتيجيات تكيف مجالي أفضل
- تحسين جودة البيانات: استخدام بيانات تدريب عالية الجودة
- تقنيات دمج الأوزان: البحث الإضافي في طرق دمج الأوزان
- التحقق من التجارب السريرية: اختبار في بيئات سريرية حقيقية
- تصميم البحث صارم: مقارنة منهجية بين 12 نموذجاً بيوطبياً ونماذجها الأساسية
- تصميم المهام عملي: استخدام المستندات والمهام السريرية الحقيقية، أقرب إلى التطبيقات الفعلية
- الاكتشافات ثورية: تطعن في وجهات النظر السائدة في المجال
- قيمة المساهمات مفتوحة المصدر: إطار عمل التقييم الكامل يعزز الأبحاث اللاحقة
- تحليل الأخطاء متعمق: تحليل تفصيلي للهلوسة والتكرار والمشاكل المحددة الأخرى
- حجم العينة محدود: عدد العينات في بعض المهام نسبياً صغير (مثل Problem Summary بـ 237 عينة فقط)
- نطاق التقييم محدود: يركز بشكل أساسي على اللغة الإنجليزية وأنواع معينة من المهام السريرية
- نقص التحليل النظري: افتقار إلى شرح نظري متعمق لسبب انخفاض الأداء بسبب التدريب البيوطبي
- تفاصيل التدريب غير كافية: وصف محدود لعملية التدريب المحددة لكل نموذج بيوطبي
- القيمة الأكاديمية: توفير انعكاس مهم لبحث نماذج اللغة البيوطبية
- التوجيه العملي: مساعدة الممارسين على اختيار النماذج بشكل أكثر عقلانية
- مساهمة منهجية: يمكن اعتماد إطار عمل CLUE على نطاق واسع
- تحسين الموارد: تجنب الاستثمار الأعمى في تطوير نماذج بيوطبية
- قرارات اختيار النموذج: اختيار النموذج الأساسي المناسب لتطبيقات الذكاء الاصطناعي الطبي
- توجيه اتجاهات البحث: توفير أفكار جديدة لبحث نماذج اللغة البيوطبية
- وضع معايير التقييم: إنشاء معايير أكثر صرامة لتقييم الذكاء الاصطناعي الطبي
- مرجع قرارات الاستثمار: توفير أساس لقرارات الاستثمار وتخصيص الموارد ذات الصلة
- Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
- Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
- Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
- Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.
الملخص: تكشف هذه الورقة من خلال تصميم تجريبي صارم عن حدود التدريب البيوطبي في المهام السريرية الفعلية، وتوفر انعكاساً مهماً لهذا المجال. على الرغم من أن الاستنتاجات قد تكون غير متوقعة، فإن صرامة منهجيتها وأهمية اكتشافاتها تجعلها مساهمة مهمة في مجال الذكاء الاصطناعي الطبي. يذكرنا البحث بضرورة تقييم تأثير التدريب المتخصص بحذر أكبر، والاعتراف بقيمة النماذج العامة في التطبيقات الطبية.