2025-11-23T03:49:16.478723

Does Biomedical Training Lead to Better Medical Performance?

Dada, Bauer, Contreras et al.

Large Language Models (LLMs) are expected to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs aim to address healthcare-specific challenges, including privacy demands and computational constraints. Assessing the models' suitability for this sensitive application area is of the utmost importance. However, biomedical training has not been systematically evaluated on medical tasks. This study investigates the effect of biomedical training in the context of six practical medical tasks evaluating $25$ models. In contrast to previous evaluations, our results reveal a performance decline in nine out of twelve biomedical models after fine-tuning, particularly on tasks involving hallucinations, ICD10 coding, and instruction adherence. General-domain models like Meta-Llama-3.1-70B-Instruct outperformed their biomedical counterparts, indicating a trade-off between domain-specific fine-tuning and general medical task performance. We open-source all evaluation scripts and datasets at https://github.com/TIO-IKIM/CLUE to support further research in this critical area.

academic

هل يؤدي التدريب البيوطبي إلى أداء طبي أفضل؟

المعلومات الأساسية

معرّف الورقة: 2404.04067
العنوان: Does Biomedical Training Lead to Better Medical Performance?
المؤلفون: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek
التصنيف: cs.CL cs.AI cs.LG
وقت النشر/المؤتمر: arXiv preprint (تم التقديم في أبريل 2024، تم التحديث في أكتوبر 2025)
رابط الورقة: https://arxiv.org/abs/2404.04067v5

الملخص

تتمتع نماذج اللغة الكبيرة (LLMs) بإمكانيات هائلة في تطبيقات الرعاية الصحية، حيث تعد النماذج المكيفة للمجال البيوطبي بتقديم أداء أفضل في المهام الطبية. ومع ذلك، فإن فعالية التكيف البيوطبي للمهام السريرية لا تزال غير مؤكدة. تجري هذه الدراسة مقارنة مباشرة بين 12 نموذجاً مكيفاً بيوطبياً ونماذج أساسية من المجال العام على ستة مهام سريرية. تُظهر النتائج أن 11 من أصل 12 نموذجاً بيوطبياً أظهرت انخفاضاً في الأداء، مما يطعن في النتائج السابقة التي أبلغت عن تأثيرات إيجابية للتكيف البيوطبي. والجدير بالملاحظة أن النتائج الإيجابية السابقة اعتمدت بشكل أساسي على التقييمات متعددة الخيارات، والتي قد لا تعكس الأداء في التطبيقات السريرية الحقيقية.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي تسعى الدراسة إلى حلها هي: هل التدريب المتخصص في المجال البيوطبي يحسّن فعلاً أداء نماذج اللغة الكبيرة في مهام سريرية حقيقية؟

الأهمية

احتياجات التطبيق العملي: تتمتع نماذج اللغة الكبيرة بإمكانيات هائلة في الرعاية الصحية، يمكنها تحسين جودة وكفاءة رعاية المرضى
اعتبارات الموارد: يتطلب تطوير نماذج اللغة الكبيرة البيوطبية موارد حسابية ضخمة وبيانات متخصصة
اعتبارات السلامة: تتطلب التطبيقات الطبية دقة وموثوقية عالية جداً من النموذج

حدود الطرق الموجودة

حدود طرق التقييم: اعتمدت الدراسات السابقة بشكل أساسي على تقييمات الاختيار من متعدد (MCQA)، وتفتقر إلى الاختبار على المستندات السريرية الحقيقية
عدم اتساق الاستنتاجات: بدأت الدراسات الحديثة بالتشكيك في فعالية التكيف البيوطبي
نقص المقارنة المنهجية: غياب المقارنة المنهجية المباشرة بين نماذج بيوطبية متعددة ونماذجها الأساسية

دافع البحث

يسعى المؤلفون من خلال التقييم المنهجي على مهام سريرية حقيقية إلى الكشف عن التأثير الحقيقي للتدريب البيوطبي، وتوفير أدلة موضوعية لتطور هذا المجال.

المساهمات الأساسية

إطار عمل التقييم المنهجي: بناء إطار عمل CLUE (Clinical Language Understanding Evaluation) يتضمن 6 مهام سريرية فعلية
مقارنة نماذج واسعة النطاق: تقييم 24 نموذج لغة، بما في ذلك 12 نموذجاً بيوطبياً ونماذجها الأساسية
اكتشافات ثورية: اكتشاف أن 11/12 من النماذج البيوطبية تظهر انخفاضاً في الأداء على المهام السريرية، مما يطعن في المعرفة التقليدية
مساهمات مفتوحة المصدر: نشر خط أنابيب التقييم الكامل لتعزيز البحث القابل للتكرار
تحليل أخطاء متعمق: تحديد المشاكل الرئيسية في النماذج البيوطبية: الهلوسة، انخفاض القدرة على اتباع التعليمات، وغيرها

شرح الطريقة

تعريف المهام

يتضمن إطار عمل CLUE التقييمي 6 مهام سريرية، مقسمة إلى مستويي صعوبة:

المستوى 1 (المهام البسيطة، المدخلات القصيرة):

MedNLI: الاستدلال باللغة الطبيعية بناءً على ملاحظات MIMIC-III السريرية
MeQSum: تلخيص أسئلة الصحة الاستهلاكية
Problem Summary: استخراج مشاكل المريض من ملاحظات SOAP السريرية المنظمة

المستوى 2 (المهام المعقدة، المدخلات الطويلة):

LongHealth: فهم المستندات الطويلة والإجابة على الأسئلة
MeDiSumQA: الإجابة على الأسئلة وتبسيط ملخصات الخروج
MeDiSumCode: التنبؤ برموز ICD-10

معمارية النموذج

تتضمن النماذج البيوطبية المقيّمة:

سلسلة Meditron (7B/70B): التدريب المستمر بناءً على Llama-2
سلسلة BioMistral: التدريب بناءً على Mistral-7B
سلسلة OpenBioLLM (8B/70B): التدريب بناءً على Llama-3 باستخدام SFT+DPO
سلسلة Med42 (8B/70B): التدريب بناءً على Llama-3
نماذج أخرى: Internist.ai, Aloe, Meditron3، وغيرها

نقاط الابتكار التقني

تقييم المهام السريرية الحقيقية: بخلاف MCQA التقليدي، استخدام المستندات والمهام السريرية الحقيقية
مؤشرات متعددة الأبعاد: دمج ROUGE و BERTScore و UMLS entity F1 وغيرها
مقارنة منهجية: مقارنة مباشرة لكل نموذج بيوطبي مع نموذجه الأساسي
تحليل أنماط الأخطاء: تحليل متعمق للهلوسة والحلقات المتكررة وأنواع الأخطاء المحددة الأخرى

إعداد التجربة

مجموعات البيانات

MedNLI: 1,425 عينة، بناءً على ملاحظات MIMIC-III السريرية
MeQSum: 1,000 استفسار صحي استهلاكي
Problem Summary: 237 ملاحظة SOAP سريرية منظمة
LongHealth: 400 سؤال وجواب على مستندات طويلة (متوسط 5,537 كلمة)
MeDiSumQA: 453 سؤال وجواب على ملخصات الخروج
MeDiSumCode: 500 مهمة ترميز ICD-10

مؤشرات التقييم

مهام توليد النصوص: ROUGE-1/2/L و BERTScore و UMLS entity F1
مهام التصنيف: الدقة و F1 score
مهام الترميز: المطابقة الدقيقة والمطابقة التقريبية ونسبة الرموز الصحيحة

طرق المقارنة

12 نموذجاً بيوطبياً مع نماذجها الأساسية المقابلة
نماذج إضافية من المجال العام كمعايير مرجعية

تفاصيل التنفيذ

الموارد الحسابية: عقدة NVIDIA DGX A100 بسعة 640GB، حوالي 1536 ساعة GPU
استراتيجية الإشارة: استخدام 3-shot للمستوى 1 و 1-shot للمستوى 2 (باستثناء LongHealth)
إعدادات النموذج: استخدام قوالب التعليمات الافتراضية لـ Hugging Face

نتائج التجربة

النتائج الرئيسية

فئة النموذج	متوسط تغيير الأداء المستوى 1	متوسط تغيير الأداء المستوى 2	الاتجاه العام
Meditron-7B	-7.08	-	انخفاض
Meditron-70B	-4.59	-	انخفاض
BioMistral-7B	+0.26	+0.71	تحسن طفيف
BioMistral-7B-DARE	+2.93	+2.70	تحسن
OpenBioLLM-8B	-15.17	-13.54	انخفاض ملحوظ
Med42-8B	+2.51	-1.40	مختلط

الاكتشافات الرئيسية:

فقط BioMistral-7B-DARE يتفوق على النموذج الأساسي في جميع المهام
11/12 نموذجاً يظهر انخفاضاً في الأداء على الأقل في مهمة واحدة
4 نماذج تظهر انخفاضاً في الأداء على جميع المهام

التجارب الاستئصالية

تأثير تعقيد المهمة:

مهام المستوى 1: بعض النماذج تظهر تحسناً طفيفاً
مهام المستوى 2: معظم النماذج تظهر انخفاضاً ملحوظاً

تأثير حجم النموذج:

نماذج 8B: أكثر عرضة للحصول على تحسينات
نماذج 70B: أكثر عرضة لانخفاض الأداء بعد التدريب

تحليل الحالات

أمثلة على أنماط الأخطاء:

مشكلة الهلوسة: في المهمة 3 من LongHealth، انخفض Llama3-OpenBioLLM-8B من 56.25 نقطة في النموذج الأساسي إلى 1.55 نقطة
الحلقات المتكررة: تقع النماذج البيوطبية بشكل متكرر في تكرار الرموز، مما ينتج عنه مخرجات غير متماسكة
أخطاء ترميز ICD-10: تميل النماذج إلى زيادة الأرقام بدلاً من التنبؤ برموز صحيحة

نتائج التجربة

الاختلاف عن تقييم MCQA: تقييم الاختيار من متعدد التقليدي يظهر تأثيرات إيجابية، لكن المهام السريرية الفعلية تظهر انخفاضاً في الأداء
أهمية جودة النموذج الأساسي: النماذج العامة الأحدث (مثل Llama-3) أكثر أهمية من التكيف البيوطبي
انخفاض القدرة على اتباع التعليمات: يضر التدريب البيوطبي بقدرة النموذج على اتباع التعليمات

الأعمال ذات الصلة

تطور نماذج اللغة البيوطبية

النماذج التجارية: Med-PaLM و MedGemini
النماذج مفتوحة المصدر: Meditron و Biomistral و Internist.ai و Med42

الأصوات المشككة

بدأت الدراسات الحديثة بالتشكيك في فعالية التكيف البيوطبي:

Jeong et al. (2024): اكتشاف عدم وجود ميزة واضحة لنماذج اللغة البيوطبية
Ceballos-Arroyo et al. (2024): قد يضر التكيف المجالي بقدرة اتباع التعليمات

موضع هذه الورقة

توفر هذه الورقة أدلة تجريبية لهذا النقاش من خلال تقييم منهجي لمهام سريرية حقيقية.

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

التدريب البيوطبي ليس دائماً مفيداً: معظم النماذج البيوطبية تظهر انخفاضاً في الأداء على المهام السريرية الفعلية
القدرة التنافسية للنماذج العامة: تظهر نماذج مثل Meta-Llama-3.1-70B أفضل أداء
أهمية طرق التقييم: قد يضلل تقييم MCQA، والتقييم على المهام الحقيقية أكثر أهمية
إمكانية دمج الأوزان: يشير نجاح BioMistral-DARE إلى أن دمج الأوزان اتجاه واعد

القيود

حدود الموارد الحسابية: لم يتم استكشاف إعدادات درجة حرارة مختلفة وتقنيات سلسلة الفكر
خطر تلوث البيانات: استخدام مجموعات بيانات عامة لا يمكن تجنب تلوث البيانات تماماً
الاختلافات في البيئة السريرية: لم يتم إجراء التقييم في بيئة سريرية حقيقية
عدم كفاية تقييم السلامة: يتطلب التحقق من السلامة تجارب سريرية استشرافية

الاتجاهات المستقبلية

تحسين طرق التدريب: استكشاف استراتيجيات تكيف مجالي أفضل
تحسين جودة البيانات: استخدام بيانات تدريب عالية الجودة
تقنيات دمج الأوزان: البحث الإضافي في طرق دمج الأوزان
التحقق من التجارب السريرية: اختبار في بيئات سريرية حقيقية

التقييم المتعمق

المزايا

تصميم البحث صارم: مقارنة منهجية بين 12 نموذجاً بيوطبياً ونماذجها الأساسية
تصميم المهام عملي: استخدام المستندات والمهام السريرية الحقيقية، أقرب إلى التطبيقات الفعلية
الاكتشافات ثورية: تطعن في وجهات النظر السائدة في المجال
قيمة المساهمات مفتوحة المصدر: إطار عمل التقييم الكامل يعزز الأبحاث اللاحقة
تحليل الأخطاء متعمق: تحليل تفصيلي للهلوسة والتكرار والمشاكل المحددة الأخرى

أوجه القصور

حجم العينة محدود: عدد العينات في بعض المهام نسبياً صغير (مثل Problem Summary بـ 237 عينة فقط)
نطاق التقييم محدود: يركز بشكل أساسي على اللغة الإنجليزية وأنواع معينة من المهام السريرية
نقص التحليل النظري: افتقار إلى شرح نظري متعمق لسبب انخفاض الأداء بسبب التدريب البيوطبي
تفاصيل التدريب غير كافية: وصف محدود لعملية التدريب المحددة لكل نموذج بيوطبي

التأثير

القيمة الأكاديمية: توفير انعكاس مهم لبحث نماذج اللغة البيوطبية
التوجيه العملي: مساعدة الممارسين على اختيار النماذج بشكل أكثر عقلانية
مساهمة منهجية: يمكن اعتماد إطار عمل CLUE على نطاق واسع
تحسين الموارد: تجنب الاستثمار الأعمى في تطوير نماذج بيوطبية

السيناريوهات المعمول بها

قرارات اختيار النموذج: اختيار النموذج الأساسي المناسب لتطبيقات الذكاء الاصطناعي الطبي
توجيه اتجاهات البحث: توفير أفكار جديدة لبحث نماذج اللغة البيوطبية
وضع معايير التقييم: إنشاء معايير أكثر صرامة لتقييم الذكاء الاصطناعي الطبي
مرجع قرارات الاستثمار: توفير أساس لقرارات الاستثمار وتخصيص الموارد ذات الصلة

المراجع

Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models.
Labrak, Y. et al. (2024). BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains.
Jeong, D. P. et al. (2024). Medical adaptation of large language and vision-language models: Are we making progress?
Ceballos-Arroyo, A. M. et al. (2024). Open (clinical) LLMs are sensitive to instruction phrasings.

الملخص: تكشف هذه الورقة من خلال تصميم تجريبي صارم عن حدود التدريب البيوطبي في المهام السريرية الفعلية، وتوفر انعكاساً مهماً لهذا المجال. على الرغم من أن الاستنتاجات قد تكون غير متوقعة، فإن صرامة منهجيتها وأهمية اكتشافاتها تجعلها مساهمة مهمة في مجال الذكاء الاصطناعي الطبي. يذكرنا البحث بضرورة تقييم تأثير التدريب المتخصص بحذر أكبر، والاعتراف بقيمة النماذج العامة في التطبيقات الطبية.