2025-11-23T07:19:15.673915

Distilling Large Language Models for Efficient Clinical Information Extraction

Vedula, Gupta, Swaminathan et al.

Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.

academic

تقطير نماذج اللغة الكبيرة لاستخراج المعلومات السريرية الفعال

المعلومات الأساسية

معرّف الورقة: 2501.00031
العنوان: Distilling Large Language Models for Efficient Clinical Information Extraction
المؤلفون: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
التصنيف: cs.CL (الحوسبة واللغة)
تاريخ النشر: 3 يناير 2025 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2501.00031

الملخص

يقدم هذا البحث نقل المعرفة من نماذج اللغة الكبيرة إلى نماذج BERT أصغر بحوالي 1000 مرة من خلال تقنية تقطير المعرفة، لمهام التعرف على الكيانات المسماة السريرية. يستخدم البحث أحدث نماذج اللغة الكبيرة (Gemini وموديلات OpenAI) بالإضافة إلى الأنطولوجيات الطبية (RxNorm و SNOMED) كمُصنِّفات معلمة، لاستخراج الأدوية والأمراض والأعراض من أكثر من 3300 ملاحظة سريرية. يحقق نموذج BERT المقطر أداءً مماثلاً مع تحسين سرعة الاستدلال بمعدل 4-12 مرة وتقليل التكاليف بمعدل 2-101 مرة، مما يوفر حلاً فعالاً وقابلاً للتوسع لاستخراج المعلومات السريرية.

خلفية البحث والدافع

تعريف المشكلة

تحتوي الملاحظات السريرية في السجلات الصحية الإلكترونية على كميات كبيرة من المعلومات غير المنظمة ذات القيمة، والتي غالباً ما لا تظهر في الحقول المنظمة. يعتبر تحويل المعلومات من النصوص الحرة إلى بيانات منظمة أمراً حاسماً لاختيار المجموعات السكانية والتحليلات الرصدية وأنظمة الأسئلة والأجوبة، إلا أن استخراج المعلومات من الملاحظات السريرية يظل مليئاً بالتحديات.

قيود الطرق الموجودة

الطرق التقليدية: تستخدم الطرق القائمة على القواعد مطابقة السلاسل والأنطولوجيات الطبية، وبينما تتمتع بقابلية التفسير والكفاءة الحسابية، فإنها غالباً ما تفشل في التقاط التمثيلات المتنوعة للكيانات السريرية، بما في ذلك المرادفات والاختصارات والأوصاف الدقيقة والأخطاء الإملائية.
طرق التعلم الآلي: تُظهر نماذج من نوع BERT أداءً ممتازاً، لكن نماذج التعرف على الكيانات المسماة السريرية الحالية غالباً ما تركز على مجالات أو أنواع كيانات محددة، مما يحد من قابلية التطبيق الواسعة. يتطلب الضبط الدقيق كميات كبيرة من البيانات المُصنَّفة، بتكاليف عالية وتستغرق وقتاً طويلاً.
نماذج اللغة الكبيرة: تُظهر نماذج اللغة الكبيرة أداءً ممتازاً في مهام التعرف على الكيانات المسماة السريرية، لكنها تتطلب موارد حسابية كبيرة وتكاليف عالية، كما أن نماذج اللغة الملكية تتطلب نقاط نهاية متوافقة مع HIPAA لمعالجة المعلومات الصحية المحمية.

دافع البحث

توفر تقنية تقطير المعرفة حلاً واعداً لمعالجة هذه التحديات، حيث تمكّن من نقل معرفة النماذج الكبيرة إلى نماذج أصغر، مما يحل محدودية نماذج BERT الخاصة بالمجال ويتجنب مشاكل نشر نماذج اللغة الكبيرة المكلفة حسابياً.

المساهمات الأساسية

نظام مُصنِّفات معلمة متعددة: تطوير مُصنِّفات معلمة تجمع بين أحدث نماذج اللغة الكبيرة (Gemini وموديلات OpenAI) والأنطولوجيات الطبية (RxNorm و SNOMED) لمهام التعرف على الكيانات المسماة السريرية عبر أنواع ملاحظات متعددة.
نموذج مقطر فعال: إنشاء ونشر نموذج مقطر قائم على BERT بحجم يبلغ حوالي 1/1000 من نماذج اللغة الكبيرة الحديثة، مدرب على أكثر من 2000 وثيقة سريرية، تغطي ملاحظات تطور الأورام وملخصات الخروج والتقارير الإشعاعية والملخصات العلمية.
تقييم شامل: إجراء تقييم شامل على خمس مجموعات بيانات سريرية عامة، يشمل تحليل أنماط فشل النموذج والتحليل الخارجي للتحقق عبر أنظمة الرعاية الصحية.

شرح الطريقة

تعريف المهمة

يركز هذا البحث على ثلاث مهام مختلفة للتعرف على الكيانات المسماة:

استخراج الأدوية: التعرف على أسماء الأدوية وفئات الأدوية في الملاحظات السريرية
استخراج الأمراض: التعرف على الأمراض والمتلازمات والحالات المرضية
استخراج الأعراض: التعرف على أعراض المريض والمظاهر السريرية

تستخدم كل مهمة تنسيق التصنيف "داخلي-خارجي" (IO)، حيث يتم تصنيف الكلمات داخل الكيان كـ "Inside" والكلمات الأخرى كـ "Outside".

معمارية النموذج

خط أنابيب المُصنِّف المعلم

مُصنِّفات نماذج اللغة الكبيرة: تقييم أربعة نماذج لغة كبيرة حديثة كمُصنِّفات معلمة
- GPT-4o (الإصدار 2024-08-06)
- GPT-4o-mini (الإصدار 2024-07-18)
- o1-mini (الإصدار 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
مُصنِّفات الأنطولوجيا: الاستفادة من واجهة برمجة تطبيقات معلّق BioPortal للوصول إلى الأنطولوجيات الطبية الحيوية
- RxNorm: لاستخراج الأدوية
- SNOMED CT: لاستخراج الأمراض والأعراض
أفضل مزيج معلم: تقييم جميع 31 مزيجاً فرعياً ممكناً من 5 مُصنِّفات معلمة، واختيار المزيج الذي يحقق أعلى درجة F1 على مجموعة التطوير.

تنفيذ تقطير النموذج

لكل مهمة للتعرف على الكيانات المسماة، يتم استخدام خط أنابيب المُصنِّف المعلم الأمثل لإنشاء تسميات التدريب، ثم ضبط نماذج BERT المستقلة بدقة:

BERT base: نموذج لغة عام
BioBERT: مدرب مسبقاً على الأدبيات الطبية الحيوية
BioClinBERT: مصمم خصيصاً للنصوص السريرية

معاملات التدريب: معدل التعلم = 2×10⁻⁵، حجم الدفعة = 8، تحلل الوزن = 0.01، التدريب لمدة 10 حقب.

نقاط الابتكار التقني

استراتيجية دمج معلمين متعددين: بخلاف الأبحاث الموجودة التي تستخدم نموذج معلم واحد، يقيّم هذا البحث بشكل منهجي 31 مزيجاً من نماذج اللغة الكبيرة والأنطولوجيات، واختيار أفضل مزيج لكل مهمة.
القدرة على التعميم عبر المجالات: التدريب والاختبار على أنواع متعددة من الملاحظات السريرية، بما في ذلك ملخصات الخروج وملاحظات التطور والتقارير الإشعاعية وغيرها.
تحليل فعالية التكلفة: توفير مقارنات مفصلة لوقت الاستدلال والتكلفة، وتحديد الفوائد العملية لنشر النموذج المقطر.

إعداد التجارب

مجموعات البيانات

مجموعات البيانات الرئيسية

n2c2 2018 Track 2: 505 ملخصات خروج من MIMIC-III، مصنفة من قبل الخبراء لاستخراج الأدوية
- مجموعة التدريب: 303، مجموعة الاختبار: 202، مجموعة التطوير: 25
NCBI Disease Corpus: 793 ملخص PubMed، مصنفة من قبل الخبراء لاستخراج الأمراض
- استخدام تقسيم مجموعة البيانات الرسمية
مجموعة بيانات CORAL: ملاحظات تطور منزوعة الهوية لـ 40 مريضاً (20 سرطان الثدي، 20 سرطان البنكرياس)
- مجموعة الاختبار: 35، مجموعة التطوير: 5

مجموعات بيانات المُصنِّف المعلم

دمج جميع مجموعات البيانات المتاحة، بما في ذلك 1000 ملاحظة سريرية من MIMIC-III (عينة طبقية حسب نوع الوثيقة)، مما أسفر عن مجموعة بيانات مُصنِّف معلم تحتوي على 2096 وثيقة.

التحقق الخارجي

استخدام مجموعة بيانات MedAlign للتحقق الخارجي، تحتوي على 276 سجل مريض طولي من مستشفى ستانفورد ومستشفى Lucile Packard للأطفال.

مقاييس التقييم

استخدام معايير دقة وتذكر ودرجة F1 على مستوى الرمز القياسي، مع اعتبار التصنيف اليدوي كمعيار ذهبي.

الطرق المقارنة

التنبؤ المباشر من المُصنِّفات المعلمة
نموذج BERT مضبوط بدقة على التسميات اليدوية
نموذج BERT مقطر على تسميات المعلم

تفاصيل التنفيذ

استخدام وحدات معالجة الرسومات NVIDIA 4xH100 للتدريب
تنفيذ جميع نماذج اللغة الكبيرة من خلال نقاط نهاية متوافقة مع HIPAA
معاملات معيارية: temperature=0.01, top-p=0.9

نتائج التجارب

النتائج الرئيسية

أداء مزيج المُصنِّفات المعلمة

المهمة	أفضل مزيج	درجة F1
استخراج الأمراض	o1-mini	0.787
استخراج الأدوية	Gemini-1.5-flash + GPT-4o	0.881
استخراج الأعراض	Gemini-1.5-flash + GPT-4o	0.801

مقارنة أداء النموذج المقطر

المهمة	BERT + تسميات يدوية	BERT + تسميات معلم	مُصنِّف معلم فقط
استخراج الأمراض	0.89	0.84	0.82
استخراج الأدوية	0.91	0.87	0.84
استخراج الأعراض	-	0.68	0.73

مقارنة الكفاءة

النموذج	وقت الاستدلال لكل ملاحظة (ثانية)	التكلفة لكل ملاحظة (دولار أمريكي)
BioBERT المقطر	0.14	0.000187
GPT-4o	1.66 (+1086%)	0.0159 (+8402%)
o1-mini	0.58 (+314%)	0.0189 (+1001%)
Gemini Flash	1.17 (+736%)	0.000460 (+146%)

نتائج التحقق الخارجي

الأداء على مجموعة بيانات MedAlign:

استخراج الأدوية: F1 = 0.883
استخراج الأمراض: F1 = 0.726
استخراج الأعراض: F1 = 0.699

تحليل الأخطاء

من خلال المراجعة اليدوية، تم اكتشاف أن معظم الإيجابيات الكاذبة ناتجة فعلياً عن أخطاء في مجموعة التصنيف:

استخراج الأعراض: 82.05% من الإيجابيات الكاذبة هي في الواقع تصنيفات صحيحة
استخراج الأدوية: 62.93% من الإيجابيات الكاذبة هي في الواقع تصنيفات صحيحة
استخراج الأمراض: 73.33% من الإيجابيات الكاذبة هي في الواقع تصنيفات صحيحة

نتائج التجارب

التسلسل الهرمي للأداء: الضبط الدقيق على التسميات اليدوية > التقطير على تسميات المعلم > التنبؤ المباشر من المعلم
دور الأنطولوجيا محدود: لا تتضمن أفضل المزيجات لاستخراج الأعراض مُصنِّفات الأنطولوجيا
ميزة BioBERT: يُظهر أداءً أفضل في معظم المهام
فعالية التكلفة الكبيرة: النماذج المقطرة أرخص بـ 2-101 مرة من نماذج اللغة الكبيرة وأسرع بـ 4-12 مرة

الأعمال ذات الصلة

اتجاهات البحث في التعرف على الكيانات المسماة السريرية

الطرق التقليدية: الطرق القائمة على القواعد والأنطولوجيات، مثل UMLS
طرق التعلم العميق: نماذج من نوع BERT، بما في ذلك المتغيرات الخاصة بالمجال مثل BioBERT و ClinicalBERT
طرق الإشراف الضعيف: مثل TROVE، التي تستخدم أنطولوجيا UMLS لإنشاء تسميات ضعيفة لتدريب نماذج BERT

أبحاث تقطير المعرفة

التقطير العام: تقطير من GPT-4 إلى نماذج متوسطة الحجم مثل LLaMA
التقطير في المجال الطبي: نجاح DistilFLERT و PubMedBERT المقطر في التطبيقات الطبية

مزايا هذه الورقة مقارنة بالأعمال ذات الصلة

دمج معلمين متعددين: تقييم منهجي لـ 31 مزيجاً من نماذج اللغة الكبيرة والأنطولوجيات
التحقق عبر المجالات: التحقق من قابلية التعميم عبر أنواع ملاحظات وأنظمة صحية متعددة
التقييم الشامل: يشمل تحليل فعالية التكلفة وتحليل الأخطاء المفصل

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يمكن لنموذج BERT المقطر تحقيق أداء قريبة من نماذج اللغة الكبيرة الكبيرة في مهام التعرف على الكيانات المسماة السريرية بتكاليف حسابية وأوقات استدلال أقل بكثير، مما يوفر حلاً عملياً لاستخراج المعلومات السريرية.

القيود

جودة المعلم غير متساوية: خاصة تباين كبير في جودة تصنيف الأعراض
أنواع الكيانات محدودة: تغطي فقط ثلاثة أنواع كيانات، لا تشمل الإجراءات أو المحددات الاجتماعية
نقص المهام المعقدة: لم يتم التعامل مع حالات التأكيد (مثل النفي) أو مهام استخراج العلاقات
هندسة الفورمات غير كافية: استخدام جميع نماذج اللغة الكبيرة نفس الفورمات، بدون تحسين موجه
جودة مجموعة الاختبار: وجود مشاكل عدم اتساق التصنيف

الاتجاهات المستقبلية

التوسع إلى المزيد من أنواع الكيانات ومهام التعرف على الكيانات المسماة المعقدة
تحسين استراتيجيات هندسة الفورمات
استكشاف تقنيات تقطير أكثر تقدماً
تحسين جودة تصنيف مجموعة الاختبار

التقييم المتعمق

المزايا

قوة عملية عالية: حل المشكلة العملية لارتفاع تكاليف نشر نماذج اللغة الكبيرة
منهجية منظمة: تقييم شامل لاستراتيجيات مزج معلمين متعددين
تحقق كافٍ: يشمل التحقق الخارجي وتحليل الأخطاء المفصل
شفافية مفتوحة: توفير الكود ومعلومات التجارب المفصلة
تحديد التكاليف: توفير بيانات مقارنة محددة للوقت والتكلفة

أوجه القصور

ابتكار محدود: تقطير المعرفة ليس تقنية جديدة، المساهمة الرئيسية على مستوى التطبيق
مقارنة معايير غير كافية: نقص المقارنة المباشرة مع طرق تقطير أخرى
نقص التحليل النظري: عدم التحليل العميق لسبب فعالية بعض مزيجات المعلمين بشكل أفضل
قيود القابلية للتطبيق: تركز بشكل أساسي على النصوص السريرية باللغة الإنجليزية، قابلية التعميم قيد الاختبار

التأثير

قيمة عملية عالية: توفير حل قابل للتطبيق لنشر NLP السريري
قابلية إعادة الإنتاج جيدة: توفير كود كامل ومعلومات مجموعة بيانات
إمكانية ترويج كبيرة: يمكن توسيع الطريقة إلى مهام NLP طبية أخرى
تطبيقات حساسة للتكلفة: ذات أهمية كبيرة للبيئات ذات الموارد المحدودة

سيناريوهات التطبيق

أنظمة المعلومات الطبية: تحتاج إلى معالجة فورية لكميات كبيرة من الملاحظات السريرية
المؤسسات البحثية: موارد حسابية محدودة لكن تحتاج إلى NER عالي الجودة
منتجات الذكاء الاصطناعي الطبية: الحاجة إلى الموازنة بين الأداء وتكاليف النشر
التوسع متعدد اللغات: يمكن أن تكون بمثابة إطار عمل أساسي لـ NER السريري بلغات أخرى

المراجع

تستشهد الورقة بـ 61 مرجعاً ذا صلة، تشمل بشكل أساسي:

أعمال BERT ذات الصلة: Devlin et al. (2019), Lee et al. (2020) BioBERT
تقطير المعرفة: Hinton et al. (2015), Zhou et al. (2024)
NLP السريري: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
الأنطولوجيات الطبية: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm

يوفر هذا البحث حلاً عملياً وفعالاً لمجال استخراج المعلومات السريرية، حيث ينجح في الموازنة بين أداء النموذج وتكاليف النشر من خلال تقنية تقطير المعرفة، مع قيمة عملية كبيرة وأهمية ترويجية.