Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
- पेपर ID: 2501.00031
- शीर्षक: Distilling Large Language Models for Efficient Clinical Information Extraction
- लेखक: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- प्रकाशन तिथि: 3 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00031
यह अनुसंधान ज्ञान आसवन तकनीक के माध्यम से बड़े भाषा मॉडल के ज्ञान को लगभग 1000 गुना छोटे BERT मॉडल में स्थानांतरित करता है, जो नैदानिक नामित इकाई पहचान कार्य के लिए है। अनुसंधान नवीनतम LLMs (Gemini और OpenAI मॉडल) और चिकित्सा ऑन्टोलॉजी (RxNorm और SNOMED) को शिक्षक एनोटेटर के रूप में उपयोग करता है, 3300 से अधिक नैदानिक नोट्स पर दवा, रोग और लक्षण निष्कर्षण करता है। आसवित BERT मॉडल समान प्रदर्शन बनाए रखते हुए अनुमान गति में 4-12 गुना सुधार और लागत में 2-101 गुना कमी प्रदान करता है, जो नैदानिक सूचना निष्कर्षण के लिए एक कुशल और स्केलेबल समाधान प्रदान करता है।
इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड में नैदानिक नोट्स में बड़ी मात्रा में मूल्यवान अनुरचित सूचना होती है, जो अक्सर संरचित क्षेत्रों में परिलक्षित नहीं होती है। मुक्त पाठ सूचना को संरचित डेटा में परिवर्तित करना समूह चयन, अवलोकनात्मक विश्लेषण और प्रश्नोत्तर प्रणालियों के लिए महत्वपूर्ण है, लेकिन नैदानिक नोट्स से सूचना निष्कर्षण अभी भी चुनौतीपूर्ण है।
- पारंपरिक विधियां: नियम-आधारित विधियां स्ट्रिंग मिलान और चिकित्सा ऑन्टोलॉजी का उपयोग करती हैं, जो व्याख्यायोग्य और कम्प्यूटेशनल रूप से कुशल हैं, लेकिन अक्सर नैदानिक इकाइयों के विविध प्रतिनिधित्व को पकड़ने में विफल रहती हैं, जिनमें समानार्थी शब्द, संक्षिप्त रूप, विस्तृत विवरण और वर्तनी त्रुटियां शामिल हैं।
- मशीन लर्निंग विधियां: BERT-जैसे मॉडल उत्कृष्ट प्रदर्शन करते हैं, लेकिन वर्तमान नैदानिक NER मॉडल अक्सर विशिष्ट डोमेन या इकाई प्रकारों पर ध्यान केंद्रित करते हैं, जो व्यापक प्रयोज्यता को सीमित करता है। सूक्ष्म-ट्यूनिंग के लिए बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता होती है, जो महंगा और समय लेने वाला है।
- बड़े भाषा मॉडल: LLMs नैदानिक NER कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन बड़ी मात्रा में कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो महंगा है, और मालिकाना LLMs को संरक्षित स्वास्थ्य सूचना को संभालने के लिए HIPAA-अनुपालन एंडपॉइंट की आवश्यकता होती है।
ज्ञान आसवन तकनीक इन चुनौतियों को हल करने के लिए एक आशाजनक समाधान प्रदान करती है, जो बड़े मॉडल के ज्ञान को छोटे मॉडल में स्थानांतरित कर सकती है, जो डोमेन-विशिष्ट BERT मॉडल की सीमाओं को हल करती है और कम्प्यूटेशनल रूप से महंगे LLMs की तैनाती की समस्याओं से बचती है।
- बहु-शिक्षक एनोटेटर प्रणाली: नवीनतम LLMs (Gemini और OpenAI मॉडल) और चिकित्सा ऑन्टोलॉजी (RxNorm और SNOMED) को जोड़ने वाले शिक्षक एनोटेटर विकसित किए गए, जो विभिन्न नोट प्रकारों के लिए नैदानिक NER कार्यों के लिए हैं।
- कुशल आसवित मॉडल: BERT-आधारित आसवित मॉडल बनाए और जारी किए गए, जिनका आकार आधुनिक LLMs का लगभग 1/1000 है, 2000 से अधिक नैदानिक दस्तावेजों पर प्रशिक्षित, जिनमें ट्यूमर प्रगति नोट्स, डिस्चार्ज सारांश, रेडियोलॉजी रिपोर्ट और वैज्ञानिक सारांश शामिल हैं।
- व्यापक मूल्यांकन सत्यापन: पांच सार्वजनिक नैदानिक डेटासेट पर व्यापक मूल्यांकन, जिसमें मॉडल विफलता पैटर्न विश्लेषण और स्वास्थ्य प्रणालियों के बीच बाहरी सत्यापन विश्लेषण शामिल है।
यह अनुसंधान तीन अलग-अलग NER कार्यों पर ध्यान केंद्रित करता है:
- दवा निष्कर्षण: नैदानिक नोट्स में दवा के नाम और दवा श्रेणियों की पहचान
- रोग निष्कर्षण: रोग, सिंड्रोम और रोगविज्ञान स्थितियों की पहचान
- लक्षण निष्कर्षण: रोगी के लक्षणों और नैदानिक अभिव्यक्तियों की पहचान
प्रत्येक कार्य "अंदर-बाहर" (IO) एनोटेशन प्रारूप का उपयोग करता है, इकाई के अंदर के शब्दों को "अंदर" के रूप में चिह्नित किया जाता है, अन्य शब्दों को "बाहर" के रूप में चिह्नित किया जाता है।
- LLM एनोटेटर: शिक्षक एनोटेटर के रूप में चार नवीनतम LLMs का मूल्यांकन
- GPT-4o (संस्करण 2024-08-06)
- GPT-4o-mini (संस्करण 2024-07-18)
- o1-mini (संस्करण 2024-09-12)
- Gemini 1.5 Flash (gemini-1.5-flash-002)
- ऑन्टोलॉजी एनोटेटर: BioPortal एनोटेटर API का उपयोग करके जैव चिकित्सा ऑन्टोलॉजी तक पहुंच
- RxNorm: दवा निष्कर्षण के लिए
- SNOMED CT: रोग और लक्षण निष्कर्षण के लिए
- इष्टतम शिक्षक संयोजन: 5 शिक्षक एनोटेटर के सभी 31 संभावित उप-समुच्चय संयोजनों का मूल्यांकन, विकास सेट पर F1 स्कोर सबसे अधिक संयोजन का चयन।
प्रत्येक NER कार्य के लिए, इष्टतम शिक्षक एनोटेशन पाइपलाइन का उपयोग करके प्रशिक्षण लेबल उत्पन्न किए जाते हैं, फिर स्वतंत्र BERT मॉडल को सूक्ष्म-ट्यून किया जाता है:
- BERT base: सामान्य भाषा मॉडल
- BioBERT: जैव चिकित्सा साहित्य पर पूर्व-प्रशिक्षित
- BioClinBERT: नैदानिक पाठ के लिए विशेष रूप से डिज़ाइन किया गया
प्रशिक्षण पैरामीटर: सीखने की दर = 2×10⁻⁵, बैच आकार = 8, वजन क्षय = 0.01, 10 epoch के लिए प्रशिक्षण।
- बहु-शिक्षक संलयन रणनीति: मौजूदा अनुसंधान से अलग जो एकल शिक्षक मॉडल का उपयोग करते हैं, यह अनुसंधान LLMs और ऑन्टोलॉजी के 31 संयोजनों का व्यवस्थित रूप से मूल्यांकन करता है, विभिन्न कार्यों के लिए इष्टतम संयोजन का चयन करता है।
- क्रॉस-डोमेन सामान्यीकरण क्षमता: विभिन्न नैदानिक नोट प्रकारों पर प्रशिक्षण और परीक्षण, जिसमें डिस्चार्ज सारांश, प्रगति नोट्स, रेडियोलॉजी रिपोर्ट आदि शामिल हैं।
- लागत-लाभ विश्लेषण: अनुमान समय और लागत तुलना का विस्तृत विवरण, आसवित मॉडल के वास्तविक तैनाती लाभों को मापता है।
- n2c2 2018 Track 2: 505 MIMIC-III डिस्चार्ज सारांश, विशेषज्ञ-एनोटेट दवा निष्कर्षण
- प्रशिक्षण सेट: 303, परीक्षण सेट: 202, विकास सेट: 25
- NCBI Disease Corpus: 793 PubMed सारांश, विशेषज्ञ-एनोटेट रोग निष्कर्षण
- आधिकारिक डेटासेट विभाजन का उपयोग
- CORAL डेटासेट: 40 रोगियों के डी-आइडेंटिफाइड प्रगति नोट्स (20 स्तन कैंसर, 20 अग्न्याशय कैंसर)
- परीक्षण सेट: 35, विकास सेट: 5
सभी उपलब्ध डेटासेट को मर्ज किया गया, जिसमें 1000 MIMIC-III नैदानिक नोट्स (दस्तावेज प्रकार द्वारा स्तरीकृत नमूनाकरण) शामिल हैं, अंतिम शिक्षक एनोटेशन डेटासेट में 2096 दस्तावेज शामिल हैं।
MedAlign डेटासेट का उपयोग करके बाहरी सत्यापन, जिसमें Stanford Hospital और Lucile Packard Children's Hospital के 276 अनुदैर्ध्य रोगी रिकॉर्ड शामिल हैं।
मानक टोकन-स्तर की सटीकता, रिकॉल और F1 स्कोर का उपयोग, मानव एनोटेशन को स्वर्ण मानक के रूप में।
- शिक्षक एनोटेटर सीधे भविष्यवाणी
- मानव लेबल पर सूक्ष्म-ट्यून BERT मॉडल
- शिक्षक लेबल पर आसवित BERT मॉडल
- NVIDIA 4xH100 GPU का उपयोग करके प्रशिक्षण
- सभी LLMs HIPAA-अनुपालन API एंडपॉइंट के माध्यम से निष्पादित
- मानकीकृत पैरामीटर: temperature=0.01, top-p=0.9
| कार्य | इष्टतम संयोजन | F1 स्कोर |
|---|
| रोग निष्कर्षण | o1-mini | 0.787 |
| दवा निष्कर्षण | Gemini-1.5-flash + GPT-4o | 0.881 |
| लक्षण निष्कर्षण | Gemini-1.5-flash + GPT-4o | 0.801 |
| कार्य | मानव लेबल+BERT | शिक्षक लेबल+BERT | केवल शिक्षक एनोटेटर |
|---|
| रोग निष्कर्षण | 0.89 | 0.84 | 0.82 |
| दवा निष्कर्षण | 0.91 | 0.87 | 0.84 |
| लक्षण निष्कर्षण | - | 0.68 | 0.73 |
| मॉडल | प्रति नोट अनुमान समय (सेकंड) | प्रति नोट लागत (अमेरिकी डॉलर) |
|---|
| आसवित BioBERT | 0.14 | 0.000187 |
| GPT-4o | 1.66 (+1086%) | 0.0159 (+8402%) |
| o1-mini | 0.58 (+314%) | 0.0189 (+1001%) |
| Gemini Flash | 1.17 (+736%) | 0.000460 (+146%) |
MedAlign डेटासेट पर प्रदर्शन:
- दवा निष्कर्षण: F1 = 0.883
- रोग निष्कर्षण: F1 = 0.726
- लक्षण निष्कर्षण: F1 = 0.699
मानव समीक्षा के माध्यम से पाया गया कि अधिकांश झूठी सकारात्मकताएं वास्तव में एनोटेशन सेट त्रुटियों के कारण हैं:
- लक्षण निष्कर्षण: 82.05% झूठी सकारात्मकताएं वास्तव में सही एनोटेशन हैं
- दवा निष्कर्षण: 62.93% झूठी सकारात्मकताएं वास्तव में सही एनोटेशन हैं
- रोग निष्कर्षण: 73.33% झूठी सकारात्मकताएं वास्तव में सही एनोटेशन हैं
- प्रदर्शन पदानुक्रम: मानव लेबल सूक्ष्म-ट्यूनिंग > शिक्षक लेबल आसवन > सीधी शिक्षक भविष्यवाणी
- ऑन्टोलॉजी भूमिका सीमित: लक्षण निष्कर्षण के इष्टतम संयोजन में कोई ऑन्टोलॉजी एनोटेटर शामिल नहीं है
- BioBERT लाभ: अधिकांश कार्यों में सर्वश्रेष्ठ प्रदर्शन
- लागत-लाभ महत्वपूर्ण: आसवित मॉडल LLMs से 2-101 गुना सस्ते हैं, 4-12 गुना तेज हैं
- पारंपरिक विधियां: नियम और ऑन्टोलॉजी-आधारित विधियां, जैसे UMLS
- गहन शिक्षण विधियां: BERT-जैसे मॉडल, जिसमें BioBERT, ClinicalBERT आदि जैसे डोमेन-विशिष्ट वेरिएंट शामिल हैं
- कमजोर पर्यवेक्षण विधियां: जैसे TROVE, UMLS ऑन्टोलॉजी का उपयोग करके कमजोर लेबल उत्पन्न करते हैं BERT मॉडल को प्रशिक्षित करने के लिए
- सामान्य आसवन: GPT-4 से LLaMA जैसे मध्यम आकार के मॉडल में आसवन
- चिकित्सा डोमेन आसवन: DistilFLERT और आसवित PubMedBERT चिकित्सा अनुप्रयोगों में सफलता
- बहु-शिक्षक संलयन: LLMs और ऑन्टोलॉजी के संयोजन प्रभाव का व्यवस्थित मूल्यांकन
- क्रॉस-डोमेन सत्यापन: विभिन्न नोट प्रकारों और स्वास्थ्य प्रणालियों के बीच सामान्यीकरण क्षमता का सत्यापन
- व्यापक मूल्यांकन: लागत-लाभ विश्लेषण और विस्तृत त्रुटि विश्लेषण शामिल
आसवित BERT मॉडल नैदानिक NER कार्यों में काफी कम कम्प्यूटेशनल लागत और अनुमान समय पर बड़े LLMs के समान प्रदर्शन प्राप्त कर सकते हैं, जो नैदानिक सूचना निष्कर्षण के लिए एक व्यावहारिक समाधान प्रदान करता है।
- शिक्षक गुणवत्ता असमान: विशेष रूप से लक्षण एनोटेशन की गुणवत्ता में भिन्नता
- इकाई प्रकार सीमित: केवल तीन इकाई प्रकार शामिल, प्रक्रियाएं, सामाजिक निर्धारक आदि शामिल नहीं
- जटिल कार्य अनुपस्थित: अभिकथन स्थिति (जैसे नकार) या संबंध निष्कर्षण कार्यों को संभाला नहीं गया
- प्रॉम्प्ट इंजीनियरिंग अपर्याप्त: सभी LLMs समान प्रॉम्प्ट का उपयोग करते हैं, लक्षित अनुकूलन नहीं
- परीक्षण सेट गुणवत्ता: एनोटेशन असंगति समस्याएं मौजूद हैं
- अधिक इकाई प्रकारों और जटिल NER कार्यों तक विस्तार
- प्रॉम्प्ट इंजीनियरिंग रणनीति में सुधार
- अधिक उन्नत आसवन तकनीकों की खोज
- परीक्षण सेट एनोटेशन गुणवत्ता में सुधार
- व्यावहारिकता मजबूत: LLMs की तैनाती लागत की वास्तविक समस्या को हल करता है
- विधि व्यवस्थित: विभिन्न शिक्षक संयोजन रणनीतियों का व्यापक मूल्यांकन
- सत्यापन पर्याप्त: बाहरी सत्यापन और विस्तृत त्रुटि विश्लेषण शामिल
- खुला और पारदर्शी: कोड और विस्तृत प्रयोगात्मक सेटअप प्रदान करता है
- लागत मात्रा: विशिष्ट समय और लागत तुलना डेटा प्रदान करता है
- नवाचार सीमित: ज्ञान आसवन स्वयं नई तकनीक नहीं है, मुख्य योगदान अनुप्रयोग स्तर पर है
- बेंचमार्क तुलना अपर्याप्त: अन्य आसवन विधियों के साथ सीधी तुलना की कमी
- सैद्धांतिक विश्लेषण अनुपस्थित: यह विश्लेषण नहीं करता कि कुछ शिक्षक संयोजन बेहतर क्यों काम करते हैं
- प्रयोज्यता प्रतिबंध: मुख्य रूप से अंग्रेजी नैदानिक पाठ के लिए, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
- व्यावहारिक मूल्य उच्च: नैदानिक NLP तैनाती के लिए व्यावहारिक समाधान प्रदान करता है
- पुनरुत्पादनीयता अच्छी: पूर्ण कोड और डेटासेट जानकारी प्रदान करता है
- प्रचार क्षमता बड़ी: विधि अन्य चिकित्सा NLP कार्यों तक विस्तारित की जा सकती है
- लागत-संवेदनशील अनुप्रयोग: संसाधन-सीमित वातावरण के लिए महत्वपूर्ण
- अस्पताल सूचना प्रणाली: बड़ी संख्या में नैदानिक नोट्स को वास्तविक समय में संसाधित करने की आवश्यकता
- अनुसंधान संस्थान: सीमित कम्प्यूटेशनल संसाधन लेकिन उच्च गुणवत्ता NER की आवश्यकता
- चिकित्सा AI उत्पाद: प्रदर्शन और तैनाती लागत के बीच संतुलन की आवश्यकता
- बहुभाषी विस्तार: अन्य भाषाओं में नैदानिक NER के लिए आधार ढांचा
पेपर 61 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
- BERT संबंधित कार्य: Devlin et al. (2019), Lee et al. (2020) BioBERT
- ज्ञान आसवन: Hinton et al. (2015), Zhou et al. (2024)
- नैदानिक NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
- चिकित्सा ऑन्टोलॉजी: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm
यह अनुसंधान नैदानिक सूचना निष्कर्षण क्षेत्र के लिए एक व्यावहारिक और कुशल समाधान प्रदान करता है, ज्ञान आसवन तकनीक के माध्यम से मॉडल प्रदर्शन और तैनाती लागत को सफलतापूर्वक संतुलित करता है, जिसका महत्वपूर्ण व्यावहारिक मूल्य और प्रचार महत्व है।