2025-11-23T07:19:15.673915

Distilling Large Language Models for Efficient Clinical Information Extraction

Vedula, Gupta, Swaminathan et al.

Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.

academic

বড় ভাষা মডেলগুলি দক্ষ ক্লিনিকাল তথ্য নিষ্কাশনের জন্য পরিশোধন

মৌলিক তথ্য

পেপার আইডি: 2501.00031
শিরোনাম: বড় ভাষা মডেলগুলি দক্ষ ক্লিনিকাল তথ্য নিষ্কাশনের জন্য পরিশোধন
লেখক: কার্থিক এস. ভেদুলা, আনিকা গুপ্তা, অক্ষয় স্বামিনাথন, ইভান লোপেজ, সুহানা বেদী, নিগম এইচ. শাহ
শ্রেণীবিভাগ: cs.CL (গণনা এবং ভাষা)
প্রকাশনার সময়: ২০২৫ সালের ৩ জানুয়ারি (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2501.00031

সারসংক্ষেপ

এই গবেষণা জ্ঞান পরিশোধন প্রযুক্তির মাধ্যমে বড় ভাষা মডেলের জ্ঞান প্রায় ১০০০ গুণ ছোট BERT মডেলে স্থানান্তরিত করে ক্লিনিকাল নামকরণ সত্তা স্বীকৃতি কাজের জন্য। গবেষণা সর্বশেষ LLM (জেমিনি এবং OpenAI মডেল) এবং চিকিৎসা অন্টোলজি (RxNorm এবং SNOMED) ব্যবহার করে শিক্ষক টীকাকার হিসাবে, ৩৩০০ এরও বেশি ক্লিনিকাল নোটে ওষুধ, রোগ এবং উপসর্গ নিষ্কাশন করে। পরিশোধিত BERT মডেল অনুরূপ কর্মক্ষমতা বজায় রেখে অনুমান গতি ৪-১২ গুণ বৃদ্ধি করে এবং খরচ ২-১০১ গুণ হ্রাস করে, ক্লিনিকাল তথ্য নিষ্কাশনের জন্য একটি দক্ষ এবং স্কেলেবল সমাধান প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ইলেকট্রনিক স্বাস্থ্য রেকর্ডে ক্লিনিকাল নোটগুলি প্রচুর মূল্যবান অ-কাঠামোগত তথ্য ধারণ করে, যা প্রায়শই কাঠামোগত ক্ষেত্রে প্রতিফলিত হয় না। মুক্ত পাঠ্য তথ্যকে কাঠামোগত ডেটায় রূপান্তরিত করা সমন্বয় নির্বাচন, পর্যবেক্ষণমূলক বিশ্লেষণ এবং প্রশ্নোত্তর সিস্টেমের জন্য গুরুত্বপূর্ণ, তবে ক্লিনিকাল নোট থেকে তথ্য নিষ্কাশন এখনও চ্যালেঞ্জিং।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

১. ঐতিহ্যবাহী পদ্ধতি: নিয়ম-ভিত্তিক পদ্ধতি স্ট্রিং ম্যাচিং এবং চিকিৎসা অন্টোলজি ব্যবহার করে, যদিও ব্যাখ্যাযোগ্য এবং গণনামূলকভাবে দক্ষ, প্রায়শই ক্লিনিকাল সত্তার বৈচিত্র্যময় প্রতিনিধিত্ব ক্যাপচার করতে পারে না, যার মধ্যে রয়েছে সমার্থক শব্দ, সংক্ষিপ্তকরণ, সূক্ষ্ম বর্ণনা এবং বানান ত্রুটি।

२. মেশিন লার্নিং পদ্ধতি: BERT-শ্রেণীর মডেলগুলি উচ্চতর কর্মক্ষমতা প্রদর্শন করে, তবে বর্তমান ক্লিনিকাল NER মডেলগুলি প্রায়শই নির্দিষ্ট ডোমেইন বা সত্তা প্রকারের উপর দৃষ্টি নিবদ্ধ করে, ব্যাপক প্রযোজ্যতা সীমিত করে। সূক্ষ্ম-সুর করার জন্য প্রচুর টীকাযুক্ত ডেটা প্রয়োজন, যা ব্যয়বহুল এবং সময়সাপেক্ষ।

३. বড় ভাষা মডেল: LLM গুলি ক্লিনিকাল NER কাজে উচ্চতর কর্মক্ষমতা প্রদর্শন করে, তবে প্রচুর গণনা সম্পদ প্রয়োজন, ব্যয়বহুল, এবং মালিকানাধীন LLM গুলি সুরক্ষিত স্বাস্থ্য তথ্য প্রক্রিয়া করার জন্য HIPAA-সামঞ্জস্যপূর্ণ এন্ডপয়েন্ট প্রয়োজন।

গবেষণা প্রেরণা

জ্ঞান পরিশোধন প্রযুক্তি এই চ্যালেঞ্জগুলি সমাধানের জন্য একটি প্রতিশ্রুতিশীল সমাধান প্রদান করে, বড় মডেলের জ্ঞান ছোট মডেলে স্থানান্তরিত করতে সক্ষম, ডোমেইন-নির্দিষ্ট BERT মডেলের সীমাবদ্ধতা সমাধান করে এবং গণনামূলকভাবে ব্যয়বহুল LLM গুলির স্থাপনার সমস্যা এড়ায়।

মূল অবদান

१. বহু-শিক্ষক টীকাকার সিস্টেম: সর্বশেষ LLM (জেমিনি এবং OpenAI মডেল) এবং চিকিৎসা অন্টোলজি (RxNorm এবং SNOMED) একত্রিত করে শিক্ষক টীকাকার বিকাশ করেছে, বিভিন্ন নোট প্রকারের ক্লিনিকাল NER কাজের জন্য।

२. দক্ষ পরিশোধিত মডেল: BERT-ভিত্তিক পরিশোধিত মডেল তৈরি এবং প্রকাশ করেছে, আধুনিক LLM এর প্রায় ১/১০০০ আকার, ২০০০ এরও বেশি ক্লিনিকাল ডকুমেন্টে প্রশিক্ষিত, যার মধ্যে রয়েছে টিউমার অগ্রগতি নোট, ছাড়পত্র সারসংক্ষেপ, রেডিওলজি রিপোর্ট এবং বৈজ্ঞানিক সারসংক্ষেপ।

३. ব্যাপক মূল্যায়ন যাচাইকরণ: পাঁচটি জনসাধারণ ক্লিনিকাল ডেটাসেটে সমন্বিত মূল্যায়ন পরিচালনা করেছে, যার মধ্যে রয়েছে মডেল ব্যর্থতার প্যাটার্ন বিশ্লেষণ এবং স্বাস্থ্য সিস্টেম জুড়ে বাহ্যিক যাচাইকরণ বিশ্লেষণ।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এই গবেষণা তিনটি ভিন্ন NER কাজের উপর দৃষ্টি নিবদ্ধ করে:

ওষুধ নিষ্কাশন: ক্লিনিকাল নোটে ওষুধের নাম এবং ওষুধের শ্রেণী সনাক্ত করা
রোগ নিষ্কাশন: রোগ, সিন্ড্রোম এবং প্যাথোলজিক্যাল অবস্থা সনাক্ত করা
উপসর্গ নিষ্কাশন: রোগীর উপসর্গ এবং ক্লিনিকাল প্রকাশ সনাক্ত করা

প্রতিটি কাজ "অভ্যন্তরীণ-বাহ্যিক" (IO) টীকা ফর্ম্যাট ব্যবহার করে, সত্তার মধ্যে শব্দগুলি "অভ্যন্তরীণ" হিসাবে চিহ্নিত করা হয়, অন্যান্য শব্দগুলি "বাহ্যিক" হিসাবে চিহ্নিত করা হয়।

মডেল স্থাপত্য

শিক্ষক টীকা পাইপলাইন

१. LLM টীকাকার: চারটি সর্বশেষ LLM কে শিক্ষক টীকাকার হিসাবে মূল্যায়ন করেছে

GPT-4o (সংস্করণ 2024-08-06)
GPT-4o-mini (সংস্করণ 2024-07-18)
o1-mini (সংস্করণ 2024-09-12)
জেমিনি 1.5 ফ্ল্যাশ (gemini-1.5-flash-002)

२. অন্টোলজি টীকাকার: BioPortal টীকা API ব্যবহার করে জৈব চিকিৎসা অন্টোলজি অ্যাক্সেস করেছে

RxNorm: ওষুধ নিষ্কাশনের জন্য
SNOMED CT: রোগ এবং উপসর্গ নিষ্কাশনের জন্য

३. সর্বোত্তম শিক্ষক সমন্বয়: পাঁচটি শিক্ষক টীকাকারের সমস্ত ৩১টি সম্ভাব্য উপসেট সমন্বয় মূল্যায়ন করেছে, উন্নয়ন সেটে F1 স্কোর সর্বোচ্চ সমন্বয় নির্বাচন করেছে।

মডেল পরিশোধন বাস্তবায়ন

প্রতিটি NER কাজের জন্য, সর্বোত্তম শিক্ষক টীকা পাইপলাইন ব্যবহার করে প্রশিক্ষণ লেবেল তৈরি করেছে, তারপর স্বাধীন BERT মডেল সূক্ষ্ম-সুর করেছে:

BERT base: সাধারণ ভাষা মডেল
BioBERT: জৈব চিকিৎসা সাহিত্যে প্রাক-প্রশিক্ষিত
BioClinBERT: ক্লিনিকাল পাঠের জন্য বিশেষভাবে ডিজাইন করা

প্রশিক্ষণ পরামিতি: শেখার হার=२×१०⁻⁵, ব্যাচ আকার=८, ওজন ক্ষয়=०.०१, १० যুগের জন্য প্রশিক্ষণ।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. বহু-শিক্ষক সংমিশ্রণ কৌশল: বিদ্যমান গবেষণা একক শিক্ষক মডেল ব্যবহার করার বিপরীতে, এই গবেষণা LLM এবং অন্টোলজির ३१টি সমন্বয় পদ্ধতিগতভাবে মূল্যায়ন করেছে, বিভিন্ন কাজের জন্য সর্বোত্তম সমন্বয় নির্বাচন করেছে।

२. ক্রস-ডোমেইন সাধারণীকরণ ক্ষমতা: একাধিক ক্লিনিকাল নোট প্রকারে প্রশিক্ষণ এবং পরীক্ষা করেছে, যার মধ্যে রয়েছে ছাড়পত্র সারসংক্ষেপ, অগ্রগতি নোট, রেডিওলজি রিপোর্ট ইত্যাদি।

३. খরচ-কার্যকারিতা বিশ্লেষণ: বিস্তারিত অনুমান সময় এবং খরচ তুলনা প্রদান করেছে, পরিশোধিত মডেলের প্রকৃত স্থাপনা সুবিধা পরিমাণ করেছে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রধান ডেটাসেট

१. n2c2 2018 ট্র্যাক 2: ৫০৫টি MIMIC-III ছাড়পত্র সারসংক্ষেপ, বিশেষজ্ঞ-টীকাযুক্ত ওষুধ নিষ্কাশন

প্রশিক্ষণ সেট: ३०३টি, পরীক্ষা সেট: २०२টি, উন্নয়ন সেট: २५টি

२. NCBI রোগ কর্পাস: ७९३টি PubMed সারসংক্ষেপ, বিশেষজ্ঞ-টীকাযুক্ত রোগ নিষ্কাশন

অফিসিয়াল ডেটাসেট বিভাজন ব্যবহার করেছে

३. CORAL ডেটাসেট: ४०টি রোগীর বিঘ্নিত অগ্রগতি নোট (२०টি স্তন ক্যান্সার, २०টি অগ্ন্যাশয় ক্যান্সার)

পরীক্ষা সেট: ३५টি, উন্নয়ন সেট: ५টি

শিক্ষক টীকা ডেটাসেট

সমস্ত উপলব্ধ ডেটাসেট একত্রিত করেছে, যার মধ্যে ১০০০টি MIMIC-III ক্লিনিকাল নোট (ডকুমেন্ট প্রকার দ্বারা স্তরযুক্ত নমুনা), চূড়ান্ত শিক্ষক টীকা ডেটাসেট २०९६টি ডকুমেন্ট অন্তর্ভুক্ত করে।

বাহ্যিক যাচাইকরণ

MedAlign ডেটাসেট ব্যবহার করে বাহ্যিক যাচাইকরণ পরিচালনা করেছে, যার মধ্যে রয়েছে স্ট্যানফোর্ড হাসপাতাল এবং Lucile Packard শিশু হাসপাতালের २७६টি দীর্ঘমেয়াদী রোগীর রেকর্ড।

মূল্যায়ন মেট্রিক্স

টোকেন-স্তরের নির্ভুলতা, প্রত্যাহার এবং F1 স্কোর ব্যবহার করেছে, মানব টীকা সোনার মান হিসাবে।

তুলনামূলক পদ্ধতি

শিক্ষক টীকাকার সরাসরি পূর্বাভাস
মানব লেবেল উপর ভিত্তি করে সূক্ষ্ম-সুর BERT মডেল
শিক্ষক লেবেল উপর ভিত্তি করে পরিশোধিত BERT মডেল

বাস্তবায়ন বিবরণ

NVIDIA 4xH100 GPU ব্যবহার করে প্রশিক্ষণ
সমস্ত LLM HIPAA-সামঞ্জস্যপূর্ণ API এন্ডপয়েন্টের মাধ্যমে সম্পাদিত
মানক পরামিতি: temperature=०.०१, top-p=०.९

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

শিক্ষক টীকাকার সমন্বয় কর্মক্ষমতা

কাজ	সর্বোত্তম সমন্বয়	F1 স্কোর
রোগ নিষ্কাশন	o1-mini	0.787
ওষুধ নিষ্কাশন	জেমিনি-1.5-ফ্ল্যাশ + GPT-4o	0.881
উপসর্গ নিষ্কাশন	জেমিনি-1.5-ফ্ল্যাশ + GPT-4o	0.801

পরিশোধিত মডেল কর্মক্ষমতা তুলনা

কাজ	মানব লেবেল+BERT	শিক্ষক লেবেল+BERT	শুধুমাত্র শিক্ষক টীকাকার
রোগ নিষ্কাশন	0.89	0.84	0.82
ওষুধ নিষ্কাশন	0.91	0.87	0.84
উপসর্গ নিষ্কাশন	-	0.68	0.73

দক্ষতা তুলনা

মডেল	প্রতি নোট অনুমান সময় (সেকেন্ড)	প্রতি নোট খরচ (ডলার)
পরিশোধিত BioBERT	0.14	0.000187
GPT-4o	1.66 (+1086%)	0.0159 (+8402%)
o1-mini	0.58 (+314%)	0.0189 (+1001%)
জেমিনি ফ্ল্যাশ	1.17 (+736%)	0.000460 (+146%)

বাহ্যিক যাচাইকরণ ফলাফল

MedAlign ডেটাসেটে কর্মক্ষমতা:

ওষুধ নিষ্কাশন: F1 = 0.883
রোগ নিষ্কাশন: F1 = 0.726
উপসর্গ নিষ্কাশন: F1 = 0.699

ত্রুটি বিশ্লেষণ

মানব পর্যালোচনার মাধ্যমে আবিষ্কার করেছে যে বেশিরভাগ মিথ্যা ইতিবাচক প্রকৃতপক্ষে টীকা সেট ত্রুটির কারণে:

উপসর্গ নিষ্কাশন: ८२.०५% মিথ্যা ইতিবাচক প্রকৃতপক্ষে সঠিক টীকা
ওষুধ নিষ্কাশন: ६२.९३% মিথ্যা ইতিবাচক প্রকৃতপক্ষে সঠিক টীকা
রোগ নিষ্কাশন: ७३.३३% মিথ্যা ইতিবাচক প্রকৃতপক্ষে সঠিক টীকা

পরীক্ষামূলক আবিষ্কার

१. কর্মক্ষমতা স্তর: মানব লেবেল সূক্ষ্ম-সুর > শিক্ষক লেবেল পরিশোধন > সরাসরি শিক্ষক পূর্বাভাস २. অন্টোলজি সীমিত ভূমিকা: উপসর্গ নিষ্কাশনের সর্বোত্তম সমন্বয়ে অন্টোলজি টীকাকার অন্তর্ভুক্ত নয় ३. BioBERT সুবিধা: বেশিরভাগ কাজে সেরা কর্মক্ষমতা প্রদর্শন করেছে ४. খরচ-কার্যকারিতা উল্লেখযোগ্য: পরিশোধিত মডেল LLM এর চেয়ে २-१०१ গুণ সস্তা, ४-१२ গুণ দ্রুত

উপসংহার এবং আলোচনা

প্রধান উপসংহার

পরিশোধিত BERT মডেল ক্লিনিকাল NER কাজে উল্লেখযোগ্যভাবে কম গণনা খরচ এবং অনুমান সময়ে বড় LLM এর কাছাকাছি কর্মক্ষমতা অর্জন করতে পারে, ক্লিনিকাল তথ্য নিষ্কাশনের জন্য একটি ব্যবহারিক সমাধান প্রদান করে।

সীমাবদ্ধতা

१. শিক্ষক গুণমান অসামঞ্জস্যপূর্ণ: বিশেষত উপসর্গ টীকার গুণমান পরিবর্তন বৃহত্তর २. সত্তা প্রকার সীমিত: শুধুমাত্র তিনটি সত্তা প্রকার কভার করে, পদ্ধতি, সামাজিক নির্ধারক ইত্যাদি জড়িত নয় ३. জটিল কাজ অনুপস্থিত: দৃঢ়তা অবস্থা (যেমন নেতিবাচক) বা সম্পর্ক নিষ্কাশন কাজ পরিচালনা করে না ४. প্রম্পট ইঞ্জিনিয়ারিং অপর্যাপ্ত: সমস্ত LLM একই প্রম্পট ব্যবহার করে, লক্ষ্য-নির্দিষ্ট অপ্টিমাইজেশন নেই ५. পরীক্ষা সেট গুণমান: টীকা অসামঞ্জস্য সমস্যা বিদ্যমান

ভবিষ্যত দিকনির্দেশনা

१. আরও সত্তা প্রকার এবং জটিল NER কাজে সম্প্রসারণ २. প্রম্পট ইঞ্জিনিয়ারিং কৌশল উন্নত করা ३. আরও উন্নত পরিশোধন প্রযুক্তি অন্বেষণ করা ४ পরীক্ষা সেট টীকা গুণমান উন্নত করা

গভীর মূল্যায়ন

সুবিধা

१. ব্যবহারিকতা শক্তিশালী: LLM স্থাপনা খরচ উচ্চ ব্যবহারিক সমস্যা সমাধান করেছে २. পদ্ধতি পদ্ধতিগত: বহু-শিক্ষক সমন্বয় কৌশল ব্যাপক মূল্যায়ন করেছে ३. যাচাইকরণ পর্যাপ্ত: বাহ্যিক যাচাইকরণ এবং বিস্তারিত ত্রুটি বিশ্লেষণ অন্তর্ভুক্ত করেছে ४. খোলা স্বচ্ছতা: কোড এবং বিস্তারিত পরীক্ষামূলক সেটআপ প্রদান করেছে ५. খরচ পরিমাণ: নির্দিষ্ট সময় এবং খরচ তুলনা ডেটা প্রদান করেছে

অপূর্ণতা

१. উদ্ভাবন সীমিত: জ্ঞান পরিশোধন নিজেই নতুন প্রযুক্তি নয়, প্রধান অবদান প্রয়োগ স্তরে २. বেঞ্চমার্ক তুলনা অপর্যাপ্ত: অন্যান্য পরিশোধন পদ্ধতির সাথে সরাসরি তুলনা অনুপস্থিত ३. তাত্ত্বিক বিশ্লেষণ অনুপস্থিত: কেন নির্দিষ্ট শিক্ষক সমন্বয় আরও ভাল কাজ করে তা গভীরভাবে বিশ্লেষণ করে না ४. প্রযোজ্যতা সীমাবদ্ধতা: প্রধানত ইংরেজি ক্লিনিকাল পাঠের জন্য, সাধারণীকরণ ক্ষমতা যাচাই করা প্রয়োজন

প্রভাব

१. ব্যবহারিক মূল্য উচ্চ: ক্লিনিকাল NLP স্থাপনার জন্য সম্ভাব্য সমাধান প্রদান করেছে २. পুনরুৎপাদনযোগ্যতা ভাল: সম্পূর্ণ কোড এবং ডেটাসেট তথ্য প্রদান করেছে ३. প্রচার সম্ভাবনা বড়: পদ্ধতি অন্যান্য চিকিৎসা NLP কাজে সম্প্রসারণযোগ্য ४. খরচ-সংবেদনশীল প্রয়োগ: সম্পদ-সীমিত পরিবেশের জন্য গুরুত্বপূর্ণ

প্রযোজ্য দৃশ্যকল্প

१. হাসপাতাল তথ্য সিস্টেম: বড় সংখ্যক ক্লিনিকাল নোট রিয়েল-টাইম প্রক্রিয়াকরণ প্রয়োজন २. গবেষণা প্রতিষ্ঠান: গণনা সম্পদ সীমিত কিন্তু উচ্চ-গুণমান NER প্রয়োজন ३. চিকিৎসা AI পণ্য: কর্মক্ষমতা এবং স্থাপনা খরচ ভারসাম্য প্রয়োজন ४. বহুভাষিক সম্প্রসারণ: অন্যান্য ভাষা ক্লিনিকাল NER এর ভিত্তি হিসাবে কাজ করতে পারে

সংদর্ভ

পেপার ৬१টি সম্পর্কিত সাহিত্য উদ্ধৃত করেছে, প্রধানত অন্তর্ভুক্ত:

BERT সম্পর্কিত কাজ: Devlin et al. (2019), Lee et al. (2020) BioBERT
জ্ঞান পরিশোধন: Hinton et al. (2015), Zhou et al. (2024)
ক্লিনিকাল NLP: Henry et al. (2020) n2c2, Fleming et al. (2023) MedAlign
চিকিৎসা অন্টোলজি: Bodenreider (2004) UMLS, Liu et al. (2005) RxNorm

এই গবেষণা ক্লিনিকাল তথ্য নিষ্কাশন ক্ষেত্রের জন্য একটি ব্যবহারিক এবং দক্ষ সমাধান প্রদান করেছে, জ্ঞান পরিশোধন প্রযুক্তির মাধ্যমে মডেল কর্মক্ষমতা এবং স্থাপনা খরচ সফলভাবে ভারসাম্য করেছে, গুরুত্বপূর্ণ ব্যবহারিক মূল্য এবং প্রচার তাৎপর্য রয়েছে।