এই গবেষণা জ্ঞান পরিশোধন প্রযুক্তির মাধ্যমে বড় ভাষা মডেলের জ্ঞান প্রায় ১০০০ গুণ ছোট BERT মডেলে স্থানান্তরিত করে ক্লিনিকাল নামকরণ সত্তা স্বীকৃতি কাজের জন্য। গবেষণা সর্বশেষ LLM (জেমিনি এবং OpenAI মডেল) এবং চিকিৎসা অন্টোলজি (RxNorm এবং SNOMED) ব্যবহার করে শিক্ষক টীকাকার হিসাবে, ৩৩০০ এরও বেশি ক্লিনিকাল নোটে ওষুধ, রোগ এবং উপসর্গ নিষ্কাশন করে। পরিশোধিত BERT মডেল অনুরূপ কর্মক্ষমতা বজায় রেখে অনুমান গতি ৪-১২ গুণ বৃদ্ধি করে এবং খরচ ২-১০১ গুণ হ্রাস করে, ক্লিনিকাল তথ্য নিষ্কাশনের জন্য একটি দক্ষ এবং স্কেলেবল সমাধান প্রদান করে।
ইলেকট্রনিক স্বাস্থ্য রেকর্ডে ক্লিনিকাল নোটগুলি প্রচুর মূল্যবান অ-কাঠামোগত তথ্য ধারণ করে, যা প্রায়শই কাঠামোগত ক্ষেত্রে প্রতিফলিত হয় না। মুক্ত পাঠ্য তথ্যকে কাঠামোগত ডেটায় রূপান্তরিত করা সমন্বয় নির্বাচন, পর্যবেক্ষণমূলক বিশ্লেষণ এবং প্রশ্নোত্তর সিস্টেমের জন্য গুরুত্বপূর্ণ, তবে ক্লিনিকাল নোট থেকে তথ্য নিষ্কাশন এখনও চ্যালেঞ্জিং।
১. ঐতিহ্যবাহী পদ্ধতি: নিয়ম-ভিত্তিক পদ্ধতি স্ট্রিং ম্যাচিং এবং চিকিৎসা অন্টোলজি ব্যবহার করে, যদিও ব্যাখ্যাযোগ্য এবং গণনামূলকভাবে দক্ষ, প্রায়শই ক্লিনিকাল সত্তার বৈচিত্র্যময় প্রতিনিধিত্ব ক্যাপচার করতে পারে না, যার মধ্যে রয়েছে সমার্থক শব্দ, সংক্ষিপ্তকরণ, সূক্ষ্ম বর্ণনা এবং বানান ত্রুটি।
२. মেশিন লার্নিং পদ্ধতি: BERT-শ্রেণীর মডেলগুলি উচ্চতর কর্মক্ষমতা প্রদর্শন করে, তবে বর্তমান ক্লিনিকাল NER মডেলগুলি প্রায়শই নির্দিষ্ট ডোমেইন বা সত্তা প্রকারের উপর দৃষ্টি নিবদ্ধ করে, ব্যাপক প্রযোজ্যতা সীমিত করে। সূক্ষ্ম-সুর করার জন্য প্রচুর টীকাযুক্ত ডেটা প্রয়োজন, যা ব্যয়বহুল এবং সময়সাপেক্ষ।
३. বড় ভাষা মডেল: LLM গুলি ক্লিনিকাল NER কাজে উচ্চতর কর্মক্ষমতা প্রদর্শন করে, তবে প্রচুর গণনা সম্পদ প্রয়োজন, ব্যয়বহুল, এবং মালিকানাধীন LLM গুলি সুরক্ষিত স্বাস্থ্য তথ্য প্রক্রিয়া করার জন্য HIPAA-সামঞ্জস্যপূর্ণ এন্ডপয়েন্ট প্রয়োজন।
জ্ঞান পরিশোধন প্রযুক্তি এই চ্যালেঞ্জগুলি সমাধানের জন্য একটি প্রতিশ্রুতিশীল সমাধান প্রদান করে, বড় মডেলের জ্ঞান ছোট মডেলে স্থানান্তরিত করতে সক্ষম, ডোমেইন-নির্দিষ্ট BERT মডেলের সীমাবদ্ধতা সমাধান করে এবং গণনামূলকভাবে ব্যয়বহুল LLM গুলির স্থাপনার সমস্যা এড়ায়।
१. বহু-শিক্ষক টীকাকার সিস্টেম: সর্বশেষ LLM (জেমিনি এবং OpenAI মডেল) এবং চিকিৎসা অন্টোলজি (RxNorm এবং SNOMED) একত্রিত করে শিক্ষক টীকাকার বিকাশ করেছে, বিভিন্ন নোট প্রকারের ক্লিনিকাল NER কাজের জন্য।
२. দক্ষ পরিশোধিত মডেল: BERT-ভিত্তিক পরিশোধিত মডেল তৈরি এবং প্রকাশ করেছে, আধুনিক LLM এর প্রায় ১/১০০০ আকার, ২০০০ এরও বেশি ক্লিনিকাল ডকুমেন্টে প্রশিক্ষিত, যার মধ্যে রয়েছে টিউমার অগ্রগতি নোট, ছাড়পত্র সারসংক্ষেপ, রেডিওলজি রিপোর্ট এবং বৈজ্ঞানিক সারসংক্ষেপ।
३. ব্যাপক মূল্যায়ন যাচাইকরণ: পাঁচটি জনসাধারণ ক্লিনিকাল ডেটাসেটে সমন্বিত মূল্যায়ন পরিচালনা করেছে, যার মধ্যে রয়েছে মডেল ব্যর্থতার প্যাটার্ন বিশ্লেষণ এবং স্বাস্থ্য সিস্টেম জুড়ে বাহ্যিক যাচাইকরণ বিশ্লেষণ।
এই গবেষণা তিনটি ভিন্ন NER কাজের উপর দৃষ্টি নিবদ্ধ করে:
প্রতিটি কাজ "অভ্যন্তরীণ-বাহ্যিক" (IO) টীকা ফর্ম্যাট ব্যবহার করে, সত্তার মধ্যে শব্দগুলি "অভ্যন্তরীণ" হিসাবে চিহ্নিত করা হয়, অন্যান্য শব্দগুলি "বাহ্যিক" হিসাবে চিহ্নিত করা হয়।
१. LLM টীকাকার: চারটি সর্বশেষ LLM কে শিক্ষক টীকাকার হিসাবে মূল্যায়ন করেছে
२. অন্টোলজি টীকাকার: BioPortal টীকা API ব্যবহার করে জৈব চিকিৎসা অন্টোলজি অ্যাক্সেস করেছে
३. সর্বোত্তম শিক্ষক সমন্বয়: পাঁচটি শিক্ষক টীকাকারের সমস্ত ৩১টি সম্ভাব্য উপসেট সমন্বয় মূল্যায়ন করেছে, উন্নয়ন সেটে F1 স্কোর সর্বোচ্চ সমন্বয় নির্বাচন করেছে।
প্রতিটি NER কাজের জন্য, সর্বোত্তম শিক্ষক টীকা পাইপলাইন ব্যবহার করে প্রশিক্ষণ লেবেল তৈরি করেছে, তারপর স্বাধীন BERT মডেল সূক্ষ্ম-সুর করেছে:
প্রশিক্ষণ পরামিতি: শেখার হার=२×१०⁻⁵, ব্যাচ আকার=८, ওজন ক্ষয়=०.०१, १० যুগের জন্য প্রশিক্ষণ।
१. বহু-শিক্ষক সংমিশ্রণ কৌশল: বিদ্যমান গবেষণা একক শিক্ষক মডেল ব্যবহার করার বিপরীতে, এই গবেষণা LLM এবং অন্টোলজির ३१টি সমন্বয় পদ্ধতিগতভাবে মূল্যায়ন করেছে, বিভিন্ন কাজের জন্য সর্বোত্তম সমন্বয় নির্বাচন করেছে।
२. ক্রস-ডোমেইন সাধারণীকরণ ক্ষমতা: একাধিক ক্লিনিকাল নোট প্রকারে প্রশিক্ষণ এবং পরীক্ষা করেছে, যার মধ্যে রয়েছে ছাড়পত্র সারসংক্ষেপ, অগ্রগতি নোট, রেডিওলজি রিপোর্ট ইত্যাদি।
३. খরচ-কার্যকারিতা বিশ্লেষণ: বিস্তারিত অনুমান সময় এবং খরচ তুলনা প্রদান করেছে, পরিশোধিত মডেলের প্রকৃত স্থাপনা সুবিধা পরিমাণ করেছে।
१. n2c2 2018 ট্র্যাক 2: ৫০৫টি MIMIC-III ছাড়পত্র সারসংক্ষেপ, বিশেষজ্ঞ-টীকাযুক্ত ওষুধ নিষ্কাশন
२. NCBI রোগ কর্পাস: ७९३টি PubMed সারসংক্ষেপ, বিশেষজ্ঞ-টীকাযুক্ত রোগ নিষ্কাশন
३. CORAL ডেটাসেট: ४०টি রোগীর বিঘ্নিত অগ্রগতি নোট (२०টি স্তন ক্যান্সার, २०টি অগ্ন্যাশয় ক্যান্সার)
সমস্ত উপলব্ধ ডেটাসেট একত্রিত করেছে, যার মধ্যে ১০০০টি MIMIC-III ক্লিনিকাল নোট (ডকুমেন্ট প্রকার দ্বারা স্তরযুক্ত নমুনা), চূড়ান্ত শিক্ষক টীকা ডেটাসেট २०९६টি ডকুমেন্ট অন্তর্ভুক্ত করে।
MedAlign ডেটাসেট ব্যবহার করে বাহ্যিক যাচাইকরণ পরিচালনা করেছে, যার মধ্যে রয়েছে স্ট্যানফোর্ড হাসপাতাল এবং Lucile Packard শিশু হাসপাতালের २७६টি দীর্ঘমেয়াদী রোগীর রেকর্ড।
টোকেন-স্তরের নির্ভুলতা, প্রত্যাহার এবং F1 স্কোর ব্যবহার করেছে, মানব টীকা সোনার মান হিসাবে।
| কাজ | সর্বোত্তম সমন্বয় | F1 স্কোর |
|---|---|---|
| রোগ নিষ্কাশন | o1-mini | 0.787 |
| ওষুধ নিষ্কাশন | জেমিনি-1.5-ফ্ল্যাশ + GPT-4o | 0.881 |
| উপসর্গ নিষ্কাশন | জেমিনি-1.5-ফ্ল্যাশ + GPT-4o | 0.801 |
| কাজ | মানব লেবেল+BERT | শিক্ষক লেবেল+BERT | শুধুমাত্র শিক্ষক টীকাকার |
|---|---|---|---|
| রোগ নিষ্কাশন | 0.89 | 0.84 | 0.82 |
| ওষুধ নিষ্কাশন | 0.91 | 0.87 | 0.84 |
| উপসর্গ নিষ্কাশন | - | 0.68 | 0.73 |
| মডেল | প্রতি নোট অনুমান সময় (সেকেন্ড) | প্রতি নোট খরচ (ডলার) |
|---|---|---|
| পরিশোধিত BioBERT | 0.14 | 0.000187 |
| GPT-4o | 1.66 (+1086%) | 0.0159 (+8402%) |
| o1-mini | 0.58 (+314%) | 0.0189 (+1001%) |
| জেমিনি ফ্ল্যাশ | 1.17 (+736%) | 0.000460 (+146%) |
MedAlign ডেটাসেটে কর্মক্ষমতা:
মানব পর্যালোচনার মাধ্যমে আবিষ্কার করেছে যে বেশিরভাগ মিথ্যা ইতিবাচক প্রকৃতপক্ষে টীকা সেট ত্রুটির কারণে:
१. কর্মক্ষমতা স্তর: মানব লেবেল সূক্ষ্ম-সুর > শিক্ষক লেবেল পরিশোধন > সরাসরি শিক্ষক পূর্বাভাস २. অন্টোলজি সীমিত ভূমিকা: উপসর্গ নিষ্কাশনের সর্বোত্তম সমন্বয়ে অন্টোলজি টীকাকার অন্তর্ভুক্ত নয় ३. BioBERT সুবিধা: বেশিরভাগ কাজে সেরা কর্মক্ষমতা প্রদর্শন করেছে ४. খরচ-কার্যকারিতা উল্লেখযোগ্য: পরিশোধিত মডেল LLM এর চেয়ে २-१०१ গুণ সস্তা, ४-१२ গুণ দ্রুত
१. ঐতিহ্যবাহী পদ্ধতি: নিয়ম এবং অন্টোলজি-ভিত্তিক পদ্ধতি, যেমন UMLS २. গভীর শেখার পদ্ধতি: BERT-শ্রেণীর মডেল, BioBERT, ClinicalBERT ইত্যাদি ডোমেইন-নির্দিষ্ট ভেরিয়েন্ট সহ ३. দুর্বল তদারকি পদ্ধতি: যেমন TROVE, UMLS অন্টোলজি ব্যবহার করে দুর্বল লেবেল তৈরি করে BERT মডেল প্রশিক্ষণ
१. সাধারণ পরিশোধন: GPT-4 থেকে LLaMA ইত্যাদি মাঝারি আকারের মডেলে পরিশোধন २. চিকিৎসা ডোমেইন পরিশোধন: DistilFLERT এবং পরিশোধিত PubMedBERT চিকিৎসা প্রয়োগে সাফল্য
१. বহু-শিক্ষক সংমিশ্রণ: LLM এবং অন্টোলজির সমন্বয় প্রভাব পদ্ধতিগতভাবে মূল্যায়ন করেছে २. ক্রস-ডোমেইন যাচাইকরণ: একাধিক নোট প্রকার এবং স্বাস্থ্য সিস্টেম জুড়ে সাধারণীকরণ ক্ষমতা যাচাই করেছে ३. ব্যাপক মূল্যায়ন: খরচ-কার্যকারিতা বিশ্লেষণ এবং বিস্তারিত ত্রুটি বিশ্লেষণ অন্তর্ভুক্ত করেছে
পরিশোধিত BERT মডেল ক্লিনিকাল NER কাজে উল্লেখযোগ্যভাবে কম গণনা খরচ এবং অনুমান সময়ে বড় LLM এর কাছাকাছি কর্মক্ষমতা অর্জন করতে পারে, ক্লিনিকাল তথ্য নিষ্কাশনের জন্য একটি ব্যবহারিক সমাধান প্রদান করে।
१. শিক্ষক গুণমান অসামঞ্জস্যপূর্ণ: বিশেষত উপসর্গ টীকার গুণমান পরিবর্তন বৃহত্তর २. সত্তা প্রকার সীমিত: শুধুমাত্র তিনটি সত্তা প্রকার কভার করে, পদ্ধতি, সামাজিক নির্ধারক ইত্যাদি জড়িত নয় ३. জটিল কাজ অনুপস্থিত: দৃঢ়তা অবস্থা (যেমন নেতিবাচক) বা সম্পর্ক নিষ্কাশন কাজ পরিচালনা করে না ४. প্রম্পট ইঞ্জিনিয়ারিং অপর্যাপ্ত: সমস্ত LLM একই প্রম্পট ব্যবহার করে, লক্ষ্য-নির্দিষ্ট অপ্টিমাইজেশন নেই ५. পরীক্ষা সেট গুণমান: টীকা অসামঞ্জস্য সমস্যা বিদ্যমান
१. আরও সত্তা প্রকার এবং জটিল NER কাজে সম্প্রসারণ २. প্রম্পট ইঞ্জিনিয়ারিং কৌশল উন্নত করা ३. আরও উন্নত পরিশোধন প্রযুক্তি অন্বেষণ করা ४ পরীক্ষা সেট টীকা গুণমান উন্নত করা
१. ব্যবহারিকতা শক্তিশালী: LLM স্থাপনা খরচ উচ্চ ব্যবহারিক সমস্যা সমাধান করেছে २. পদ্ধতি পদ্ধতিগত: বহু-শিক্ষক সমন্বয় কৌশল ব্যাপক মূল্যায়ন করেছে ३. যাচাইকরণ পর্যাপ্ত: বাহ্যিক যাচাইকরণ এবং বিস্তারিত ত্রুটি বিশ্লেষণ অন্তর্ভুক্ত করেছে ४. খোলা স্বচ্ছতা: কোড এবং বিস্তারিত পরীক্ষামূলক সেটআপ প্রদান করেছে ५. খরচ পরিমাণ: নির্দিষ্ট সময় এবং খরচ তুলনা ডেটা প্রদান করেছে
१. উদ্ভাবন সীমিত: জ্ঞান পরিশোধন নিজেই নতুন প্রযুক্তি নয়, প্রধান অবদান প্রয়োগ স্তরে २. বেঞ্চমার্ক তুলনা অপর্যাপ্ত: অন্যান্য পরিশোধন পদ্ধতির সাথে সরাসরি তুলনা অনুপস্থিত ३. তাত্ত্বিক বিশ্লেষণ অনুপস্থিত: কেন নির্দিষ্ট শিক্ষক সমন্বয় আরও ভাল কাজ করে তা গভীরভাবে বিশ্লেষণ করে না ४. প্রযোজ্যতা সীমাবদ্ধতা: প্রধানত ইংরেজি ক্লিনিকাল পাঠের জন্য, সাধারণীকরণ ক্ষমতা যাচাই করা প্রয়োজন
१. ব্যবহারিক মূল্য উচ্চ: ক্লিনিকাল NLP স্থাপনার জন্য সম্ভাব্য সমাধান প্রদান করেছে २. পুনরুৎপাদনযোগ্যতা ভাল: সম্পূর্ণ কোড এবং ডেটাসেট তথ্য প্রদান করেছে ३. প্রচার সম্ভাবনা বড়: পদ্ধতি অন্যান্য চিকিৎসা NLP কাজে সম্প্রসারণযোগ্য ४. খরচ-সংবেদনশীল প্রয়োগ: সম্পদ-সীমিত পরিবেশের জন্য গুরুত্বপূর্ণ
१. হাসপাতাল তথ্য সিস্টেম: বড় সংখ্যক ক্লিনিকাল নোট রিয়েল-টাইম প্রক্রিয়াকরণ প্রয়োজন २. গবেষণা প্রতিষ্ঠান: গণনা সম্পদ সীমিত কিন্তু উচ্চ-গুণমান NER প্রয়োজন ३. চিকিৎসা AI পণ্য: কর্মক্ষমতা এবং স্থাপনা খরচ ভারসাম্য প্রয়োজন ४. বহুভাষিক সম্প্রসারণ: অন্যান্য ভাষা ক্লিনিকাল NER এর ভিত্তি হিসাবে কাজ করতে পারে
পেপার ৬१টি সম্পর্কিত সাহিত্য উদ্ধৃত করেছে, প্রধানত অন্তর্ভুক্ত:
এই গবেষণা ক্লিনিকাল তথ্য নিষ্কাশন ক্ষেত্রের জন্য একটি ব্যবহারিক এবং দক্ষ সমাধান প্রদান করেছে, জ্ঞান পরিশোধন প্রযুক্তির মাধ্যমে মডেল কর্মক্ষমতা এবং স্থাপনা খরচ সফলভাবে ভারসাম্য করেছে, গুরুত্বপূর্ণ ব্যবহারিক মূল্য এবং প্রচার তাৎপর্য রয়েছে।