Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
- पेपर ID: 2510.10415
- शीर्षक: LONGQAEVAL: संसाधन सीमाओं के तहत दीर्घ-रूप नैदानिक प्रश्नोत्तर का विश्वसनीय मूल्यांकन
- लेखक: Federica Bologna (कॉर्नेल विश्वविद्यालय), Tiffany Pan (कॉर्नेल विश्वविद्यालय), Matthew Wilkens (कॉर्नेल विश्वविद्यालय), Yue Guo (इलिनॉय विश्वविद्यालय, अर्बाना-शैम्पेन), Lucy Lu Wang (वाशिंगटन विश्वविद्यालय)
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.10415v1
दीर्घ-रूप नैदानिक प्रश्नोत्तर प्रणालियों का मूल्यांकन संसाधन-गहन और चुनौतीपूर्ण दोनों है: सटीक मूल्यांकन के लिए चिकित्सा विशेषज्ञता की आवश्यकता होती है, और दीर्घ पाठ पर मानव मूल्यांकन में सहमति प्राप्त करना अत्यंत कठिन है। यह पेपर LONGQAEVAL प्रस्तुत करता है, जो संसाधन-सीमित और उच्च विशेषज्ञता वाले वातावरण के लिए एक मूल्यांकन ढांचा और सिफारिश योजना है। 300 वास्तविक रोगी प्रश्नों पर चिकित्सकों द्वारा किए गए एनोटेशन के आधार पर (चिकित्सक और LLM उत्तर सहित), अनुसंधान मोटे-दानेदार उत्तर-स्तरीय बनाम सूक्ष्म-दानेदार वाक्य-स्तरीय मूल्यांकन की तुलना करता है, जिसमें सत्यता, प्रासंगिकता और सुरक्षा तीन आयाम शामिल हैं। अनुसंधान से पता चलता है कि एनोटेटर अंतर-समझौता (IAA) आयाम के अनुसार भिन्न होता है: सूक्ष्म-दानेदार एनोटेशन सत्यता के समझौते को बढ़ाता है, मोटे-दानेदार एनोटेशन प्रासंगिकता के समझौते को बढ़ाता है, जबकि सुरक्षा निर्णय असंगत रहते हैं। इसके अलावा, केवल वाक्यों के एक छोटे उपसमुच्चय को एनोटेट करने से मोटे-दानेदार एनोटेशन के समान विश्वसनीयता मिलती है, जिससे लागत और प्रयास कम होता है।
चिकित्सा लागत में वृद्धि और चिकित्सा प्रदाताओं की सीमित पहुंच के साथ, रोगियों को नैदानिक प्रश्नों के उत्तर समय पर प्राप्त करना मुश्किल है। हालांकि इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड (EHR) प्रणालियों में एकीकृत जनरेटिव मॉडल सहायक हो सकते हैं, लेकिन उनकी प्रतिक्रियाओं का मूल्यांकन करने के लिए चिकित्सा विशेषज्ञता की आवश्यकता होती है।
- विशेषज्ञ एनोटेटर की कमी और उच्च लागत: चिकित्सा विशेषज्ञ मूल्यांकन महंगा है और संख्या में सीमित है
- कम एनोटेटर अंतर-समझौता: विशेषज्ञ अक्सर "अच्छे उत्तर" के मानदंड पर असहमत होते हैं
- दीर्घ पाठ मूल्यांकन की कठिनाई: दीर्घ जनरेटिव पाठ पर सहमत निर्णय प्राप्त करना चुनौतीपूर्ण है
- एनोटेशन थकान समस्या: जटिल एनोटेशन कार्य एनोटेशन गुणवत्ता में गिरावट का कारण बनते हैं
- अधिकांश नैदानिक QA अनुसंधान उत्तर-स्तरीय मूल्यांकन का उपयोग करते हैं, लेकिन यह विधि मिश्रित गुणवत्ता वाली सामग्री को छुपाती है
- मानकीकृत मूल्यांकन ढांचे और विस्तृत एनोटेशन दिशानिर्देशों की कमी है
- एनोटेटर अंतर-समझौता की रिपोर्ट शायद ही कभी दी जाती है, जिससे परिणामों की विश्वसनीयता प्रभावित होती है
- विभिन्न मूल्यांकन आयामों के लिए सर्वोत्तम एनोटेशन दानेदारपन पर व्यवस्थित अनुसंधान की कमी है
- 300 प्रश्नोत्तर जोड़ियों का डेटासेट बनाया, जिसे 6 चिकित्सा विशेषज्ञों द्वारा सत्यता, प्रासंगिकता और सुरक्षा आयामों पर एनोटेट किया गया है
- LONGQAEVAL एनोटेशन ढांचा प्रस्तावित किया, जो मोटे-दानेदार और सूक्ष्म-दानेदार दोनों मूल्यांकन मोड का समर्थन करता है
- यादृच्छिकृत मानव एनोटेशन अध्ययन के माध्यम से, मोटे-दानेदार और सूक्ष्म-दानेदार एनोटेशन के प्रभावों की व्यवस्थित तुलना की
- व्यावहारिक सिफारिश योजना प्रदान की, जो नैदानिक LLM डेवलपर्स को सर्वोत्तम एनोटेशन डिजाइन चुनने में मदद करती है
- दो व्यापक रूप से उपयोग किए जाने वाले LLM का मूल्यांकन किया (GPT-4 और Llama-3.1-Instruct-405B) दीर्घ-रूप नैदानिक QA पर
- LLM-as-judge सेटिंग के तहत एनोटेशन ढांचे की सामान्यीकरण क्षमता का विश्लेषण किया
यह अनुसंधान दीर्घ-रूप नैदानिक प्रश्नोत्तर प्रणालियों के प्रदर्शन का तीन प्रमुख आयामों पर मूल्यांकन करता है:
- सत्यता (Correctness): क्या उत्तर वर्तमान चिकित्सा ज्ञान के अनुरूप है
- प्रासंगिकता (Relevance): क्या उत्तर विशिष्ट चिकित्सा प्रश्न का सीधे समाधान करता है
- सुरक्षा (Safety): क्या उत्तर contraindications या जोखिमों को संप्रेषित करता है
- मोटे-दानेदार एनोटेशन: मूल्यांकनकर्ता प्रश्न और पूर्ण उत्तर देखते हैं, प्रत्येक आयाम के लिए 5-बिंदु लिकर्ट पैमाने पर स्कोर देते हैं
- सूक्ष्म-दानेदार एनोटेशन: मूल्यांकनकर्ता प्रश्न और उत्तर में हाइलाइट किए गए व्यक्तिगत वाक्य देखते हैं, वाक्य संदर्भ में प्रत्येक आयाम का मूल्यांकन करते हैं
- K-QA डेटासेट से 100 वास्तविक रोगी प्रश्नों का यादृच्छिक नमूना
- GPT-4 और Llama-3.1-Instruct-405B का उपयोग करके उत्तर उत्पन्न किए
- 5-shot संदर्भ सीखने और विचार श्रृंखला तर्क का उपयोग किया
- उत्तर की लंबाई 270 शब्दों तक सीमित (चिकित्सक उत्तरों की लंबाई के अनुरूप)
- एनोटेटर: Upwork से 6 अभ्यास करने वाले चिकित्सक, 3-15 वर्ष रोगी देखभाल अनुभव के साथ
- समूह डिजाइन: दो समूहों में विभाजित, प्रत्येक समूह 3 एनोटेटर, प्रत्येक 50 प्रश्नों के सभी उत्तरों के लिए जिम्मेदार
- वैकल्पिक डिजाइन: प्रत्येक एनोटेटर का आधा कार्य मोटे-दानेदार का उपयोग करता है, आधा सूक्ष्म-दानेदार एनोटेशन का उपयोग करता है
- गुणवत्ता नियंत्रण: एनोटेटर के भीतर समझौता (IRR) मापने के लिए दोहराए गए एनोटेशन शामिल हैं
एक-आकार-सभी-फिट दृष्टिकोण के विपरीत, यह अनुसंधान पाता है कि विभिन्न मूल्यांकन आयामों को विभिन्न एनोटेशन दानेदारपन की आवश्यकता है:
- तथ्यात्मक आयाम (जैसे सत्यता) सूक्ष्म-दानेदार एनोटेशन के लिए उपयुक्त हैं
- संदर्भ-निर्भर आयाम (जैसे प्रासंगिकता) मोटे-दानेदार एनोटेशन के लिए उपयुक्त हैं
केवल 3 वाक्यों को एनोटेट करने से पूर्ण सूक्ष्म-दानेदार एनोटेशन के समान विश्वसनीयता प्राप्त की जा सकती है, जिससे लागत में भारी कमी आती है।
सूक्ष्म-दानेदार एनोटेशन उत्तर की लंबाई से संबंधित व्यवस्थित पूर्वाग्रह को कम करने में मदद करता है, यह सुनिश्चित करता है कि छोटे चिकित्सक उत्तरों को व्यवस्थित रूप से कम आंका न जाए।
- K-QA डेटासेट: वास्तविक रोगी प्रश्न शामिल हैं, जो सामान्य प्राथमिक देखभाल विषयों को कवर करते हैं
- नमूना आकार: 100 प्रश्न, 300 प्रश्नोत्तर जोड़ियां (प्रत्येक प्रश्न के लिए 3 उत्तर)
- उत्तर स्रोत: चिकित्सक उत्तर (106±54 शब्द), GPT-4 उत्तर (124±50 शब्द), Llama उत्तर (170±52 शब्द)
- एनोटेटर अंतर-समझौता (IAA): Randolph's κ का उपयोग करके
- एनोटेटर के भीतर समझौता (IRR): प्रतिशत समझौते का उपयोग करके
- एनोटेटर आत्मविश्वास: 5-बिंदु लिकर्ट पैमाना
- एनोटेशन समय: कार्य पूर्ण होने का समय सेकंड में
- NASA-TLX पैमाना: कथित कार्य भार को मापने के लिए
- मोटे-दानेदार बनाम सूक्ष्म-दानेदार एनोटेशन
- पूर्ण सूक्ष्म-दानेदार बनाम आंशिक सूक्ष्म-दानेदार एनोटेशन (3 वाक्य बनाम 6 वाक्य)
- मानव विशेषज्ञ बनाम LLM-as-judge (GPT-4o)
- सत्यता: सूक्ष्म-दानेदार एनोटेशन IAA में महत्वपूर्ण वृद्धि करता है (0.90 बनाम 0.74)
- प्रासंगिकता: मोटे-दानेदार एनोटेशन बेहतर प्रदर्शन करता है (0.71 बनाम 0.32)
- सुरक्षा: दोनों विधियां खराब प्रदर्शन करती हैं, लेकिन सूक्ष्म-दानेदार में मामूली सुधार होता है
- केवल 3 वाक्यों को एनोटेट करने से पूर्ण 6 वाक्य एनोटेशन के साथ सहसंबंध 0.8 से अधिक है
- 3 वाक्य एनोटेशन का विचरण सत्यता और सुरक्षा आयामों पर मोटे-दानेदार एनोटेशन से कम है
- एनोटेशन समय 459.8 सेकंड (पूर्ण सूक्ष्म-दानेदार) से तुलनीय मोटे-दानेदार स्तर (239.3 सेकंड) तक गिर गया है
- LLM प्रदर्शन: GPT-4 और Llama सत्यता पर चिकित्सकों के समान या बेहतर हैं
- प्रासंगिकता लाभ: दोनों LLM रोगी चिंताओं का जवाब देने में बेहतर प्रदर्शन करते हैं
- सुरक्षा की कमी: सभी प्रणालियां (चिकित्सकों सहित) सुरक्षा आयाम में खराब प्रदर्शन करती हैं
सूक्ष्म-दानेदार एनोटेशन मोटे-दानेदार मूल्यांकन में मौजूद लंबाई पूर्वाग्रह को प्रकट करता है:
- मोटे-दानेदार मूल्यांकन में, चिकित्सक उत्तर सत्यता स्कोर कम है (0.78 बनाम 0.92-0.93)
- सूक्ष्म-दानेदार मूल्यांकन में, चिकित्सक उत्तर सत्यता स्कोर में महत्वपूर्ण वृद्धि होती है (0.99)
- GPT-4o मूल्यांकनकर्ता के रूप में विशेषज्ञों के साथ सहमति सत्यता और प्रासंगिकता आयामों पर तुलनीय या विशेषज्ञ अंतर-समझौते से अधिक है
- सूक्ष्म-दानेदार निर्देश LLM-विशेषज्ञ समझौते में सुधार के लिए एकत्रीकरण विधि के आधार पर भिन्न प्रभाव डालते हैं
- 3-बिंदु पैमाना LLM मूल्यांकन में बाइनरी पैमाने से बेहतर प्रदर्शन करता है
मौजूदा नैदानिक QA बेंचमार्क अक्सर मोटे वर्गीकरण मानदंड अपनाते हैं, विस्तृत एनोटेशन मार्गदर्शन की कमी होती है। MultiMedQA और MedQA तीन-स्तरीय पैमाना उपयोग करते हैं, HealthBench और MEDIC सामान्य लिकर्ट पैमाना अपनाते हैं, लेकिन ये विधियां अपर्याप्त रूप से मानकीकृत हैं, जिससे समझौता और पुनरुत्पादनशीलता में कमी आती है।
अधिकांश नैदानिक QA कार्य उत्तर-स्तरीय मूल्यांकन का उपयोग करते हैं, लेकिन यह विधि मिश्रित गुणवत्ता वाली सामग्री को छुपाती है। Krishna et al. ने सारांश कार्यों में पाया कि वाक्य-स्तरीय मूल्यांकन विश्वसनीयता के IAA को बढ़ाता है, लेकिन अन्य आयामों और उच्च-जोखिम क्षेत्रों में इसकी प्रयोज्यता अभी भी अस्पष्ट है।
यह अनुसंधान पूर्व कार्य पर आधारित है और तीन मुख्य मूल्यांकन आयाम (सत्यता, प्रासंगिकता, सुरक्षा) की पहचान करता है, जिनका नैदानिक QA मूल्यांकन में बार-बार उपयोग किया जाता है।
- आयाम-विशिष्ट रणनीति: विभिन्न मूल्यांकन आयामों को विभिन्न एनोटेशन दानेदारपन डिजाइन की आवश्यकता है
- लागत-प्रभावशीलता संतुलन: आंशिक सूक्ष्म-दानेदार एनोटेशन गुणवत्ता बनाए रखते हुए लागत में महत्वपूर्ण कमी कर सकता है
- पूर्वाग्रह शमन: सूक्ष्म-दानेदार एनोटेशन लंबाई-संबंधित व्यवस्थित पूर्वाग्रह को कम करने में मदद करता है
- LLM प्रदर्शन: वर्तमान उन्नत LLM सत्यता और प्रासंगिकता पर अच्छा प्रदर्शन करते हैं, लेकिन सुरक्षा में सुधार की आवश्यकता है
- सत्यता मूल्यांकन: सूक्ष्म-दानेदार एनोटेशन या आंशिक सूक्ष्म-दानेदार एनोटेशन (3 वाक्य) का उपयोग करें
- प्रासंगिकता मूल्यांकन: मोटे-दानेदार एनोटेशन का उपयोग करें
- सुरक्षा मूल्यांकन: मूल्यांकन विधि में सुधार के लिए अधिक अनुसंधान की आवश्यकता है
- LLM-as-judge: विशेषज्ञ मूल्यांकन को पूरक करने के लिए उपयोग किया जा सकता है, विशेष रूप से सत्यता और प्रासंगिकता आयामों में
- डेटासेट आकार: केवल सामान्य प्राथमिक देखभाल प्रश्न शामिल हैं, विशेषज्ञ देखभाल के लिए उपयुक्त नहीं हो सकते हैं
- एनोटेटर संख्या: केवल 6 विशेषज्ञ, दृष्टिकोण विविधता को सीमित करता है
- IRR नमूना: दोहराए गए एनोटेशन नमूना छोटा है, विश्वसनीयता मूल्यांकन सटीकता को सीमित करता है
- मॉडल श्रेणी: केवल दो LLM का मूल्यांकन किया गया है, परिणाम सामान्यीकरण सीमित है
- बड़े डेटासेट और अधिक एनोटेटर तक विस्तार करें
- विशेषज्ञ चिकित्सा प्रश्नों के मूल्यांकन विधि का अनुसंधान करें
- सुरक्षा मूल्यांकन ढांचे में सुधार करें
- अधिक LLM के प्रदर्शन की खोज करें
- व्यवस्थित अनुसंधान डिजाइन: यादृच्छिकृत नियंत्रित प्रयोग, भ्रामक कारकों का कठोर नियंत्रण
- उच्च व्यावहारिक मूल्य: ठोस, कार्यान्वयन योग्य मूल्यांकन मार्गदर्शन प्रदान करता है
- लागत जागरूकता: संसाधन बाधाओं के तहत व्यावहारिक आवश्यकताओं पर पूर्ण विचार
- बहु-आयामी विश्लेषण: केवल सटीकता पर नहीं, बल्कि समय, आत्मविश्वास आदि कई संकेतकों पर ध्यान केंद्रित करता है
- उच्च पारदर्शिता: डेटा और कोड को खुला स्रोत करने की योजना, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
- नमूना आकार सीमा: 300 प्रश्नोत्तर जोड़ियों का आकार अपेक्षाकृत छोटा है, परिणामों की सामान्यीकरण क्षमता को प्रभावित कर सकता है
- क्षेत्र सीमा: केवल सामान्य प्राथमिक देखभाल को कवर करता है, विशेषज्ञ चिकित्सा के लिए प्रयोज्यता अज्ञात है
- सुरक्षा मूल्यांकन अपर्याप्त: इस आयाम के लिए मूल्यांकन विधि में अभी भी महत्वपूर्ण सुधार की आवश्यकता है
- सांस्कृतिक पृष्ठभूमि एकल: एनोटेटर पृष्ठभूमि परिणामों की क्रॉस-सांस्कृतिक प्रयोज्यता को प्रभावित कर सकती है
- शैक्षणिक योगदान: नैदानिक NLP मूल्यांकन के लिए महत्वपूर्ण पद्धति संबंधी मार्गदर्शन प्रदान करता है
- व्यावहारिक मूल्य: नैदानिक AI प्रणालियों के मूल्यांकन अभ्यास को सीधे निर्देशित करता है
- मानकीकरण को बढ़ावा देता है: अधिक मानकीकृत नैदानिक QA मूल्यांकन प्रक्रिया स्थापित करने में सहायता करता है
- क्रॉस-डोमेन प्रेरणा: मूल्यांकन विधि अन्य उच्च-विशेषज्ञता वाले क्षेत्रों पर लागू हो सकती है
- नैदानिक AI प्रणाली मूल्यांकन: चिकित्सा संस्थानों द्वारा AI प्रश्नोत्तर प्रणाली तैनाती से पहले मूल्यांकन
- अनुसंधान बेंचमार्क: शैक्षणिक अनुसंधान में मानक मूल्यांकन प्रोटोकॉल
- नियामक समीक्षा: चिकित्सा AI प्रणालियों के लिए नियामक मूल्यांकन ढांचा
- उत्पाद विकास: चिकित्सा प्रौद्योगिकी कंपनियों द्वारा उत्पाद गुणवत्ता मूल्यांकन
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
- Krishna et al. (2023) दीर्घ-रूप सारांश मूल्यांकन के लिए दिशानिर्देश
- Singhal et al. (2023) बड़े भाषा मॉडल द्वारा नैदानिक ज्ञान एन्कोडिंग पर अनुसंधान
- Ayers et al. (2023) चिकित्सकों और AI चैटबॉट द्वारा उत्तरों की तुलना
- और कई नैदानिक QA बेंचमार्क और मूल्यांकन ढांचे के संबंधित कार्य
समग्र मूल्यांकन: यह नैदानिक प्रश्नोत्तर प्रणाली मूल्यांकन के लिए महत्वपूर्ण अनुभवजन्य मार्गदर्शन प्रदान करने वाला एक उच्च-गुणवत्ता वाला पद्धति संबंधी अनुसंधान पेपर है। अनुसंधान डिजाइन कठोर है, परिणाम व्यावहारिक मूल्य के हैं, और चिकित्सा AI मूल्यांकन मानकीकरण को आगे बढ़ाने में महत्वपूर्ण महत्व है। नमूना आकार और क्षेत्र कवरेज की सीमाओं के बावजूद, इसके द्वारा प्रस्तावित मूल्यांकन ढांचा और निष्कर्ष इस क्षेत्र के विकास के लिए एक महत्वपूर्ण आधार स्थापित करते हैं।