2025-11-13T07:13:11.100190

LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints

Bologna, Pan, Wilkens et al.
Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
academic

LONGQAEVAL: संसाधन सीमाओं के तहत दीर्घ-रूप नैदानिक प्रश्नोत्तर का विश्वसनीय मूल्यांकन

बुनियादी जानकारी

  • पेपर ID: 2510.10415
  • शीर्षक: LONGQAEVAL: संसाधन सीमाओं के तहत दीर्घ-रूप नैदानिक प्रश्नोत्तर का विश्वसनीय मूल्यांकन
  • लेखक: Federica Bologna (कॉर्नेल विश्वविद्यालय), Tiffany Pan (कॉर्नेल विश्वविद्यालय), Matthew Wilkens (कॉर्नेल विश्वविद्यालय), Yue Guo (इलिनॉय विश्वविद्यालय, अर्बाना-शैम्पेन), Lucy Lu Wang (वाशिंगटन विश्वविद्यालय)
  • वर्गीकरण: cs.CL cs.AI
  • प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.10415v1

सारांश

दीर्घ-रूप नैदानिक प्रश्नोत्तर प्रणालियों का मूल्यांकन संसाधन-गहन और चुनौतीपूर्ण दोनों है: सटीक मूल्यांकन के लिए चिकित्सा विशेषज्ञता की आवश्यकता होती है, और दीर्घ पाठ पर मानव मूल्यांकन में सहमति प्राप्त करना अत्यंत कठिन है। यह पेपर LONGQAEVAL प्रस्तुत करता है, जो संसाधन-सीमित और उच्च विशेषज्ञता वाले वातावरण के लिए एक मूल्यांकन ढांचा और सिफारिश योजना है। 300 वास्तविक रोगी प्रश्नों पर चिकित्सकों द्वारा किए गए एनोटेशन के आधार पर (चिकित्सक और LLM उत्तर सहित), अनुसंधान मोटे-दानेदार उत्तर-स्तरीय बनाम सूक्ष्म-दानेदार वाक्य-स्तरीय मूल्यांकन की तुलना करता है, जिसमें सत्यता, प्रासंगिकता और सुरक्षा तीन आयाम शामिल हैं। अनुसंधान से पता चलता है कि एनोटेटर अंतर-समझौता (IAA) आयाम के अनुसार भिन्न होता है: सूक्ष्म-दानेदार एनोटेशन सत्यता के समझौते को बढ़ाता है, मोटे-दानेदार एनोटेशन प्रासंगिकता के समझौते को बढ़ाता है, जबकि सुरक्षा निर्णय असंगत रहते हैं। इसके अलावा, केवल वाक्यों के एक छोटे उपसमुच्चय को एनोटेट करने से मोटे-दानेदार एनोटेशन के समान विश्वसनीयता मिलती है, जिससे लागत और प्रयास कम होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

चिकित्सा लागत में वृद्धि और चिकित्सा प्रदाताओं की सीमित पहुंच के साथ, रोगियों को नैदानिक प्रश्नों के उत्तर समय पर प्राप्त करना मुश्किल है। हालांकि इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड (EHR) प्रणालियों में एकीकृत जनरेटिव मॉडल सहायक हो सकते हैं, लेकिन उनकी प्रतिक्रियाओं का मूल्यांकन करने के लिए चिकित्सा विशेषज्ञता की आवश्यकता होती है।

मुख्य चुनौतियां

  1. विशेषज्ञ एनोटेटर की कमी और उच्च लागत: चिकित्सा विशेषज्ञ मूल्यांकन महंगा है और संख्या में सीमित है
  2. कम एनोटेटर अंतर-समझौता: विशेषज्ञ अक्सर "अच्छे उत्तर" के मानदंड पर असहमत होते हैं
  3. दीर्घ पाठ मूल्यांकन की कठिनाई: दीर्घ जनरेटिव पाठ पर सहमत निर्णय प्राप्त करना चुनौतीपूर्ण है
  4. एनोटेशन थकान समस्या: जटिल एनोटेशन कार्य एनोटेशन गुणवत्ता में गिरावट का कारण बनते हैं

मौजूदा विधियों की सीमाएं

  • अधिकांश नैदानिक QA अनुसंधान उत्तर-स्तरीय मूल्यांकन का उपयोग करते हैं, लेकिन यह विधि मिश्रित गुणवत्ता वाली सामग्री को छुपाती है
  • मानकीकृत मूल्यांकन ढांचे और विस्तृत एनोटेशन दिशानिर्देशों की कमी है
  • एनोटेटर अंतर-समझौता की रिपोर्ट शायद ही कभी दी जाती है, जिससे परिणामों की विश्वसनीयता प्रभावित होती है
  • विभिन्न मूल्यांकन आयामों के लिए सर्वोत्तम एनोटेशन दानेदारपन पर व्यवस्थित अनुसंधान की कमी है

मुख्य योगदान

  1. 300 प्रश्नोत्तर जोड़ियों का डेटासेट बनाया, जिसे 6 चिकित्सा विशेषज्ञों द्वारा सत्यता, प्रासंगिकता और सुरक्षा आयामों पर एनोटेट किया गया है
  2. LONGQAEVAL एनोटेशन ढांचा प्रस्तावित किया, जो मोटे-दानेदार और सूक्ष्म-दानेदार दोनों मूल्यांकन मोड का समर्थन करता है
  3. यादृच्छिकृत मानव एनोटेशन अध्ययन के माध्यम से, मोटे-दानेदार और सूक्ष्म-दानेदार एनोटेशन के प्रभावों की व्यवस्थित तुलना की
  4. व्यावहारिक सिफारिश योजना प्रदान की, जो नैदानिक LLM डेवलपर्स को सर्वोत्तम एनोटेशन डिजाइन चुनने में मदद करती है
  5. दो व्यापक रूप से उपयोग किए जाने वाले LLM का मूल्यांकन किया (GPT-4 और Llama-3.1-Instruct-405B) दीर्घ-रूप नैदानिक QA पर
  6. LLM-as-judge सेटिंग के तहत एनोटेशन ढांचे की सामान्यीकरण क्षमता का विश्लेषण किया

विधि विवरण

कार्य परिभाषा

यह अनुसंधान दीर्घ-रूप नैदानिक प्रश्नोत्तर प्रणालियों के प्रदर्शन का तीन प्रमुख आयामों पर मूल्यांकन करता है:

  • सत्यता (Correctness): क्या उत्तर वर्तमान चिकित्सा ज्ञान के अनुरूप है
  • प्रासंगिकता (Relevance): क्या उत्तर विशिष्ट चिकित्सा प्रश्न का सीधे समाधान करता है
  • सुरक्षा (Safety): क्या उत्तर contraindications या जोखिमों को संप्रेषित करता है

मूल्यांकन ढांचा डिजाइन

दो एनोटेशन दानेदारपन

  1. मोटे-दानेदार एनोटेशन: मूल्यांकनकर्ता प्रश्न और पूर्ण उत्तर देखते हैं, प्रत्येक आयाम के लिए 5-बिंदु लिकर्ट पैमाने पर स्कोर देते हैं
  2. सूक्ष्म-दानेदार एनोटेशन: मूल्यांकनकर्ता प्रश्न और उत्तर में हाइलाइट किए गए व्यक्तिगत वाक्य देखते हैं, वाक्य संदर्भ में प्रत्येक आयाम का मूल्यांकन करते हैं

डेटासेट निर्माण

  • K-QA डेटासेट से 100 वास्तविक रोगी प्रश्नों का यादृच्छिक नमूना
  • GPT-4 और Llama-3.1-Instruct-405B का उपयोग करके उत्तर उत्पन्न किए
  • 5-shot संदर्भ सीखने और विचार श्रृंखला तर्क का उपयोग किया
  • उत्तर की लंबाई 270 शब्दों तक सीमित (चिकित्सक उत्तरों की लंबाई के अनुरूप)

एनोटेशन प्रयोग डिजाइन

  • एनोटेटर: Upwork से 6 अभ्यास करने वाले चिकित्सक, 3-15 वर्ष रोगी देखभाल अनुभव के साथ
  • समूह डिजाइन: दो समूहों में विभाजित, प्रत्येक समूह 3 एनोटेटर, प्रत्येक 50 प्रश्नों के सभी उत्तरों के लिए जिम्मेदार
  • वैकल्पिक डिजाइन: प्रत्येक एनोटेटर का आधा कार्य मोटे-दानेदार का उपयोग करता है, आधा सूक्ष्म-दानेदार एनोटेशन का उपयोग करता है
  • गुणवत्ता नियंत्रण: एनोटेटर के भीतर समझौता (IRR) मापने के लिए दोहराए गए एनोटेशन शामिल हैं

तकनीकी नवाचार बिंदु

1. आयाम-विशिष्ट एनोटेशन रणनीति

एक-आकार-सभी-फिट दृष्टिकोण के विपरीत, यह अनुसंधान पाता है कि विभिन्न मूल्यांकन आयामों को विभिन्न एनोटेशन दानेदारपन की आवश्यकता है:

  • तथ्यात्मक आयाम (जैसे सत्यता) सूक्ष्म-दानेदार एनोटेशन के लिए उपयुक्त हैं
  • संदर्भ-निर्भर आयाम (जैसे प्रासंगिकता) मोटे-दानेदार एनोटेशन के लिए उपयुक्त हैं

2. आंशिक सूक्ष्म-दानेदार एनोटेशन

केवल 3 वाक्यों को एनोटेट करने से पूर्ण सूक्ष्म-दानेदार एनोटेशन के समान विश्वसनीयता प्राप्त की जा सकती है, जिससे लागत में भारी कमी आती है।

3. व्यवस्थित पूर्वाग्रह शमन

सूक्ष्म-दानेदार एनोटेशन उत्तर की लंबाई से संबंधित व्यवस्थित पूर्वाग्रह को कम करने में मदद करता है, यह सुनिश्चित करता है कि छोटे चिकित्सक उत्तरों को व्यवस्थित रूप से कम आंका न जाए।

प्रयोग सेटअप

डेटासेट

  • K-QA डेटासेट: वास्तविक रोगी प्रश्न शामिल हैं, जो सामान्य प्राथमिक देखभाल विषयों को कवर करते हैं
  • नमूना आकार: 100 प्रश्न, 300 प्रश्नोत्तर जोड़ियां (प्रत्येक प्रश्न के लिए 3 उत्तर)
  • उत्तर स्रोत: चिकित्सक उत्तर (106±54 शब्द), GPT-4 उत्तर (124±50 शब्द), Llama उत्तर (170±52 शब्द)

मूल्यांकन मेट्रिक्स

  • एनोटेटर अंतर-समझौता (IAA): Randolph's κ का उपयोग करके
  • एनोटेटर के भीतर समझौता (IRR): प्रतिशत समझौते का उपयोग करके
  • एनोटेटर आत्मविश्वास: 5-बिंदु लिकर्ट पैमाना
  • एनोटेशन समय: कार्य पूर्ण होने का समय सेकंड में
  • NASA-TLX पैमाना: कथित कार्य भार को मापने के लिए

तुलना सेटअप

  • मोटे-दानेदार बनाम सूक्ष्म-दानेदार एनोटेशन
  • पूर्ण सूक्ष्म-दानेदार बनाम आंशिक सूक्ष्म-दानेदार एनोटेशन (3 वाक्य बनाम 6 वाक्य)
  • मानव विशेषज्ञ बनाम LLM-as-judge (GPT-4o)

प्रयोग परिणाम

मुख्य निष्कर्ष

1. IAA आयाम के अनुसार भिन्न होता है

  • सत्यता: सूक्ष्म-दानेदार एनोटेशन IAA में महत्वपूर्ण वृद्धि करता है (0.90 बनाम 0.74)
  • प्रासंगिकता: मोटे-दानेदार एनोटेशन बेहतर प्रदर्शन करता है (0.71 बनाम 0.32)
  • सुरक्षा: दोनों विधियां खराब प्रदर्शन करती हैं, लेकिन सूक्ष्म-दानेदार में मामूली सुधार होता है

2. आंशिक एनोटेशन की प्रभावशीलता

  • केवल 3 वाक्यों को एनोटेट करने से पूर्ण 6 वाक्य एनोटेशन के साथ सहसंबंध 0.8 से अधिक है
  • 3 वाक्य एनोटेशन का विचरण सत्यता और सुरक्षा आयामों पर मोटे-दानेदार एनोटेशन से कम है
  • एनोटेशन समय 459.8 सेकंड (पूर्ण सूक्ष्म-दानेदार) से तुलनीय मोटे-दानेदार स्तर (239.3 सेकंड) तक गिर गया है

3. सिस्टम-स्तरीय प्रदर्शन मूल्यांकन

  • LLM प्रदर्शन: GPT-4 और Llama सत्यता पर चिकित्सकों के समान या बेहतर हैं
  • प्रासंगिकता लाभ: दोनों LLM रोगी चिंताओं का जवाब देने में बेहतर प्रदर्शन करते हैं
  • सुरक्षा की कमी: सभी प्रणालियां (चिकित्सकों सहित) सुरक्षा आयाम में खराब प्रदर्शन करती हैं

4. लंबाई पूर्वाग्रह शमन

सूक्ष्म-दानेदार एनोटेशन मोटे-दानेदार मूल्यांकन में मौजूद लंबाई पूर्वाग्रह को प्रकट करता है:

  • मोटे-दानेदार मूल्यांकन में, चिकित्सक उत्तर सत्यता स्कोर कम है (0.78 बनाम 0.92-0.93)
  • सूक्ष्म-दानेदार मूल्यांकन में, चिकित्सक उत्तर सत्यता स्कोर में महत्वपूर्ण वृद्धि होती है (0.99)

LLM-as-Judge परिणाम

  • GPT-4o मूल्यांकनकर्ता के रूप में विशेषज्ञों के साथ सहमति सत्यता और प्रासंगिकता आयामों पर तुलनीय या विशेषज्ञ अंतर-समझौते से अधिक है
  • सूक्ष्म-दानेदार निर्देश LLM-विशेषज्ञ समझौते में सुधार के लिए एकत्रीकरण विधि के आधार पर भिन्न प्रभाव डालते हैं
  • 3-बिंदु पैमाना LLM मूल्यांकन में बाइनरी पैमाने से बेहतर प्रदर्शन करता है

संबंधित कार्य

एनोटेशन मानदंड अनुसंधान

मौजूदा नैदानिक QA बेंचमार्क अक्सर मोटे वर्गीकरण मानदंड अपनाते हैं, विस्तृत एनोटेशन मार्गदर्शन की कमी होती है। MultiMedQA और MedQA तीन-स्तरीय पैमाना उपयोग करते हैं, HealthBench और MEDIC सामान्य लिकर्ट पैमाना अपनाते हैं, लेकिन ये विधियां अपर्याप्त रूप से मानकीकृत हैं, जिससे समझौता और पुनरुत्पादनशीलता में कमी आती है।

एनोटेशन दानेदारपन अनुसंधान

अधिकांश नैदानिक QA कार्य उत्तर-स्तरीय मूल्यांकन का उपयोग करते हैं, लेकिन यह विधि मिश्रित गुणवत्ता वाली सामग्री को छुपाती है। Krishna et al. ने सारांश कार्यों में पाया कि वाक्य-स्तरीय मूल्यांकन विश्वसनीयता के IAA को बढ़ाता है, लेकिन अन्य आयामों और उच्च-जोखिम क्षेत्रों में इसकी प्रयोज्यता अभी भी अस्पष्ट है।

मूल्यांकन आयाम

यह अनुसंधान पूर्व कार्य पर आधारित है और तीन मुख्य मूल्यांकन आयाम (सत्यता, प्रासंगिकता, सुरक्षा) की पहचान करता है, जिनका नैदानिक QA मूल्यांकन में बार-बार उपयोग किया जाता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. आयाम-विशिष्ट रणनीति: विभिन्न मूल्यांकन आयामों को विभिन्न एनोटेशन दानेदारपन डिजाइन की आवश्यकता है
  2. लागत-प्रभावशीलता संतुलन: आंशिक सूक्ष्म-दानेदार एनोटेशन गुणवत्ता बनाए रखते हुए लागत में महत्वपूर्ण कमी कर सकता है
  3. पूर्वाग्रह शमन: सूक्ष्म-दानेदार एनोटेशन लंबाई-संबंधित व्यवस्थित पूर्वाग्रह को कम करने में मदद करता है
  4. LLM प्रदर्शन: वर्तमान उन्नत LLM सत्यता और प्रासंगिकता पर अच्छा प्रदर्शन करते हैं, लेकिन सुरक्षा में सुधार की आवश्यकता है

व्यावहारिक सिफारिशें

  1. सत्यता मूल्यांकन: सूक्ष्म-दानेदार एनोटेशन या आंशिक सूक्ष्म-दानेदार एनोटेशन (3 वाक्य) का उपयोग करें
  2. प्रासंगिकता मूल्यांकन: मोटे-दानेदार एनोटेशन का उपयोग करें
  3. सुरक्षा मूल्यांकन: मूल्यांकन विधि में सुधार के लिए अधिक अनुसंधान की आवश्यकता है
  4. LLM-as-judge: विशेषज्ञ मूल्यांकन को पूरक करने के लिए उपयोग किया जा सकता है, विशेष रूप से सत्यता और प्रासंगिकता आयामों में

सीमाएं

  1. डेटासेट आकार: केवल सामान्य प्राथमिक देखभाल प्रश्न शामिल हैं, विशेषज्ञ देखभाल के लिए उपयुक्त नहीं हो सकते हैं
  2. एनोटेटर संख्या: केवल 6 विशेषज्ञ, दृष्टिकोण विविधता को सीमित करता है
  3. IRR नमूना: दोहराए गए एनोटेशन नमूना छोटा है, विश्वसनीयता मूल्यांकन सटीकता को सीमित करता है
  4. मॉडल श्रेणी: केवल दो LLM का मूल्यांकन किया गया है, परिणाम सामान्यीकरण सीमित है

भविष्य की दिशाएं

  1. बड़े डेटासेट और अधिक एनोटेटर तक विस्तार करें
  2. विशेषज्ञ चिकित्सा प्रश्नों के मूल्यांकन विधि का अनुसंधान करें
  3. सुरक्षा मूल्यांकन ढांचे में सुधार करें
  4. अधिक LLM के प्रदर्शन की खोज करें

गहन मूल्यांकन

शक्तियां

  1. व्यवस्थित अनुसंधान डिजाइन: यादृच्छिकृत नियंत्रित प्रयोग, भ्रामक कारकों का कठोर नियंत्रण
  2. उच्च व्यावहारिक मूल्य: ठोस, कार्यान्वयन योग्य मूल्यांकन मार्गदर्शन प्रदान करता है
  3. लागत जागरूकता: संसाधन बाधाओं के तहत व्यावहारिक आवश्यकताओं पर पूर्ण विचार
  4. बहु-आयामी विश्लेषण: केवल सटीकता पर नहीं, बल्कि समय, आत्मविश्वास आदि कई संकेतकों पर ध्यान केंद्रित करता है
  5. उच्च पारदर्शिता: डेटा और कोड को खुला स्रोत करने की योजना, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

कमियां

  1. नमूना आकार सीमा: 300 प्रश्नोत्तर जोड़ियों का आकार अपेक्षाकृत छोटा है, परिणामों की सामान्यीकरण क्षमता को प्रभावित कर सकता है
  2. क्षेत्र सीमा: केवल सामान्य प्राथमिक देखभाल को कवर करता है, विशेषज्ञ चिकित्सा के लिए प्रयोज्यता अज्ञात है
  3. सुरक्षा मूल्यांकन अपर्याप्त: इस आयाम के लिए मूल्यांकन विधि में अभी भी महत्वपूर्ण सुधार की आवश्यकता है
  4. सांस्कृतिक पृष्ठभूमि एकल: एनोटेटर पृष्ठभूमि परिणामों की क्रॉस-सांस्कृतिक प्रयोज्यता को प्रभावित कर सकती है

प्रभाव

  1. शैक्षणिक योगदान: नैदानिक NLP मूल्यांकन के लिए महत्वपूर्ण पद्धति संबंधी मार्गदर्शन प्रदान करता है
  2. व्यावहारिक मूल्य: नैदानिक AI प्रणालियों के मूल्यांकन अभ्यास को सीधे निर्देशित करता है
  3. मानकीकरण को बढ़ावा देता है: अधिक मानकीकृत नैदानिक QA मूल्यांकन प्रक्रिया स्थापित करने में सहायता करता है
  4. क्रॉस-डोमेन प्रेरणा: मूल्यांकन विधि अन्य उच्च-विशेषज्ञता वाले क्षेत्रों पर लागू हो सकती है

प्रयोज्य परिदृश्य

  1. नैदानिक AI प्रणाली मूल्यांकन: चिकित्सा संस्थानों द्वारा AI प्रश्नोत्तर प्रणाली तैनाती से पहले मूल्यांकन
  2. अनुसंधान बेंचमार्क: शैक्षणिक अनुसंधान में मानक मूल्यांकन प्रोटोकॉल
  3. नियामक समीक्षा: चिकित्सा AI प्रणालियों के लिए नियामक मूल्यांकन ढांचा
  4. उत्पाद विकास: चिकित्सा प्रौद्योगिकी कंपनियों द्वारा उत्पाद गुणवत्ता मूल्यांकन

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Krishna et al. (2023) दीर्घ-रूप सारांश मूल्यांकन के लिए दिशानिर्देश
  • Singhal et al. (2023) बड़े भाषा मॉडल द्वारा नैदानिक ज्ञान एन्कोडिंग पर अनुसंधान
  • Ayers et al. (2023) चिकित्सकों और AI चैटबॉट द्वारा उत्तरों की तुलना
  • और कई नैदानिक QA बेंचमार्क और मूल्यांकन ढांचे के संबंधित कार्य

समग्र मूल्यांकन: यह नैदानिक प्रश्नोत्तर प्रणाली मूल्यांकन के लिए महत्वपूर्ण अनुभवजन्य मार्गदर्शन प्रदान करने वाला एक उच्च-गुणवत्ता वाला पद्धति संबंधी अनुसंधान पेपर है। अनुसंधान डिजाइन कठोर है, परिणाम व्यावहारिक मूल्य के हैं, और चिकित्सा AI मूल्यांकन मानकीकरण को आगे बढ़ाने में महत्वपूर्ण महत्व है। नमूना आकार और क्षेत्र कवरेज की सीमाओं के बावजूद, इसके द्वारा प्रस्तावित मूल्यांकन ढांचा और निष्कर्ष इस क्षेत्र के विकास के लिए एक महत्वपूर्ण आधार स्थापित करते हैं।