Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
- معرّف الورقة: 2510.10415
- العنوان: LONGQAEVAL: تصميم تقييمات موثوقة للإجابة على الأسئلة السريرية الطويلة تحت قيود الموارد
- المؤلفون: فيديريكا بولونيا (جامعة كورنيل)، تيفاني بان (جامعة كورنيل)، ماثيو ويلكنز (جامعة كورنيل)، يو جو (جامعة إلينوي، أوربانا-شامبين)، لوسي لو وانج (جامعة واشنطن)
- التصنيف: cs.CL cs.AI
- تاريخ النشر: 12 أكتوبر 2025 (طبعة arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.10415v1
يعتبر تقييم أنظمة الإجابة على الأسئلة السريرية الطويلة مكلفاً من حيث الموارد وصعباً من الناحية الفنية: يتطلب التقييم الدقيق خبرة طبية متخصصة، وتحقيق اتفاق بين المقيّمين البشريين على النصوص الطويلة أمر بالغ الصعوبة. تقدم هذه الورقة LONGQAEVAL، وهو إطار عمل وتوصيات تقييم مصممة للبيئات ذات الموارد المحدودة والمتطلبات المتخصصة العالية. بناءً على تعليقات الأطباء لـ 300 سؤال حقيقي من المرضى (تتضمن إجابات من الأطباء والنماذج اللغوية الكبيرة)، تقارن الدراسة التقييم على مستوى الإجابة الخشن مع التقييم على مستوى الجملة الدقيق، عبر ثلاثة أبعاد: الصحة والملاءمة والسلامة. تكشف الدراسة أن اتفاق المقيّمين (IAA) يختلف حسب البعد: يحسّن التعليق الدقيق اتفاق الصحة، والتعليق الخشن يحسّن اتفاق الملاءمة، بينما تظل أحكام السلامة غير متسقة. علاوة على ذلك، فإن تعليق مجموعة صغيرة فقط من الجمل يوفر موثوقية مماثلة للتعليق الخشن، مما يقلل التكاليف والجهد.
مع ارتفاع تكاليف الرعاية الصحية والتوفر المحدود لمقدمي الخدمات الطبية، يواجه المرضى صعوبة في الحصول على إجابات فورية لأسئلتهم السريرية. بينما قد تساعد النماذج التوليدية المدمجة في أنظمة السجلات الطبية الإلكترونية (EHR)، فإن تقييم استجاباتها يتطلب خبرة طبية متخصصة.
- ندرة المقيّمين الخبراء وارتفاع تكاليفهم: تقييم الخبراء الطبيين مكلف جداً وعددهم محدود
- اتفاق منخفض بين المقيّمين: غالباً ما يختلف الخبراء حول معايير "الإجابة الجيدة"
- صعوبة تقييم النصوص الطويلة: تحقيق اتفاق على الأحكام في النصوص المولدة الطويلة أمر صعب
- مشكلة إرهاق المقيّمين: المهام المعقدة للتعليق تؤدي إلى انخفاض جودة التعليق
- تستخدم معظم أبحاث الأسئلة والأجوبة السريرية تقييماً على مستوى الإجابة، لكن هذا الأسلوب يخفي محتوى ذا جودة مختلطة
- نقص إطار عمل تقييم موحد وإرشادات تعليق مفصلة
- نادراً ما يتم الإبلاغ عن اتفاق المقيّمين، مما يؤثر على مصداقية النتائج
- نقص البحث المنهجي حول أفضل حبيبية تعليق لأبعاد تقييم مختلفة
- بناء مجموعة بيانات تحتوي على 300 زوج سؤال وجواب معلقة من قبل 6 خبراء طبيين على أبعاد الصحة والملاءمة والسلامة
- اقتراح إطار عمل تعليق LONGQAEVAL يدعم أسلوبي التقييم الخشن والدقيق
- إجراء دراسة تعليق عشوائية منظمة لمقارنة تأثيرات التعليق الخشن والدقيق بشكل منهجي
- توفير توصيات عملية لمساعدة مطوري النماذج اللغوية السريرية على اختيار أفضل تصميم تعليق
- تقييم نموذجين لغويين مستخدمين على نطاق واسع (GPT-4 و Llama-3.1-Instruct-405B) على الإجابة على الأسئلة السريرية الطويلة
- تحليل قابلية تعميم إطار العمل في إعدادات LLM-as-judge
تقيّم هذه الدراسة أنظمة الإجابة على الأسئلة السريرية الطويلة على ثلاثة أبعاد رئيسية:
- الصحة (Correctness): هل تتوافق الإجابة مع المعرفة الطبية الحالية
- الملاءمة (Relevance): هل تجيب الإجابة بشكل مباشر على السؤال الطبي المحدد
- السلامة (Safety): هل تنقل الإجابة موانع الاستعمال أو المخاطر
- التعليق الخشن: يفحص المقيّم السؤال والإجابة الكاملة، ويعطي درجة على مقياس ليكرت من 5 نقاط لكل بعد
- التعليق الدقيق: يفحص المقيّم السؤال والجمل الفردية المميزة في الإجابة، ويقيّم كل بعد في سياق الجملة
- اختيار عشوائي لـ 100 سؤال حقيقي من المرضى من مجموعة بيانات K-QA
- توليد الإجابات باستخدام GPT-4 و Llama-3.1-Instruct-405B
- استخدام التعلم السياقي بـ 5 أمثلة والاستدلال بسلسلة الأفكار
- تحديد طول الإجابة بـ 270 كلمة (متسق مع طول إجابات الأطباء)
- المقيّمون: 6 أطباء ممارسون من Upwork بخبرة 3-15 سنة في رعاية المرضى
- تصميم المجموعات: تقسيم إلى مجموعتين، كل منهما 3 مقيّمين، كل مجموعة تتولى 50 سؤالاً
- التصميم المتناوب: كل مقيّم يقوم بنصف المهام باستخدام التعليق الخشن والنصف الآخر بالتعليق الدقيق
- مراقبة الجودة: تتضمن إعادة تعليق لقياس اتفاق المقيّم مع نفسه (IRR)
بخلاف النهج الموحد، تكتشف هذه الدراسة أن أبعاد التقييم المختلفة تتطلب حبيبيات تعليق مختلفة:
- الأبعاد الواقعية (مثل الصحة) مناسبة للتعليق الدقيق
- الأبعاد المعتمدة على السياق (مثل الملاءمة) مناسبة للتعليق الخشن
اقتراح تعليق 3 جمل فقط لتحقيق موثوقية مماثلة للتعليق الدقيق الكامل، مما يقلل التكاليف بشكل كبير.
يساعد التعليق الدقيق على تقليل الانحيازات المنهجية المرتبطة بطول الإجابة، مما يضمن عدم التقليل من قيمة إجابات الأطباء الأقصر بشكل منهجي.
- مجموعة بيانات K-QA: تحتوي على أسئلة حقيقية من المرضى، تغطي موضوعات الرعاية الأولية العامة
- حجم العينة: 100 سؤال، 300 زوج سؤال وجواب (3 إجابات لكل سؤال)
- مصادر الإجابات: إجابات الأطباء (106±54 كلمة)، إجابات GPT-4 (124±50 كلمة)، إجابات Llama (170±52 كلمة)
- اتفاق المقيّمين (IAA): استخدام كابا راندولف
- اتفاق المقيّم مع نفسه (IRR): استخدام نسبة الاتفاق المئوية
- ثقة المقيّم: مقياس ليكرت من 5 نقاط
- وقت التعليق: وقت إكمال المهمة بالثواني
- مقياس NASA-TLX: لقياس عبء العمل المدرك
- التعليق الخشن مقابل التعليق الدقيق
- التعليق الدقيق الكامل مقابل التعليق الدقيق الجزئي (3 جمل مقابل 6 جمل)
- الخبراء البشريين مقابل LLM-as-judge (GPT-4o)
- الصحة: يحسّن التعليق الدقيق IAA بشكل كبير (0.90 مقابل 0.74)
- الملاءمة: يؤدي التعليق الخشن أداءً أفضل (0.71 مقابل 0.32)
- السلامة: كلا الأسلوبين يؤديان أداءً ضعيفاً، لكن التعليق الدقيق يحسّنها قليلاً
- تعليق 3 جمل فقط يحقق معامل ارتباط يزيد عن 0.8 مع تعليق 6 جمل كاملة
- التباين في تعليق 3 جمل أقل من التعليق الخشن على أبعاد الصحة والسلامة
- وقت التعليق ينخفض من 459.8 ثانية (التعليق الدقيق الكامل) إلى مستوى مقارن مع التعليق الخشن (239.3 ثانية)
- أداء النموذج اللغوي: GPT-4 و Llama متساويان أو أفضل من الأطباء في الصحة
- ميزة الملاءمة: يؤدي كلا النموذجين أداءً أفضل في الاستجابة لمخاوف المرضى
- نقص السلامة: جميع الأنظمة (بما فيها الأطباء) تؤدي أداءً ضعيفاً على بعد السلامة
يكشف التعليق الدقيق عن انحياز الطول الموجود في التقييم الخشن:
- في التقييم الخشن، تحصل إجابات الأطباء على درجات صحة أقل (0.78 مقابل 0.92-0.93)
- في التقييم الدقيق، تحسّنت درجات صحة إجابات الأطباء بشكل كبير (0.99)
- اتفاق GPT-4o كمقيّم مع الخبراء مقارن أو يتجاوز اتفاق الخبراء على أبعاد الصحة والملاءمة
- تأثير التعليمات الدقيقة على تحسين اتفاق LLM-الخبير يختلف حسب طريقة التجميع
- مقياس 3 نقاط يؤدي أداءً أفضل من المقياس الثنائي في تقييم LLM
تعتمد معظم اختبارات الأسئلة والأجوبة السريرية على معايير تعليق تقريبية، تفتقر إلى إرشادات تعليق مفصلة. تستخدم MultiMedQA و MedQA مقياساً ثلاثي المستويات، بينما تعتمد HealthBench و MEDIC على مقاييس ليكرت عامة، لكن هذه الطرق تفتقر إلى التوحيد، مما يؤدي إلى ضعف الاتفاق والقابلية للتكرار.
تستخدم معظم أعمال الأسئلة والأجوبة السريرية تقييماً على مستوى الإجابة، لكن هذا الأسلوب يخفي محتوى ذا جودة مختلطة. اكتشف Krishna وآخرون أن التقييم على مستوى الجملة يحسّن IAA للأمانة في مهام التلخيص، لكن قابليتها للتطبيق على أبعاد أخرى والمجالات عالية المخاطر لا تزال غير واضحة.
تعتمد هذه الدراسة على الأعمال السابقة لتحديد ثلاثة أبعاد تقييم أساسية (الصحة والملاءمة والسلامة)، وهي أبعاد تُستخدم بشكل متكرر في تقييم الأسئلة والأجوبة السريرية.
- استراتيجية خاصة بالبعد: تتطلب أبعاد التقييم المختلفة تصاميم تعليق مختلفة
- التوازن بين التكلفة والفائدة: يمكن للتعليق الدقيق الجزئي تقليل التكاليف بشكل كبير مع الحفاظ على الجودة
- تخفيف الانحيازات: يساعد التعليق الدقيق على تقليل الانحيازات المنهجية المرتبطة بالطول
- أداء النموذج اللغوي: تؤدي النماذج اللغوية المتقدمة الحالية أداءً جيداً في الصحة والملاءمة، لكن السلامة تحتاج إلى تحسين
- تقييم الصحة: استخدام التعليق الدقيق أو التعليق الدقيق الجزئي (3 جمل)
- تقييم الملاءمة: استخدام التعليق الخشن
- تقييم السلامة: يتطلب مزيداً من البحث لتحسين طرق التقييم
- LLM-as-judge: يمكن استخدامه لتكملة تقييم الخبراء، خاصة على أبعاد الصحة والملاءمة
- حجم مجموعة البيانات: تتضمن فقط أسئلة الرعاية الأولية العامة، قد لا تنطبق على الرعاية المتخصصة
- عدد المقيّمين: 6 خبراء فقط، مما يحد من تنوع المنظور
- عينة IRR: عينة إعادة التعليق صغيرة نسبياً، مما يحد من دقة تقييم الموثوقية
- نطاق النموذج: تقييم نموذجين لغويين فقط، قابلية التعميم محدودة
- التوسع إلى مجموعات بيانات أكبر ومقيّمين أكثر
- دراسة طرق التقييم لمشاكل الرعاية الطبية المتخصصة
- تحسين إطار عمل تقييم السلامة
- استكشاف أداء نماذج لغوية أكثر
- تصميم بحثي منهجي: استخدام تجارب عشوائية خاضعة للرقابة، مع التحكم الصارم في العوامل المربكة
- قيمة عملية عالية: توفير إرشادات تقييم محددة وقابلة للتطبيق
- الوعي بالتكاليف: الأخذ الكامل في الاعتبار الاحتياجات العملية تحت قيود الموارد
- تحليل متعدد الأبعاد: لا يركز فقط على الدقة، بل يأخذ في الاعتبار أبعاداً متعددة مثل الوقت والثقة
- شفافية عالية: خطة لفتح مصدر البيانات والكود، مما يسهل الاستنساخ والتوسع
- قيود حجم العينة: حجم 300 زوج سؤال وجواب نسبياً صغير، قد يؤثر على قابلية تعميم الاستنتاجات
- قيود المجال: يغطي فقط الرعاية الأولية العامة، قابلية التطبيق على الرعاية المتخصصة غير معروفة
- تقييم السلامة غير كافٍ: لا تزال طرق تقييم هذا البعد بحاجة إلى تحسينات كبيرة
- خلفية ثقافية موحدة: قد تؤثر خلفية المقيّمين على قابلية التطبيق عبر الثقافات
- المساهمة الأكاديمية: توفير إرشادات منهجية مهمة لتقييم معالجة اللغات الطبيعية السريرية
- القيمة العملية: توجيه مباشر لممارسات تقييم أنظمة الذكاء الاصطناعي السريرية
- تعزيز التوحيد: المساعدة في إنشاء عملية تقييم أسئلة وأجوبة سريرية أكثر توحيداً
- الإلهام عبر المجالات: قد تنطبق طرق التقييم على مجالات متخصصة أخرى
- تقييم أنظمة الذكاء الاصطناعي السريرية: تقييم المؤسسات الطبية قبل نشر أنظمة الأسئلة والأجوبة المدعومة بالذكاء الاصطناعي
- اختبارات البحث المعيارية: بروتوكولات التقييم المعيارية في البحث الأكاديمي
- المراجعة التنظيمية: إطار عمل تقييم تنظيمي لأنظمة الذكاء الاصطناعي الطبية
- تطوير المنتجات: تقييم جودة المنتجات في شركات التكنولوجيا الطبية
تستشهد الورقة بأعمال ذات صلة مهمة متعددة، بما في ذلك:
- Krishna وآخرون (2023) حول مبادئ توجيهية لتقييم التلخيص الطويل
- Singhal وآخرون (2023) حول البحث في ترميز النماذج اللغوية الكبيرة للمعرفة السريرية
- Ayers وآخرون (2023) حول مقارنة إجابات الأطباء وروبوتات الدردشة المدعومة بالذكاء الاصطناعي
- وأعمال ذات صلة متعددة حول اختبارات الأسئلة والأجوبة السريرية وأطر العمل التقييمية
التقييم الشامل: هذه ورقة بحثية منهجية عالية الجودة توفر إرشادات تجريبية مهمة لتقييم أنظمة الأسئلة والأجوبة السريرية. يتمتع التصميم البحثي بصرامة عالية، والنتائج ذات قيمة عملية، وتساهم بشكل كبير في تعزيز توحيد تقييم الذكاء الاصطناعي الطبي. على الرغم من القيود المتعلقة بحجم العينة وتغطية المجال، فإن إطار العمل التقييمي والاكتشافات المقترحة توفر أساساً مهماً لتطور هذا المجال.