Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
- ID статьи: 2510.10415
- Название: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
- Авторы: Федерика Болонья (Корнеллский университет), Тиффани Пан (Корнеллский университет), Мэтью Уилкенс (Корнеллский университет), Юэ Го (Университет Иллинойса, Урбана-Шампейн), Люси Лу Ван (Университет Вашингтона)
- Классификация: cs.CL cs.AI
- Дата публикации: 12 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.10415v1
Оценка долгоформатных клинических вопросно-ответных систем требует значительных ресурсов и представляет серьезные вызовы: точная оценка требует медицинской экспертизы, а достижение согласованности между аннотаторами на длинных текстах крайне затруднено. В данной статье представляется LONGQAEVAL — структура оценки и набор рекомендаций, разработанные для сценариев с ограниченными ресурсами и высокими требованиями к специализации. На основе аннотаций врачей 300 реальных вопросов пациентов (включая ответы врачей и больших языковых моделей) исследование сравнивает грубозернистую оценку на уровне ответов с мелкозернистой оценкой на уровне предложений по трем измерениям: корректность, релевантность и безопасность. Исследование показывает, что согласованность между аннотаторами (IAA) варьируется в зависимости от измерения: мелкозернистая аннотация повышает согласованность по корректности, грубозернистая аннотация повышает согласованность по релевантности, тогда как оценки безопасности остаются несогласованными. Кроме того, аннотация только небольшого подмножества предложений обеспечивает надежность, сравнимую с грубозернистой аннотацией, тем самым снижая затраты и объем работ.
По мере роста затрат на здравоохранение и ограниченной доступности медицинских работников пациентам становится все сложнее своевременно получить ответы на клинические вопросы. Хотя генеративные модели, интегрированные в системы электронных медицинских записей (ЭМЗ), могут быть полезны, оценка их ответов требует медицинской экспертизы.
- Дефицит и дороговизна экспертных аннотаторов: оценка медицинскими экспертами обходится дорого и ограничена в количестве
- Низкая согласованность между аннотаторами: эксперты часто расходятся во мнениях относительно критериев "хорошего ответа"
- Сложность оценки длинных текстов: достижение согласованности при оценке длинных сгенерированных текстов представляет вызов
- Усталость аннотаторов: сложные задачи аннотации приводят к снижению качества
- Большинство исследований клинических вопросно-ответных систем используют оценку на уровне ответов, но этот подход скрывает содержание смешанного качества
- Отсутствие стандартизированной структуры оценки и подробных руководств по аннотации
- Редко сообщается о согласованности между аннотаторами, что влияет на достоверность результатов
- Отсутствует систематическое исследование оптимальной зернистости аннотации для различных измерений оценки
- Создан набор данных из 300 пар вопросов и ответов, аннотированный 6 медицинскими экспертами по измерениям корректности, релевантности и безопасности
- Предложена структура аннотации LONGQAEVAL, поддерживающая как грубозернистый, так и мелкозернистый режимы оценки
- Проведено рандомизированное исследование с участием человека, систематически сравнивающее эффекты грубозернистой и мелкозернистой аннотации
- Предоставлены практические рекомендации, помогающие разработчикам клинических больших языковых моделей выбрать оптимальный дизайн аннотации
- Оценена производительность двух широко используемых больших языковых моделей (GPT-4 и Llama-3.1-Instruct-405B) на долгоформатных клинических вопросно-ответных задачах
- Проанализирована способность структуры аннотации к обобщению в условиях использования больших языковых моделей в качестве судей
Данное исследование оценивает долгоформатные клинические вопросно-ответные системы по трем ключевым измерениям:
- Корректность (Correctness): соответствует ли ответ современным медицинским знаниям
- Релевантность (Relevance): непосредственно ли ответ реагирует на конкретный медицинский вопрос
- Безопасность (Safety): передает ли ответ противопоказания или риски
- Грубозернистая аннотация: оценивающий просматривает вопрос и полный ответ, оценивая каждое измерение по 5-балльной шкале Лайкерта
- Мелкозернистая аннотация: оценивающий просматривает вопрос и отдельные выделенные предложения в ответе, оценивая каждое измерение в контексте предложения
- Случайная выборка 100 реальных вопросов пациентов из набора данных K-QA
- Генерация ответов с использованием GPT-4 и Llama-3.1-Instruct-405B
- Применение контекстного обучения с 5 примерами и рассуждения по цепочке мыслей
- Ограничение длины ответа 270 словами (соответствует длине ответов врачей)
- Аннотаторы: 6 практикующих врачей из Upwork с опытом ухода за пациентами 3-15 лет
- Групповой дизайн: разделение на две группы по 3 аннотатора, каждая отвечает за все ответы на 50 вопросов
- Чередующийся дизайн: каждый аннотатор выполняет половину задач с грубозернистой аннотацией, половину с мелкозернистой
- Контроль качества: включение повторной аннотации для измерения внутрианнотаторной надежности (IRR)
В отличие от универсального подхода, исследование показывает, что различные измерения оценки требуют различной зернистости аннотации:
- Фактические измерения (такие как корректность) подходят для мелкозернистой аннотации
- Измерения, зависящие от контекста (такие как релевантность) подходят для грубозернистой аннотации
Предложено, что аннотация только 3 предложений достигает надежности, сравнимой с полной мелкозернистой аннотацией, значительно снижая затраты.
Мелкозернистая аннотация помогает уменьшить систематические смещения, связанные с длиной ответа, обеспечивая, чтобы более короткие ответы врачей не были систематически недооценены.
- Набор данных K-QA: содержит реальные вопросы пациентов, охватывающие общие темы первичной медико-санитарной помощи
- Размер выборки: 100 вопросов, 300 пар вопросов и ответов (3 ответа на каждый вопрос)
- Источники ответов: ответы врачей (106±54 слова), ответы GPT-4 (124±50 слов), ответы Llama (170±52 слова)
- Согласованность между аннотаторами (IAA): использование κ Рэндольфа
- Надежность внутри аннотатора (IRR): использование процента согласия
- Уверенность аннотатора: 5-балльная шкала Лайкерта
- Время аннотации: время выполнения задачи в секундах
- Шкала NASA-TLX: измерение воспринимаемой рабочей нагрузки
- Грубозернистая vs мелкозернистая аннотация
- Полная мелкозернистая vs частичная мелкозернистая аннотация (3 предложения vs 6 предложений)
- Человеческие эксперты vs большие языковые модели в качестве судей (GPT-4o)
- Корректность: мелкозернистая аннотация значительно повышает IAA (0.90 vs 0.74)
- Релевантность: грубозернистая аннотация показывает лучшие результаты (0.71 vs 0.32)
- Безопасность: обе методы показывают плохие результаты, но мелкозернистая немного лучше
- Аннотация только 3 предложений показывает коэффициент корреляции более 0.8 с полной аннотацией 6 предложений
- Дисперсия аннотации 3 предложений ниже, чем грубозернистой аннотации по измерениям корректности и безопасности
- Время аннотации снижается с 459.8 секунд (полная мелкозернистая) до уровня, сравнимого с грубозернистой (239.3 секунды)
- Производительность больших языковых моделей: GPT-4 и Llama сравнимы или превосходят врачей по корректности
- Преимущество релевантности: обе большие языковые модели показывают лучшие результаты в ответе на опасения пациентов
- Недостаток безопасности: все системы (включая врачей) показывают неудовлетворительные результаты по измерению безопасности
Мелкозернистая аннотация выявляет смещение по длине, существующее в грубозернистой оценке:
- При грубозернистой оценке ответы врачей получают более низкие оценки корректности (0.78 vs 0.92-0.93)
- При мелкозернистой оценке оценки корректности ответов врачей значительно повышаются (0.99)
- GPT-4o в качестве судьи показывает согласованность с экспертами, сравнимую или превосходящую согласованность между экспертами по измерениям корректности и релевантности
- Эффект мелкозернистых инструкций на улучшение согласованности между большой языковой моделью и экспертом варьируется в зависимости от метода агрегации
- 3-балльная шкала показывает лучшие результаты, чем бинарная шкала при оценке большой языковой моделью
Существующие клинические вопросно-ответные тесты часто используют грубые стандарты классификации, лишенные подробного руководства по аннотации. MultiMedQA и MedQA используют трехуровневую шкалу, HealthBench и MEDIC применяют общие шкалы Лайкерта, но эти подходы недостаточно стандартизированы, что приводит к плохой согласованности и воспроизводимости.
Большинство работ по клинической вопросно-ответной системе используют оценку на уровне ответов, но этот подход скрывает содержание смешанного качества. Кришна и соавторы обнаружили, что оценка на уровне предложений повышает IAA верности при работе с резюме, но применимость этого подхода к другим измерениям и высокорисковым областям остается неясной.
Данное исследование основывается на предыдущих работах при определении трех основных измерений оценки (корректность, релевантность, безопасность), которые часто используются при оценке клинических вопросно-ответных систем.
- Стратегия, специфичная для измерения: различные измерения оценки требуют различных дизайнов зернистости аннотации
- Баланс затрат и выгод: частичная мелкозернистая аннотация может значительно снизить затраты при сохранении качества
- Смягчение смещений: мелкозернистая аннотация помогает уменьшить систематические смещения, связанные с длиной
- Производительность больших языковых моделей: современные передовые большие языковые модели показывают хорошие результаты по корректности и релевантности, но безопасность требует улучшения
- Оценка корректности: использование мелкозернистой или частичной мелкозернистой аннотации (3 предложения)
- Оценка релевантности: использование грубозернистой аннотации
- Оценка безопасности: требуется дополнительное исследование для улучшения методов оценки
- Большие языковые модели в качестве судей: могут использоваться для дополнения оценки экспертами, особенно по измерениям корректности и релевантности
- Размер набора данных: включает только вопросы по общей первичной медико-санитарной помощи, может быть неприменимо к специализированной помощи
- Количество аннотаторов: только 6 экспертов, что ограничивает разнообразие перспектив
- Размер выборки IRR: небольшой размер выборки повторной аннотации ограничивает точность оценки надежности
- Диапазон моделей: оценены только две большие языковые модели, что ограничивает обобщаемость результатов
- Расширение на более крупные наборы данных и большее количество аннотаторов
- Исследование методов оценки для вопросов специализированной медицины
- Улучшение структуры оценки безопасности
- Исследование производительности большего количества больших языковых моделей
- Систематический дизайн исследования: использование рандомизированных контролируемых экспериментов с тщательным контролем смешивающих факторов
- Высокая практическая ценность: предоставление конкретных, практически применимых рекомендаций по оценке
- Учет ограничений ресурсов: полное рассмотрение практических потребностей в условиях ограниченных ресурсов
- Многомерный анализ: внимание не только к точности, но и к времени, уверенности и другим показателям
- Высокая прозрачность: планы по открытому исходному коду данных и кода для облегчения воспроизведения и расширения
- Ограничение размера выборки: размер 300 пар вопросов и ответов относительно небольшой, может влиять на обобщаемость выводов
- Ограничение области: охватывает только общую первичную медико-санитарную помощь, применимость к специализированной медицине неизвестна
- Недостаточность оценки безопасности: методы оценки этого измерения требуют значительного улучшения
- Единообразный культурный контекст: фон аннотаторов может влиять на применимость результатов в различных культурах
- Академический вклад: предоставление важного методологического руководства для оценки клинической обработки естественного языка
- Практическая ценность: прямое руководство практики оценки клинических систем искусственного интеллекта
- Продвижение стандартизации: содействие установлению более стандартизированных процессов оценки клинических вопросно-ответных систем
- Вдохновение для других областей: методы оценки могут быть применимы к другим высокоспециализированным областям
- Оценка клинических систем искусственного интеллекта: оценка перед развертыванием систем вопросно-ответных систем в медицинских учреждениях
- Тесты исследовательских эталонов: стандартные протоколы оценки в академических исследованиях
- Нормативная проверка: структура нормативной оценки систем медицинского искусственного интеллекта
- Разработка продуктов: оценка качества продуктов в компаниях медицинских технологий
Статья ссылается на множество важных связанных работ, включая:
- Кришна и соавторы (2023) по руководящим принципам оценки длинных резюме
- Сингхал и соавторы (2023) по исследованию кодирования клинических знаний большими языковыми моделями
- Айерс и соавторы (2023) по сравнению ответов врачей и чат-ботов искусственного интеллекта
- А также связанные работы по множеству клинических тестов вопросно-ответных систем и структур оценки
Общая оценка: это высококачественная методологическая исследовательская статья, предоставляющая важное эмпирическое руководство для оценки систем клинических вопросно-ответных систем. Исследование имеет строгий дизайн, результаты имеют практическую ценность и имеют важное значение для продвижения стандартизации оценки медицинского искусственного интеллекта. Несмотря на ограничения в размере выборки и охвате области, предложенная структура оценки и выводы закладывают важную основу для развития этой области.