2025-11-13T07:13:11.100190

LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints

Bologna, Pan, Wilkens et al.
Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
academic

LONGQAEVAL: Проектирование надежных оценок долгоформатных клинических вопросно-ответных систем в условиях ограниченных ресурсов

Основная информация

  • ID статьи: 2510.10415
  • Название: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
  • Авторы: Федерика Болонья (Корнеллский университет), Тиффани Пан (Корнеллский университет), Мэтью Уилкенс (Корнеллский университет), Юэ Го (Университет Иллинойса, Урбана-Шампейн), Люси Лу Ван (Университет Вашингтона)
  • Классификация: cs.CL cs.AI
  • Дата публикации: 12 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10415v1

Аннотация

Оценка долгоформатных клинических вопросно-ответных систем требует значительных ресурсов и представляет серьезные вызовы: точная оценка требует медицинской экспертизы, а достижение согласованности между аннотаторами на длинных текстах крайне затруднено. В данной статье представляется LONGQAEVAL — структура оценки и набор рекомендаций, разработанные для сценариев с ограниченными ресурсами и высокими требованиями к специализации. На основе аннотаций врачей 300 реальных вопросов пациентов (включая ответы врачей и больших языковых моделей) исследование сравнивает грубозернистую оценку на уровне ответов с мелкозернистой оценкой на уровне предложений по трем измерениям: корректность, релевантность и безопасность. Исследование показывает, что согласованность между аннотаторами (IAA) варьируется в зависимости от измерения: мелкозернистая аннотация повышает согласованность по корректности, грубозернистая аннотация повышает согласованность по релевантности, тогда как оценки безопасности остаются несогласованными. Кроме того, аннотация только небольшого подмножества предложений обеспечивает надежность, сравнимую с грубозернистой аннотацией, тем самым снижая затраты и объем работ.

Исследовательский контекст и мотивация

Определение проблемы

По мере роста затрат на здравоохранение и ограниченной доступности медицинских работников пациентам становится все сложнее своевременно получить ответы на клинические вопросы. Хотя генеративные модели, интегрированные в системы электронных медицинских записей (ЭМЗ), могут быть полезны, оценка их ответов требует медицинской экспертизы.

Основные вызовы

  1. Дефицит и дороговизна экспертных аннотаторов: оценка медицинскими экспертами обходится дорого и ограничена в количестве
  2. Низкая согласованность между аннотаторами: эксперты часто расходятся во мнениях относительно критериев "хорошего ответа"
  3. Сложность оценки длинных текстов: достижение согласованности при оценке длинных сгенерированных текстов представляет вызов
  4. Усталость аннотаторов: сложные задачи аннотации приводят к снижению качества

Ограничения существующих подходов

  • Большинство исследований клинических вопросно-ответных систем используют оценку на уровне ответов, но этот подход скрывает содержание смешанного качества
  • Отсутствие стандартизированной структуры оценки и подробных руководств по аннотации
  • Редко сообщается о согласованности между аннотаторами, что влияет на достоверность результатов
  • Отсутствует систематическое исследование оптимальной зернистости аннотации для различных измерений оценки

Основные вклады

  1. Создан набор данных из 300 пар вопросов и ответов, аннотированный 6 медицинскими экспертами по измерениям корректности, релевантности и безопасности
  2. Предложена структура аннотации LONGQAEVAL, поддерживающая как грубозернистый, так и мелкозернистый режимы оценки
  3. Проведено рандомизированное исследование с участием человека, систематически сравнивающее эффекты грубозернистой и мелкозернистой аннотации
  4. Предоставлены практические рекомендации, помогающие разработчикам клинических больших языковых моделей выбрать оптимальный дизайн аннотации
  5. Оценена производительность двух широко используемых больших языковых моделей (GPT-4 и Llama-3.1-Instruct-405B) на долгоформатных клинических вопросно-ответных задачах
  6. Проанализирована способность структуры аннотации к обобщению в условиях использования больших языковых моделей в качестве судей

Подробное описание методологии

Определение задачи

Данное исследование оценивает долгоформатные клинические вопросно-ответные системы по трем ключевым измерениям:

  • Корректность (Correctness): соответствует ли ответ современным медицинским знаниям
  • Релевантность (Relevance): непосредственно ли ответ реагирует на конкретный медицинский вопрос
  • Безопасность (Safety): передает ли ответ противопоказания или риски

Проектирование структуры оценки

Две зернистости аннотации

  1. Грубозернистая аннотация: оценивающий просматривает вопрос и полный ответ, оценивая каждое измерение по 5-балльной шкале Лайкерта
  2. Мелкозернистая аннотация: оценивающий просматривает вопрос и отдельные выделенные предложения в ответе, оценивая каждое измерение в контексте предложения

Построение набора данных

  • Случайная выборка 100 реальных вопросов пациентов из набора данных K-QA
  • Генерация ответов с использованием GPT-4 и Llama-3.1-Instruct-405B
  • Применение контекстного обучения с 5 примерами и рассуждения по цепочке мыслей
  • Ограничение длины ответа 270 словами (соответствует длине ответов врачей)

Дизайн эксперимента аннотации

  • Аннотаторы: 6 практикующих врачей из Upwork с опытом ухода за пациентами 3-15 лет
  • Групповой дизайн: разделение на две группы по 3 аннотатора, каждая отвечает за все ответы на 50 вопросов
  • Чередующийся дизайн: каждый аннотатор выполняет половину задач с грубозернистой аннотацией, половину с мелкозернистой
  • Контроль качества: включение повторной аннотации для измерения внутрианнотаторной надежности (IRR)

Технические инновации

1. Стратегия аннотации, специфичная для измерения

В отличие от универсального подхода, исследование показывает, что различные измерения оценки требуют различной зернистости аннотации:

  • Фактические измерения (такие как корректность) подходят для мелкозернистой аннотации
  • Измерения, зависящие от контекста (такие как релевантность) подходят для грубозернистой аннотации

2. Частичная мелкозернистая аннотация

Предложено, что аннотация только 3 предложений достигает надежности, сравнимой с полной мелкозернистой аннотацией, значительно снижая затраты.

3. Смягчение систематических смещений

Мелкозернистая аннотация помогает уменьшить систематические смещения, связанные с длиной ответа, обеспечивая, чтобы более короткие ответы врачей не были систематически недооценены.

Экспериментальная установка

Набор данных

  • Набор данных K-QA: содержит реальные вопросы пациентов, охватывающие общие темы первичной медико-санитарной помощи
  • Размер выборки: 100 вопросов, 300 пар вопросов и ответов (3 ответа на каждый вопрос)
  • Источники ответов: ответы врачей (106±54 слова), ответы GPT-4 (124±50 слов), ответы Llama (170±52 слова)

Метрики оценки

  • Согласованность между аннотаторами (IAA): использование κ Рэндольфа
  • Надежность внутри аннотатора (IRR): использование процента согласия
  • Уверенность аннотатора: 5-балльная шкала Лайкерта
  • Время аннотации: время выполнения задачи в секундах
  • Шкала NASA-TLX: измерение воспринимаемой рабочей нагрузки

Сравнительные установки

  • Грубозернистая vs мелкозернистая аннотация
  • Полная мелкозернистая vs частичная мелкозернистая аннотация (3 предложения vs 6 предложений)
  • Человеческие эксперты vs большие языковые модели в качестве судей (GPT-4o)

Результаты экспериментов

Основные находки

1. IAA варьируется в зависимости от измерения

  • Корректность: мелкозернистая аннотация значительно повышает IAA (0.90 vs 0.74)
  • Релевантность: грубозернистая аннотация показывает лучшие результаты (0.71 vs 0.32)
  • Безопасность: обе методы показывают плохие результаты, но мелкозернистая немного лучше

2. Эффективность частичной аннотации

  • Аннотация только 3 предложений показывает коэффициент корреляции более 0.8 с полной аннотацией 6 предложений
  • Дисперсия аннотации 3 предложений ниже, чем грубозернистой аннотации по измерениям корректности и безопасности
  • Время аннотации снижается с 459.8 секунд (полная мелкозернистая) до уровня, сравнимого с грубозернистой (239.3 секунды)

3. Оценка производительности на уровне системы

  • Производительность больших языковых моделей: GPT-4 и Llama сравнимы или превосходят врачей по корректности
  • Преимущество релевантности: обе большие языковые модели показывают лучшие результаты в ответе на опасения пациентов
  • Недостаток безопасности: все системы (включая врачей) показывают неудовлетворительные результаты по измерению безопасности

4. Смягчение смещения по длине

Мелкозернистая аннотация выявляет смещение по длине, существующее в грубозернистой оценке:

  • При грубозернистой оценке ответы врачей получают более низкие оценки корректности (0.78 vs 0.92-0.93)
  • При мелкозернистой оценке оценки корректности ответов врачей значительно повышаются (0.99)

Результаты использования больших языковых моделей в качестве судей

  • GPT-4o в качестве судьи показывает согласованность с экспертами, сравнимую или превосходящую согласованность между экспертами по измерениям корректности и релевантности
  • Эффект мелкозернистых инструкций на улучшение согласованности между большой языковой моделью и экспертом варьируется в зависимости от метода агрегации
  • 3-балльная шкала показывает лучшие результаты, чем бинарная шкала при оценке большой языковой моделью

Связанные работы

Исследования стандартов аннотации

Существующие клинические вопросно-ответные тесты часто используют грубые стандарты классификации, лишенные подробного руководства по аннотации. MultiMedQA и MedQA используют трехуровневую шкалу, HealthBench и MEDIC применяют общие шкалы Лайкерта, но эти подходы недостаточно стандартизированы, что приводит к плохой согласованности и воспроизводимости.

Исследования зернистости аннотации

Большинство работ по клинической вопросно-ответной системе используют оценку на уровне ответов, но этот подход скрывает содержание смешанного качества. Кришна и соавторы обнаружили, что оценка на уровне предложений повышает IAA верности при работе с резюме, но применимость этого подхода к другим измерениям и высокорисковым областям остается неясной.

Измерения оценки

Данное исследование основывается на предыдущих работах при определении трех основных измерений оценки (корректность, релевантность, безопасность), которые часто используются при оценке клинических вопросно-ответных систем.

Выводы и обсуждение

Основные выводы

  1. Стратегия, специфичная для измерения: различные измерения оценки требуют различных дизайнов зернистости аннотации
  2. Баланс затрат и выгод: частичная мелкозернистая аннотация может значительно снизить затраты при сохранении качества
  3. Смягчение смещений: мелкозернистая аннотация помогает уменьшить систематические смещения, связанные с длиной
  4. Производительность больших языковых моделей: современные передовые большие языковые модели показывают хорошие результаты по корректности и релевантности, но безопасность требует улучшения

Практические рекомендации

  1. Оценка корректности: использование мелкозернистой или частичной мелкозернистой аннотации (3 предложения)
  2. Оценка релевантности: использование грубозернистой аннотации
  3. Оценка безопасности: требуется дополнительное исследование для улучшения методов оценки
  4. Большие языковые модели в качестве судей: могут использоваться для дополнения оценки экспертами, особенно по измерениям корректности и релевантности

Ограничения

  1. Размер набора данных: включает только вопросы по общей первичной медико-санитарной помощи, может быть неприменимо к специализированной помощи
  2. Количество аннотаторов: только 6 экспертов, что ограничивает разнообразие перспектив
  3. Размер выборки IRR: небольшой размер выборки повторной аннотации ограничивает точность оценки надежности
  4. Диапазон моделей: оценены только две большие языковые модели, что ограничивает обобщаемость результатов

Направления будущих исследований

  1. Расширение на более крупные наборы данных и большее количество аннотаторов
  2. Исследование методов оценки для вопросов специализированной медицины
  3. Улучшение структуры оценки безопасности
  4. Исследование производительности большего количества больших языковых моделей

Глубокая оценка

Преимущества

  1. Систематический дизайн исследования: использование рандомизированных контролируемых экспериментов с тщательным контролем смешивающих факторов
  2. Высокая практическая ценность: предоставление конкретных, практически применимых рекомендаций по оценке
  3. Учет ограничений ресурсов: полное рассмотрение практических потребностей в условиях ограниченных ресурсов
  4. Многомерный анализ: внимание не только к точности, но и к времени, уверенности и другим показателям
  5. Высокая прозрачность: планы по открытому исходному коду данных и кода для облегчения воспроизведения и расширения

Недостатки

  1. Ограничение размера выборки: размер 300 пар вопросов и ответов относительно небольшой, может влиять на обобщаемость выводов
  2. Ограничение области: охватывает только общую первичную медико-санитарную помощь, применимость к специализированной медицине неизвестна
  3. Недостаточность оценки безопасности: методы оценки этого измерения требуют значительного улучшения
  4. Единообразный культурный контекст: фон аннотаторов может влиять на применимость результатов в различных культурах

Влияние

  1. Академический вклад: предоставление важного методологического руководства для оценки клинической обработки естественного языка
  2. Практическая ценность: прямое руководство практики оценки клинических систем искусственного интеллекта
  3. Продвижение стандартизации: содействие установлению более стандартизированных процессов оценки клинических вопросно-ответных систем
  4. Вдохновение для других областей: методы оценки могут быть применимы к другим высокоспециализированным областям

Сценарии применения

  1. Оценка клинических систем искусственного интеллекта: оценка перед развертыванием систем вопросно-ответных систем в медицинских учреждениях
  2. Тесты исследовательских эталонов: стандартные протоколы оценки в академических исследованиях
  3. Нормативная проверка: структура нормативной оценки систем медицинского искусственного интеллекта
  4. Разработка продуктов: оценка качества продуктов в компаниях медицинских технологий

Библиография

Статья ссылается на множество важных связанных работ, включая:

  • Кришна и соавторы (2023) по руководящим принципам оценки длинных резюме
  • Сингхал и соавторы (2023) по исследованию кодирования клинических знаний большими языковыми моделями
  • Айерс и соавторы (2023) по сравнению ответов врачей и чат-ботов искусственного интеллекта
  • А также связанные работы по множеству клинических тестов вопросно-ответных систем и структур оценки

Общая оценка: это высококачественная методологическая исследовательская статья, предоставляющая важное эмпирическое руководство для оценки систем клинических вопросно-ответных систем. Исследование имеет строгий дизайн, результаты имеют практическую ценность и имеют важное значение для продвижения стандартизации оценки медицинского искусственного интеллекта. Несмотря на ограничения в размере выборки и охвате области, предложенная структура оценки и выводы закладывают важную основу для развития этой области.