2025-11-13T07:13:11.100190

LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints

Bologna, Pan, Wilkens et al.

Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.

academic

LONGQAEVAL: Проектирование надежных оценок долгоформатных клинических вопросно-ответных систем в условиях ограниченных ресурсов

Основная информация

ID статьи: 2510.10415
Название: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
Авторы: Федерика Болонья (Корнеллский университет), Тиффани Пан (Корнеллский университет), Мэтью Уилкенс (Корнеллский университет), Юэ Го (Университет Иллинойса, Урбана-Шампейн), Люси Лу Ван (Университет Вашингтона)
Классификация: cs.CL cs.AI
Дата публикации: 12 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.10415v1

Аннотация

Оценка долгоформатных клинических вопросно-ответных систем требует значительных ресурсов и представляет серьезные вызовы: точная оценка требует медицинской экспертизы, а достижение согласованности между аннотаторами на длинных текстах крайне затруднено. В данной статье представляется LONGQAEVAL — структура оценки и набор рекомендаций, разработанные для сценариев с ограниченными ресурсами и высокими требованиями к специализации. На основе аннотаций врачей 300 реальных вопросов пациентов (включая ответы врачей и больших языковых моделей) исследование сравнивает грубозернистую оценку на уровне ответов с мелкозернистой оценкой на уровне предложений по трем измерениям: корректность, релевантность и безопасность. Исследование показывает, что согласованность между аннотаторами (IAA) варьируется в зависимости от измерения: мелкозернистая аннотация повышает согласованность по корректности, грубозернистая аннотация повышает согласованность по релевантности, тогда как оценки безопасности остаются несогласованными. Кроме того, аннотация только небольшого подмножества предложений обеспечивает надежность, сравнимую с грубозернистой аннотацией, тем самым снижая затраты и объем работ.

Исследовательский контекст и мотивация

Определение проблемы

По мере роста затрат на здравоохранение и ограниченной доступности медицинских работников пациентам становится все сложнее своевременно получить ответы на клинические вопросы. Хотя генеративные модели, интегрированные в системы электронных медицинских записей (ЭМЗ), могут быть полезны, оценка их ответов требует медицинской экспертизы.

Основные вызовы

Дефицит и дороговизна экспертных аннотаторов: оценка медицинскими экспертами обходится дорого и ограничена в количестве
Низкая согласованность между аннотаторами: эксперты часто расходятся во мнениях относительно критериев "хорошего ответа"
Сложность оценки длинных текстов: достижение согласованности при оценке длинных сгенерированных текстов представляет вызов
Усталость аннотаторов: сложные задачи аннотации приводят к снижению качества

Ограничения существующих подходов

Большинство исследований клинических вопросно-ответных систем используют оценку на уровне ответов, но этот подход скрывает содержание смешанного качества
Отсутствие стандартизированной структуры оценки и подробных руководств по аннотации
Редко сообщается о согласованности между аннотаторами, что влияет на достоверность результатов
Отсутствует систематическое исследование оптимальной зернистости аннотации для различных измерений оценки

Основные вклады

Создан набор данных из 300 пар вопросов и ответов, аннотированный 6 медицинскими экспертами по измерениям корректности, релевантности и безопасности
Предложена структура аннотации LONGQAEVAL, поддерживающая как грубозернистый, так и мелкозернистый режимы оценки
Проведено рандомизированное исследование с участием человека, систематически сравнивающее эффекты грубозернистой и мелкозернистой аннотации
Предоставлены практические рекомендации, помогающие разработчикам клинических больших языковых моделей выбрать оптимальный дизайн аннотации
Оценена производительность двух широко используемых больших языковых моделей (GPT-4 и Llama-3.1-Instruct-405B) на долгоформатных клинических вопросно-ответных задачах
Проанализирована способность структуры аннотации к обобщению в условиях использования больших языковых моделей в качестве судей

Подробное описание методологии

Определение задачи

Данное исследование оценивает долгоформатные клинические вопросно-ответные системы по трем ключевым измерениям:

Корректность (Correctness): соответствует ли ответ современным медицинским знаниям
Релевантность (Relevance): непосредственно ли ответ реагирует на конкретный медицинский вопрос
Безопасность (Safety): передает ли ответ противопоказания или риски

Проектирование структуры оценки

Две зернистости аннотации

Грубозернистая аннотация: оценивающий просматривает вопрос и полный ответ, оценивая каждое измерение по 5-балльной шкале Лайкерта
Мелкозернистая аннотация: оценивающий просматривает вопрос и отдельные выделенные предложения в ответе, оценивая каждое измерение в контексте предложения

Построение набора данных

Случайная выборка 100 реальных вопросов пациентов из набора данных K-QA
Генерация ответов с использованием GPT-4 и Llama-3.1-Instruct-405B
Применение контекстного обучения с 5 примерами и рассуждения по цепочке мыслей
Ограничение длины ответа 270 словами (соответствует длине ответов врачей)

Дизайн эксперимента аннотации

Аннотаторы: 6 практикующих врачей из Upwork с опытом ухода за пациентами 3-15 лет
Групповой дизайн: разделение на две группы по 3 аннотатора, каждая отвечает за все ответы на 50 вопросов
Чередующийся дизайн: каждый аннотатор выполняет половину задач с грубозернистой аннотацией, половину с мелкозернистой
Контроль качества: включение повторной аннотации для измерения внутрианнотаторной надежности (IRR)

Технические инновации

1. Стратегия аннотации, специфичная для измерения

В отличие от универсального подхода, исследование показывает, что различные измерения оценки требуют различной зернистости аннотации:

Фактические измерения (такие как корректность) подходят для мелкозернистой аннотации
Измерения, зависящие от контекста (такие как релевантность) подходят для грубозернистой аннотации

2. Частичная мелкозернистая аннотация

Предложено, что аннотация только 3 предложений достигает надежности, сравнимой с полной мелкозернистой аннотацией, значительно снижая затраты.

3. Смягчение систематических смещений

Мелкозернистая аннотация помогает уменьшить систематические смещения, связанные с длиной ответа, обеспечивая, чтобы более короткие ответы врачей не были систематически недооценены.

Экспериментальная установка

Набор данных

Набор данных K-QA: содержит реальные вопросы пациентов, охватывающие общие темы первичной медико-санитарной помощи
Размер выборки: 100 вопросов, 300 пар вопросов и ответов (3 ответа на каждый вопрос)
Источники ответов: ответы врачей (106±54 слова), ответы GPT-4 (124±50 слов), ответы Llama (170±52 слова)

Метрики оценки

Согласованность между аннотаторами (IAA): использование κ Рэндольфа
Надежность внутри аннотатора (IRR): использование процента согласия
Уверенность аннотатора: 5-балльная шкала Лайкерта
Время аннотации: время выполнения задачи в секундах
Шкала NASA-TLX: измерение воспринимаемой рабочей нагрузки

Сравнительные установки

Грубозернистая vs мелкозернистая аннотация
Полная мелкозернистая vs частичная мелкозернистая аннотация (3 предложения vs 6 предложений)
Человеческие эксперты vs большие языковые модели в качестве судей (GPT-4o)

Результаты экспериментов

Основные находки

1. IAA варьируется в зависимости от измерения

Корректность: мелкозернистая аннотация значительно повышает IAA (0.90 vs 0.74)
Релевантность: грубозернистая аннотация показывает лучшие результаты (0.71 vs 0.32)
Безопасность: обе методы показывают плохие результаты, но мелкозернистая немного лучше

2. Эффективность частичной аннотации

Аннотация только 3 предложений показывает коэффициент корреляции более 0.8 с полной аннотацией 6 предложений
Дисперсия аннотации 3 предложений ниже, чем грубозернистой аннотации по измерениям корректности и безопасности
Время аннотации снижается с 459.8 секунд (полная мелкозернистая) до уровня, сравнимого с грубозернистой (239.3 секунды)

3. Оценка производительности на уровне системы

Производительность больших языковых моделей: GPT-4 и Llama сравнимы или превосходят врачей по корректности
Преимущество релевантности: обе большие языковые модели показывают лучшие результаты в ответе на опасения пациентов
Недостаток безопасности: все системы (включая врачей) показывают неудовлетворительные результаты по измерению безопасности

4. Смягчение смещения по длине

Мелкозернистая аннотация выявляет смещение по длине, существующее в грубозернистой оценке:

При грубозернистой оценке ответы врачей получают более низкие оценки корректности (0.78 vs 0.92-0.93)
При мелкозернистой оценке оценки корректности ответов врачей значительно повышаются (0.99)

Результаты использования больших языковых моделей в качестве судей

GPT-4o в качестве судьи показывает согласованность с экспертами, сравнимую или превосходящую согласованность между экспертами по измерениям корректности и релевантности
Эффект мелкозернистых инструкций на улучшение согласованности между большой языковой моделью и экспертом варьируется в зависимости от метода агрегации
3-балльная шкала показывает лучшие результаты, чем бинарная шкала при оценке большой языковой моделью

Связанные работы

Исследования стандартов аннотации

Существующие клинические вопросно-ответные тесты часто используют грубые стандарты классификации, лишенные подробного руководства по аннотации. MultiMedQA и MedQA используют трехуровневую шкалу, HealthBench и MEDIC применяют общие шкалы Лайкерта, но эти подходы недостаточно стандартизированы, что приводит к плохой согласованности и воспроизводимости.

Исследования зернистости аннотации

Большинство работ по клинической вопросно-ответной системе используют оценку на уровне ответов, но этот подход скрывает содержание смешанного качества. Кришна и соавторы обнаружили, что оценка на уровне предложений повышает IAA верности при работе с резюме, но применимость этого подхода к другим измерениям и высокорисковым областям остается неясной.

Измерения оценки

Данное исследование основывается на предыдущих работах при определении трех основных измерений оценки (корректность, релевантность, безопасность), которые часто используются при оценке клинических вопросно-ответных систем.

Выводы и обсуждение

Основные выводы

Стратегия, специфичная для измерения: различные измерения оценки требуют различных дизайнов зернистости аннотации
Баланс затрат и выгод: частичная мелкозернистая аннотация может значительно снизить затраты при сохранении качества
Смягчение смещений: мелкозернистая аннотация помогает уменьшить систематические смещения, связанные с длиной
Производительность больших языковых моделей: современные передовые большие языковые модели показывают хорошие результаты по корректности и релевантности, но безопасность требует улучшения

Практические рекомендации

Оценка корректности: использование мелкозернистой или частичной мелкозернистой аннотации (3 предложения)
Оценка релевантности: использование грубозернистой аннотации
Оценка безопасности: требуется дополнительное исследование для улучшения методов оценки
Большие языковые модели в качестве судей: могут использоваться для дополнения оценки экспертами, особенно по измерениям корректности и релевантности

Ограничения

Размер набора данных: включает только вопросы по общей первичной медико-санитарной помощи, может быть неприменимо к специализированной помощи
Количество аннотаторов: только 6 экспертов, что ограничивает разнообразие перспектив
Размер выборки IRR: небольшой размер выборки повторной аннотации ограничивает точность оценки надежности
Диапазон моделей: оценены только две большие языковые модели, что ограничивает обобщаемость результатов

Направления будущих исследований

Расширение на более крупные наборы данных и большее количество аннотаторов
Исследование методов оценки для вопросов специализированной медицины
Улучшение структуры оценки безопасности
Исследование производительности большего количества больших языковых моделей

Глубокая оценка

Преимущества

Систематический дизайн исследования: использование рандомизированных контролируемых экспериментов с тщательным контролем смешивающих факторов
Высокая практическая ценность: предоставление конкретных, практически применимых рекомендаций по оценке
Учет ограничений ресурсов: полное рассмотрение практических потребностей в условиях ограниченных ресурсов
Многомерный анализ: внимание не только к точности, но и к времени, уверенности и другим показателям
Высокая прозрачность: планы по открытому исходному коду данных и кода для облегчения воспроизведения и расширения

Недостатки

Ограничение размера выборки: размер 300 пар вопросов и ответов относительно небольшой, может влиять на обобщаемость выводов
Ограничение области: охватывает только общую первичную медико-санитарную помощь, применимость к специализированной медицине неизвестна
Недостаточность оценки безопасности: методы оценки этого измерения требуют значительного улучшения
Единообразный культурный контекст: фон аннотаторов может влиять на применимость результатов в различных культурах

Влияние

Академический вклад: предоставление важного методологического руководства для оценки клинической обработки естественного языка
Практическая ценность: прямое руководство практики оценки клинических систем искусственного интеллекта
Продвижение стандартизации: содействие установлению более стандартизированных процессов оценки клинических вопросно-ответных систем
Вдохновение для других областей: методы оценки могут быть применимы к другим высокоспециализированным областям

Сценарии применения

Оценка клинических систем искусственного интеллекта: оценка перед развертыванием систем вопросно-ответных систем в медицинских учреждениях
Тесты исследовательских эталонов: стандартные протоколы оценки в академических исследованиях
Нормативная проверка: структура нормативной оценки систем медицинского искусственного интеллекта
Разработка продуктов: оценка качества продуктов в компаниях медицинских технологий

Библиография

Статья ссылается на множество важных связанных работ, включая:

Кришна и соавторы (2023) по руководящим принципам оценки длинных резюме
Сингхал и соавторы (2023) по исследованию кодирования клинических знаний большими языковыми моделями
Айерс и соавторы (2023) по сравнению ответов врачей и чат-ботов искусственного интеллекта
А также связанные работы по множеству клинических тестов вопросно-ответных систем и структур оценки

Общая оценка: это высококачественная методологическая исследовательская статья, предоставляющая важное эмпирическое руководство для оценки систем клинических вопросно-ответных систем. Исследование имеет строгий дизайн, результаты имеют практическую ценность и имеют важное значение для продвижения стандартизации оценки медицинского искусственного интеллекта. Несмотря на ограничения в размере выборки и охвате области, предложенная структура оценки и выводы закладывают важную основу для развития этой области.