2025-11-13T07:13:11.100190

LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints

Bologna, Pan, Wilkens et al.

Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.

academic

LONGQAEVAL: Diseño de Evaluaciones Confiables de Preguntas y Respuestas Clínicas de Formato Largo bajo Restricciones de Recursos

Información Básica

ID del Artículo: 2510.10415
Título: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
Autores: Federica Bologna (Cornell University), Tiffany Pan (Cornell University), Matthew Wilkens (Cornell University), Yue Guo (University of Illinois, Urbana-Champaign), Lucy Lu Wang (University of Washington)
Clasificación: cs.CL cs.AI
Fecha de Publicación: 12 de octubre de 2025 (preimpresión de arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10415v1

Resumen

La evaluación de sistemas de preguntas y respuestas clínicas de formato largo es tanto costosa en recursos como desafiante: la evaluación precisa requiere experiencia médica, y lograr consenso en evaluaciones humanas sobre texto extenso es extremadamente difícil. Este artículo introduce LONGQAEVAL, un marco de evaluación y conjunto de recomendaciones diseñado para entornos con recursos limitados y requisitos de alta especialización. Basado en anotaciones de médicos para 300 preguntas reales de pacientes (incluyendo respuestas de médicos e ILG), el estudio compara evaluaciones de granularidad gruesa a nivel de respuesta versus granularidad fina a nivel de oración, abarcando tres dimensiones: corrección, relevancia y seguridad. El estudio descubre que el acuerdo entre anotadores (IAA) varía según la dimensión: las anotaciones de granularidad fina mejoran la consistencia en corrección, las anotaciones de granularidad gruesa mejoran la consistencia en relevancia, mientras que los juicios de seguridad permanecen inconsistentes. Además, anotar solo un pequeño subconjunto de oraciones proporciona confiabilidad comparable a las anotaciones de granularidad gruesa, reduciendo así costos y carga de trabajo.

Antecedentes y Motivación de la Investigación

Definición del Problema

Con el aumento de costos médicos y la disponibilidad limitada de proveedores de atención médica, los pacientes tienen dificultades para obtener respuestas oportunas a preguntas clínicas. Aunque los modelos generativos integrados en sistemas de registros médicos electrónicos (RME) podrían ser útiles, evaluar sus respuestas requiere experiencia médica.

Desafíos Centrales

Escasez y alto costo de anotadores expertos: La evaluación por expertos médicos es costosa y limitada en cantidad
Baja consistencia entre anotadores: Los expertos frecuentemente discrepan sobre los estándares de "buenas respuestas"
Dificultad en la evaluación de texto extenso: Lograr juicios consistentes sobre texto generado largo es desafiante
Problema de fatiga del anotador: Las tareas de anotación complejas resultan en disminución de la calidad

Limitaciones de Métodos Existentes

La mayoría de investigaciones en preguntas y respuestas clínicas utilizan evaluación a nivel de respuesta, pero este enfoque oculta contenido de calidad mixta
Falta de marcos de evaluación estandarizados y directrices de anotación detalladas
Pocas reportan consistencia entre anotadores, afectando la credibilidad de resultados
Falta de investigación sistemática sobre la granularidad de anotación óptima para diferentes dimensiones de evaluación

Contribuciones Principales

Construcción de un conjunto de datos con 300 pares de preguntas y respuestas, anotados por 6 expertos médicos en las dimensiones de corrección, relevancia y seguridad
Propuesta del marco de anotación LONGQAEVAL, que soporta dos modos de evaluación: granularidad gruesa y granularidad fina
Estudio de anotación humana aleatorizado, que compara sistemáticamente los efectos de anotaciones de granularidad gruesa versus granularidad fina
Provisión de recomendaciones prácticas, ayudando a desarrolladores de ILG clínicos a elegir el mejor diseño de anotación
Evaluación de dos ILG ampliamente utilizados (GPT-4 y Llama-3.1-Instruct-405B) en preguntas y respuestas clínicas de formato largo
Análisis de la capacidad de generalización del marco de anotación en configuraciones de ILG-como-juez

Explicación Detallada de Métodos

Definición de Tarea

Esta investigación evalúa sistemas de preguntas y respuestas clínicas de formato largo en tres dimensiones clave:

Corrección (Correctness): ¿La respuesta se alinea con el conocimiento médico actual?
Relevancia (Relevance): ¿La respuesta responde directamente a la pregunta médica específica?
Seguridad (Safety): ¿La respuesta comunica contraindicaciones o riesgos?

Diseño del Marco de Evaluación

Dos Granularidades de Anotación

Anotación de Granularidad Gruesa: Los evaluadores revisan la pregunta y respuesta completa, calificando cada dimensión en una escala Likert de 5 puntos
Anotación de Granularidad Fina: Los evaluadores revisan la pregunta y oraciones individuales resaltadas en la respuesta, evaluando cada dimensión en el contexto de la oración

Construcción del Conjunto de Datos

Extracción aleatoria de 100 preguntas reales de pacientes del conjunto de datos K-QA
Generación de respuestas utilizando GPT-4 y Llama-3.1-Instruct-405B
Uso de aprendizaje en contexto de 5 disparos y razonamiento de cadena de pensamiento
Limitación de longitud de respuesta a 270 palabras (consistente con la longitud de respuestas médicas)

Diseño del Experimento de Anotación

Anotadores: 6 médicos en ejercicio de Upwork, con 3-15 años de experiencia en atención al paciente
Diseño de Grupos: División en dos grupos, cada uno con 3 anotadores, cada uno responsable de todas las respuestas para 50 preguntas
Diseño Alternado: Cada anotador realiza la mitad de sus tareas con anotación de granularidad gruesa y la mitad con granularidad fina
Control de Calidad: Incluye anotación repetida para medir consistencia intra-anotador (IRR)

Puntos de Innovación Técnica

1. Estrategia de Anotación Específica por Dimensión

A diferencia de un enfoque único, esta investigación descubre que diferentes dimensiones de evaluación requieren diferentes granularidades de anotación:

Las dimensiones factuales (como corrección) son adecuadas para anotación de granularidad fina
Las dimensiones dependientes del contexto (como relevancia) son adecuadas para anotación de granularidad gruesa

2. Anotación Parcial de Granularidad Fina

Se propone que anotar solo 3 oraciones logra confiabilidad comparable a la anotación de granularidad fina completa, reduciendo significativamente costos.

3. Mitigación de Sesgos Sistemáticos

La anotación de granularidad fina ayuda a mitigar sesgos sistemáticos relacionados con la longitud de respuesta, asegurando que respuestas médicas más cortas no sean sistemáticamente subestimadas.

Configuración Experimental

Conjunto de Datos

Conjunto de Datos K-QA: Contiene preguntas reales de pacientes, cubriendo temas generales de atención primaria
Tamaño de Muestra: 100 preguntas, 300 pares de preguntas y respuestas (3 respuestas por pregunta)
Fuentes de Respuestas: Respuestas de médicos (106±54 palabras), respuestas de GPT-4 (124±50 palabras), respuestas de Llama (170±52 palabras)

Métricas de Evaluación

Acuerdo Entre Anotadores (IAA): Utilizando κ de Randolph
Consistencia Intra-Anotador (IRR): Utilizando porcentaje de acuerdo
Confianza del Anotador: Escala Likert de 5 puntos
Tiempo de Anotación: Tiempo de finalización de tarea en segundos
Escala NASA-TLX: Medición de carga de trabajo percibida

Configuraciones de Comparación

Anotación de granularidad gruesa vs. granularidad fina
Anotación de granularidad fina completa vs. parcial (3 oraciones vs. 6 oraciones)
Expertos humanos vs. ILG-como-juez (GPT-4o)

Resultados Experimentales

Hallazgos Principales

1. IAA Varía Según la Dimensión

Corrección: La anotación de granularidad fina mejora significativamente IAA (0.90 vs. 0.74)
Relevancia: La anotación de granularidad gruesa tiene mejor desempeño (0.71 vs. 0.32)
Seguridad: Ambos métodos tienen bajo desempeño, pero granularidad fina muestra ligera mejora

2. Efectividad de Anotación Parcial

Anotar solo 3 oraciones logra correlación superior a 0.8 con anotación completa de 6 oraciones
La varianza de anotación de 3 oraciones es menor que la anotación de granularidad gruesa en dimensiones de corrección y seguridad
El tiempo de anotación se reduce de 459.8 segundos (granularidad fina completa) a niveles comparables con granularidad gruesa (239.3 segundos)

3. Evaluación de Desempeño a Nivel de Sistema

Desempeño de ILG: GPT-4 y Llama son comparables o superiores a médicos en corrección
Ventaja de Relevancia: Ambos ILG tienen mejor desempeño en responder preocupaciones de pacientes
Insuficiencia de Seguridad: Todos los sistemas (incluyendo médicos) tienen desempeño subóptimo en la dimensión de seguridad

4. Mitigación de Sesgo de Longitud

La anotación de granularidad fina revela sesgos de longitud presentes en evaluación de granularidad gruesa:

En evaluación de granularidad gruesa, respuestas médicas reciben puntuaciones de corrección más bajas (0.78 vs. 0.92-0.93)
En evaluación de granularidad fina, respuestas médicas reciben puntuaciones de corrección significativamente más altas (0.99)

Resultados de ILG-como-Juez

GPT-4o como evaluador logra consistencia comparable o superior con expertos en dimensiones de corrección y relevancia
El efecto de instrucciones de granularidad fina en mejorar consistencia ILG-experto varía según el método de agregación
La escala de 3 puntos tiene mejor desempeño que la escala binaria en evaluación por ILG

Trabajo Relacionado

Investigación de Normas de Anotación

Los puntos de referencia existentes de preguntas y respuestas clínicas adoptan principalmente normas de clasificación aproximadas, careciendo de orientación de anotación detallada. MultiMedQA y MedQA utilizan escalas de tres niveles, HealthBench y MEDIC adoptan escalas Likert generales, pero estos métodos carecen de suficiente normalización, resultando en consistencia y reproducibilidad deficientes.

Investigación de Granularidad de Anotación

La mayoría del trabajo en preguntas y respuestas clínicas utiliza evaluación a nivel de respuesta, pero este enfoque oculta contenido de calidad mixta. Krishna et al. descubrieron en tareas de resumen que la evaluación a nivel de oración mejora IAA para fidelidad, pero su aplicabilidad en otras dimensiones y dominios de alto riesgo permanece sin claridad.

Dimensiones de Evaluación

Esta investigación se basa en trabajo previo para identificar tres dimensiones de evaluación centrales (corrección, relevancia, seguridad), que se utilizan frecuentemente en evaluación de preguntas y respuestas clínicas.

Conclusiones y Discusión

Conclusiones Principales

Estrategia Específica por Dimensión: Diferentes dimensiones de evaluación requieren diseños de anotación de diferentes granularidades
Balance Costo-Beneficio: La anotación parcial de granularidad fina puede reducir significativamente costos mientras mantiene calidad
Mitigación de Sesgos: La anotación de granularidad fina ayuda a reducir sesgos sistemáticos relacionados con longitud
Desempeño de ILG: Los ILG avanzados actuales tienen buen desempeño en corrección y relevancia, pero la seguridad requiere mejora

Recomendaciones Prácticas

Evaluación de Corrección: Utilizar anotación de granularidad fina o anotación parcial de granularidad fina (3 oraciones)
Evaluación de Relevancia: Utilizar anotación de granularidad gruesa
Evaluación de Seguridad: Requiere más investigación para mejorar métodos de evaluación
ILG-como-Juez: Puede utilizarse para complementar evaluación de expertos, particularmente en dimensiones de corrección y relevancia

Limitaciones

Tamaño del Conjunto de Datos: Contiene solo preguntas generales de atención primaria, puede no ser aplicable a atención especializada
Número de Anotadores: Solo 6 expertos, limitando diversidad de perspectivas
Muestra de IRR: Muestra de anotación repetida pequeña, limitando precisión de evaluación de confiabilidad
Rango de Modelos: Solo evalúa dos ILG, generalización limitada de resultados

Direcciones Futuras

Expansión a conjuntos de datos más grandes y más anotadores
Investigación de métodos de evaluación para problemas médicos especializados
Mejora del marco de evaluación de seguridad
Exploración del desempeño de más ILG

Evaluación Profunda

Fortalezas

Diseño de Investigación Sistemático: Utiliza experimentos controlados aleatorizados, controlando rigurosamente factores de confusión
Alto Valor Práctico: Proporciona orientación de evaluación específica y operativa
Conciencia de Costos: Considera plenamente necesidades prácticas bajo restricciones de recursos
Análisis Multidimensional: No solo se enfoca en precisión, sino que considera múltiples métricas incluyendo tiempo y confianza
Alta Transparencia: Planea liberar datos y código, facilitando reproducción y extensión

Deficiencias

Limitación de Tamaño de Muestra: El tamaño de 300 pares de preguntas y respuestas es relativamente pequeño, potencialmente afectando generalización de conclusiones
Limitación de Dominio: Solo cubre atención primaria general, aplicabilidad a medicina especializada desconocida
Evaluación de Seguridad Insuficiente: Esta dimensión aún requiere mejora significativa en métodos de evaluación
Contexto Cultural Único: El trasfondo de anotadores puede afectar aplicabilidad transcultural de resultados

Impacto

Contribución Académica: Proporciona orientación metodológica importante para evaluación de PNL clínica
Valor Práctico: Guía directamente la práctica de evaluación de sistemas de IA clínica
Avance de Estandarización: Ayuda a establecer procesos de evaluación de preguntas y respuestas clínicas más estandarizados
Inspiración Interdisciplinaria: Los métodos de evaluación pueden ser aplicables a otros dominios de alta especialización

Escenarios de Aplicación

Evaluación de Sistemas de IA Clínica: Evaluación antes del despliegue de sistemas de preguntas y respuestas de IA en instituciones médicas
Puntos de Referencia de Investigación: Protocolo de evaluación estándar en investigación académica
Revisión Regulatoria: Marco de evaluación regulatoria para sistemas de IA médica
Desarrollo de Productos: Evaluación de calidad de productos en empresas de tecnología médica

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Krishna et al. (2023) sobre principios rectores para evaluación de resúmenes largos
Singhal et al. (2023) sobre modelos de lenguaje grande codificando conocimiento clínico
Ayers et al. (2023) comparando respuestas de médicos y chatbots de IA
Y múltiples trabajos relacionados sobre puntos de referencia de preguntas y respuestas clínicas y marcos de evaluación

Evaluación General: Este es un artículo de investigación metodológica de alta calidad que proporciona orientación empírica importante para evaluación de sistemas de preguntas y respuestas clínicas. El diseño de investigación es riguroso, los resultados tienen valor práctico, y es significativo para avanzar la estandarización de evaluación de IA médica. Aunque existen limitaciones en tamaño de muestra y cobertura de dominio, el marco de evaluación propuesto y los hallazgos establecen una base importante para el desarrollo del campo.