2025-11-13T07:13:11.100190

LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints

Bologna, Pan, Wilkens et al.
Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
academic

LONGQAEVAL: Diseño de Evaluaciones Confiables de Preguntas y Respuestas Clínicas de Formato Largo bajo Restricciones de Recursos

Información Básica

  • ID del Artículo: 2510.10415
  • Título: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
  • Autores: Federica Bologna (Cornell University), Tiffany Pan (Cornell University), Matthew Wilkens (Cornell University), Yue Guo (University of Illinois, Urbana-Champaign), Lucy Lu Wang (University of Washington)
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión de arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10415v1

Resumen

La evaluación de sistemas de preguntas y respuestas clínicas de formato largo es tanto costosa en recursos como desafiante: la evaluación precisa requiere experiencia médica, y lograr consenso en evaluaciones humanas sobre texto extenso es extremadamente difícil. Este artículo introduce LONGQAEVAL, un marco de evaluación y conjunto de recomendaciones diseñado para entornos con recursos limitados y requisitos de alta especialización. Basado en anotaciones de médicos para 300 preguntas reales de pacientes (incluyendo respuestas de médicos e ILG), el estudio compara evaluaciones de granularidad gruesa a nivel de respuesta versus granularidad fina a nivel de oración, abarcando tres dimensiones: corrección, relevancia y seguridad. El estudio descubre que el acuerdo entre anotadores (IAA) varía según la dimensión: las anotaciones de granularidad fina mejoran la consistencia en corrección, las anotaciones de granularidad gruesa mejoran la consistencia en relevancia, mientras que los juicios de seguridad permanecen inconsistentes. Además, anotar solo un pequeño subconjunto de oraciones proporciona confiabilidad comparable a las anotaciones de granularidad gruesa, reduciendo así costos y carga de trabajo.

Antecedentes y Motivación de la Investigación

Definición del Problema

Con el aumento de costos médicos y la disponibilidad limitada de proveedores de atención médica, los pacientes tienen dificultades para obtener respuestas oportunas a preguntas clínicas. Aunque los modelos generativos integrados en sistemas de registros médicos electrónicos (RME) podrían ser útiles, evaluar sus respuestas requiere experiencia médica.

Desafíos Centrales

  1. Escasez y alto costo de anotadores expertos: La evaluación por expertos médicos es costosa y limitada en cantidad
  2. Baja consistencia entre anotadores: Los expertos frecuentemente discrepan sobre los estándares de "buenas respuestas"
  3. Dificultad en la evaluación de texto extenso: Lograr juicios consistentes sobre texto generado largo es desafiante
  4. Problema de fatiga del anotador: Las tareas de anotación complejas resultan en disminución de la calidad

Limitaciones de Métodos Existentes

  • La mayoría de investigaciones en preguntas y respuestas clínicas utilizan evaluación a nivel de respuesta, pero este enfoque oculta contenido de calidad mixta
  • Falta de marcos de evaluación estandarizados y directrices de anotación detalladas
  • Pocas reportan consistencia entre anotadores, afectando la credibilidad de resultados
  • Falta de investigación sistemática sobre la granularidad de anotación óptima para diferentes dimensiones de evaluación

Contribuciones Principales

  1. Construcción de un conjunto de datos con 300 pares de preguntas y respuestas, anotados por 6 expertos médicos en las dimensiones de corrección, relevancia y seguridad
  2. Propuesta del marco de anotación LONGQAEVAL, que soporta dos modos de evaluación: granularidad gruesa y granularidad fina
  3. Estudio de anotación humana aleatorizado, que compara sistemáticamente los efectos de anotaciones de granularidad gruesa versus granularidad fina
  4. Provisión de recomendaciones prácticas, ayudando a desarrolladores de ILG clínicos a elegir el mejor diseño de anotación
  5. Evaluación de dos ILG ampliamente utilizados (GPT-4 y Llama-3.1-Instruct-405B) en preguntas y respuestas clínicas de formato largo
  6. Análisis de la capacidad de generalización del marco de anotación en configuraciones de ILG-como-juez

Explicación Detallada de Métodos

Definición de Tarea

Esta investigación evalúa sistemas de preguntas y respuestas clínicas de formato largo en tres dimensiones clave:

  • Corrección (Correctness): ¿La respuesta se alinea con el conocimiento médico actual?
  • Relevancia (Relevance): ¿La respuesta responde directamente a la pregunta médica específica?
  • Seguridad (Safety): ¿La respuesta comunica contraindicaciones o riesgos?

Diseño del Marco de Evaluación

Dos Granularidades de Anotación

  1. Anotación de Granularidad Gruesa: Los evaluadores revisan la pregunta y respuesta completa, calificando cada dimensión en una escala Likert de 5 puntos
  2. Anotación de Granularidad Fina: Los evaluadores revisan la pregunta y oraciones individuales resaltadas en la respuesta, evaluando cada dimensión en el contexto de la oración

Construcción del Conjunto de Datos

  • Extracción aleatoria de 100 preguntas reales de pacientes del conjunto de datos K-QA
  • Generación de respuestas utilizando GPT-4 y Llama-3.1-Instruct-405B
  • Uso de aprendizaje en contexto de 5 disparos y razonamiento de cadena de pensamiento
  • Limitación de longitud de respuesta a 270 palabras (consistente con la longitud de respuestas médicas)

Diseño del Experimento de Anotación

  • Anotadores: 6 médicos en ejercicio de Upwork, con 3-15 años de experiencia en atención al paciente
  • Diseño de Grupos: División en dos grupos, cada uno con 3 anotadores, cada uno responsable de todas las respuestas para 50 preguntas
  • Diseño Alternado: Cada anotador realiza la mitad de sus tareas con anotación de granularidad gruesa y la mitad con granularidad fina
  • Control de Calidad: Incluye anotación repetida para medir consistencia intra-anotador (IRR)

Puntos de Innovación Técnica

1. Estrategia de Anotación Específica por Dimensión

A diferencia de un enfoque único, esta investigación descubre que diferentes dimensiones de evaluación requieren diferentes granularidades de anotación:

  • Las dimensiones factuales (como corrección) son adecuadas para anotación de granularidad fina
  • Las dimensiones dependientes del contexto (como relevancia) son adecuadas para anotación de granularidad gruesa

2. Anotación Parcial de Granularidad Fina

Se propone que anotar solo 3 oraciones logra confiabilidad comparable a la anotación de granularidad fina completa, reduciendo significativamente costos.

3. Mitigación de Sesgos Sistemáticos

La anotación de granularidad fina ayuda a mitigar sesgos sistemáticos relacionados con la longitud de respuesta, asegurando que respuestas médicas más cortas no sean sistemáticamente subestimadas.

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos K-QA: Contiene preguntas reales de pacientes, cubriendo temas generales de atención primaria
  • Tamaño de Muestra: 100 preguntas, 300 pares de preguntas y respuestas (3 respuestas por pregunta)
  • Fuentes de Respuestas: Respuestas de médicos (106±54 palabras), respuestas de GPT-4 (124±50 palabras), respuestas de Llama (170±52 palabras)

Métricas de Evaluación

  • Acuerdo Entre Anotadores (IAA): Utilizando κ de Randolph
  • Consistencia Intra-Anotador (IRR): Utilizando porcentaje de acuerdo
  • Confianza del Anotador: Escala Likert de 5 puntos
  • Tiempo de Anotación: Tiempo de finalización de tarea en segundos
  • Escala NASA-TLX: Medición de carga de trabajo percibida

Configuraciones de Comparación

  • Anotación de granularidad gruesa vs. granularidad fina
  • Anotación de granularidad fina completa vs. parcial (3 oraciones vs. 6 oraciones)
  • Expertos humanos vs. ILG-como-juez (GPT-4o)

Resultados Experimentales

Hallazgos Principales

1. IAA Varía Según la Dimensión

  • Corrección: La anotación de granularidad fina mejora significativamente IAA (0.90 vs. 0.74)
  • Relevancia: La anotación de granularidad gruesa tiene mejor desempeño (0.71 vs. 0.32)
  • Seguridad: Ambos métodos tienen bajo desempeño, pero granularidad fina muestra ligera mejora

2. Efectividad de Anotación Parcial

  • Anotar solo 3 oraciones logra correlación superior a 0.8 con anotación completa de 6 oraciones
  • La varianza de anotación de 3 oraciones es menor que la anotación de granularidad gruesa en dimensiones de corrección y seguridad
  • El tiempo de anotación se reduce de 459.8 segundos (granularidad fina completa) a niveles comparables con granularidad gruesa (239.3 segundos)

3. Evaluación de Desempeño a Nivel de Sistema

  • Desempeño de ILG: GPT-4 y Llama son comparables o superiores a médicos en corrección
  • Ventaja de Relevancia: Ambos ILG tienen mejor desempeño en responder preocupaciones de pacientes
  • Insuficiencia de Seguridad: Todos los sistemas (incluyendo médicos) tienen desempeño subóptimo en la dimensión de seguridad

4. Mitigación de Sesgo de Longitud

La anotación de granularidad fina revela sesgos de longitud presentes en evaluación de granularidad gruesa:

  • En evaluación de granularidad gruesa, respuestas médicas reciben puntuaciones de corrección más bajas (0.78 vs. 0.92-0.93)
  • En evaluación de granularidad fina, respuestas médicas reciben puntuaciones de corrección significativamente más altas (0.99)

Resultados de ILG-como-Juez

  • GPT-4o como evaluador logra consistencia comparable o superior con expertos en dimensiones de corrección y relevancia
  • El efecto de instrucciones de granularidad fina en mejorar consistencia ILG-experto varía según el método de agregación
  • La escala de 3 puntos tiene mejor desempeño que la escala binaria en evaluación por ILG

Trabajo Relacionado

Investigación de Normas de Anotación

Los puntos de referencia existentes de preguntas y respuestas clínicas adoptan principalmente normas de clasificación aproximadas, careciendo de orientación de anotación detallada. MultiMedQA y MedQA utilizan escalas de tres niveles, HealthBench y MEDIC adoptan escalas Likert generales, pero estos métodos carecen de suficiente normalización, resultando en consistencia y reproducibilidad deficientes.

Investigación de Granularidad de Anotación

La mayoría del trabajo en preguntas y respuestas clínicas utiliza evaluación a nivel de respuesta, pero este enfoque oculta contenido de calidad mixta. Krishna et al. descubrieron en tareas de resumen que la evaluación a nivel de oración mejora IAA para fidelidad, pero su aplicabilidad en otras dimensiones y dominios de alto riesgo permanece sin claridad.

Dimensiones de Evaluación

Esta investigación se basa en trabajo previo para identificar tres dimensiones de evaluación centrales (corrección, relevancia, seguridad), que se utilizan frecuentemente en evaluación de preguntas y respuestas clínicas.

Conclusiones y Discusión

Conclusiones Principales

  1. Estrategia Específica por Dimensión: Diferentes dimensiones de evaluación requieren diseños de anotación de diferentes granularidades
  2. Balance Costo-Beneficio: La anotación parcial de granularidad fina puede reducir significativamente costos mientras mantiene calidad
  3. Mitigación de Sesgos: La anotación de granularidad fina ayuda a reducir sesgos sistemáticos relacionados con longitud
  4. Desempeño de ILG: Los ILG avanzados actuales tienen buen desempeño en corrección y relevancia, pero la seguridad requiere mejora

Recomendaciones Prácticas

  1. Evaluación de Corrección: Utilizar anotación de granularidad fina o anotación parcial de granularidad fina (3 oraciones)
  2. Evaluación de Relevancia: Utilizar anotación de granularidad gruesa
  3. Evaluación de Seguridad: Requiere más investigación para mejorar métodos de evaluación
  4. ILG-como-Juez: Puede utilizarse para complementar evaluación de expertos, particularmente en dimensiones de corrección y relevancia

Limitaciones

  1. Tamaño del Conjunto de Datos: Contiene solo preguntas generales de atención primaria, puede no ser aplicable a atención especializada
  2. Número de Anotadores: Solo 6 expertos, limitando diversidad de perspectivas
  3. Muestra de IRR: Muestra de anotación repetida pequeña, limitando precisión de evaluación de confiabilidad
  4. Rango de Modelos: Solo evalúa dos ILG, generalización limitada de resultados

Direcciones Futuras

  1. Expansión a conjuntos de datos más grandes y más anotadores
  2. Investigación de métodos de evaluación para problemas médicos especializados
  3. Mejora del marco de evaluación de seguridad
  4. Exploración del desempeño de más ILG

Evaluación Profunda

Fortalezas

  1. Diseño de Investigación Sistemático: Utiliza experimentos controlados aleatorizados, controlando rigurosamente factores de confusión
  2. Alto Valor Práctico: Proporciona orientación de evaluación específica y operativa
  3. Conciencia de Costos: Considera plenamente necesidades prácticas bajo restricciones de recursos
  4. Análisis Multidimensional: No solo se enfoca en precisión, sino que considera múltiples métricas incluyendo tiempo y confianza
  5. Alta Transparencia: Planea liberar datos y código, facilitando reproducción y extensión

Deficiencias

  1. Limitación de Tamaño de Muestra: El tamaño de 300 pares de preguntas y respuestas es relativamente pequeño, potencialmente afectando generalización de conclusiones
  2. Limitación de Dominio: Solo cubre atención primaria general, aplicabilidad a medicina especializada desconocida
  3. Evaluación de Seguridad Insuficiente: Esta dimensión aún requiere mejora significativa en métodos de evaluación
  4. Contexto Cultural Único: El trasfondo de anotadores puede afectar aplicabilidad transcultural de resultados

Impacto

  1. Contribución Académica: Proporciona orientación metodológica importante para evaluación de PNL clínica
  2. Valor Práctico: Guía directamente la práctica de evaluación de sistemas de IA clínica
  3. Avance de Estandarización: Ayuda a establecer procesos de evaluación de preguntas y respuestas clínicas más estandarizados
  4. Inspiración Interdisciplinaria: Los métodos de evaluación pueden ser aplicables a otros dominios de alta especialización

Escenarios de Aplicación

  1. Evaluación de Sistemas de IA Clínica: Evaluación antes del despliegue de sistemas de preguntas y respuestas de IA en instituciones médicas
  2. Puntos de Referencia de Investigación: Protocolo de evaluación estándar en investigación académica
  3. Revisión Regulatoria: Marco de evaluación regulatoria para sistemas de IA médica
  4. Desarrollo de Productos: Evaluación de calidad de productos en empresas de tecnología médica

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Krishna et al. (2023) sobre principios rectores para evaluación de resúmenes largos
  • Singhal et al. (2023) sobre modelos de lenguaje grande codificando conocimiento clínico
  • Ayers et al. (2023) comparando respuestas de médicos y chatbots de IA
  • Y múltiples trabajos relacionados sobre puntos de referencia de preguntas y respuestas clínicas y marcos de evaluación

Evaluación General: Este es un artículo de investigación metodológica de alta calidad que proporciona orientación empírica importante para evaluación de sistemas de preguntas y respuestas clínicas. El diseño de investigación es riguroso, los resultados tienen valor práctico, y es significativo para avanzar la estandarización de evaluación de IA médica. Aunque existen limitaciones en tamaño de muestra y cobertura de dominio, el marco de evaluación propuesto y los hallazgos establecen una base importante para el desarrollo del campo.