2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.
Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
academic

Un Estudio Longitudinal sobre Diferentes Bucles de Retroalimentación de Anotadores en Tareas Complejas de RAG

Información Básica

  • ID del Artículo: 2510.11897
  • Título: Un Estudio Longitudinal sobre Diferentes Bucles de Retroalimentación de Anotadores en Tareas Complejas de RAG
  • Autores: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
  • Clasificación: cs.HC (Interacción Humano-Computadora)
  • Fecha de Publicación: Octubre de 2025 (Presentado a ACM)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11897

Resumen

Este artículo investiga el impacto de diferentes bucles de retroalimentación de anotadores humanos en la calidad de los datos en tareas complejas de generación aumentada por recuperación (RAG). Los autores realizaron un estudio longitudinal de aproximadamente un año con dos grupos de anotadores (internos y externos), analizando las diferencias de desempeño en la creación de diálogos RAG multiturnos. El estudio revela que los bucles de retroalimentación más estrechos producen diálogos de mayor calidad, pero reducen la cantidad y diversidad. El artículo proporciona recomendaciones orientativas sobre cómo utilizar óptimamente diferentes grupos de anotadores.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: ¿Cómo afectan diferentes estructuras de bucles de retroalimentación de anotadores a la calidad de los datos en tareas complejas de creación de diálogos RAG multiturnos?
  2. Importancia: Los sistemas RAG requieren datos de referencia de alta calidad para evaluar su capacidad de manejar problemas complejos, evitando alucinaciones e información errónea
  3. Limitaciones Existentes:
    • La creación manual de datos de diálogos RAG requiere demandas cognitivas extremadamente altas
    • La investigación existente asume principalmente bucles de retroalimentación de comunicación directa, ignorando escenarios de comunicación indirecta en la realidad
    • Falta de investigación sistemática sobre las diferencias de desempeño entre diferentes grupos de anotadores en tareas complejas

Motivación de la Investigación

  • Explorar estrategias de gestión de calidad de anotación de datos bajo restricciones del mundo real
  • Comprender el impacto de la estructura del bucle de retroalimentación en tareas de anotación complejas
  • Proporcionar orientación práctica para proyectos de anotación a nivel empresarial

Contribuciones Principales

  1. Primer estudio sistemático del impacto de diferentes bucles de comunicación de retroalimentación en la calidad de datos de tareas complejas de anotación RAG
  2. Descubrimiento de Insights Clave: Los anotadores con bucles de retroalimentación estrechos crean datos de mayor calidad, mientras que los anotadores con bucles de retroalimentación flexibles tienen ventajas en cantidad y diversidad
  3. Provisión de Estrategias Prácticas: Propone recomendaciones específicas de gestión de calidad para procesos de creación de datos bajo restricciones reales
  4. Construcción de Marco de Evaluación: Evaluación integral de la experiencia del anotador y la calidad de los datos mediante métricas automatizadas e investigación de usuarios

Explicación Detallada de Métodos

Definición de Tareas

La creación de diálogos RAG multiturnos incluye los siguientes pasos principales:

  1. Creación de Preguntas: Los anotadores formulan preguntas relevantes para el corpus
  2. Recuperación de Pasajes Relevantes: El sistema recupera automáticamente pasajes de documentos relevantes
  3. Revisión y Anotación de Pasajes: Los anotadores evalúan la relevancia de los pasajes, realizando nuevas consultas cuando sea necesario
  4. Edición de Respuestas de IA: Modificación de la salida del generador para garantizar precisión e integridad
  5. Adición de Etiquetas: Adición de metadatos de etiquetas para cada turno de diálogo

Diseño Experimental

Grupos de Anotadores

  • Anotadores Internos (7 personas): Del mismo grupo que el equipo de investigación, bucle de retroalimentación de comunicación directa, compensados por hora
  • Anotadores Externos (40 personas): Reclutados a través de servicio de anotación externo, bucle de retroalimentación de comunicación indirecta, compensados por diálogo aceptado

Diferencias en Estructura de Comunicación

DimensiónAnotadores InternosAnotadores Externos
Modo de ComunicaciónDirecto (correo electrónico, Slack, videoconferencias)Indirecto (a través de intermediario)
Frecuencia de RetroalimentaciónTiempo real, personalizadaPor lotes, retrasada
Materiales de CapacitaciónDiapositivas + orientación directaTutorial de video integral
Método de PagoPor horaPor diálogos aceptados

Herramienta Técnica: RAGAPHENE

Se utilizó la herramienta de anotación especialmente diseñada RAGAPHENE, con las siguientes funcionalidades:

  • Recuperación y generación en tiempo real
  • Anotación de relevancia de pasajes
  • Edición de respuestas y visualización de diferencias
  • Herramienta de nueva consulta
  • Avisos de calidad y listas de verificación

Métricas de Evaluación

Métricas de Calidad de Diálogos

  1. Número Promedio de Turnos: Longitud del diálogo, los turnos posteriores suelen ser más desafiantes
  2. Número Promedio de Ediciones: Número de turnos modificados por anotadores, refleja complejidad
  3. Número Promedio de Consultas: Incluye preguntas iniciales y nuevas consultas
  4. Número Promedio de Pasajes Únicos: Mide la diversidad de pasajes

Métodos de Evaluación de Calidad

  • Tasa de Aceptación/Rechazo: Determinación de la calidad del diálogo mediante revisión manual
  • Comentarios Automatizados: Retroalimentación de calidad generada por el sistema
  • Investigación de Usuarios: Recopilación de experiencia subjetiva del anotador

Configuración Experimental

Fases de Recopilación de Datos

La investigación se dividió en tres fases, durando aproximadamente un año (mayo de 2024 - mayo de 2025):

  1. Fase Piloto: Experimento a pequeña escala, calibración de tareas e instrucciones
  2. Fase de Creación: Creación de diálogos a gran escala, mejora basada en retroalimentación piloto
  3. Fase de Revisión: Revisión de calidad y mejora

Escala de Datos

  • Anotadores Internos: Aproximadamente 1,500 diálogos
  • Anotadores Externos: Aproximadamente 5,000 diálogos
  • Subconjunto de Análisis: 86 en fase piloto, 618 en fase de creación, 424 en fase de revisión

Resultados Experimentales

Hallazgos Principales

Diferencias en Calidad de Datos

MétricaAnotadores InternosAnotadores Externos
Número Promedio de Turnos7.64.2
Número Promedio de Ediciones7.03.0
Número Promedio de Consultas12.76.2
Número Promedio de Pasajes Únicos17.17.3
Tasa de Aceptación87%69%

Inversión de Tiempo y Esfuerzo

  • Tiempo de Creación: Anotadores internos 60-75 minutos/diálogo, anotadores externos 30-45 minutos/diálogo
  • Volumen de Lectura de Pasajes: Los anotadores internos leen más pasajes en promedio (6-12/turno)
  • Comprensión de Tareas: El 100% de anotadores internos reportan secuencia operativa correcta, con errores de comprensión en anotadores externos

Diferencias en Percepción de Funcionalidades de Herramientas

Existen diferencias significativas en la percepción de importancia de funcionalidades entre anotadores internos y externos:

  • Función de Avisos: Mayor diferencia (μ diferencia=1.41), anotadores internos la consideran más importante
  • Herramienta de Nueva Consulta: Anotadores internos la califican más alto (μ diferencia=0.78)
  • Función de Marcado de Pasajes: Anotadores internos la valoran más (μ diferencia=0.78)
  • Edición de Respuestas: Ambos grupos califican de manera similar (μ diferencia=0.04)

Comparación de Datos Sintéticos

Los diálogos generados por LLM son inferiores a los creados manualmente en diversidad y complejidad:

  • Tasa de Aceptación: 72% (entre ambos grupos de anotadores humanos)
  • Diversidad de pasajes claramente insuficiente
  • Falta de proceso de edición manual y nueva consulta

Trabajo Relacionado

Investigación de Sistemas RAG

  • Conjuntos de Datos de Referencia: RAD-Bench, RAGBench, RGB, MTRAG, etc.
  • Métodos de Generación de Datos: Equilibrio de calidad entre generación sintética y anotación manual
  • Requisitos de Complejidad: Carga cognitiva y requisitos de calidad de diálogos multiturnos

Gestión de Calidad de Anotación de Datos

  • Tipos de Anotadores: Diferencias de calidad entre expertos y trabajadores de crowdsourcing
  • Complejidad de Tareas: Diferentes estrategias de gestión para microtareas versus macrotareas
  • Aseguramiento de Calidad: Estrategias de filtrado, procesos multietapa, revisión de expertos

Impacto de Estructura de Comunicación

  • Mecanismos de Retroalimentación: Impacto de comunicación directa versus indirecta en calidad de trabajo
  • Herramientas de Colaboración: Diseño de interfaz para soportar tareas de anotación complejas
  • Materiales de Capacitación: Estrategias de capacitación bajo diferentes estructuras de comunicación

Conclusiones y Discusión

Conclusiones Principales

  1. Impacto Significativo del Bucle de Retroalimentación: Los bucles de retroalimentación directa mejoran significativamente la calidad de datos, pero reducen la producción
  2. Ventajas Complementarias: Los anotadores internos destacan en calidad, mientras que los externos destacan en cantidad y diversidad
  3. Importancia del Diseño de Herramientas: Los avisos y retroalimentación automatizada pueden compensar parcialmente las limitaciones de comunicación
  4. Efectividad de Estrategia Multifase: El flujo de trabajo de dos fases (creación-revisión) equilibra calidad y eficiencia

Recomendaciones Prácticas

Estrategia de Asignación de Tareas

  1. Utilizar anotadores internos para perfeccionar rápidamente materiales de orientación
  2. Asignar a anotadores externos subtareas específicas y de menor complejidad
  3. Flujo de trabajo de dos fases: Creación externa + revisión interna

Principios de Diseño de Herramientas

  1. Avisos Automatizados: Compensar la falta de retroalimentación directa
  2. Comentarios Granulares: Soportar recomendaciones de mejora específicas
  3. Verificación de Calidad: Validación automática antes de exportación

Optimización de Materiales de Capacitación

  1. Utilizar retroalimentación directa para mejorar contenido de capacitación
  2. Tutoriales en Video: Adaptarse a necesidades de comunicación indirecta
  3. Mejora Iterativa: Actualizar materiales basado en preguntas frecuentes

Limitaciones

  1. Tamaño de Muestra: Número reducido de anotadores internos, análisis estadístico limitado
  2. Mecanismos de Incentivos: Diferentes métodos de pago pueden afectar la calidad del trabajo
  3. Especificidad de Dominio: Las conclusiones pueden no aplicarse a todas las tareas de anotación complejas
  4. Factor Temporal: El impacto de la curva de aprendizaje y acumulación de experiencia no se considera completamente

Direcciones Futuras

  1. Expansión de Escala de Investigación: Más anotadores y tipos de tareas
  2. Investigación de Mecanismos de Incentivos: Impacto específico del método de pago en calidad
  3. Asistencia Automatizada: Evaluación de efectividad de anotación asistida por IA
  4. Validación Transversal de Dominios: Verificación de hallazgos en otras tareas complejas

Evaluación Profunda

Fortalezas

  1. Alto Valor Práctico: Aborda problemas clave en proyectos de anotación del mundo real
  2. Metodología Rigurosa: Diseño de estudio longitudinal, evaluación multidimensional
  3. Hallazgos Significativos: Revela el impacto importante del bucle de retroalimentación en tareas complejas
  4. Orientación Fuerte: Proporciona recomendaciones específicas y operables

Insuficiencias

  1. Control de Variables Insuficiente: Imposibilidad de separar completamente el impacto del bucle de retroalimentación de otros factores
  2. Limitaciones de Generalización: La investigación se concentra en tareas RAG, aplicabilidad en otros campos desconocida
  3. Análisis Cuantitativo Limitado: Muestra pequeña de anotadores internos, poder de prueba estadística limitado
  4. Efectos a Largo Plazo Desconocidos: Falta de observación en períodos de tiempo más extensos

Impacto

  1. Contribución Académica: Proporciona nueva perspectiva en la intersección de HCI y PNL
  2. Orientación Práctica: Marco de referencia para proyectos de anotación a nivel empresarial
  3. Innovación Metodológica: Demuestra enfoque de investigación sistemática para anotación de tareas complejas
  4. Valor de Herramienta: La herramienta RAGAPHENE tiene potencial de aplicación y promoción

Escenarios Aplicables

  1. Proyectos de Anotación a Nivel Empresarial: Creación de datos a gran escala que requiere equilibrio entre calidad y eficiencia
  2. Tareas Complejas de PNL: Trabajo de anotación que requiere múltiples pasos y alta carga cognitiva
  3. Equipos de Anotación Híbridos: Proyectos que utilizan simultáneamente recursos de anotación internos y externos
  4. Aplicaciones Sensibles a Calidad: Desarrollo de sistemas de IA con requisitos extremadamente altos de calidad de datos

Referencias

El artículo cita 82 referencias relacionadas, abarcando múltiples campos incluyendo sistemas RAG, calidad de anotación de datos, diseño de herramientas y estructura de comunicación, proporcionando una base teórica sólida para la investigación.


Resumen: Esta es una investigación HCI con importante valor práctico que, a través de un diseño de estudio longitudinal riguroso, revela el impacto significativo de la estructura del bucle de retroalimentación en la calidad de tareas de anotación complejas, proporcionando insights y orientación valiosos tanto para la comunidad académica como para la industria.