2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.

Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.

academic

Un Estudio Longitudinal sobre Diferentes Bucles de Retroalimentación de Anotadores en Tareas Complejas de RAG

Información Básica

ID del Artículo: 2510.11897
Título: Un Estudio Longitudinal sobre Diferentes Bucles de Retroalimentación de Anotadores en Tareas Complejas de RAG
Autores: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
Clasificación: cs.HC (Interacción Humano-Computadora)
Fecha de Publicación: Octubre de 2025 (Presentado a ACM)
Enlace del Artículo: https://arxiv.org/abs/2510.11897

Resumen

Este artículo investiga el impacto de diferentes bucles de retroalimentación de anotadores humanos en la calidad de los datos en tareas complejas de generación aumentada por recuperación (RAG). Los autores realizaron un estudio longitudinal de aproximadamente un año con dos grupos de anotadores (internos y externos), analizando las diferencias de desempeño en la creación de diálogos RAG multiturnos. El estudio revela que los bucles de retroalimentación más estrechos producen diálogos de mayor calidad, pero reducen la cantidad y diversidad. El artículo proporciona recomendaciones orientativas sobre cómo utilizar óptimamente diferentes grupos de anotadores.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: ¿Cómo afectan diferentes estructuras de bucles de retroalimentación de anotadores a la calidad de los datos en tareas complejas de creación de diálogos RAG multiturnos?
Importancia: Los sistemas RAG requieren datos de referencia de alta calidad para evaluar su capacidad de manejar problemas complejos, evitando alucinaciones e información errónea
Limitaciones Existentes:
- La creación manual de datos de diálogos RAG requiere demandas cognitivas extremadamente altas
- La investigación existente asume principalmente bucles de retroalimentación de comunicación directa, ignorando escenarios de comunicación indirecta en la realidad
- Falta de investigación sistemática sobre las diferencias de desempeño entre diferentes grupos de anotadores en tareas complejas

Motivación de la Investigación

Explorar estrategias de gestión de calidad de anotación de datos bajo restricciones del mundo real
Comprender el impacto de la estructura del bucle de retroalimentación en tareas de anotación complejas
Proporcionar orientación práctica para proyectos de anotación a nivel empresarial

Contribuciones Principales

Primer estudio sistemático del impacto de diferentes bucles de comunicación de retroalimentación en la calidad de datos de tareas complejas de anotación RAG
Descubrimiento de Insights Clave: Los anotadores con bucles de retroalimentación estrechos crean datos de mayor calidad, mientras que los anotadores con bucles de retroalimentación flexibles tienen ventajas en cantidad y diversidad
Provisión de Estrategias Prácticas: Propone recomendaciones específicas de gestión de calidad para procesos de creación de datos bajo restricciones reales
Construcción de Marco de Evaluación: Evaluación integral de la experiencia del anotador y la calidad de los datos mediante métricas automatizadas e investigación de usuarios

Explicación Detallada de Métodos

Definición de Tareas

La creación de diálogos RAG multiturnos incluye los siguientes pasos principales:

Creación de Preguntas: Los anotadores formulan preguntas relevantes para el corpus
Recuperación de Pasajes Relevantes: El sistema recupera automáticamente pasajes de documentos relevantes
Revisión y Anotación de Pasajes: Los anotadores evalúan la relevancia de los pasajes, realizando nuevas consultas cuando sea necesario
Edición de Respuestas de IA: Modificación de la salida del generador para garantizar precisión e integridad
Adición de Etiquetas: Adición de metadatos de etiquetas para cada turno de diálogo

Diseño Experimental

Grupos de Anotadores

Anotadores Internos (7 personas): Del mismo grupo que el equipo de investigación, bucle de retroalimentación de comunicación directa, compensados por hora
Anotadores Externos (40 personas): Reclutados a través de servicio de anotación externo, bucle de retroalimentación de comunicación indirecta, compensados por diálogo aceptado

Diferencias en Estructura de Comunicación

Dimensión	Anotadores Internos	Anotadores Externos
Modo de Comunicación	Directo (correo electrónico, Slack, videoconferencias)	Indirecto (a través de intermediario)
Frecuencia de Retroalimentación	Tiempo real, personalizada	Por lotes, retrasada
Materiales de Capacitación	Diapositivas + orientación directa	Tutorial de video integral
Método de Pago	Por hora	Por diálogos aceptados

Herramienta Técnica: RAGAPHENE

Se utilizó la herramienta de anotación especialmente diseñada RAGAPHENE, con las siguientes funcionalidades:

Recuperación y generación en tiempo real
Anotación de relevancia de pasajes
Edición de respuestas y visualización de diferencias
Herramienta de nueva consulta
Avisos de calidad y listas de verificación

Métricas de Evaluación

Métricas de Calidad de Diálogos

Número Promedio de Turnos: Longitud del diálogo, los turnos posteriores suelen ser más desafiantes
Número Promedio de Ediciones: Número de turnos modificados por anotadores, refleja complejidad
Número Promedio de Consultas: Incluye preguntas iniciales y nuevas consultas
Número Promedio de Pasajes Únicos: Mide la diversidad de pasajes

Métodos de Evaluación de Calidad

Tasa de Aceptación/Rechazo: Determinación de la calidad del diálogo mediante revisión manual
Comentarios Automatizados: Retroalimentación de calidad generada por el sistema
Investigación de Usuarios: Recopilación de experiencia subjetiva del anotador

Configuración Experimental

Fases de Recopilación de Datos

La investigación se dividió en tres fases, durando aproximadamente un año (mayo de 2024 - mayo de 2025):

Fase Piloto: Experimento a pequeña escala, calibración de tareas e instrucciones
Fase de Creación: Creación de diálogos a gran escala, mejora basada en retroalimentación piloto
Fase de Revisión: Revisión de calidad y mejora

Escala de Datos

Anotadores Internos: Aproximadamente 1,500 diálogos
Anotadores Externos: Aproximadamente 5,000 diálogos
Subconjunto de Análisis: 86 en fase piloto, 618 en fase de creación, 424 en fase de revisión

Resultados Experimentales

Hallazgos Principales

Diferencias en Calidad de Datos

Métrica	Anotadores Internos	Anotadores Externos
Número Promedio de Turnos	7.6	4.2
Número Promedio de Ediciones	7.0	3.0
Número Promedio de Consultas	12.7	6.2
Número Promedio de Pasajes Únicos	17.1	7.3
Tasa de Aceptación	87%	69%

Inversión de Tiempo y Esfuerzo

Tiempo de Creación: Anotadores internos 60-75 minutos/diálogo, anotadores externos 30-45 minutos/diálogo
Volumen de Lectura de Pasajes: Los anotadores internos leen más pasajes en promedio (6-12/turno)
Comprensión de Tareas: El 100% de anotadores internos reportan secuencia operativa correcta, con errores de comprensión en anotadores externos

Diferencias en Percepción de Funcionalidades de Herramientas

Existen diferencias significativas en la percepción de importancia de funcionalidades entre anotadores internos y externos:

Función de Avisos: Mayor diferencia (μ diferencia=1.41), anotadores internos la consideran más importante
Herramienta de Nueva Consulta: Anotadores internos la califican más alto (μ diferencia=0.78)
Función de Marcado de Pasajes: Anotadores internos la valoran más (μ diferencia=0.78)
Edición de Respuestas: Ambos grupos califican de manera similar (μ diferencia=0.04)

Comparación de Datos Sintéticos

Los diálogos generados por LLM son inferiores a los creados manualmente en diversidad y complejidad:

Tasa de Aceptación: 72% (entre ambos grupos de anotadores humanos)
Diversidad de pasajes claramente insuficiente
Falta de proceso de edición manual y nueva consulta

Trabajo Relacionado

Investigación de Sistemas RAG

Conjuntos de Datos de Referencia: RAD-Bench, RAGBench, RGB, MTRAG, etc.
Métodos de Generación de Datos: Equilibrio de calidad entre generación sintética y anotación manual
Requisitos de Complejidad: Carga cognitiva y requisitos de calidad de diálogos multiturnos

Gestión de Calidad de Anotación de Datos

Tipos de Anotadores: Diferencias de calidad entre expertos y trabajadores de crowdsourcing
Complejidad de Tareas: Diferentes estrategias de gestión para microtareas versus macrotareas
Aseguramiento de Calidad: Estrategias de filtrado, procesos multietapa, revisión de expertos

Impacto de Estructura de Comunicación

Mecanismos de Retroalimentación: Impacto de comunicación directa versus indirecta en calidad de trabajo
Herramientas de Colaboración: Diseño de interfaz para soportar tareas de anotación complejas
Materiales de Capacitación: Estrategias de capacitación bajo diferentes estructuras de comunicación

Conclusiones y Discusión

Conclusiones Principales

Impacto Significativo del Bucle de Retroalimentación: Los bucles de retroalimentación directa mejoran significativamente la calidad de datos, pero reducen la producción
Ventajas Complementarias: Los anotadores internos destacan en calidad, mientras que los externos destacan en cantidad y diversidad
Importancia del Diseño de Herramientas: Los avisos y retroalimentación automatizada pueden compensar parcialmente las limitaciones de comunicación
Efectividad de Estrategia Multifase: El flujo de trabajo de dos fases (creación-revisión) equilibra calidad y eficiencia

Recomendaciones Prácticas

Estrategia de Asignación de Tareas

Utilizar anotadores internos para perfeccionar rápidamente materiales de orientación
Asignar a anotadores externos subtareas específicas y de menor complejidad
Flujo de trabajo de dos fases: Creación externa + revisión interna

Principios de Diseño de Herramientas

Avisos Automatizados: Compensar la falta de retroalimentación directa
Comentarios Granulares: Soportar recomendaciones de mejora específicas
Verificación de Calidad: Validación automática antes de exportación

Optimización de Materiales de Capacitación

Utilizar retroalimentación directa para mejorar contenido de capacitación
Tutoriales en Video: Adaptarse a necesidades de comunicación indirecta
Mejora Iterativa: Actualizar materiales basado en preguntas frecuentes

Limitaciones

Tamaño de Muestra: Número reducido de anotadores internos, análisis estadístico limitado
Mecanismos de Incentivos: Diferentes métodos de pago pueden afectar la calidad del trabajo
Especificidad de Dominio: Las conclusiones pueden no aplicarse a todas las tareas de anotación complejas
Factor Temporal: El impacto de la curva de aprendizaje y acumulación de experiencia no se considera completamente

Direcciones Futuras

Expansión de Escala de Investigación: Más anotadores y tipos de tareas
Investigación de Mecanismos de Incentivos: Impacto específico del método de pago en calidad
Asistencia Automatizada: Evaluación de efectividad de anotación asistida por IA
Validación Transversal de Dominios: Verificación de hallazgos en otras tareas complejas

Evaluación Profunda

Fortalezas

Alto Valor Práctico: Aborda problemas clave en proyectos de anotación del mundo real
Metodología Rigurosa: Diseño de estudio longitudinal, evaluación multidimensional
Hallazgos Significativos: Revela el impacto importante del bucle de retroalimentación en tareas complejas
Orientación Fuerte: Proporciona recomendaciones específicas y operables

Insuficiencias

Control de Variables Insuficiente: Imposibilidad de separar completamente el impacto del bucle de retroalimentación de otros factores
Limitaciones de Generalización: La investigación se concentra en tareas RAG, aplicabilidad en otros campos desconocida
Análisis Cuantitativo Limitado: Muestra pequeña de anotadores internos, poder de prueba estadística limitado
Efectos a Largo Plazo Desconocidos: Falta de observación en períodos de tiempo más extensos

Impacto

Contribución Académica: Proporciona nueva perspectiva en la intersección de HCI y PNL
Orientación Práctica: Marco de referencia para proyectos de anotación a nivel empresarial
Innovación Metodológica: Demuestra enfoque de investigación sistemática para anotación de tareas complejas
Valor de Herramienta: La herramienta RAGAPHENE tiene potencial de aplicación y promoción

Escenarios Aplicables

Proyectos de Anotación a Nivel Empresarial: Creación de datos a gran escala que requiere equilibrio entre calidad y eficiencia
Tareas Complejas de PNL: Trabajo de anotación que requiere múltiples pasos y alta carga cognitiva
Equipos de Anotación Híbridos: Proyectos que utilizan simultáneamente recursos de anotación internos y externos
Aplicaciones Sensibles a Calidad: Desarrollo de sistemas de IA con requisitos extremadamente altos de calidad de datos

Referencias

El artículo cita 82 referencias relacionadas, abarcando múltiples campos incluyendo sistemas RAG, calidad de anotación de datos, diseño de herramientas y estructura de comunicación, proporcionando una base teórica sólida para la investigación.

Resumen: Esta es una investigación HCI con importante valor práctico que, a través de un diseño de estudio longitudinal riguroso, revela el impacto significativo de la estructura del bucle de retroalimentación en la calidad de tareas de anotación complejas, proporcionando insights y orientación valiosos tanto para la comunidad académica como para la industria.