Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
- ID del Artículo: 2510.11897
- Título: Un Estudio Longitudinal sobre Diferentes Bucles de Retroalimentación de Anotadores en Tareas Complejas de RAG
- Autores: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
- Clasificación: cs.HC (Interacción Humano-Computadora)
- Fecha de Publicación: Octubre de 2025 (Presentado a ACM)
- Enlace del Artículo: https://arxiv.org/abs/2510.11897
Este artículo investiga el impacto de diferentes bucles de retroalimentación de anotadores humanos en la calidad de los datos en tareas complejas de generación aumentada por recuperación (RAG). Los autores realizaron un estudio longitudinal de aproximadamente un año con dos grupos de anotadores (internos y externos), analizando las diferencias de desempeño en la creación de diálogos RAG multiturnos. El estudio revela que los bucles de retroalimentación más estrechos producen diálogos de mayor calidad, pero reducen la cantidad y diversidad. El artículo proporciona recomendaciones orientativas sobre cómo utilizar óptimamente diferentes grupos de anotadores.
- Problema Central: ¿Cómo afectan diferentes estructuras de bucles de retroalimentación de anotadores a la calidad de los datos en tareas complejas de creación de diálogos RAG multiturnos?
- Importancia: Los sistemas RAG requieren datos de referencia de alta calidad para evaluar su capacidad de manejar problemas complejos, evitando alucinaciones e información errónea
- Limitaciones Existentes:
- La creación manual de datos de diálogos RAG requiere demandas cognitivas extremadamente altas
- La investigación existente asume principalmente bucles de retroalimentación de comunicación directa, ignorando escenarios de comunicación indirecta en la realidad
- Falta de investigación sistemática sobre las diferencias de desempeño entre diferentes grupos de anotadores en tareas complejas
- Explorar estrategias de gestión de calidad de anotación de datos bajo restricciones del mundo real
- Comprender el impacto de la estructura del bucle de retroalimentación en tareas de anotación complejas
- Proporcionar orientación práctica para proyectos de anotación a nivel empresarial
- Primer estudio sistemático del impacto de diferentes bucles de comunicación de retroalimentación en la calidad de datos de tareas complejas de anotación RAG
- Descubrimiento de Insights Clave: Los anotadores con bucles de retroalimentación estrechos crean datos de mayor calidad, mientras que los anotadores con bucles de retroalimentación flexibles tienen ventajas en cantidad y diversidad
- Provisión de Estrategias Prácticas: Propone recomendaciones específicas de gestión de calidad para procesos de creación de datos bajo restricciones reales
- Construcción de Marco de Evaluación: Evaluación integral de la experiencia del anotador y la calidad de los datos mediante métricas automatizadas e investigación de usuarios
La creación de diálogos RAG multiturnos incluye los siguientes pasos principales:
- Creación de Preguntas: Los anotadores formulan preguntas relevantes para el corpus
- Recuperación de Pasajes Relevantes: El sistema recupera automáticamente pasajes de documentos relevantes
- Revisión y Anotación de Pasajes: Los anotadores evalúan la relevancia de los pasajes, realizando nuevas consultas cuando sea necesario
- Edición de Respuestas de IA: Modificación de la salida del generador para garantizar precisión e integridad
- Adición de Etiquetas: Adición de metadatos de etiquetas para cada turno de diálogo
- Anotadores Internos (7 personas): Del mismo grupo que el equipo de investigación, bucle de retroalimentación de comunicación directa, compensados por hora
- Anotadores Externos (40 personas): Reclutados a través de servicio de anotación externo, bucle de retroalimentación de comunicación indirecta, compensados por diálogo aceptado
| Dimensión | Anotadores Internos | Anotadores Externos |
|---|
| Modo de Comunicación | Directo (correo electrónico, Slack, videoconferencias) | Indirecto (a través de intermediario) |
| Frecuencia de Retroalimentación | Tiempo real, personalizada | Por lotes, retrasada |
| Materiales de Capacitación | Diapositivas + orientación directa | Tutorial de video integral |
| Método de Pago | Por hora | Por diálogos aceptados |
Se utilizó la herramienta de anotación especialmente diseñada RAGAPHENE, con las siguientes funcionalidades:
- Recuperación y generación en tiempo real
- Anotación de relevancia de pasajes
- Edición de respuestas y visualización de diferencias
- Herramienta de nueva consulta
- Avisos de calidad y listas de verificación
- Número Promedio de Turnos: Longitud del diálogo, los turnos posteriores suelen ser más desafiantes
- Número Promedio de Ediciones: Número de turnos modificados por anotadores, refleja complejidad
- Número Promedio de Consultas: Incluye preguntas iniciales y nuevas consultas
- Número Promedio de Pasajes Únicos: Mide la diversidad de pasajes
- Tasa de Aceptación/Rechazo: Determinación de la calidad del diálogo mediante revisión manual
- Comentarios Automatizados: Retroalimentación de calidad generada por el sistema
- Investigación de Usuarios: Recopilación de experiencia subjetiva del anotador
La investigación se dividió en tres fases, durando aproximadamente un año (mayo de 2024 - mayo de 2025):
- Fase Piloto: Experimento a pequeña escala, calibración de tareas e instrucciones
- Fase de Creación: Creación de diálogos a gran escala, mejora basada en retroalimentación piloto
- Fase de Revisión: Revisión de calidad y mejora
- Anotadores Internos: Aproximadamente 1,500 diálogos
- Anotadores Externos: Aproximadamente 5,000 diálogos
- Subconjunto de Análisis: 86 en fase piloto, 618 en fase de creación, 424 en fase de revisión
| Métrica | Anotadores Internos | Anotadores Externos |
|---|
| Número Promedio de Turnos | 7.6 | 4.2 |
| Número Promedio de Ediciones | 7.0 | 3.0 |
| Número Promedio de Consultas | 12.7 | 6.2 |
| Número Promedio de Pasajes Únicos | 17.1 | 7.3 |
| Tasa de Aceptación | 87% | 69% |
- Tiempo de Creación: Anotadores internos 60-75 minutos/diálogo, anotadores externos 30-45 minutos/diálogo
- Volumen de Lectura de Pasajes: Los anotadores internos leen más pasajes en promedio (6-12/turno)
- Comprensión de Tareas: El 100% de anotadores internos reportan secuencia operativa correcta, con errores de comprensión en anotadores externos
Existen diferencias significativas en la percepción de importancia de funcionalidades entre anotadores internos y externos:
- Función de Avisos: Mayor diferencia (μ diferencia=1.41), anotadores internos la consideran más importante
- Herramienta de Nueva Consulta: Anotadores internos la califican más alto (μ diferencia=0.78)
- Función de Marcado de Pasajes: Anotadores internos la valoran más (μ diferencia=0.78)
- Edición de Respuestas: Ambos grupos califican de manera similar (μ diferencia=0.04)
Los diálogos generados por LLM son inferiores a los creados manualmente en diversidad y complejidad:
- Tasa de Aceptación: 72% (entre ambos grupos de anotadores humanos)
- Diversidad de pasajes claramente insuficiente
- Falta de proceso de edición manual y nueva consulta
- Conjuntos de Datos de Referencia: RAD-Bench, RAGBench, RGB, MTRAG, etc.
- Métodos de Generación de Datos: Equilibrio de calidad entre generación sintética y anotación manual
- Requisitos de Complejidad: Carga cognitiva y requisitos de calidad de diálogos multiturnos
- Tipos de Anotadores: Diferencias de calidad entre expertos y trabajadores de crowdsourcing
- Complejidad de Tareas: Diferentes estrategias de gestión para microtareas versus macrotareas
- Aseguramiento de Calidad: Estrategias de filtrado, procesos multietapa, revisión de expertos
- Mecanismos de Retroalimentación: Impacto de comunicación directa versus indirecta en calidad de trabajo
- Herramientas de Colaboración: Diseño de interfaz para soportar tareas de anotación complejas
- Materiales de Capacitación: Estrategias de capacitación bajo diferentes estructuras de comunicación
- Impacto Significativo del Bucle de Retroalimentación: Los bucles de retroalimentación directa mejoran significativamente la calidad de datos, pero reducen la producción
- Ventajas Complementarias: Los anotadores internos destacan en calidad, mientras que los externos destacan en cantidad y diversidad
- Importancia del Diseño de Herramientas: Los avisos y retroalimentación automatizada pueden compensar parcialmente las limitaciones de comunicación
- Efectividad de Estrategia Multifase: El flujo de trabajo de dos fases (creación-revisión) equilibra calidad y eficiencia
- Utilizar anotadores internos para perfeccionar rápidamente materiales de orientación
- Asignar a anotadores externos subtareas específicas y de menor complejidad
- Flujo de trabajo de dos fases: Creación externa + revisión interna
- Avisos Automatizados: Compensar la falta de retroalimentación directa
- Comentarios Granulares: Soportar recomendaciones de mejora específicas
- Verificación de Calidad: Validación automática antes de exportación
- Utilizar retroalimentación directa para mejorar contenido de capacitación
- Tutoriales en Video: Adaptarse a necesidades de comunicación indirecta
- Mejora Iterativa: Actualizar materiales basado en preguntas frecuentes
- Tamaño de Muestra: Número reducido de anotadores internos, análisis estadístico limitado
- Mecanismos de Incentivos: Diferentes métodos de pago pueden afectar la calidad del trabajo
- Especificidad de Dominio: Las conclusiones pueden no aplicarse a todas las tareas de anotación complejas
- Factor Temporal: El impacto de la curva de aprendizaje y acumulación de experiencia no se considera completamente
- Expansión de Escala de Investigación: Más anotadores y tipos de tareas
- Investigación de Mecanismos de Incentivos: Impacto específico del método de pago en calidad
- Asistencia Automatizada: Evaluación de efectividad de anotación asistida por IA
- Validación Transversal de Dominios: Verificación de hallazgos en otras tareas complejas
- Alto Valor Práctico: Aborda problemas clave en proyectos de anotación del mundo real
- Metodología Rigurosa: Diseño de estudio longitudinal, evaluación multidimensional
- Hallazgos Significativos: Revela el impacto importante del bucle de retroalimentación en tareas complejas
- Orientación Fuerte: Proporciona recomendaciones específicas y operables
- Control de Variables Insuficiente: Imposibilidad de separar completamente el impacto del bucle de retroalimentación de otros factores
- Limitaciones de Generalización: La investigación se concentra en tareas RAG, aplicabilidad en otros campos desconocida
- Análisis Cuantitativo Limitado: Muestra pequeña de anotadores internos, poder de prueba estadística limitado
- Efectos a Largo Plazo Desconocidos: Falta de observación en períodos de tiempo más extensos
- Contribución Académica: Proporciona nueva perspectiva en la intersección de HCI y PNL
- Orientación Práctica: Marco de referencia para proyectos de anotación a nivel empresarial
- Innovación Metodológica: Demuestra enfoque de investigación sistemática para anotación de tareas complejas
- Valor de Herramienta: La herramienta RAGAPHENE tiene potencial de aplicación y promoción
- Proyectos de Anotación a Nivel Empresarial: Creación de datos a gran escala que requiere equilibrio entre calidad y eficiencia
- Tareas Complejas de PNL: Trabajo de anotación que requiere múltiples pasos y alta carga cognitiva
- Equipos de Anotación Híbridos: Proyectos que utilizan simultáneamente recursos de anotación internos y externos
- Aplicaciones Sensibles a Calidad: Desarrollo de sistemas de IA con requisitos extremadamente altos de calidad de datos
El artículo cita 82 referencias relacionadas, abarcando múltiples campos incluyendo sistemas RAG, calidad de anotación de datos, diseño de herramientas y estructura de comunicación, proporcionando una base teórica sólida para la investigación.
Resumen: Esta es una investigación HCI con importante valor práctico que, a través de un diseño de estudio longitudinal riguroso, revela el impacto significativo de la estructura del bucle de retroalimentación en la calidad de tareas de anotación complejas, proporcionando insights y orientación valiosos tanto para la comunidad académica como para la industria.