2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.

Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.

academic

Une Étude Longitudinale sur Différentes Boucles de Rétroaction des Annotateurs dans les Tâches RAG Complexes

Informations Fondamentales

ID de l'article : 2510.11897
Titre : A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
Auteurs : Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
Classification : cs.HC (Interaction Homme-Ordinateur)
Date de publication : Octobre 2025 (soumis à ACM)
Lien de l'article : https://arxiv.org/abs/2510.11897

Résumé

Cet article examine l'impact de différentes boucles de rétroaction des annotateurs humains sur la qualité des données dans les tâches complexes de génération augmentée par récupération (RAG). Les auteurs ont mené une étude longitudinale d'environ un an auprès de deux groupes d'annotateurs (internes et externes), analysant les différences de performance dans la création de dialogues RAG multi-tours. L'étude révèle que les boucles de rétroaction plus étroites produisent des dialogues de meilleure qualité, mais réduisent la quantité et la diversité. L'article fournit des recommandations sur la façon d'exploiter au mieux les différentes populations d'annotateurs.

Contexte et Motivation de la Recherche

Définition du Problème

Question centrale : Comment les différentes structures de boucles de rétroaction des annotateurs affectent-elles la qualité des données dans les tâches complexes de création de dialogues RAG multi-tours ?
Importance : Les systèmes RAG nécessitent des données de référence de haute qualité pour évaluer leur capacité à traiter des questions complexes, en évitant les hallucinations et les informations erronées
Limitations existantes :
- La création manuelle de données dialoguées pour RAG impose des exigences cognitives extrêmement élevées
- Les recherches existantes supposent généralement des boucles de rétroaction avec communication directe, ignorant les scénarios de communication indirecte dans la réalité
- Absence d'étude systématique des différences de performance entre différentes populations d'annotateurs dans les tâches complexes

Motivation de la Recherche

Explorer les stratégies de gestion de la qualité des annotations sous les contraintes du monde réel
Comprendre l'impact de la structure des boucles de rétroaction sur les tâches d'annotation complexes
Fournir des conseils pratiques pour les projets d'annotation au niveau entreprise

Contributions Principales

Première étude systématique de l'impact de différentes boucles de communication sur la qualité des données pour les tâches d'annotation RAG complexes
Découvertes clés : Les annotateurs avec des boucles de rétroaction étroites créent des données de meilleure qualité, tandis que ceux avec des boucles lâches présentent des avantages en termes de quantité et de diversité
Stratégies pratiques : Recommandations concrètes de gestion de la qualité pour les processus de création de données sous contraintes réelles
Cadre d'évaluation : Évaluation complète de l'expérience des annotateurs et de la qualité des données par le biais de métriques automatisées et d'études utilisateur

Détails Méthodologiques

Définition de la Tâche

La création de dialogues RAG multi-tours comprend les étapes fondamentales suivantes :

Création de questions : Les annotateurs formulent des questions pertinentes par rapport au corpus
Récupération de passages pertinents : Le système récupère automatiquement les passages de documents pertinents
Examen et annotation des passages : Les annotateurs évaluent la pertinence des passages et relancent les requêtes si nécessaire
Édition des réponses IA : Modification des résultats du générateur pour assurer l'exactitude et l'exhaustivité
Ajout d'étiquettes : Ajout de métadonnées pour chaque tour de dialogue

Conception Expérimentale

Populations d'Annotateurs

Annotateurs internes (7 personnes) : Membres de la même organisation que l'équipe de recherche, boucle de rétroaction avec communication directe, rémunération horaire
Annotateurs externes (40 personnes) : Recrutés via un service d'annotation externe, boucle de rétroaction avec communication indirecte, rémunération par dialogue accepté

Différences de Structure de Communication

Dimension	Annotateurs internes	Annotateurs externes
Mode de communication	Direct (courrier électronique, Slack, vidéoconférence)	Indirect (via intermédiaire)
Fréquence de rétroaction	Temps réel, personnalisée	Par lot, différée
Matériel de formation	Diapositives + orientation directe	Tutoriels vidéo complets
Mode de rémunération	À l'heure	Par dialogue accepté

Outil Technique : RAGAPHENE

Utilisation d'un outil d'annotation spécialement conçu, RAGAPHENE, avec les fonctionnalités suivantes :

Récupération et génération en temps réel
Annotation de la pertinence des passages
Édition des réponses et visualisation des différences
Outil de relance de requête
Conseils de qualité et listes de contrôle

Métriques d'Évaluation

Métriques de Qualité du Dialogue

Nombre moyen de tours : Longueur du dialogue, les tours ultérieurs étant généralement plus complexes
Nombre moyen d'éditions : Nombre de tours modifiés par les annotateurs, reflétant la complexité
Nombre moyen de requêtes : Y compris la question initiale et les relances
Nombre moyen de passages uniques : Mesure de la diversité des passages

Méthodes d'Évaluation de la Qualité

Taux d'acceptation/rejet : Détermination de la qualité du dialogue par examen manuel
Commentaires automatisés : Rétroaction de qualité générée par le système
Étude utilisateur : Collecte de l'expérience subjective des annotateurs

Configuration Expérimentale

Phases de Collecte de Données

L'étude s'est déroulée en trois phases sur environ un an (mai 2024 - mai 2025) :

Phase pilote : Expérience à petite échelle, calibrage des tâches et des instructions
Phase de création : Création de dialogues à grande échelle, amélioration basée sur les commentaires du pilote
Phase d'examen : Examen de la qualité et amélioration

Échelle des Données

Annotateurs internes : environ 1 500 dialogues
Annotateurs externes : environ 5 000 dialogues
Sous-ensemble d'analyse : 86 en phase pilote, 618 en phase de création, 424 en phase d'examen

Résultats Expérimentaux

Principales Découvertes

Différences de Qualité des Données

Métrique	Annotateurs internes	Annotateurs externes
Nombre moyen de tours	7,6	4,2
Nombre moyen d'éditions	7,0	3,0
Nombre moyen de requêtes	12,7	6,2
Nombre moyen de passages uniques	17,1	7,3
Taux d'acceptation	87%	69%

Investissement en Temps et Effort

Temps de création : 60-75 minutes/dialogue pour les annotateurs internes, 30-45 minutes/dialogue pour les annotateurs externes
Volume de lecture de passages : Les annotateurs internes lisent en moyenne plus de passages (6-12 par tour)
Compréhension de la tâche : 100% des annotateurs internes rapportent l'ordre opérationnel correct, avec des incompréhensions chez les annotateurs externes

Différences de Perception des Fonctionnalités de l'Outil

Il existe des différences significatives dans la perception de l'importance des fonctionnalités de l'outil entre les deux groupes :

Fonction de conseils : Différence la plus importante (μ différence = 1,41), les annotateurs internes la jugent plus importante
Outil de relance de requête : Évaluation plus favorable des annotateurs internes (μ différence = 0,78)
Fonction de marquage de passages : Les annotateurs internes y accordent plus d'importance (μ différence = 0,78)
Édition de réponses : Évaluation similaire entre les deux groupes (μ différence = 0,04)

Comparaison avec les Données Synthétiques

Les dialogues générés par LLM présentent une diversité et une complexité inférieures aux dialogues créés manuellement :

Taux d'acceptation : 72% (intermédiaire entre les deux groupes d'annotateurs humains)
Diversité des passages manifestement insuffisante
Absence du processus d'édition manuelle et de relance de requête

Travaux Connexes

Recherche sur les Systèmes RAG

Ensembles de données de référence : RAD-Bench, RAGBench, RGB, MTRAG, etc.
Méthodes de génération de données : Compromis qualité entre génération synthétique et annotation manuelle
Exigences de complexité : Charge cognitive et exigences de qualité des dialogues multi-tours

Gestion de la Qualité de l'Annotation de Données

Types d'annotateurs : Différences de qualité entre experts et travailleurs du crowdsourcing
Complexité des tâches : Stratégies de gestion différentes pour les microtâches et les macrotâches
Assurance qualité : Stratégies de filtrage, processus multi-étapes, examen par des experts

Impact de la Structure de Communication

Mécanismes de rétroaction : Impact de la communication directe vs indirecte sur la qualité du travail
Outils collaboratifs : Conception d'interfaces pour soutenir les tâches d'annotation complexes
Matériel de formation : Stratégies de formation adaptées à différentes structures de communication

Conclusions et Discussion

Conclusions Principales

Impact significatif des boucles de rétroaction : Les boucles de rétroaction directes améliorent significativement la qualité des données, mais réduisent la production
Avantages complémentaires : Les annotateurs internes excellent en qualité, tandis que les annotateurs externes excellent en quantité et diversité
Importance de la conception des outils : Les conseils et la rétroaction automatisée peuvent partiellement compenser les limitations de communication
Efficacité de la stratégie en deux étapes : Un processus création-examen en deux étapes peut équilibrer qualité et efficacité

Recommandations Pratiques

Stratégies d'Attribution des Tâches

Utiliser les annotateurs internes pour affiner rapidement les matériels d'orientation
Assigner aux annotateurs externes des sous-tâches ciblées et de complexité réduite
Processus en deux étapes : Création externe + examen interne

Principes de Conception des Outils

Conseils automatisés : Compenser l'absence de rétroaction directe
Commentaires granulaires : Soutenir les recommandations d'amélioration spécifiques
Vérification de la qualité : Validation automatique avant l'exportation

Optimisation des Matériels de Formation

Utiliser la rétroaction directe pour améliorer le contenu de formation
Tutoriels vidéo : Adapter aux besoins de communication indirecte
Amélioration itérative : Mettre à jour les matériels en fonction des questions fréquentes

Limitations

Taille de l'échantillon : Nombre réduit d'annotateurs internes, analyse statistique limitée
Mécanismes d'incitation : Les différents modes de rémunération peuvent affecter la qualité du travail
Spécificité du domaine : Les conclusions peuvent ne pas s'appliquer à toutes les tâches d'annotation complexes
Facteur temporel : L'impact de la courbe d'apprentissage et de l'accumulation d'expérience n'a pas été suffisamment considéré

Directions Futures

Élargir l'échelle de la recherche : Plus d'annotateurs et de types de tâches
Recherche sur les mécanismes d'incitation : Impact spécifique des modes de rémunération sur la qualité
Assistance automatisée : Évaluation de l'efficacité de l'annotation assistée par IA
Validation inter-domaines : Vérification des découvertes dans d'autres tâches complexes

Évaluation Approfondie

Points Forts

Valeur pratique élevée : Résout les problèmes clés des projets d'annotation du monde réel
Méthodologie rigoureuse : Conception d'étude longitudinale, évaluation multidimensionnelle
Découvertes significatives : Révèle l'impact important des boucles de rétroaction sur les tâches complexes
Orientation pratique forte : Fournit des recommandations concrètes et exploitables

Insuffisances

Contrôle des variables insuffisant : Impossible de séparer complètement l'impact des boucles de rétroaction d'autres facteurs
Limitations de généralisation : La recherche se concentre sur les tâches RAG, l'applicabilité à d'autres domaines est inconnue
Analyse quantitative limitée : Petit échantillon d'annotateurs internes, puissance statistique limitée
Effets à long terme inconnus : Manque d'observations sur une période plus longue

Impact

Contribution académique : Offre une nouvelle perspective au domaine interdisciplinaire HCI-NLP
Orientation pratique : Fournit un cadre de référence pour les projets d'annotation au niveau entreprise
Innovation méthodologique : Démontre une approche de recherche systématique pour l'annotation de tâches complexes
Valeur de l'outil : L'outil RAGAPHENE a un potentiel de diffusion et d'application

Scénarios d'Application

Projets d'annotation au niveau entreprise : Nécessitant d'équilibrer qualité et efficacité dans la création de données à grande échelle
Tâches NLP complexes : Travaux d'annotation nécessitant plusieurs étapes et une charge cognitive élevée
Équipes d'annotation mixtes : Projets utilisant simultanément des ressources d'annotation internes et externes
Applications sensibles à la qualité : Développement de systèmes IA exigeant une qualité de données extrêmement élevée

Références Bibliographiques

L'article cite 82 travaux connexes, couvrant plusieurs domaines incluant les systèmes RAG, la qualité de l'annotation de données, la conception d'outils et les structures de communication, fournissant une base théorique solide à la recherche.

Résumé : Il s'agit d'une recherche HCI d'une valeur pratique importante qui, par le biais d'une conception d'étude longitudinale rigoureuse, révèle l'impact significatif de la structure des boucles de rétroaction sur la qualité des tâches d'annotation complexes, fournissant des perspectives et des conseils précieux à la fois au monde académique et à l'industrie.