Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
- ID de l'article : 2510.11897
- Titre : A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
- Auteurs : Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
- Classification : cs.HC (Interaction Homme-Ordinateur)
- Date de publication : Octobre 2025 (soumis à ACM)
- Lien de l'article : https://arxiv.org/abs/2510.11897
Cet article examine l'impact de différentes boucles de rétroaction des annotateurs humains sur la qualité des données dans les tâches complexes de génération augmentée par récupération (RAG). Les auteurs ont mené une étude longitudinale d'environ un an auprès de deux groupes d'annotateurs (internes et externes), analysant les différences de performance dans la création de dialogues RAG multi-tours. L'étude révèle que les boucles de rétroaction plus étroites produisent des dialogues de meilleure qualité, mais réduisent la quantité et la diversité. L'article fournit des recommandations sur la façon d'exploiter au mieux les différentes populations d'annotateurs.
- Question centrale : Comment les différentes structures de boucles de rétroaction des annotateurs affectent-elles la qualité des données dans les tâches complexes de création de dialogues RAG multi-tours ?
- Importance : Les systèmes RAG nécessitent des données de référence de haute qualité pour évaluer leur capacité à traiter des questions complexes, en évitant les hallucinations et les informations erronées
- Limitations existantes :
- La création manuelle de données dialoguées pour RAG impose des exigences cognitives extrêmement élevées
- Les recherches existantes supposent généralement des boucles de rétroaction avec communication directe, ignorant les scénarios de communication indirecte dans la réalité
- Absence d'étude systématique des différences de performance entre différentes populations d'annotateurs dans les tâches complexes
- Explorer les stratégies de gestion de la qualité des annotations sous les contraintes du monde réel
- Comprendre l'impact de la structure des boucles de rétroaction sur les tâches d'annotation complexes
- Fournir des conseils pratiques pour les projets d'annotation au niveau entreprise
- Première étude systématique de l'impact de différentes boucles de communication sur la qualité des données pour les tâches d'annotation RAG complexes
- Découvertes clés : Les annotateurs avec des boucles de rétroaction étroites créent des données de meilleure qualité, tandis que ceux avec des boucles lâches présentent des avantages en termes de quantité et de diversité
- Stratégies pratiques : Recommandations concrètes de gestion de la qualité pour les processus de création de données sous contraintes réelles
- Cadre d'évaluation : Évaluation complète de l'expérience des annotateurs et de la qualité des données par le biais de métriques automatisées et d'études utilisateur
La création de dialogues RAG multi-tours comprend les étapes fondamentales suivantes :
- Création de questions : Les annotateurs formulent des questions pertinentes par rapport au corpus
- Récupération de passages pertinents : Le système récupère automatiquement les passages de documents pertinents
- Examen et annotation des passages : Les annotateurs évaluent la pertinence des passages et relancent les requêtes si nécessaire
- Édition des réponses IA : Modification des résultats du générateur pour assurer l'exactitude et l'exhaustivité
- Ajout d'étiquettes : Ajout de métadonnées pour chaque tour de dialogue
- Annotateurs internes (7 personnes) : Membres de la même organisation que l'équipe de recherche, boucle de rétroaction avec communication directe, rémunération horaire
- Annotateurs externes (40 personnes) : Recrutés via un service d'annotation externe, boucle de rétroaction avec communication indirecte, rémunération par dialogue accepté
| Dimension | Annotateurs internes | Annotateurs externes |
|---|
| Mode de communication | Direct (courrier électronique, Slack, vidéoconférence) | Indirect (via intermédiaire) |
| Fréquence de rétroaction | Temps réel, personnalisée | Par lot, différée |
| Matériel de formation | Diapositives + orientation directe | Tutoriels vidéo complets |
| Mode de rémunération | À l'heure | Par dialogue accepté |
Utilisation d'un outil d'annotation spécialement conçu, RAGAPHENE, avec les fonctionnalités suivantes :
- Récupération et génération en temps réel
- Annotation de la pertinence des passages
- Édition des réponses et visualisation des différences
- Outil de relance de requête
- Conseils de qualité et listes de contrôle
- Nombre moyen de tours : Longueur du dialogue, les tours ultérieurs étant généralement plus complexes
- Nombre moyen d'éditions : Nombre de tours modifiés par les annotateurs, reflétant la complexité
- Nombre moyen de requêtes : Y compris la question initiale et les relances
- Nombre moyen de passages uniques : Mesure de la diversité des passages
- Taux d'acceptation/rejet : Détermination de la qualité du dialogue par examen manuel
- Commentaires automatisés : Rétroaction de qualité générée par le système
- Étude utilisateur : Collecte de l'expérience subjective des annotateurs
L'étude s'est déroulée en trois phases sur environ un an (mai 2024 - mai 2025) :
- Phase pilote : Expérience à petite échelle, calibrage des tâches et des instructions
- Phase de création : Création de dialogues à grande échelle, amélioration basée sur les commentaires du pilote
- Phase d'examen : Examen de la qualité et amélioration
- Annotateurs internes : environ 1 500 dialogues
- Annotateurs externes : environ 5 000 dialogues
- Sous-ensemble d'analyse : 86 en phase pilote, 618 en phase de création, 424 en phase d'examen
| Métrique | Annotateurs internes | Annotateurs externes |
|---|
| Nombre moyen de tours | 7,6 | 4,2 |
| Nombre moyen d'éditions | 7,0 | 3,0 |
| Nombre moyen de requêtes | 12,7 | 6,2 |
| Nombre moyen de passages uniques | 17,1 | 7,3 |
| Taux d'acceptation | 87% | 69% |
- Temps de création : 60-75 minutes/dialogue pour les annotateurs internes, 30-45 minutes/dialogue pour les annotateurs externes
- Volume de lecture de passages : Les annotateurs internes lisent en moyenne plus de passages (6-12 par tour)
- Compréhension de la tâche : 100% des annotateurs internes rapportent l'ordre opérationnel correct, avec des incompréhensions chez les annotateurs externes
Il existe des différences significatives dans la perception de l'importance des fonctionnalités de l'outil entre les deux groupes :
- Fonction de conseils : Différence la plus importante (μ différence = 1,41), les annotateurs internes la jugent plus importante
- Outil de relance de requête : Évaluation plus favorable des annotateurs internes (μ différence = 0,78)
- Fonction de marquage de passages : Les annotateurs internes y accordent plus d'importance (μ différence = 0,78)
- Édition de réponses : Évaluation similaire entre les deux groupes (μ différence = 0,04)
Les dialogues générés par LLM présentent une diversité et une complexité inférieures aux dialogues créés manuellement :
- Taux d'acceptation : 72% (intermédiaire entre les deux groupes d'annotateurs humains)
- Diversité des passages manifestement insuffisante
- Absence du processus d'édition manuelle et de relance de requête
- Ensembles de données de référence : RAD-Bench, RAGBench, RGB, MTRAG, etc.
- Méthodes de génération de données : Compromis qualité entre génération synthétique et annotation manuelle
- Exigences de complexité : Charge cognitive et exigences de qualité des dialogues multi-tours
- Types d'annotateurs : Différences de qualité entre experts et travailleurs du crowdsourcing
- Complexité des tâches : Stratégies de gestion différentes pour les microtâches et les macrotâches
- Assurance qualité : Stratégies de filtrage, processus multi-étapes, examen par des experts
- Mécanismes de rétroaction : Impact de la communication directe vs indirecte sur la qualité du travail
- Outils collaboratifs : Conception d'interfaces pour soutenir les tâches d'annotation complexes
- Matériel de formation : Stratégies de formation adaptées à différentes structures de communication
- Impact significatif des boucles de rétroaction : Les boucles de rétroaction directes améliorent significativement la qualité des données, mais réduisent la production
- Avantages complémentaires : Les annotateurs internes excellent en qualité, tandis que les annotateurs externes excellent en quantité et diversité
- Importance de la conception des outils : Les conseils et la rétroaction automatisée peuvent partiellement compenser les limitations de communication
- Efficacité de la stratégie en deux étapes : Un processus création-examen en deux étapes peut équilibrer qualité et efficacité
- Utiliser les annotateurs internes pour affiner rapidement les matériels d'orientation
- Assigner aux annotateurs externes des sous-tâches ciblées et de complexité réduite
- Processus en deux étapes : Création externe + examen interne
- Conseils automatisés : Compenser l'absence de rétroaction directe
- Commentaires granulaires : Soutenir les recommandations d'amélioration spécifiques
- Vérification de la qualité : Validation automatique avant l'exportation
- Utiliser la rétroaction directe pour améliorer le contenu de formation
- Tutoriels vidéo : Adapter aux besoins de communication indirecte
- Amélioration itérative : Mettre à jour les matériels en fonction des questions fréquentes
- Taille de l'échantillon : Nombre réduit d'annotateurs internes, analyse statistique limitée
- Mécanismes d'incitation : Les différents modes de rémunération peuvent affecter la qualité du travail
- Spécificité du domaine : Les conclusions peuvent ne pas s'appliquer à toutes les tâches d'annotation complexes
- Facteur temporel : L'impact de la courbe d'apprentissage et de l'accumulation d'expérience n'a pas été suffisamment considéré
- Élargir l'échelle de la recherche : Plus d'annotateurs et de types de tâches
- Recherche sur les mécanismes d'incitation : Impact spécifique des modes de rémunération sur la qualité
- Assistance automatisée : Évaluation de l'efficacité de l'annotation assistée par IA
- Validation inter-domaines : Vérification des découvertes dans d'autres tâches complexes
- Valeur pratique élevée : Résout les problèmes clés des projets d'annotation du monde réel
- Méthodologie rigoureuse : Conception d'étude longitudinale, évaluation multidimensionnelle
- Découvertes significatives : Révèle l'impact important des boucles de rétroaction sur les tâches complexes
- Orientation pratique forte : Fournit des recommandations concrètes et exploitables
- Contrôle des variables insuffisant : Impossible de séparer complètement l'impact des boucles de rétroaction d'autres facteurs
- Limitations de généralisation : La recherche se concentre sur les tâches RAG, l'applicabilité à d'autres domaines est inconnue
- Analyse quantitative limitée : Petit échantillon d'annotateurs internes, puissance statistique limitée
- Effets à long terme inconnus : Manque d'observations sur une période plus longue
- Contribution académique : Offre une nouvelle perspective au domaine interdisciplinaire HCI-NLP
- Orientation pratique : Fournit un cadre de référence pour les projets d'annotation au niveau entreprise
- Innovation méthodologique : Démontre une approche de recherche systématique pour l'annotation de tâches complexes
- Valeur de l'outil : L'outil RAGAPHENE a un potentiel de diffusion et d'application
- Projets d'annotation au niveau entreprise : Nécessitant d'équilibrer qualité et efficacité dans la création de données à grande échelle
- Tâches NLP complexes : Travaux d'annotation nécessitant plusieurs étapes et une charge cognitive élevée
- Équipes d'annotation mixtes : Projets utilisant simultanément des ressources d'annotation internes et externes
- Applications sensibles à la qualité : Développement de systèmes IA exigeant une qualité de données extrêmement élevée
L'article cite 82 travaux connexes, couvrant plusieurs domaines incluant les systèmes RAG, la qualité de l'annotation de données, la conception d'outils et les structures de communication, fournissant une base théorique solide à la recherche.
Résumé : Il s'agit d'une recherche HCI d'une valeur pratique importante qui, par le biais d'une conception d'étude longitudinale rigoureuse, révèle l'impact significatif de la structure des boucles de rétroaction sur la qualité des tâches d'annotation complexes, fournissant des perspectives et des conseils précieux à la fois au monde académique et à l'industrie.