Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
- ID Articolo: 2510.11897
- Titolo: A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
- Autori: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
- Classificazione: cs.HC (Interazione Uomo-Computer)
- Data di Pubblicazione: Ottobre 2025 (Sottomesso ad ACM)
- Link Articolo: https://arxiv.org/abs/2510.11897
Questo articolo indaga l'impatto di diversi cicli di feedback degli annotatori umani sulla qualità dei dati in compiti complessi di generazione aumentata da recupero (RAG). Gli autori hanno condotto uno studio longitudinale di circa un anno su due gruppi di annotatori, interni ed esterni, analizzando le differenze di prestazione nella creazione di dialoghi RAG multiturn. Lo studio rivela che cicli di feedback più stretti producono dialoghi di qualità superiore, ma riducono la quantità e la diversità. L'articolo fornisce raccomandazioni orientative su come utilizzare al meglio diversi gruppi di annotatori.
- Problema Centrale: Come diverse strutture di cicli di feedback degli annotatori influenzano la qualità dei dati nella creazione complessa di dialoghi RAG multiturn?
- Importanza: I sistemi RAG richiedono dati di benchmark di alta qualità per valutare la loro capacità di gestire problemi complessi, evitando allucinazioni e disinformazione
- Limitazioni Esistenti:
- La creazione manuale di dati dialogici RAG presenta requisiti cognitivi estremamente elevati
- La ricerca esistente presuppone principalmente cicli di feedback con comunicazione diretta, trascurando scenari di comunicazione indiretta nella realtà
- Mancanza di ricerca sistematica sulle differenze di prestazione tra diversi gruppi di annotatori in compiti complessi
- Esplorare strategie di gestione della qualità dell'annotazione dei dati sotto vincoli del mondo reale
- Comprendere l'impatto della struttura dei cicli di feedback su compiti di annotazione complessi
- Fornire orientamenti pratici per progetti di annotazione a livello aziendale
- Primo studio sistematico dell'impatto di diversi cicli di comunicazione di feedback sulla qualità dei dati in compiti complessi di annotazione RAG
- Scoperta di intuizioni chiave: gli annotatori con cicli di feedback stretti creano dati di qualità superiore, mentre gli annotatori con cicli di feedback lenti hanno vantaggi in quantità e diversità
- Fornitura di strategie pratiche: proposte di raccomandazioni concrete per la gestione della qualità nel processo di creazione dei dati sotto vincoli reali
- Costruzione di un framework di valutazione: valutazione completa dell'esperienza degli annotatori e della qualità dei dati attraverso metriche automatizzate e ricerca utente
La creazione di dialoghi RAG multiturn comprende i seguenti passaggi fondamentali:
- Creazione di Domande: gli annotatori pongono domande rilevanti per il corpus
- Recupero di Passaggi Rilevanti: il sistema recupera automaticamente passaggi di documenti rilevanti
- Revisione e Annotazione di Passaggi: gli annotatori valutano la rilevanza dei passaggi, rieseguendo query se necessario
- Modifica di Risposte AI: modifica dell'output del generatore per garantire accuratezza e completezza
- Aggiunta di Etichette: aggiunta di metadati per ogni turno di dialogo
- Annotatori Interni (7 persone): dello stesso gruppo del team di ricerca, cicli di feedback con comunicazione diretta, compensati orariamente
- Annotatori Esterni (40 persone): reclutati tramite servizio di annotazione esterno, cicli di feedback con comunicazione indiretta, compensati per dialogo accettato
| Dimensione | Annotatori Interni | Annotatori Esterni |
|---|
| Modalità di Comunicazione | Diretta (email, Slack, videoconferenza) | Indiretta (tramite intermediario) |
| Frequenza di Feedback | Tempo reale, personalizzato | In batch, ritardato |
| Materiali di Formazione | Diapositive + guida diretta | Tutorial video completo |
| Modalità di Compenso | Oraria | Per dialogo accettato |
Utilizzo di uno strumento di annotazione appositamente progettato, RAGAPHENE, con le seguenti funzionalità:
- Recupero e generazione in tempo reale
- Annotazione della rilevanza dei passaggi
- Modifica di risposte e visualizzazione delle differenze
- Strumento di riesecuzione query
- Suggerimenti di qualità e liste di controllo
- Numero Medio di Turni: lunghezza del dialogo, i turni successivi sono tipicamente più impegnativi
- Numero Medio di Modifiche: numero di turni modificati dagli annotatori, riflette la complessità
- Numero Medio di Query: include domande iniziali e riesecuzioni di query
- Numero Medio di Passaggi Unici: misura la diversità dei passaggi
- Tasso di Accettazione/Rifiuto: qualità del dialogo determinata tramite revisione manuale
- Commenti Automatizzati: feedback di qualità generato dal sistema
- Ricerca Utente: raccolta dell'esperienza soggettiva degli annotatori
La ricerca è suddivisa in tre fasi, per una durata di circa un anno (maggio 2024 - maggio 2025):
- Fase Pilota: esperimento su piccola scala, calibrazione del compito e delle istruzioni
- Fase di Creazione: creazione di dialoghi su larga scala, miglioramenti basati sul feedback pilota
- Fase di Revisione: revisione della qualità e miglioramenti
- Annotatori Interni: circa 1.500 dialoghi
- Annotatori Esterni: circa 5.000 dialoghi
- Sottoinsieme di Analisi: 86 fase pilota, 618 fase di creazione, 424 fase di revisione
| Metrica | Annotatori Interni | Annotatori Esterni |
|---|
| Numero Medio di Turni | 7,6 | 4,2 |
| Numero Medio di Modifiche | 7,0 | 3,0 |
| Numero Medio di Query | 12,7 | 6,2 |
| Numero Medio di Passaggi Unici | 17,1 | 7,3 |
| Tasso di Accettazione | 87% | 69% |
- Tempo di Creazione: annotatori interni 60-75 minuti/dialogo, annotatori esterni 30-45 minuti/dialogo
- Volume di Lettura Passaggi: gli annotatori interni leggono in media più passaggi (6-12 per turno)
- Comprensione del Compito: il 100% degli annotatori interni riporta l'ordine operativo corretto, gli annotatori esterni presentano errori di comprensione
Differenze significative nella percezione dell'importanza delle funzionalità dello strumento tra annotatori interni ed esterni:
- Funzione di Suggerimento: differenza massima (μ differenza=1,41), gli annotatori interni la ritengono più importante
- Strumento di Riesecuzione Query: gli annotatori interni lo valutano più favorevolmente (μ differenza=0,78)
- Funzione di Marcatura Passaggi: gli annotatori interni la ritengono più importante (μ differenza=0,78)
- Modifica di Risposte: valutazione simile tra i due gruppi (μ differenza=0,04)
I dialoghi sintetici generati da LLM sono inferiori ai dialoghi creati manualmente sia in diversità che in complessità:
- Tasso di Accettazione: 72% (intermedio tra i due gruppi di annotatori umani)
- Diversità dei passaggi chiaramente insufficiente
- Mancanza del processo di modifica umana e riesecuzione di query
- Dataset di Benchmark: RAD-Bench, RAGBench, RGB, MTRAG e altri
- Metodi di Generazione Dati: compromesso qualitativo tra generazione sintetica e annotazione umana
- Requisiti di Complessità: carico cognitivo e requisiti di qualità dei dialoghi multiturn
- Tipi di Annotatori: differenze di qualità tra esperti e lavoratori crowdsourced
- Complessità del Compito: diverse strategie di gestione per microtask versus macrotask
- Assicurazione della Qualità: strategie di filtraggio, processi multistadio, revisione da esperti
- Meccanismi di Feedback: impatto della comunicazione diretta versus indiretta sulla qualità del lavoro
- Strumenti di Collaborazione: progettazione di interfacce per supportare compiti di annotazione complessi
- Materiali di Formazione: strategie di formazione sotto diverse strutture di comunicazione
- Impatto Significativo dei Cicli di Feedback: i cicli di feedback diretti migliorano significativamente la qualità dei dati, ma riducono la produzione quantitativa
- Vantaggi Complementari: gli annotatori interni eccellono in qualità, gli annotatori esterni in quantità e diversità
- Importanza della Progettazione dello Strumento: suggerimenti e feedback automatizzati possono compensare parzialmente i limiti di comunicazione
- Efficacia della Strategia Multistadio: il flusso di lavoro in due fasi (creazione-revisione) equilibra efficacemente qualità ed efficienza
- Utilizzo di Annotatori Interni per perfezionare rapidamente i materiali di guida
- Assegnazione ad Annotatori Esterni di sottocompiti mirati e a complessità inferiore
- Flusso di Lavoro in Due Fasi: creazione esterna + revisione interna
- Suggerimenti Automatizzati: compensare l'assenza di feedback diretto
- Commenti Granulari: supportare raccomandazioni di miglioramento specifiche
- Controlli di Qualità: validazione automatica prima dell'esportazione
- Utilizzo di Feedback Diretto per migliorare i contenuti di formazione
- Tutorial Video: adattarsi alle esigenze di comunicazione indiretta
- Miglioramento Iterativo: aggiornamento dei materiali basato su domande comuni
- Dimensione del Campione: numero ridotto di annotatori interni, analisi statistica limitata
- Meccanismi di Incentivazione: diverse modalità di compenso possono influenzare la qualità del lavoro
- Specificità del Dominio: le conclusioni potrebbero non applicarsi a tutti i compiti di annotazione complessi
- Fattore Temporale: l'impatto della curva di apprendimento e dell'accumulo di esperienza non è stato sufficientemente considerato
- Ampliamento della Scala di Ricerca: più annotatori e tipi di compiti
- Ricerca su Meccanismi di Incentivazione: impatto specifico delle modalità di compenso sulla qualità
- Assistenza Automatizzata: valutazione dell'efficacia dell'annotazione assistita da IA
- Validazione Transdisciplinare: verifica delle scoperte in altri compiti complessi
- Valore Pratico Elevato: risolve questioni critiche di progetti di annotazione nel mondo reale
- Metodologia Rigorosa: progettazione di ricerca longitudinale, valutazione multidimensionale
- Scoperte Significative: rivela l'impatto importante dei cicli di feedback su compiti complessi
- Forte Orientamento Pratico: fornisce raccomandazioni concrete e attuabili
- Controllo Variabile Insufficiente: impossibile separare completamente l'impatto dei cicli di feedback da altri fattori
- Limitazioni di Generalizzabilità: la ricerca è concentrata su compiti RAG, l'applicabilità ad altri domini è sconosciuta
- Analisi Quantitativa Limitata: piccolo campione di annotatori interni, capacità di test statistico limitata
- Effetti a Lungo Termine Sconosciuti: mancanza di osservazioni su archi temporali più lunghi
- Contributo Accademico: fornisce nuove prospettive all'intersezione di HCI e NLP
- Guida Pratica: fornisce un framework di riferimento per progetti di annotazione a livello aziendale
- Innovazione Metodologica: dimostra un approccio sistematico alla ricerca su annotazione di compiti complessi
- Valore dello Strumento: lo strumento RAGAPHENE ha potenziale di applicazione e diffusione
- Progetti di Annotazione a Livello Aziendale: creazione di dati su larga scala che richiedono equilibrio tra qualità ed efficienza
- Compiti NLP Complessi: lavoro di annotazione che richiede più passaggi e carico cognitivo elevato
- Team di Annotazione Ibridi: progetti che utilizzano contemporaneamente risorse di annotazione interne ed esterne
- Applicazioni Sensibili alla Qualità: sviluppo di sistemi AI con requisiti estremamente elevati di qualità dei dati
L'articolo cita 82 lavori correlati, coprendo molteplici domini inclusi sistemi RAG, qualità dell'annotazione dei dati, progettazione di strumenti e strutture di comunicazione, fornendo una base teorica solida per la ricerca.
Sintesi: Questo è uno studio HCI di importante valore pratico che, attraverso una progettazione di ricerca longitudinale rigorosa, rivela l'impatto significativo della struttura dei cicli di feedback sulla qualità dei compiti di annotazione complessi, fornendo intuizioni e orientamenti preziosi sia per il mondo accademico che per l'industria.