2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.

Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.

academic

Uno Studio Longitudinale su Diversi Cicli di Feedback degli Annotatori in Compiti RAG Complessi

Informazioni Fondamentali

ID Articolo: 2510.11897
Titolo: A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
Autori: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
Classificazione: cs.HC (Interazione Uomo-Computer)
Data di Pubblicazione: Ottobre 2025 (Sottomesso ad ACM)
Link Articolo: https://arxiv.org/abs/2510.11897

Riassunto

Questo articolo indaga l'impatto di diversi cicli di feedback degli annotatori umani sulla qualità dei dati in compiti complessi di generazione aumentata da recupero (RAG). Gli autori hanno condotto uno studio longitudinale di circa un anno su due gruppi di annotatori, interni ed esterni, analizzando le differenze di prestazione nella creazione di dialoghi RAG multiturn. Lo studio rivela che cicli di feedback più stretti producono dialoghi di qualità superiore, ma riducono la quantità e la diversità. L'articolo fornisce raccomandazioni orientative su come utilizzare al meglio diversi gruppi di annotatori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Come diverse strutture di cicli di feedback degli annotatori influenzano la qualità dei dati nella creazione complessa di dialoghi RAG multiturn?
Importanza: I sistemi RAG richiedono dati di benchmark di alta qualità per valutare la loro capacità di gestire problemi complessi, evitando allucinazioni e disinformazione
Limitazioni Esistenti:
- La creazione manuale di dati dialogici RAG presenta requisiti cognitivi estremamente elevati
- La ricerca esistente presuppone principalmente cicli di feedback con comunicazione diretta, trascurando scenari di comunicazione indiretta nella realtà
- Mancanza di ricerca sistematica sulle differenze di prestazione tra diversi gruppi di annotatori in compiti complessi

Motivazione della Ricerca

Esplorare strategie di gestione della qualità dell'annotazione dei dati sotto vincoli del mondo reale
Comprendere l'impatto della struttura dei cicli di feedback su compiti di annotazione complessi
Fornire orientamenti pratici per progetti di annotazione a livello aziendale

Contributi Principali

Primo studio sistematico dell'impatto di diversi cicli di comunicazione di feedback sulla qualità dei dati in compiti complessi di annotazione RAG
Scoperta di intuizioni chiave: gli annotatori con cicli di feedback stretti creano dati di qualità superiore, mentre gli annotatori con cicli di feedback lenti hanno vantaggi in quantità e diversità
Fornitura di strategie pratiche: proposte di raccomandazioni concrete per la gestione della qualità nel processo di creazione dei dati sotto vincoli reali
Costruzione di un framework di valutazione: valutazione completa dell'esperienza degli annotatori e della qualità dei dati attraverso metriche automatizzate e ricerca utente

Dettagli Metodologici

Definizione del Compito

La creazione di dialoghi RAG multiturn comprende i seguenti passaggi fondamentali:

Creazione di Domande: gli annotatori pongono domande rilevanti per il corpus
Recupero di Passaggi Rilevanti: il sistema recupera automaticamente passaggi di documenti rilevanti
Revisione e Annotazione di Passaggi: gli annotatori valutano la rilevanza dei passaggi, rieseguendo query se necessario
Modifica di Risposte AI: modifica dell'output del generatore per garantire accuratezza e completezza
Aggiunta di Etichette: aggiunta di metadati per ogni turno di dialogo

Progettazione Sperimentale

Gruppi di Annotatori

Annotatori Interni (7 persone): dello stesso gruppo del team di ricerca, cicli di feedback con comunicazione diretta, compensati orariamente
Annotatori Esterni (40 persone): reclutati tramite servizio di annotazione esterno, cicli di feedback con comunicazione indiretta, compensati per dialogo accettato

Differenze nella Struttura di Comunicazione

Dimensione	Annotatori Interni	Annotatori Esterni
Modalità di Comunicazione	Diretta (email, Slack, videoconferenza)	Indiretta (tramite intermediario)
Frequenza di Feedback	Tempo reale, personalizzato	In batch, ritardato
Materiali di Formazione	Diapositive + guida diretta	Tutorial video completo
Modalità di Compenso	Oraria	Per dialogo accettato

Strumento Tecnico: RAGAPHENE

Utilizzo di uno strumento di annotazione appositamente progettato, RAGAPHENE, con le seguenti funzionalità:

Recupero e generazione in tempo reale
Annotazione della rilevanza dei passaggi
Modifica di risposte e visualizzazione delle differenze
Strumento di riesecuzione query
Suggerimenti di qualità e liste di controllo

Metriche di Valutazione

Metriche di Qualità del Dialogo

Numero Medio di Turni: lunghezza del dialogo, i turni successivi sono tipicamente più impegnativi
Numero Medio di Modifiche: numero di turni modificati dagli annotatori, riflette la complessità
Numero Medio di Query: include domande iniziali e riesecuzioni di query
Numero Medio di Passaggi Unici: misura la diversità dei passaggi

Metodi di Valutazione della Qualità

Tasso di Accettazione/Rifiuto: qualità del dialogo determinata tramite revisione manuale
Commenti Automatizzati: feedback di qualità generato dal sistema
Ricerca Utente: raccolta dell'esperienza soggettiva degli annotatori

Configurazione Sperimentale

Fasi di Raccolta Dati

La ricerca è suddivisa in tre fasi, per una durata di circa un anno (maggio 2024 - maggio 2025):

Fase Pilota: esperimento su piccola scala, calibrazione del compito e delle istruzioni
Fase di Creazione: creazione di dialoghi su larga scala, miglioramenti basati sul feedback pilota
Fase di Revisione: revisione della qualità e miglioramenti

Scala dei Dati

Annotatori Interni: circa 1.500 dialoghi
Annotatori Esterni: circa 5.000 dialoghi
Sottoinsieme di Analisi: 86 fase pilota, 618 fase di creazione, 424 fase di revisione

Risultati Sperimentali

Scoperte Principali

Differenze nella Qualità dei Dati

Metrica	Annotatori Interni	Annotatori Esterni
Numero Medio di Turni	7,6	4,2
Numero Medio di Modifiche	7,0	3,0
Numero Medio di Query	12,7	6,2
Numero Medio di Passaggi Unici	17,1	7,3
Tasso di Accettazione	87%	69%

Investimento di Tempo e Sforzo

Tempo di Creazione: annotatori interni 60-75 minuti/dialogo, annotatori esterni 30-45 minuti/dialogo
Volume di Lettura Passaggi: gli annotatori interni leggono in media più passaggi (6-12 per turno)
Comprensione del Compito: il 100% degli annotatori interni riporta l'ordine operativo corretto, gli annotatori esterni presentano errori di comprensione

Differenze nella Percezione delle Funzionalità dello Strumento

Differenze significative nella percezione dell'importanza delle funzionalità dello strumento tra annotatori interni ed esterni:

Funzione di Suggerimento: differenza massima (μ differenza=1,41), gli annotatori interni la ritengono più importante
Strumento di Riesecuzione Query: gli annotatori interni lo valutano più favorevolmente (μ differenza=0,78)
Funzione di Marcatura Passaggi: gli annotatori interni la ritengono più importante (μ differenza=0,78)
Modifica di Risposte: valutazione simile tra i due gruppi (μ differenza=0,04)

Confronto con Dati Sintetici

I dialoghi sintetici generati da LLM sono inferiori ai dialoghi creati manualmente sia in diversità che in complessità:

Tasso di Accettazione: 72% (intermedio tra i due gruppi di annotatori umani)
Diversità dei passaggi chiaramente insufficiente
Mancanza del processo di modifica umana e riesecuzione di query

Lavori Correlati

Ricerca su Sistemi RAG

Dataset di Benchmark: RAD-Bench, RAGBench, RGB, MTRAG e altri
Metodi di Generazione Dati: compromesso qualitativo tra generazione sintetica e annotazione umana
Requisiti di Complessità: carico cognitivo e requisiti di qualità dei dialoghi multiturn

Gestione della Qualità dell'Annotazione dei Dati

Tipi di Annotatori: differenze di qualità tra esperti e lavoratori crowdsourced
Complessità del Compito: diverse strategie di gestione per microtask versus macrotask
Assicurazione della Qualità: strategie di filtraggio, processi multistadio, revisione da esperti

Impatto della Struttura di Comunicazione

Meccanismi di Feedback: impatto della comunicazione diretta versus indiretta sulla qualità del lavoro
Strumenti di Collaborazione: progettazione di interfacce per supportare compiti di annotazione complessi
Materiali di Formazione: strategie di formazione sotto diverse strutture di comunicazione

Conclusioni e Discussione

Conclusioni Principali

Impatto Significativo dei Cicli di Feedback: i cicli di feedback diretti migliorano significativamente la qualità dei dati, ma riducono la produzione quantitativa
Vantaggi Complementari: gli annotatori interni eccellono in qualità, gli annotatori esterni in quantità e diversità
Importanza della Progettazione dello Strumento: suggerimenti e feedback automatizzati possono compensare parzialmente i limiti di comunicazione
Efficacia della Strategia Multistadio: il flusso di lavoro in due fasi (creazione-revisione) equilibra efficacemente qualità ed efficienza

Raccomandazioni Pratiche

Strategie di Assegnazione dei Compiti

Utilizzo di Annotatori Interni per perfezionare rapidamente i materiali di guida
Assegnazione ad Annotatori Esterni di sottocompiti mirati e a complessità inferiore
Flusso di Lavoro in Due Fasi: creazione esterna + revisione interna

Principi di Progettazione dello Strumento

Suggerimenti Automatizzati: compensare l'assenza di feedback diretto
Commenti Granulari: supportare raccomandazioni di miglioramento specifiche
Controlli di Qualità: validazione automatica prima dell'esportazione

Ottimizzazione dei Materiali di Formazione

Utilizzo di Feedback Diretto per migliorare i contenuti di formazione
Tutorial Video: adattarsi alle esigenze di comunicazione indiretta
Miglioramento Iterativo: aggiornamento dei materiali basato su domande comuni

Limitazioni

Dimensione del Campione: numero ridotto di annotatori interni, analisi statistica limitata
Meccanismi di Incentivazione: diverse modalità di compenso possono influenzare la qualità del lavoro
Specificità del Dominio: le conclusioni potrebbero non applicarsi a tutti i compiti di annotazione complessi
Fattore Temporale: l'impatto della curva di apprendimento e dell'accumulo di esperienza non è stato sufficientemente considerato

Direzioni Future

Ampliamento della Scala di Ricerca: più annotatori e tipi di compiti
Ricerca su Meccanismi di Incentivazione: impatto specifico delle modalità di compenso sulla qualità
Assistenza Automatizzata: valutazione dell'efficacia dell'annotazione assistita da IA
Validazione Transdisciplinare: verifica delle scoperte in altri compiti complessi

Valutazione Approfondita

Punti di Forza

Valore Pratico Elevato: risolve questioni critiche di progetti di annotazione nel mondo reale
Metodologia Rigorosa: progettazione di ricerca longitudinale, valutazione multidimensionale
Scoperte Significative: rivela l'impatto importante dei cicli di feedback su compiti complessi
Forte Orientamento Pratico: fornisce raccomandazioni concrete e attuabili

Insufficienze

Controllo Variabile Insufficiente: impossibile separare completamente l'impatto dei cicli di feedback da altri fattori
Limitazioni di Generalizzabilità: la ricerca è concentrata su compiti RAG, l'applicabilità ad altri domini è sconosciuta
Analisi Quantitativa Limitata: piccolo campione di annotatori interni, capacità di test statistico limitata
Effetti a Lungo Termine Sconosciuti: mancanza di osservazioni su archi temporali più lunghi

Impatto

Contributo Accademico: fornisce nuove prospettive all'intersezione di HCI e NLP
Guida Pratica: fornisce un framework di riferimento per progetti di annotazione a livello aziendale
Innovazione Metodologica: dimostra un approccio sistematico alla ricerca su annotazione di compiti complessi
Valore dello Strumento: lo strumento RAGAPHENE ha potenziale di applicazione e diffusione

Scenari Applicabili

Progetti di Annotazione a Livello Aziendale: creazione di dati su larga scala che richiedono equilibrio tra qualità ed efficienza
Compiti NLP Complessi: lavoro di annotazione che richiede più passaggi e carico cognitivo elevato
Team di Annotazione Ibridi: progetti che utilizzano contemporaneamente risorse di annotazione interne ed esterne
Applicazioni Sensibili alla Qualità: sviluppo di sistemi AI con requisiti estremamente elevati di qualità dei dati

Bibliografia

L'articolo cita 82 lavori correlati, coprendo molteplici domini inclusi sistemi RAG, qualità dell'annotazione dei dati, progettazione di strumenti e strutture di comunicazione, fornendo una base teorica solida per la ricerca.

Sintesi: Questo è uno studio HCI di importante valore pratico che, attraverso una progettazione di ricerca longitudinale rigorosa, rivela l'impatto significativo della struttura dei cicli di feedback sulla qualità dei compiti di annotazione complessi, fornendo intuizioni e orientamenti preziosi sia per il mondo accademico che per l'industria.