2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.
Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
academic

Uno Studio Longitudinale su Diversi Cicli di Feedback degli Annotatori in Compiti RAG Complessi

Informazioni Fondamentali

  • ID Articolo: 2510.11897
  • Titolo: A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
  • Autori: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
  • Classificazione: cs.HC (Interazione Uomo-Computer)
  • Data di Pubblicazione: Ottobre 2025 (Sottomesso ad ACM)
  • Link Articolo: https://arxiv.org/abs/2510.11897

Riassunto

Questo articolo indaga l'impatto di diversi cicli di feedback degli annotatori umani sulla qualità dei dati in compiti complessi di generazione aumentata da recupero (RAG). Gli autori hanno condotto uno studio longitudinale di circa un anno su due gruppi di annotatori, interni ed esterni, analizzando le differenze di prestazione nella creazione di dialoghi RAG multiturn. Lo studio rivela che cicli di feedback più stretti producono dialoghi di qualità superiore, ma riducono la quantità e la diversità. L'articolo fornisce raccomandazioni orientative su come utilizzare al meglio diversi gruppi di annotatori.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Come diverse strutture di cicli di feedback degli annotatori influenzano la qualità dei dati nella creazione complessa di dialoghi RAG multiturn?
  2. Importanza: I sistemi RAG richiedono dati di benchmark di alta qualità per valutare la loro capacità di gestire problemi complessi, evitando allucinazioni e disinformazione
  3. Limitazioni Esistenti:
    • La creazione manuale di dati dialogici RAG presenta requisiti cognitivi estremamente elevati
    • La ricerca esistente presuppone principalmente cicli di feedback con comunicazione diretta, trascurando scenari di comunicazione indiretta nella realtà
    • Mancanza di ricerca sistematica sulle differenze di prestazione tra diversi gruppi di annotatori in compiti complessi

Motivazione della Ricerca

  • Esplorare strategie di gestione della qualità dell'annotazione dei dati sotto vincoli del mondo reale
  • Comprendere l'impatto della struttura dei cicli di feedback su compiti di annotazione complessi
  • Fornire orientamenti pratici per progetti di annotazione a livello aziendale

Contributi Principali

  1. Primo studio sistematico dell'impatto di diversi cicli di comunicazione di feedback sulla qualità dei dati in compiti complessi di annotazione RAG
  2. Scoperta di intuizioni chiave: gli annotatori con cicli di feedback stretti creano dati di qualità superiore, mentre gli annotatori con cicli di feedback lenti hanno vantaggi in quantità e diversità
  3. Fornitura di strategie pratiche: proposte di raccomandazioni concrete per la gestione della qualità nel processo di creazione dei dati sotto vincoli reali
  4. Costruzione di un framework di valutazione: valutazione completa dell'esperienza degli annotatori e della qualità dei dati attraverso metriche automatizzate e ricerca utente

Dettagli Metodologici

Definizione del Compito

La creazione di dialoghi RAG multiturn comprende i seguenti passaggi fondamentali:

  1. Creazione di Domande: gli annotatori pongono domande rilevanti per il corpus
  2. Recupero di Passaggi Rilevanti: il sistema recupera automaticamente passaggi di documenti rilevanti
  3. Revisione e Annotazione di Passaggi: gli annotatori valutano la rilevanza dei passaggi, rieseguendo query se necessario
  4. Modifica di Risposte AI: modifica dell'output del generatore per garantire accuratezza e completezza
  5. Aggiunta di Etichette: aggiunta di metadati per ogni turno di dialogo

Progettazione Sperimentale

Gruppi di Annotatori

  • Annotatori Interni (7 persone): dello stesso gruppo del team di ricerca, cicli di feedback con comunicazione diretta, compensati orariamente
  • Annotatori Esterni (40 persone): reclutati tramite servizio di annotazione esterno, cicli di feedback con comunicazione indiretta, compensati per dialogo accettato

Differenze nella Struttura di Comunicazione

DimensioneAnnotatori InterniAnnotatori Esterni
Modalità di ComunicazioneDiretta (email, Slack, videoconferenza)Indiretta (tramite intermediario)
Frequenza di FeedbackTempo reale, personalizzatoIn batch, ritardato
Materiali di FormazioneDiapositive + guida direttaTutorial video completo
Modalità di CompensoOrariaPer dialogo accettato

Strumento Tecnico: RAGAPHENE

Utilizzo di uno strumento di annotazione appositamente progettato, RAGAPHENE, con le seguenti funzionalità:

  • Recupero e generazione in tempo reale
  • Annotazione della rilevanza dei passaggi
  • Modifica di risposte e visualizzazione delle differenze
  • Strumento di riesecuzione query
  • Suggerimenti di qualità e liste di controllo

Metriche di Valutazione

  1. Numero Medio di Turni: lunghezza del dialogo, i turni successivi sono tipicamente più impegnativi
  2. Numero Medio di Modifiche: numero di turni modificati dagli annotatori, riflette la complessità
  3. Numero Medio di Query: include domande iniziali e riesecuzioni di query
  4. Numero Medio di Passaggi Unici: misura la diversità dei passaggi

Metodi di Valutazione della Qualità

  • Tasso di Accettazione/Rifiuto: qualità del dialogo determinata tramite revisione manuale
  • Commenti Automatizzati: feedback di qualità generato dal sistema
  • Ricerca Utente: raccolta dell'esperienza soggettiva degli annotatori

Configurazione Sperimentale

Fasi di Raccolta Dati

La ricerca è suddivisa in tre fasi, per una durata di circa un anno (maggio 2024 - maggio 2025):

  1. Fase Pilota: esperimento su piccola scala, calibrazione del compito e delle istruzioni
  2. Fase di Creazione: creazione di dialoghi su larga scala, miglioramenti basati sul feedback pilota
  3. Fase di Revisione: revisione della qualità e miglioramenti

Scala dei Dati

  • Annotatori Interni: circa 1.500 dialoghi
  • Annotatori Esterni: circa 5.000 dialoghi
  • Sottoinsieme di Analisi: 86 fase pilota, 618 fase di creazione, 424 fase di revisione

Risultati Sperimentali

Scoperte Principali

Differenze nella Qualità dei Dati

MetricaAnnotatori InterniAnnotatori Esterni
Numero Medio di Turni7,64,2
Numero Medio di Modifiche7,03,0
Numero Medio di Query12,76,2
Numero Medio di Passaggi Unici17,17,3
Tasso di Accettazione87%69%

Investimento di Tempo e Sforzo

  • Tempo di Creazione: annotatori interni 60-75 minuti/dialogo, annotatori esterni 30-45 minuti/dialogo
  • Volume di Lettura Passaggi: gli annotatori interni leggono in media più passaggi (6-12 per turno)
  • Comprensione del Compito: il 100% degli annotatori interni riporta l'ordine operativo corretto, gli annotatori esterni presentano errori di comprensione

Differenze nella Percezione delle Funzionalità dello Strumento

Differenze significative nella percezione dell'importanza delle funzionalità dello strumento tra annotatori interni ed esterni:

  • Funzione di Suggerimento: differenza massima (μ differenza=1,41), gli annotatori interni la ritengono più importante
  • Strumento di Riesecuzione Query: gli annotatori interni lo valutano più favorevolmente (μ differenza=0,78)
  • Funzione di Marcatura Passaggi: gli annotatori interni la ritengono più importante (μ differenza=0,78)
  • Modifica di Risposte: valutazione simile tra i due gruppi (μ differenza=0,04)

Confronto con Dati Sintetici

I dialoghi sintetici generati da LLM sono inferiori ai dialoghi creati manualmente sia in diversità che in complessità:

  • Tasso di Accettazione: 72% (intermedio tra i due gruppi di annotatori umani)
  • Diversità dei passaggi chiaramente insufficiente
  • Mancanza del processo di modifica umana e riesecuzione di query

Lavori Correlati

Ricerca su Sistemi RAG

  • Dataset di Benchmark: RAD-Bench, RAGBench, RGB, MTRAG e altri
  • Metodi di Generazione Dati: compromesso qualitativo tra generazione sintetica e annotazione umana
  • Requisiti di Complessità: carico cognitivo e requisiti di qualità dei dialoghi multiturn

Gestione della Qualità dell'Annotazione dei Dati

  • Tipi di Annotatori: differenze di qualità tra esperti e lavoratori crowdsourced
  • Complessità del Compito: diverse strategie di gestione per microtask versus macrotask
  • Assicurazione della Qualità: strategie di filtraggio, processi multistadio, revisione da esperti

Impatto della Struttura di Comunicazione

  • Meccanismi di Feedback: impatto della comunicazione diretta versus indiretta sulla qualità del lavoro
  • Strumenti di Collaborazione: progettazione di interfacce per supportare compiti di annotazione complessi
  • Materiali di Formazione: strategie di formazione sotto diverse strutture di comunicazione

Conclusioni e Discussione

Conclusioni Principali

  1. Impatto Significativo dei Cicli di Feedback: i cicli di feedback diretti migliorano significativamente la qualità dei dati, ma riducono la produzione quantitativa
  2. Vantaggi Complementari: gli annotatori interni eccellono in qualità, gli annotatori esterni in quantità e diversità
  3. Importanza della Progettazione dello Strumento: suggerimenti e feedback automatizzati possono compensare parzialmente i limiti di comunicazione
  4. Efficacia della Strategia Multistadio: il flusso di lavoro in due fasi (creazione-revisione) equilibra efficacemente qualità ed efficienza

Raccomandazioni Pratiche

Strategie di Assegnazione dei Compiti

  1. Utilizzo di Annotatori Interni per perfezionare rapidamente i materiali di guida
  2. Assegnazione ad Annotatori Esterni di sottocompiti mirati e a complessità inferiore
  3. Flusso di Lavoro in Due Fasi: creazione esterna + revisione interna

Principi di Progettazione dello Strumento

  1. Suggerimenti Automatizzati: compensare l'assenza di feedback diretto
  2. Commenti Granulari: supportare raccomandazioni di miglioramento specifiche
  3. Controlli di Qualità: validazione automatica prima dell'esportazione

Ottimizzazione dei Materiali di Formazione

  1. Utilizzo di Feedback Diretto per migliorare i contenuti di formazione
  2. Tutorial Video: adattarsi alle esigenze di comunicazione indiretta
  3. Miglioramento Iterativo: aggiornamento dei materiali basato su domande comuni

Limitazioni

  1. Dimensione del Campione: numero ridotto di annotatori interni, analisi statistica limitata
  2. Meccanismi di Incentivazione: diverse modalità di compenso possono influenzare la qualità del lavoro
  3. Specificità del Dominio: le conclusioni potrebbero non applicarsi a tutti i compiti di annotazione complessi
  4. Fattore Temporale: l'impatto della curva di apprendimento e dell'accumulo di esperienza non è stato sufficientemente considerato

Direzioni Future

  1. Ampliamento della Scala di Ricerca: più annotatori e tipi di compiti
  2. Ricerca su Meccanismi di Incentivazione: impatto specifico delle modalità di compenso sulla qualità
  3. Assistenza Automatizzata: valutazione dell'efficacia dell'annotazione assistita da IA
  4. Validazione Transdisciplinare: verifica delle scoperte in altri compiti complessi

Valutazione Approfondita

Punti di Forza

  1. Valore Pratico Elevato: risolve questioni critiche di progetti di annotazione nel mondo reale
  2. Metodologia Rigorosa: progettazione di ricerca longitudinale, valutazione multidimensionale
  3. Scoperte Significative: rivela l'impatto importante dei cicli di feedback su compiti complessi
  4. Forte Orientamento Pratico: fornisce raccomandazioni concrete e attuabili

Insufficienze

  1. Controllo Variabile Insufficiente: impossibile separare completamente l'impatto dei cicli di feedback da altri fattori
  2. Limitazioni di Generalizzabilità: la ricerca è concentrata su compiti RAG, l'applicabilità ad altri domini è sconosciuta
  3. Analisi Quantitativa Limitata: piccolo campione di annotatori interni, capacità di test statistico limitata
  4. Effetti a Lungo Termine Sconosciuti: mancanza di osservazioni su archi temporali più lunghi

Impatto

  1. Contributo Accademico: fornisce nuove prospettive all'intersezione di HCI e NLP
  2. Guida Pratica: fornisce un framework di riferimento per progetti di annotazione a livello aziendale
  3. Innovazione Metodologica: dimostra un approccio sistematico alla ricerca su annotazione di compiti complessi
  4. Valore dello Strumento: lo strumento RAGAPHENE ha potenziale di applicazione e diffusione

Scenari Applicabili

  1. Progetti di Annotazione a Livello Aziendale: creazione di dati su larga scala che richiedono equilibrio tra qualità ed efficienza
  2. Compiti NLP Complessi: lavoro di annotazione che richiede più passaggi e carico cognitivo elevato
  3. Team di Annotazione Ibridi: progetti che utilizzano contemporaneamente risorse di annotazione interne ed esterne
  4. Applicazioni Sensibili alla Qualità: sviluppo di sistemi AI con requisiti estremamente elevati di qualità dei dati

Bibliografia

L'articolo cita 82 lavori correlati, coprendo molteplici domini inclusi sistemi RAG, qualità dell'annotazione dei dati, progettazione di strumenti e strutture di comunicazione, fornendo una base teorica solida per la ricerca.


Sintesi: Questo è uno studio HCI di importante valore pratico che, attraverso una progettazione di ricerca longitudinale rigorosa, rivela l'impatto significativo della struttura dei cicli di feedback sulla qualità dei compiti di annotazione complessi, fornendo intuizioni e orientamenti preziosi sia per il mondo accademico che per l'industria.