2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.

Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.

academic

複雑なRAGタスクにおける異なる注釈者フィードバックループの縦断的研究

基本情報

論文ID: 2510.11897
タイトル: A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
著者: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
分類: cs.HC (ヒューマン・コンピュータ・インタラクション)
発表時期: 2025年10月 (ACMへ投稿)
論文リンク: https://arxiv.org/abs/2510.11897

要旨

本論文は、複雑な検索拡張生成(RAG)タスクにおいて、異なる人間による注釈者フィードバックループがデータ品質に及ぼす影響を調査している。著者は、内部および外部の2つの注釈者グループに対して約1年間の縦断的研究を実施し、複数ラウンドのRAG対話作成における性能差を分析した。研究により、より密接なフィードバックループはより高品質な対話を生成するが、数量と多様性が低下することが判明した。論文は、異なる注釈者グループを最適に活用する方法に関する指導的提言を提供している。

研究背景と動機

問題定義

中核的問題: 複雑な複数ラウンドのRAG対話作成タスクにおいて、異なる注釈者フィードバックループ構造がデータ品質にどのように影響するか
重要性: RAGシステムは複雑な問題への対処能力を評価するための高品質なベンチマークデータを必要とし、幻覚と誤情報を回避する必要がある
既存の制限:
- 対話型RAGデータの手動作成は認知的に極めて要求が高い
- 既存研究の多くは直接的なコミュニケーションフィードバックループを仮定し、現実の間接的なコミュニケーションシナリオを無視している
- 複雑なタスクにおける異なる注釈者グループの性能差に関する体系的研究が不足している

研究動機

現実世界の制約下でのデータ注釈品質管理戦略を探索する
フィードバックループ構造が複雑な注釈タスクに及ぼす影響を理解する
エンタープライズレベルの注釈プロジェクトに実用的なガイダンスを提供する

中核的貢献

初めての体系的研究として、複雑なRAG注釈タスクにおけるデータ品質に対する異なるコミュニケーションフィードバックループの影響を調査
重要な洞察を発見: 密接なフィードバックループを持つ注釈者はより高品質なデータを作成するが、緩いフィードバックループを持つ注釈者は数量と多様性の面で優位性を持つ
実用的な戦略を提供: 現実的な制約下でのデータ作成プロセスに対して、具体的な品質管理提言を提示
評価フレームワークを構築: 自動化指標とユーザー調査を通じて、注釈者体験とデータ品質を包括的に評価

方法論の詳細

タスク定義

複数ラウンドのRAG対話作成は以下の中核的ステップを含む:

質問の作成: 注釈者がコーパスに関連する質問を提示
関連段落の検索: システムが関連ドキュメント段落を自動検索
段落の審査と注釈: 注釈者が段落の関連性を評価し、必要に応じて再クエリ
AI回答の編集: 生成器の出力を修正して正確性と完全性を確保
ラベルの追加: 各ラウンドの対話にメタデータラベルを付与

実験設計

注釈者グループ

内部注釈者(7名): 研究チームと同じ組織に属し、直接的なコミュニケーションフィードバックループを持ち、時給制
外部注釈者(40名): 外部注釈サービスを通じて採用され、間接的なコミュニケーションフィードバックループを持ち、受け入れられた対話ごとに報酬

コミュニケーション構造の差異

側面	内部注釈者	外部注釈者
コミュニケーション方式	直接的(メール、Slack、ビデオ会議)	間接的(仲介者経由)
フィードバック頻度	リアルタイム、個別化	バッチ処理、遅延
訓練教材	スライド+直接指導	包括的なビデオチュートリアル
報酬方式	時給制	受け入れられた対話数に基づく