Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
- 論文ID: 2510.11897
- タイトル: A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
- 著者: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
- 分類: cs.HC (ヒューマン・コンピュータ・インタラクション)
- 発表時期: 2025年10月 (ACMへ投稿)
- 論文リンク: https://arxiv.org/abs/2510.11897
本論文は、複雑な検索拡張生成(RAG)タスクにおいて、異なる人間による注釈者フィードバックループがデータ品質に及ぼす影響を調査している。著者は、内部および外部の2つの注釈者グループに対して約1年間の縦断的研究を実施し、複数ラウンドのRAG対話作成における性能差を分析した。研究により、より密接なフィードバックループはより高品質な対話を生成するが、数量と多様性が低下することが判明した。論文は、異なる注釈者グループを最適に活用する方法に関する指導的提言を提供している。
- 中核的問題: 複雑な複数ラウンドのRAG対話作成タスクにおいて、異なる注釈者フィードバックループ構造がデータ品質にどのように影響するか
- 重要性: RAGシステムは複雑な問題への対処能力を評価するための高品質なベンチマークデータを必要とし、幻覚と誤情報を回避する必要がある
- 既存の制限:
- 対話型RAGデータの手動作成は認知的に極めて要求が高い
- 既存研究の多くは直接的なコミュニケーションフィードバックループを仮定し、現実の間接的なコミュニケーションシナリオを無視している
- 複雑なタスクにおける異なる注釈者グループの性能差に関する体系的研究が不足している
- 現実世界の制約下でのデータ注釈品質管理戦略を探索する
- フィードバックループ構造が複雑な注釈タスクに及ぼす影響を理解する
- エンタープライズレベルの注釈プロジェクトに実用的なガイダンスを提供する
- 初めての体系的研究として、複雑なRAG注釈タスクにおけるデータ品質に対する異なるコミュニケーションフィードバックループの影響を調査
- 重要な洞察を発見: 密接なフィードバックループを持つ注釈者はより高品質なデータを作成するが、緩いフィードバックループを持つ注釈者は数量と多様性の面で優位性を持つ
- 実用的な戦略を提供: 現実的な制約下でのデータ作成プロセスに対して、具体的な品質管理提言を提示
- 評価フレームワークを構築: 自動化指標とユーザー調査を通じて、注釈者体験とデータ品質を包括的に評価
複数ラウンドのRAG対話作成は以下の中核的ステップを含む:
- 質問の作成: 注釈者がコーパスに関連する質問を提示
- 関連段落の検索: システムが関連ドキュメント段落を自動検索
- 段落の審査と注釈: 注釈者が段落の関連性を評価し、必要に応じて再クエリ
- AI回答の編集: 生成器の出力を修正して正確性と完全性を確保
- ラベルの追加: 各ラウンドの対話にメタデータラベルを付与
- 内部注釈者(7名): 研究チームと同じ組織に属し、直接的なコミュニケーションフィードバックループを持ち、時給制
- 外部注釈者(40名): 外部注釈サービスを通じて採用され、間接的なコミュニケーションフィードバックループを持ち、受け入れられた対話ごとに報酬
| 側面 | 内部注釈者 | 外部注釈者 |
|---|
| コミュニケーション方式 | 直接的(メール、Slack、ビデオ会議) | 間接的(仲介者経由) |
| フィードバック頻度 | リアルタイム、個別化 | バッチ処理、遅延 |
| 訓練教材 | スライド+直接指導 | 包括的なビデオチュートリアル |
| 報酬方式 | 時給制 | 受け入れられた対話数に基づく |
以下の機能を備えた専門設計の注釈ツールRAGAPHENEを使用:
- リアルタイム検索と生成
- 段落関連性注釈
- 回答編集と差分可視化
- 再クエリツール
- 品質プロンプトとチェックリスト
- 平均ラウンド数: 対話の長さ。後続ラウンドは通常より挑戦的
- 平均編集数: 注釈者により修正されたラウンド数。複雑性を反映
- 平均クエリ数: 初期質問と再クエリを含む
- 平均ユニーク段落数: 段落の多様性を測定
- 受け入れ/拒否率: 人間による審査を通じて対話品質を判定
- 自動化コメント: システムが生成する品質フィードバック
- ユーザー調査: 注釈者の主観的体験を収集
研究は3つの段階に分かれ、約1年間(2024年5月~2025年5月)にわたる:
- パイロット段階: 小規模実験。タスクと指示を調整
- 作成段階: 大規模対話作成。パイロット段階のフィードバックに基づき改善
- 審査段階: 品質審査と改善
- 内部注釈者: 約1,500個の対話
- 外部注釈者: 約5,000個の対話
- 分析サブセット: パイロット段階86個、作成段階618個、審査段階424個
| 指標 | 内部注釈者 | 外部注釈者 |
|---|
| 平均ラウンド数 | 7.6 | 4.2 |
| 平均編集数 | 7.0 | 3.0 |
| 平均クエリ数 | 12.7 | 6.2 |
| 平均ユニーク段落数 | 17.1 | 7.3 |
| 受け入れ率 | 87% | 69% |
- 作成時間: 内部注釈者60~75分/対話、外部注釈者30~45分/対話
- 段落読取量: 内部注釈者がより多くの段落を読取(6~12個/ラウンド)
- タスク理解: 内部注釈者100%が正しい操作順序を報告。外部注釈者に誤解あり
内部および外部注釈者のツール機能重要性認識に顕著な差異:
- プロンプト機能: 最大の差異(μ差異=1.41)。内部注釈者がより重要と認識
- 再クエリツール: 内部注釈者がより高く評価(μ差異=0.78)
- 段落マーク機能: 内部注釈者がより重視(μ差異=0.78)
- 回答編集: 両グループの評価が近い(μ差異=0.04)
LLMで生成した合成対話は、多様性と複雑性の両面で人間が作成した対話に劣る:
- 受け入れ率: 72%(2つの人間注釈者グループの中間)
- 段落多様性が明らかに不足
- 人間による編集と再クエリプロセスの欠如
- ベンチマークデータセット: RAD-Bench、RAGBench、RGB、MTRAGなど
- データ生成方法: 合成生成対人間注釈の品質トレードオフ
- 複雑性要件: 複数ラウンド対話の認知負担と品質要件
- 注釈者タイプ: 専門家対クラウドソーシング労働者の品質差
- タスク複雑性: マイクロタスク対マクロタスクの異なる管理戦略
- 品質保証: フィルタリング戦略、複数段階プロセス、専門家審査
- フィードバック機構: 直接対間接コミュニケーションが作業品質に及ぼす影響
- 協調ツール: 複雑な注釈タスクをサポートするインターフェース設計
- 訓練教材: 異なるコミュニケーション構造下での訓練戦略
- フィードバックループの影響は顕著: 直接的なフィードバックループはデータ品質を大幅に向上させるが、産出数量を低下させる
- 相互補完的な優位性: 内部注釈者は品質に優れ、外部注釈者は数量と多様性に優れている
- ツール設計の重要性: プロンプトと自動化フィードバックはコミュニケーション制限を部分的に補完できる
- 段階的戦略の有効性: 作成-審査の2段階フローは品質と効率のバランスを取ることができる
- 内部注釈者を活用して指導材料を迅速に改善
- 外部注釈者に的を絞った、複雑度が低いサブタスクを割り当て
- 2段階フロー: 外部作成+内部審査
- 自動化プロンプト: 直接的なフィードバックの欠落を補完
- 細粒度コメント: 具体的な改善提案をサポート
- 品質チェック: エクスポート前の自動検証
- 直接的なフィードバックを活用して訓練コンテンツを改善
- ビデオチュートリアル: 間接的なコミュニケーション要件に対応
- 反復的改善: 一般的な質問に基づいて教材を更新
- サンプルサイズ: 内部注釈者数が少なく、統計分析が制限される
- インセンティブ機構: 異なる報酬方式が作業品質に影響する可能性
- 領域特異性: 結論がすべての複雑な注釈タスクに適用可能とは限らない
- 時間要因: 学習曲線と経験蓄積の影響が十分に考慮されていない
- 研究規模の拡大: より多くの注釈者とタスクタイプ
- インセンティブ機構研究: 報酬方式が品質に及ぼす具体的な影響
- 自動化支援: AI支援注釈の効果評価
- 領域横断的検証: 他の複雑なタスクにおける発見の検証
- 実用価値が高い: 現実世界の注釈プロジェクトの重要な問題を解決
- 方法論が厳密: 縦断的研究設計、多次元的評価
- 発見が有意義: フィードバックループが複雑なタスクに及ぼす重要な影響を明らかに
- 指導性が強い: 具体的で実行可能な提言を提供
- 制御変数が不十分: フィードバックループとその他の要因の影響を完全に分離できない
- 一般化可能性が限定的: 研究がRAGタスクに集中。他の領域への適用可能性が不明
- 定量分析が制限される: 内部注釈者サンプルが小さく、統計検定能力が限定的
- 長期効果が不明: より長い時間スパンでの観察が不足
- 学術的貢献: HCIとNLPの交差領域に新しい視点を提供
- 実践的ガイダンス: エンタープライズレベルの注釈プロジェクトに参考枠組みを提供
- 方法論の革新: 複雑なタスク注釈の体系的研究方法を実証
- ツール価値: RAGAPHENEツールは推進・応用の可能性を持つ
- エンタープライズレベルの注釈プロジェクト: 品質と効率のバランスが必要な大規模データ作成
- 複雑なNLPタスク: 複数ステップ、高い認知負担を要する注釈作業
- 混合注釈チーム: 内部および外部注釈リソースを同時に使用するプロジェクト
- 品質に敏感なアプリケーション: データ品質要件が極めて高いAIシステム開発
論文は82篇の関連文献を引用しており、RAGシステム、データ注釈品質、ツール設計、コミュニケーション構造など複数の領域における重要な研究をカバーしており、研究に堅実な理論的基礎を提供している。
要約: これは重要な実用価値を持つHCI研究であり、厳密な縦断的研究設計を通じて、フィードバックループ構造が複雑な注釈タスク品質に及ぼす顕著な影響を明らかにし、学術界と産業界に価値ある洞察と指導を提供している。