2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.
Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
academic

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

基本信息

  • 论文ID: 2510.11897
  • 标题: A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
  • 作者: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
  • 分类: cs.HC (Human-Computer Interaction)
  • 发表时间: 2025年10月 (提交至ACM)
  • 论文链接: https://arxiv.org/abs/2510.11897

摘要

本文研究了在复杂的检索增强生成(RAG)任务中,不同人工标注员反馈循环对数据质量的影响。作者对内部和外部两组标注员进行了为期约一年的纵向研究,分析他们创建多轮RAG对话的表现差异。研究发现,更紧密的反馈循环能产生更高质量的对话,但会降低数量和多样性。论文为如何最佳利用不同标注员群体提供了指导建议。

研究背景与动机

问题定义

  1. 核心问题: 在复杂的多轮RAG对话创建任务中,不同的标注员反馈循环结构如何影响数据质量?
  2. 重要性: RAG系统需要高质量的基准数据来评估其处理复杂问题的能力,避免幻觉和错误信息
  3. 现有局限性:
    • 手动创建对话式RAG数据在认知上要求极高
    • 现有研究多假设直接沟通反馈循环,忽略了现实中的间接沟通场景
    • 缺乏对不同标注员群体在复杂任务中表现差异的系统性研究

研究动机

  • 探索现实世界约束下的数据标注质量管理策略
  • 理解反馈循环结构对复杂标注任务的影响
  • 为企业级标注项目提供实用指导

核心贡献

  1. 首次系统研究了不同沟通反馈循环对复杂RAG标注任务数据质量的影响
  2. 发现关键洞察:紧密反馈循环的标注员创建更高质量数据,但松散反馈循环的标注员在数量和多样性方面有优势
  3. 提供实用策略:针对现实约束下的数据创建过程,提出了具体的质量管理建议
  4. 构建评估框架:通过自动化指标和用户调研,全面评估标注员体验和数据质量

方法详解

任务定义

多轮RAG对话创建包含以下核心步骤:

  1. 创建问题:标注员提出与语料库相关的问题
  2. 检索相关段落:系统自动检索相关文档段落
  3. 审查和标注段落:标注员评估段落相关性,必要时重新查询
  4. 编辑AI回答:修改生成器输出以确保准确性和完整性
  5. 添加标签:为每轮对话添加元数据标签

实验设计

标注员群体

  • 内部标注员(7人):与研究团队同组织,直接沟通反馈循环,按小时付费
  • 外部标注员(40人):通过外部标注服务招募,间接沟通反馈循环,按对话付费

沟通结构差异

维度内部标注员外部标注员
沟通方式直接(邮件、Slack、视频会议)间接(通过中介)
反馈频率实时、个性化批量、延迟
培训材料幻灯片+直接指导综合视频教程
付费方式按小时按接受的对话数

技术工具:RAGAPHENE

使用专门设计的标注工具RAGAPHENE,具备以下功能:

  • 实时检索和生成
  • 段落相关性标注
  • 回答编辑和差异可视化
  • 重新查询工具
  • 质量提示和检查清单

评价指标

对话质量指标

  1. 平均轮数:对话长度,后续轮次通常更具挑战性
  2. 平均编辑数:被标注员修改的轮次数,反映复杂性
  3. 平均查询数:包括初始问题和重新查询次数
  4. 平均唯一段落数:衡量段落多样性

质量评估方法

  • 接受/拒绝率:通过人工审核确定对话质量
  • 自动化评论:系统生成质量反馈
  • 用户调研:收集标注员主观体验

实验设置

数据收集阶段

研究分为三个阶段,历时约一年(2024年5月-2025年5月):

  1. 试点阶段:小规模实验,校准任务和指令
  2. 创建阶段:大规模对话创建,根据试点反馈改进
  3. 审核阶段:质量审核和改进

数据规模

  • 内部标注员:约1,500个对话
  • 外部标注员:约5,000个对话
  • 分析子集:试点阶段86个,创建阶段618个,审核阶段424个

实验结果

主要发现

数据质量差异

指标内部标注员外部标注员
平均轮数7.64.2
平均编辑数7.03.0
平均查询数12.76.2
平均唯一段落数17.17.3
接受率87%69%

时间和努力投入

  • 创建时间:内部标注员60-75分钟/对话,外部标注员30-45分钟/对话
  • 段落阅读量:内部标注员平均读取更多段落(6-12个/轮)
  • 任务理解:内部标注员100%报告正确的操作顺序,外部标注员中有错误理解

工具功能感知差异

内部和外部标注员对工具功能重要性的感知存在显著差异:

  • 提示功能:差异最大(μ差异=1.41),内部标注员认为更重要
  • 重新查询工具:内部标注员评价更高(μ差异=0.78)
  • 段落标记功能:内部标注员更重视(μ差异=0.78)
  • 回答编辑:两组评价相近(μ差异=0.04)

合成数据对比

使用LLM生成的合成对话在多样性和复杂性方面均低于人工创建的对话:

  • 接受率:72%(介于两组人工标注员之间)
  • 段落多样性明显不足
  • 缺乏人工编辑和重新查询过程

相关工作

RAG系统研究

  • 基准数据集:RAD-Bench、RAGBench、RGB、MTRAG等
  • 数据生成方法:合成生成vs人工标注的质量权衡
  • 复杂性需求:多轮对话的认知负担和质量要求

数据标注质量管理

  • 标注员类型:专家vs众包工作者的质量差异
  • 任务复杂性:微任务vs宏任务的不同管理策略
  • 质量保证:过滤策略、多阶段流程、专家审核

沟通结构影响

  • 反馈机制:直接vs间接沟通对工作质量的影响
  • 协作工具:支持复杂标注任务的界面设计
  • 培训材料:不同沟通结构下的培训策略

结论与讨论

主要结论

  1. 反馈循环影响显著:直接反馈循环显著提升数据质量,但降低产出数量
  2. 优势互补:内部标注员擅长质量,外部标注员擅长数量和多样性
  3. 工具设计重要:提示和自动化反馈可部分弥补沟通限制
  4. 分阶段策略有效:创建-审核两阶段流程能平衡质量和效率

实用建议

任务分配策略

  1. 利用内部标注员快速完善指导材料
  2. 给外部标注员分配针对性的、复杂度较低的子任务
  3. 两阶段流程:外部创建+内部审核

工具设计原则

  1. 自动化提示:弥补直接反馈的缺失
  2. 细粒度评论:支持具体的改进建议
  3. 质量检查:导出前的自动验证

培训材料优化

  1. 利用直接反馈改进培训内容
  2. 视频教程:适应间接沟通需求
  3. 迭代改进:基于常见问题更新材料

局限性

  1. 样本规模:内部标注员数量较少,统计分析受限
  2. 激励机制:不同付费方式可能影响工作质量
  3. 领域特异性:结论可能不适用于所有复杂标注任务
  4. 时间因素:学习曲线和经验积累的影响未充分考虑

未来方向

  1. 扩大研究规模:更多标注员和任务类型
  2. 激励机制研究:付费方式对质量的具体影响
  3. 自动化辅助:AI辅助标注的效果评估
  4. 跨领域验证:在其他复杂任务中验证发现

深度评价

优点

  1. 实用价值高:解决现实世界标注项目的关键问题
  2. 方法严谨:纵向研究设计,多维度评估
  3. 发现有意义:揭示反馈循环对复杂任务的重要影响
  4. 指导性强:提供具体可操作的建议

不足

  1. 控制变量不足:无法完全分离反馈循环和其他因素的影响
  2. 泛化性限制:研究集中在RAG任务,其他领域适用性未知
  3. 定量分析受限:内部标注员样本小,统计检验能力有限
  4. 长期效应未知:缺乏更长时间跨度的观察

影响力

  1. 学术贡献:为HCI和NLP交叉领域提供新视角
  2. 实践指导:为企业级标注项目提供参考框架
  3. 方法创新:展示复杂任务标注的系统性研究方法
  4. 工具价值:RAGAPHENE工具具有推广应用潜力

适用场景

  1. 企业级标注项目:需要平衡质量和效率的大规模数据创建
  2. 复杂NLP任务:需要多步骤、高认知负担的标注工作
  3. 混合标注团队:同时使用内部和外部标注资源的项目
  4. 质量敏感应用:对数据质量要求极高的AI系统开发

参考文献

论文引用了82篇相关文献,涵盖RAG系统、数据标注质量、工具设计和沟通结构等多个领域的重要工作,为研究提供了坚实的理论基础。


总结:这是一项具有重要实用价值的HCI研究,通过严谨的纵向研究设计,揭示了反馈循环结构对复杂标注任务质量的显著影响,为学术界和工业界提供了有价值的洞察和指导。