2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.

Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.

academic

복잡한 RAG 작업에서 서로 다른 주석자 피드백 루프에 관한 종단 연구

기본 정보

논문 ID: 2510.11897
제목: A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks
저자: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
분류: cs.HC (인간-컴퓨터 상호작용)
발표 시간: 2025년 10월 (ACM 제출)
논문 링크: https://arxiv.org/abs/2510.11897

초록

본 논문은 복잡한 검색 증강 생성(RAG) 작업에서 서로 다른 인간 주석자 피드백 루프가 데이터 품질에 미치는 영향을 조사합니다. 저자들은 약 1년간 내부 및 외부 두 그룹의 주석자에 대한 종단 연구를 수행하여 다중 턴 RAG 대화 생성의 성능 차이를 분석했습니다. 연구 결과, 더 긴밀한 피드백 루프가 더 높은 품질의 대화를 생성하지만 수량과 다양성이 감소함을 발견했습니다. 본 논문은 서로 다른 주석자 그룹을 최적으로 활용하는 방법에 대한 지침을 제공합니다.

연구 배경 및 동기

문제 정의

핵심 문제: 복잡한 다중 턴 RAG 대화 생성 작업에서 서로 다른 주석자 피드백 루프 구조가 데이터 품질에 어떻게 영향을 미치는가?
중요성: RAG 시스템은 복잡한 질문 처리 능력을 평가하고 환각 및 오류 정보를 방지하기 위해 고품질의 벤치마크 데이터가 필요합니다
기존 한계:
- 대화형 RAG 데이터의 수동 생성은 인지적으로 매우 요구도가 높습니다
- 기존 연구는 대부분 직접 소통 피드백 루프를 가정하며, 현실의 간접 소통 시나리오를 간과합니다
- 복잡한 작업에서 서로 다른 주석자 그룹의 성능 차이에 대한 체계적 연구가 부족합니다

연구 동기

현실 세계의 제약 조건 하에서 데이터 주석 품질 관리 전략 탐색
피드백 루프 구조가 복잡한 주석 작업에 미치는 영향 이해
엔터프라이즈급 주석 프로젝트에 대한 실용적 지침 제공

핵심 기여

최초 체계적 연구: 서로 다른 소통 피드백 루프가 복잡한 RAG 주석 작업의 데이터 품질에 미치는 영향
주요 통찰력 발견: 긴밀한 피드백 루프의 주석자는 더 높은 품질의 데이터를 생성하지만, 느슨한 피드백 루프의 주석자는 수량과 다양성 측면에서 우위를 가집니다
실용적 전략 제공: 현실 제약 조건 하에서의 데이터 생성 프로세스에 대한 구체적인 품질 관리 권장사항 제시
평가 프레임워크 구축: 자동화 지표 및 사용자 조사를 통한 주석자 경험 및 데이터 품질의 포괄적 평가

방법론 상세 설명

작업 정의

다중 턴 RAG 대화 생성은 다음의 핵심 단계를 포함합니다:

질문 생성: 주석자가 말뭉치와 관련된 질문을 제시합니다
관련 단락 검색: 시스템이 자동으로 관련 문서 단락을 검색합니다
단락 검토 및 주석: 주석자가 단락의 관련성을 평가하고 필요시 재검색합니다
AI 답변 편집: 생성기 출력을 수정하여 정확성과 완전성을 보장합니다
레이블 추가: 각 턴의 대화에 메타데이터 레이블을 추가합니다

실험 설계

주석자 그룹

내부 주석자(7명): 연구팀과 같은 조직에 속하며, 직접 소통 피드백 루프를 가지고 시간급으로 급여를 받습니다
외부 주석자(40명): 외부 주석 서비스를 통해 모집되며, 간접 소통 피드백 루프를 가지고 승인된 대화당 급여를 받습니다

소통 구조 차이

차원	내부 주석자	외부 주석자
소통 방식	직접(이메일, Slack, 화상 회의)	간접(중개자를 통함)
피드백 빈도	실시간, 개인화	일괄, 지연
교육 자료	슬라이드 + 직접 지도	종합 비디오 튜토리얼
급여 방식	시간급	승인된 대화당