Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
- पेपर ID: 2510.11897
- शीर्षक: जटिल RAG कार्यों में विभिन्न एनोटेटर फीडबैक लूप पर एक अनुदैर्ध्य अध्ययन
- लेखक: Sara Rosenthal, Maeda Hanafi, Yannis Katsis, Lucian Popa, Marina Danilevsky (IBM)
- वर्गीकरण: cs.HC (मानव-कंप्यूटर इंटरैक्शन)
- प्रकाशन समय: अक्टूबर 2025 (ACM को प्रस्तुत)
- पेपर लिंक: https://arxiv.org/abs/2510.11897
यह पेपर जटिल पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) कार्यों में विभिन्न मानव एनोटेटर फीडबैक लूप के डेटा गुणवत्ता पर प्रभाव का अध्ययन करता है। लेखकों ने आंतरिक और बाहरी दोनों एनोटेटर समूहों पर लगभग एक वर्ष का अनुदैर्ध्य अध्ययन किया, बहु-मोड़ RAG संवाद बनाने में उनके प्रदर्शन के अंतर का विश्लेषण किया। अध्ययन से पता चलता है कि अधिक घनिष्ठ फीडबैक लूप उच्च गुणवत्ता वाले संवाद उत्पन्न करते हैं, लेकिन मात्रा और विविधता को कम करते हैं। पेपर विभिन्न एनोटेटर समूहों का सर्वोत्तम उपयोग कैसे करें इस पर मार्गदर्शन प्रदान करता है।
- मुख्य समस्या: जटिल बहु-मोड़ RAG संवाद निर्माण कार्यों में, विभिन्न एनोटेटर फीडबैक लूप संरचनाएं डेटा गुणवत्ता को कैसे प्रभावित करती हैं?
- महत्व: RAG सिस्टम को जटिल प्रश्नों को संभालने की क्षमता का मूल्यांकन करने के लिए उच्च गुणवत्ता के बेंचमार्क डेटा की आवश्यकता है, भ्रम और गलत जानकारी से बचने के लिए
- मौजूदा सीमाएं:
- संवादात्मक RAG डेटा का मैनुअल निर्माण संज्ञानात्मक रूप से अत्यधिक मांग वाला है
- मौजूदा अनुसंधान अक्सर प्रत्यक्ष संचार फीडबैक लूप मानता है, वास्तविक अप्रत्यक्ष संचार परिदृश्यों को नजरअंदाज करता है
- जटिल कार्यों में विभिन्न एनोटेटर समूहों के प्रदर्शन अंतर पर व्यवस्थित अनुसंधान की कमी है
- वास्तविक दुनिया की बाधाओं के तहत डेटा एनोटेशन गुणवत्ता प्रबंधन रणनीतियों की खोज
- जटिल एनोटेशन कार्यों पर फीडबैक लूप संरचना के प्रभाव को समझना
- एंटरप्राइज-स्तरीय एनोटेशन परियोजनाओं के लिए व्यावहारिक मार्गदर्शन प्रदान करना
- पहली बार व्यवस्थित अध्ययन किया गया कि विभिन्न संचार फीडबैक लूप जटिल RAG एनोटेशन कार्यों पर डेटा गुणवत्ता को कैसे प्रभावित करते हैं
- महत्वपूर्ण अंतर्दृष्टि की खोज: घनिष्ठ फीडबैक लूप वाले एनोटेटर उच्च गुणवत्ता वाला डेटा बनाते हैं, लेकिन ढीले फीडबैक लूप वाले एनोटेटर मात्रा और विविधता में लाभ प्रदान करते हैं
- व्यावहारिक रणनीतियां प्रदान करना: वास्तविक बाधाओं के तहत डेटा निर्माण प्रक्रिया के लिए विशिष्ट गुणवत्ता प्रबंधन सिफारिशें प्रस्तावित करना
- मूल्यांकन ढांचा बनाना: स्वचालित मेट्रिक्स और उपयोगकर्ता अनुसंधान के माध्यम से एनोटेटर अनुभव और डेटा गुणवत्ता का व्यापक मूल्यांकन
बहु-मोड़ RAG संवाद निर्माण में निम्नलिखित मुख्य चरण शामिल हैं:
- प्रश्न निर्माण: एनोटेटर कॉर्पस से संबंधित प्रश्न प्रस्तुत करते हैं
- प्रासंगिक पैराग्राफ पुनर्प्राप्ति: सिस्टम स्वचालित रूप से प्रासंगिक दस्तावेज़ पैराग्राफ पुनर्प्राप्त करता है
- पैराग्राफ की समीक्षा और एनोटेशन: एनोटेटर पैराग्राफ प्रासंगिकता का मूल्यांकन करते हैं, आवश्यकतानुसार पुनः क्वेरी करते हैं
- AI प्रतिक्रिया संपादन: सटीकता और पूर्णता सुनिश्चित करने के लिए जनरेटर आउटपुट को संशोधित करना
- लेबल जोड़ना: प्रत्येक संवाद मोड़ के लिए मेटाडेटा लेबल जोड़ना
- आंतरिक एनोटेटर (7 व्यक्ति): अनुसंधान दल के समान संगठन, प्रत्यक्ष संचार फीडबैक लूप, प्रति घंटा भुगतान
- बाहरी एनोटेटर (40 व्यक्ति): बाहरी एनोटेशन सेवा के माध्यम से भर्ती, अप्रत्यक्ष संचार फीडबैक लूप, स्वीकृत संवाद के अनुसार भुगतान
| आयाम | आंतरिक एनोटेटर | बाहरी एनोटेटर |
|---|
| संचार विधि | प्रत्यक्ष (ईमेल, Slack, वीडियो कॉन्फ्रेंसिंग) | अप्रत्यक्ष (मध्यस्थ के माध्यम से) |
| फीडबैक आवृत्ति | वास्तविक समय, व्यक्तिगत | बैच, विलंबित |
| प्रशिक्षण सामग्री | स्लाइड + प्रत्यक्ष निर्देश | व्यापक वीडियो ट्यूटोरियल |
| भुगतान विधि | प्रति घंटा | स्वीकृत संवाद के अनुसार |
विशेष रूप से डिज़ाइन किए गए एनोटेशन उपकरण RAGAPHENE का उपयोग, निम्नलिखित कार्यक्षमताओं के साथ:
- वास्तविक समय पुनर्प्राप्ति और पीढ़ी
- पैराग्राफ प्रासंगिकता एनोटेशन
- प्रतिक्रिया संपादन और अंतर दृश्य
- पुनः क्वेरी उपकरण
- गुणवत्ता संकेत और जांच सूची
- औसत मोड़ संख्या: संवाद की लंबाई, बाद के मोड़ आमतौर पर अधिक चुनौतीपूर्ण होते हैं
- औसत संपादन संख्या: एनोटेटर द्वारा संशोधित मोड़ों की संख्या, जटिलता को दर्शाता है
- औसत क्वेरी संख्या: प्रारंभिक प्रश्न और पुनः क्वेरी सहित
- औसत अद्वितीय पैराग्राफ संख्या: पैराग्राफ विविधता को मापता है
- स्वीकृति/अस्वीकृति दर: मानव समीक्षा के माध्यम से संवाद गुणवत्ता निर्धारण
- स्वचालित टिप्पणी: सिस्टम द्वारा गुणवत्ता प्रतिक्रिया उत्पन्न
- उपयोगकर्ता अनुसंधान: एनोटेटर की व्यक्तिपरक अनुभव संग्रह
अनुसंधान तीन चरणों में विभाजित है, लगभग एक वर्ष की अवधि में (मई 2024 - मई 2025):
- पायलट चरण: छोटे पैमाने पर प्रयोग, कार्य और निर्देशों को कैलिब्रेट करना
- निर्माण चरण: बड़े पैमाने पर संवाद निर्माण, पायलट प्रतिक्रिया के आधार पर सुधार
- समीक्षा चरण: गुणवत्ता समीक्षा और सुधार
- आंतरिक एनोटेटर: लगभग 1,500 संवाद
- बाहरी एनोटेटर: लगभग 5,000 संवाद
- विश्लेषण उपसमुच्चय: पायलट चरण 86, निर्माण चरण 618, समीक्षा चरण 424
| मेट्रिक | आंतरिक एनोटेटर | बाहरी एनोटेटर |
|---|
| औसत मोड़ संख्या | 7.6 | 4.2 |
| औसत संपादन संख्या | 7.0 | 3.0 |
| औसत क्वेरी संख्या | 12.7 | 6.2 |
| औसत अद्वितीय पैराग्राफ संख्या | 17.1 | 7.3 |
| स्वीकृति दर | 87% | 69% |
- निर्माण समय: आंतरिक एनोटेटर 60-75 मिनट/संवाद, बाहरी एनोटेटर 30-45 मिनट/संवाद
- पैराग्राफ पठन मात्रा: आंतरिक एनोटेटर अधिक पैराग्राफ पढ़ते हैं (6-12/मोड़)
- कार्य समझ: आंतरिक एनोटेटर में 100% सही ऑपरेशन क्रम की रिपोर्ट, बाहरी एनोटेटर में त्रुटियां
आंतरिक और बाहरी एनोटेटर उपकरण कार्यक्षमता महत्व की धारणा में महत्वपूर्ण अंतर:
- संकेत कार्यक्षमता: सबसे बड़ा अंतर (μ अंतर=1.41), आंतरिक एनोटेटर अधिक महत्वपूर्ण मानते हैं
- पुनः क्वेरी उपकरण: आंतरिक एनोटेटर उच्च मूल्यांकन (μ अंतर=0.78)
- पैराग्राफ चिह्न कार्यक्षमता: आंतरिक एनोटेटर अधिक महत्व देते हैं (μ अंतर=0.78)
- प्रतिक्रिया संपादन: दोनों समूह समान मूल्यांकन (μ अंतर=0.04)
LLM द्वारा उत्पन्न सिंथेटिक संवाद विविधता और जटिलता दोनों में मानव-निर्मित संवाद से कम हैं:
- स्वीकृति दर: 72% (दोनों मानव एनोटेटर समूहों के बीच)
- पैराग्राफ विविधता स्पष्ट रूप से अपर्याप्त
- मानव संपादन और पुनः क्वेरी प्रक्रिया की कमी
- बेंचमार्क डेटासेट: RAD-Bench, RAGBench, RGB, MTRAG आदि
- डेटा पीढ़ी विधियां: सिंथेटिक पीढ़ी बनाम मानव एनोटेशन की गुणवत्ता व्यापार
- जटिलता आवश्यकताएं: बहु-मोड़ संवाद की संज्ञानात्मक मांग और गुणवत्ता आवश्यकताएं
- एनोटेटर प्रकार: विशेषज्ञ बनाम भीड़-सोर्सिंग कार्यकर्ताओं की गुणवत्ता अंतर
- कार्य जटिलता: माइक्रो-कार्य बनाम मैक्रो-कार्य की विभिन्न प्रबंधन रणनीतियां
- गुणवत्ता आश्वासन: फ़िल्टरिंग रणनीतियां, बहु-चरण प्रक्रियाएं, विशेषज्ञ समीक्षा
- प्रतिक्रिया तंत्र: प्रत्यक्ष बनाम अप्रत्यक्ष संचार कार्य गुणवत्ता पर प्रभाव
- सहयोग उपकरण: जटिल एनोटेशन कार्यों का समर्थन करने वाले इंटरफेस डिजाइन
- प्रशिक्षण सामग्री: विभिन्न संचार संरचनाओं के तहत प्रशिक्षण रणनीतियां
- फीडबैक लूप प्रभाव महत्वपूर्ण: प्रत्यक्ष फीडबैक लूप डेटा गुणवत्ता में उल्लेखनीय सुधार करते हैं, लेकिन उत्पादन मात्रा को कम करते हैं
- पूरक लाभ: आंतरिक एनोटेटर गुणवत्ता में उत्कृष्ट हैं, बाहरी एनोटेटर मात्रा और विविधता में उत्कृष्ट हैं
- उपकरण डिजाइन महत्वपूर्ण: संकेत और स्वचालित प्रतिक्रिया संचार सीमाओं को आंशिक रूप से कम कर सकते हैं
- चरणबद्ध रणनीति प्रभावी: निर्माण-समीक्षा दो-चरणीय प्रवाह गुणवत्ता और दक्षता को संतुलित कर सकता है
- आंतरिक एनोटेटर का उपयोग मार्गदर्शन सामग्री को तेजी से परिष्कृत करने के लिए
- बाहरी एनोटेटर को लक्षित, कम जटिलता वाले उप-कार्य आवंटित करना
- दो-चरणीय प्रवाह: बाहरी निर्माण + आंतरिक समीक्षा
- स्वचालित संकेत: प्रत्यक्ष प्रतिक्रिया की कमी को पूरा करना
- सूक्ष्म-दानेदार टिप्पणियां: विशिष्ट सुधार सुझाव का समर्थन
- गुणवत्ता जांच: निर्यात से पहले स्वचालित सत्यापन
- प्रत्यक्ष प्रतिक्रिया का उपयोग प्रशिक्षण सामग्री में सुधार के लिए
- वीडियो ट्यूटोरियल: अप्रत्यक्ष संचार आवश्यकताओं के अनुकूल
- पुनरावृत्तिमूलक सुधार: सामान्य प्रश्नों के आधार पर सामग्री अपडेट
- नमूना आकार: आंतरिक एनोटेटर संख्या कम, सांख्यिकीय विश्लेषण सीमित
- प्रोत्साहन तंत्र: विभिन्न भुगतान विधियां कार्य गुणवत्ता को प्रभावित कर सकती हैं
- क्षेत्र विशिष्टता: निष्कर्ष सभी जटिल एनोटेशन कार्यों पर लागू नहीं हो सकते
- समय कारक: सीखने की वक्र और अनुभव संचय का प्रभाव पूरी तरह से विचार नहीं किया गया
- अनुसंधान स्केल विस्तारित करना: अधिक एनोटेटर और कार्य प्रकार
- प्रोत्साहन तंत्र अनुसंधान: भुगतान विधि पर गुणवत्ता का विशिष्ट प्रभाव
- स्वचालन सहायता: AI-सहायता प्राप्त एनोटेशन की प्रभावशीलता मूल्यांकन
- क्रॉस-डोमेन सत्यापन: अन्य जटिल कार्यों में निष्कर्षों का सत्यापन
- उच्च व्यावहारिक मूल्य: वास्तविक दुनिया की एनोटेशन परियोजनाओं की मुख्य समस्याओं को हल करता है
- कठोर पद्धति: अनुदैर्ध्य अनुसंधान डिजाइन, बहु-आयामी मूल्यांकन
- अर्थपूर्ण निष्कर्ष: जटिल कार्यों पर फीडबैक लूप के महत्वपूर्ण प्रभाव को प्रकट करता है
- मजबूत मार्गदर्शन: विशिष्ट, कार्यान्वयन योग्य सिफारिशें प्रदान करता है
- नियंत्रण चर अपर्याप्त: फीडबैक लूप और अन्य कारकों के प्रभाव को पूरी तरह से अलग नहीं कर सकते
- सामान्यीकरण सीमाएं: अनुसंधान RAG कार्यों पर केंद्रित, अन्य क्षेत्रों में प्रयोज्यता अज्ञात
- मात्रात्मक विश्लेषण सीमित: आंतरिक एनोटेटर नमूना छोटा, सांख्यिकीय परीक्षण क्षमता सीमित
- दीर्घकालीन प्रभाव अज्ञात: लंबी समय अवधि के अवलोकन की कमी
- शैक्षणिक योगदान: HCI और NLP क्रॉस-डोमेन के लिए नया दृष्टिकोण प्रदान करता है
- व्यावहारिक मार्गदर्शन: एंटरप्राइज-स्तरीय एनोटेशन परियोजनाओं के लिए संदर्भ ढांचा
- विधि नवाचार: जटिल कार्य एनोटेशन की व्यवस्थित अनुसंधान विधि प्रदर्शित करता है
- उपकरण मूल्य: RAGAPHENE उपकरण में प्रचार अनुप्रयोग क्षमता है
- एंटरप्राइज-स्तरीय एनोटेशन परियोजनाएं: गुणवत्ता और दक्षता को संतुलित करने वाली बड़े पैमाने पर डेटा निर्माण
- जटिल NLP कार्य: बहु-चरणीय, उच्च संज्ञानात्मक मांग वाले एनोटेशन कार्य
- मिश्रित एनोटेटर दल: आंतरिक और बाहरी एनोटेशन संसाधनों का एक साथ उपयोग करने वाली परियोजनाएं
- गुणवत्ता-संवेदनशील अनुप्रयोग: डेटा गुणवत्ता के लिए अत्यधिक आवश्यकताओं वाली AI सिस्टम विकास
पेपर RAG सिस्टम, डेटा एनोटेशन गुणवत्ता, उपकरण डिजाइन और संचार संरचना सहित कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 82 संबंधित संदर्भों का हवाला देता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।
सारांश: यह एक महत्वपूर्ण व्यावहारिक मूल्य वाला HCI अनुसंधान है, जो कठोर अनुदैर्ध्य अनुसंधान डिजाइन के माध्यम से, जटिल एनोटेशन कार्यों की गुणवत्ता पर फीडबैक लूप संरचना के महत्वपूर्ण प्रभाव को प्रकट करता है, और शैक्षणिक और औद्योगिक समुदायों को मूल्यवान अंतर्दृष्टि और मार्गदर्शन प्रदान करता है।