Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
- معرّف الورقة البحثية: 2510.11897
- العنوان: دراسة طولية حول حلقات التغذية الراجعة المختلفة للمُعلِّقين في مهام RAG المعقدة
- المؤلفون: سارة روزنثال، ميدا حنافي، يانيس كاتسيس، لوسيان بوبا، مارينا دانيليفسكي (IBM)
- التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)
- تاريخ النشر: أكتوبر 2025 (مُقدَّمة إلى ACM)
- رابط الورقة: https://arxiv.org/abs/2510.11897
تبحث هذه الورقة تأثير حلقات التغذية الراجعة المختلفة للمُعلِّقين البشريين على جودة البيانات في مهام الاسترجاع المعزز بالتوليد (RAG) المعقدة. أجرى المؤلفون دراسة طولية لمدة حوالي سنة واحدة على مجموعتين من المُعلِّقين (داخليين وخارجيين)، محللين الفروقات في الأداء عند إنشاء حوارات RAG متعددة الأدوار. كشفت الدراسة أن حلقات التغذية الراجعة الأكثر إحكاماً تُنتج حوارات ذات جودة أعلى، لكنها تقلل من الكمية والتنوع. تقدم الورقة توصيات إرشادية حول كيفية الاستفادة المثلى من مجموعات المُعلِّقين المختلفة.
- المشكلة الأساسية: كيف تؤثر هياكل حلقات التغذية الراجعة المختلفة للمُعلِّقين على جودة البيانات في مهام إنشاء حوارات RAG متعددة الأدوار المعقدة؟
- الأهمية: تحتاج أنظمة RAG إلى بيانات معيارية عالية الجودة لتقييم قدرتها على التعامل مع الأسئلة المعقدة، وتجنب الهلوسة والمعلومات الخاطئة
- القيود الموجودة:
- إنشاء بيانات حوارية RAG يدويًا يتطلب متطلبات معرفية عالية جداً
- تفترض معظم الدراسات الموجودة حلقات تغذية راجعة بالاتصال المباشر، متجاهلة السيناريوهات غير المباشرة في الواقع العملي
- نقص الدراسات المنهجية حول الفروقات في الأداء بين مجموعات المُعلِّقين المختلفة في المهام المعقدة
- استكشاف استراتيجيات إدارة جودة التعليقات تحت القيود الواقعية
- فهم تأثير هيكل حلقات التغذية الراجعة على المهام المعقدة للتعليق
- توفير إرشادات عملية لمشاريع التعليق على مستوى المؤسسات
- أول دراسة منهجية لتأثير حلقات الاتصال المختلفة على جودة البيانات في مهام التعليق المعقدة على RAG
- اكتشاف رؤى رئيسية: المُعلِّقون ذوو حلقات التغذية الراجعة الإحكام ينشئون بيانات أعلى جودة، بينما يتمتع المُعلِّقون ذوو حلقات التغذية الراجعة الفضفاضة بمزايا في الكمية والتنوع
- توفير استراتيجيات عملية: اقتراح توصيات محددة لإدارة الجودة في عمليات إنشاء البيانات تحت القيود الواقعية
- بناء إطار تقييم: تقييم شامل لتجربة المُعلِّقين وجودة البيانات من خلال المقاييس الآلية والبحث مع المستخدمين
إنشاء حوارات RAG متعددة الأدوار يتضمن الخطوات الأساسية التالية:
- إنشاء الأسئلة: يطرح المُعلِّقون أسئلة ذات صلة بمجموعة النصوص
- استرجاع الفقرات ذات الصلة: يسترجع النظام تلقائياً فقرات المستندات ذات الصلة
- مراجعة وتعليق الفقرات: يقيّم المُعلِّقون صلة الفقرات، ويعيدون الاستعلام عند الحاجة
- تحرير إجابات الذكاء الاصطناعي: تعديل مخرجات المولد لضمان الدقة والاكتمال
- إضافة العلامات: إضافة بيانات وصفية لكل دور من أدوار الحوار
- المُعلِّقون الداخليون (7 أشخاص): من نفس المنظمة، حلقات تغذية راجعة بالاتصال المباشر، يتقاضون أجراً بالساعة
- المُعلِّقون الخارجيون (40 شخصاً): تم تجنيدهم من خلال خدمة تعليق خارجية، حلقات تغذية راجعة غير مباشرة، يتقاضون أجراً لكل حوار مقبول
| البُعد | المُعلِّقون الداخليون | المُعلِّقون الخارجيون |
|---|
| طريقة الاتصال | مباشر (البريد الإلكتروني، Slack، مؤتمرات الفيديو) | غير مباشر (من خلال وسيط) |
| تكرار التغذية الراجعة | فوري وشخصي | دفعات وبتأخير |
| مواد التدريب | شرائح + إرشادات مباشرة | دروس فيديو شاملة |
| طريقة الدفع | بالساعة | لكل حوار مقبول |
استخدام أداة تعليق متخصصة تُدعى RAGAPHENE، بالمميزات التالية:
- الاسترجاع والتوليد في الوقت الفعلي
- تعليق صلة الفقرات
- تحرير الإجابات وتصور الفروقات
- أداة إعادة الاستعلام
- تلميحات الجودة وقوائم التحقق
- متوسط عدد الأدوار: طول الحوار، حيث تكون الأدوار اللاحقة عادة أكثر تحدياً
- متوسط عدد التعديلات: عدد الأدوار التي تم تعديلها من قبل المُعلِّق، مما يعكس التعقيد
- متوسط عدد الاستعلامات: يشمل السؤال الأولي وعمليات إعادة الاستعلام
- متوسط عدد الفقرات الفريدة: قياس تنوع الفقرات
- معدلات القبول/الرفض: تحديد جودة الحوار من خلال المراجعة اليدوية
- التعليقات الآلية: تغذية راجعة على الجودة يتم توليدها بواسطة النظام
- البحث مع المستخدمين: جمع التجربة الذاتية للمُعلِّقين
تنقسم الدراسة إلى ثلاث مراحل، امتدت لحوالي سنة واحدة (مايو 2024 - مايو 2025):
- مرحلة التجريب: تجارب صغيرة الحجم، معايرة المهام والتعليمات
- مرحلة الإنشاء: إنشاء حوارات واسع النطاق، تحسين بناءً على ملاحظات التجريب
- مرحلة المراجعة: مراجعة الجودة والتحسين
- المُعلِّقون الداخليون: حوالي 1,500 حوار
- المُعلِّقون الخارجيون: حوالي 5,000 حوار
- مجموعة فرعية للتحليل: 86 في مرحلة التجريب، 618 في مرحلة الإنشاء، 424 في مرحلة المراجعة
| المؤشر | المُعلِّقون الداخليون | المُعلِّقون الخارجيون |
|---|
| متوسط عدد الأدوار | 7.6 | 4.2 |
| متوسط عدد التعديلات | 7.0 | 3.0 |
| متوسط عدد الاستعلامات | 12.7 | 6.2 |
| متوسط عدد الفقرات الفريدة | 17.1 | 7.3 |
| معدل القبول | 87% | 69% |
- وقت الإنشاء: المُعلِّقون الداخليون 60-75 دقيقة/حوار، المُعلِّقون الخارجيون 30-45 دقيقة/حوار
- حجم قراءة الفقرات: يقرأ المُعلِّقون الداخليون فقرات أكثر في المتوسط (6-12 فقرة/دور)
- فهم المهمة: 100% من المُعلِّقين الداخليين أبلغوا عن ترتيب العمليات الصحيح، بينما كان هناك سوء فهم بين المُعلِّقين الخارجيين
يوجد فروقات كبيرة بين المُعلِّقين الداخليين والخارجيين في إدراكهم لأهمية مميزات الأداة:
- ميزة التلميحات: أكبر فرق (μ الفرق=1.41)، يعتبرها المُعلِّقون الداخليون أكثر أهمية
- أداة إعادة الاستعلام: يقيّمها المُعلِّقون الداخليون بشكل أعلى (μ الفرق=0.78)
- ميزة تعليم الفقرات: يعطيها المُعلِّقون الداخليون وزناً أكبر (μ الفرق=0.78)
- تحرير الإجابات: تقييم متقارب بين المجموعتين (μ الفرق=0.04)
الحوارات المولدة باستخدام نماذج اللغة الكبيرة أقل من الحوارات المُنشأة يدويًا في التنوع والتعقيد:
- معدل القبول: 72% (بين معدلات المجموعتين البشريتين)
- تنوع الفقرات واضح أنه غير كافٍ
- نقص عمليات التحرير اليدوي وإعادة الاستعلام
- مجموعات البيانات المعيارية: RAD-Bench، RAGBench، RGB، MTRAG وغيرها
- طرق توليد البيانات: المقارنة بين التوليد الاصطناعي والتعليق اليدوي من حيث الجودة
- متطلبات التعقيد: الحمل المعرفي للحوارات متعددة الأدوار ومتطلبات الجودة
- أنواع المُعلِّقين: الفروقات في الجودة بين الخبراء والعاملين بالعمل الجماعي
- تعقيد المهام: استراتيجيات الإدارة المختلفة للمهام الدقيقة مقابل المهام الكبيرة
- ضمان الجودة: استراتيجيات التصفية، العمليات متعددة المراحل، المراجعة من قبل الخبراء
- آليات التغذية الراجعة: تأثير الاتصال المباشر مقابل غير المباشر على جودة العمل
- أدوات التعاون: تصميم الواجهات التي تدعم مهام التعليق المعقدة
- مواد التدريب: استراتيجيات التدريب المختلفة تحت هياكل الاتصال المختلفة
- تأثير حلقات التغذية الراجعة كبير: حلقات التغذية الراجعة المباشرة تحسّن جودة البيانات بشكل ملحوظ، لكنها تقلل من الإنتاجية
- المزايا المتكاملة: المُعلِّقون الداخليون متفوقون في الجودة، بينما المُعلِّقون الخارجيون متفوقون في الكمية والتنوع
- أهمية تصميم الأداة: التلميحات والتغذية الراجعة الآلية يمكنها تعويض القيود في الاتصال جزئياً
- فعالية الاستراتيجية متعددة المراحل: عملية ثنائية المراحل (الإنشاء-المراجعة) فعالة في موازنة الجودة والكفاءة
- الاستفادة من المُعلِّقين الداخليين لتحسين مواد التوجيه بسرعة
- توزيع المهام المحددة على المُعلِّقين الخارجيين، ذات درجة تعقيد أقل
- عملية ثنائية المراحل: الإنشاء الخارجي + المراجعة الداخلية
- التلميحات الآلية: تعويض نقص التغذية الراجعة المباشرة
- التعليقات الدقيقة: دعم توصيات تحسين محددة
- فحوصات الجودة: التحقق الآلي قبل التصدير
- الاستفادة من التغذية الراجعة المباشرة لتحسين محتوى التدريب
- دروس الفيديو: التكيف مع احتياجات الاتصال غير المباشر
- التحسين المستمر: تحديث المواد بناءً على الأسئلة الشائعة
- حجم العينة: عدد المُعلِّقين الداخليين قليل، مما يحد من التحليل الإحصائي
- آليات الحافز: قد تؤثر طرق الدفع المختلفة على جودة العمل
- الخصوصية المجالية: قد لا تنطبق الاستنتاجات على جميع مهام التعليق المعقدة
- العوامل الزمنية: لم يتم النظر بشكل كافٍ في تأثير منحنى التعلم وتراكم الخبرة
- توسيع نطاق البحث: عدد أكبر من المُعلِّقين وأنواع مهام مختلفة
- دراسة آليات الحافز: التأثير المحدد لطرق الدفع على الجودة
- المساعدة الآلية: تقييم فعالية التعليق بمساعدة الذكاء الاصطناعي
- التحقق عبر المجالات: التحقق من الاكتشافات في مهام معقدة أخرى
- قيمة عملية عالية: حل المشاكل الرئيسية في مشاريع التعليق في العالم الحقيقي
- منهجية صارمة: تصميم دراسة طولية، تقييم متعدد الأبعاد
- اكتشافات ذات معنى: الكشف عن تأثير حلقات التغذية الراجعة على المهام المعقدة
- قوة إرشادية: توفير توصيات محددة وقابلة للتطبيق
- التحكم في المتغيرات غير كافٍ: عدم القدرة على فصل تأثير حلقات التغذية الراجعة عن العوامل الأخرى بالكامل
- قيود التعميم: يركز البحث على مهام RAG، وتطبيقيته على مجالات أخرى غير معروفة
- التحليل الكمي محدود: عينة صغيرة من المُعلِّقين الداخليين، قدرة اختبار إحصائي محدودة
- التأثيرات طويلة الأجل غير معروفة: نقص الملاحظات على فترة زمنية أطول
- المساهمة الأكاديمية: توفير منظور جديد لمجال التقاطع بين HCI و NLP
- الإرشادات العملية: توفير إطار مرجعي لمشاريع التعليق على مستوى المؤسسات
- ابتكار المنهجية: عرض طريقة منهجية لدراسة التعليق على المهام المعقدة
- قيمة الأداة: أداة RAGAPHENE لها إمكانية التطبيق والنشر الواسع
- مشاريع التعليق على مستوى المؤسسات: الحاجة إلى موازنة الجودة والكفاءة في إنشاء البيانات واسع النطاق
- مهام NLP المعقدة: العمل الذي يتطلب خطوات متعددة وحملاً معرفياً عالياً
- فرق التعليق المختلطة: المشاريع التي تستخدم موارد تعليق داخلية وخارجية في نفس الوقت
- التطبيقات الحساسة للجودة: تطوير أنظمة الذكاء الاصطناعي التي تتطلب جودة بيانات عالية جداً
تستشهد الورقة بـ 82 مرجعاً ذا صلة، تغطي أنظمة RAG وجودة تعليق البيانات وتصميم الأدوات وهياكل الاتصال وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.
الملخص: هذا بحث HCI ذو قيمة عملية مهمة، يكشف من خلال تصميم دراسة طولية صارمة عن التأثير الكبير لهيكل حلقات التغذية الراجعة على جودة المهام المعقدة للتعليق، مما يوفر رؤى وإرشادات قيمة للأوساط الأكاديمية والصناعية.