2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.

Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.

academic

دراسة طولية حول حلقات التغذية الراجعة المختلفة للمُعلِّقين في مهام RAG المعقدة

المعلومات الأساسية

معرّف الورقة البحثية: 2510.11897
العنوان: دراسة طولية حول حلقات التغذية الراجعة المختلفة للمُعلِّقين في مهام RAG المعقدة
المؤلفون: سارة روزنثال، ميدا حنافي، يانيس كاتسيس، لوسيان بوبا، مارينا دانيليفسكي (IBM)
التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)
تاريخ النشر: أكتوبر 2025 (مُقدَّمة إلى ACM)
رابط الورقة: https://arxiv.org/abs/2510.11897

الملخص

تبحث هذه الورقة تأثير حلقات التغذية الراجعة المختلفة للمُعلِّقين البشريين على جودة البيانات في مهام الاسترجاع المعزز بالتوليد (RAG) المعقدة. أجرى المؤلفون دراسة طولية لمدة حوالي سنة واحدة على مجموعتين من المُعلِّقين (داخليين وخارجيين)، محللين الفروقات في الأداء عند إنشاء حوارات RAG متعددة الأدوار. كشفت الدراسة أن حلقات التغذية الراجعة الأكثر إحكاماً تُنتج حوارات ذات جودة أعلى، لكنها تقلل من الكمية والتنوع. تقدم الورقة توصيات إرشادية حول كيفية الاستفادة المثلى من مجموعات المُعلِّقين المختلفة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: كيف تؤثر هياكل حلقات التغذية الراجعة المختلفة للمُعلِّقين على جودة البيانات في مهام إنشاء حوارات RAG متعددة الأدوار المعقدة؟
الأهمية: تحتاج أنظمة RAG إلى بيانات معيارية عالية الجودة لتقييم قدرتها على التعامل مع الأسئلة المعقدة، وتجنب الهلوسة والمعلومات الخاطئة
القيود الموجودة:
- إنشاء بيانات حوارية RAG يدويًا يتطلب متطلبات معرفية عالية جداً
- تفترض معظم الدراسات الموجودة حلقات تغذية راجعة بالاتصال المباشر، متجاهلة السيناريوهات غير المباشرة في الواقع العملي
- نقص الدراسات المنهجية حول الفروقات في الأداء بين مجموعات المُعلِّقين المختلفة في المهام المعقدة

دافع البحث

استكشاف استراتيجيات إدارة جودة التعليقات تحت القيود الواقعية
فهم تأثير هيكل حلقات التغذية الراجعة على المهام المعقدة للتعليق
توفير إرشادات عملية لمشاريع التعليق على مستوى المؤسسات

المساهمات الأساسية

أول دراسة منهجية لتأثير حلقات الاتصال المختلفة على جودة البيانات في مهام التعليق المعقدة على RAG
اكتشاف رؤى رئيسية: المُعلِّقون ذوو حلقات التغذية الراجعة الإحكام ينشئون بيانات أعلى جودة، بينما يتمتع المُعلِّقون ذوو حلقات التغذية الراجعة الفضفاضة بمزايا في الكمية والتنوع
توفير استراتيجيات عملية: اقتراح توصيات محددة لإدارة الجودة في عمليات إنشاء البيانات تحت القيود الواقعية
بناء إطار تقييم: تقييم شامل لتجربة المُعلِّقين وجودة البيانات من خلال المقاييس الآلية والبحث مع المستخدمين

شرح المنهجية

تعريف المهمة

إنشاء حوارات RAG متعددة الأدوار يتضمن الخطوات الأساسية التالية:

إنشاء الأسئلة: يطرح المُعلِّقون أسئلة ذات صلة بمجموعة النصوص
استرجاع الفقرات ذات الصلة: يسترجع النظام تلقائياً فقرات المستندات ذات الصلة
مراجعة وتعليق الفقرات: يقيّم المُعلِّقون صلة الفقرات، ويعيدون الاستعلام عند الحاجة
تحرير إجابات الذكاء الاصطناعي: تعديل مخرجات المولد لضمان الدقة والاكتمال
إضافة العلامات: إضافة بيانات وصفية لكل دور من أدوار الحوار

تصميم التجربة

مجموعات المُعلِّقين

المُعلِّقون الداخليون (7 أشخاص): من نفس المنظمة، حلقات تغذية راجعة بالاتصال المباشر، يتقاضون أجراً بالساعة
المُعلِّقون الخارجيون (40 شخصاً): تم تجنيدهم من خلال خدمة تعليق خارجية، حلقات تغذية راجعة غير مباشرة، يتقاضون أجراً لكل حوار مقبول

الفروقات في هيكل الاتصال

البُعد	المُعلِّقون الداخليون	المُعلِّقون الخارجيون
طريقة الاتصال	مباشر (البريد الإلكتروني، Slack، مؤتمرات الفيديو)	غير مباشر (من خلال وسيط)
تكرار التغذية الراجعة	فوري وشخصي	دفعات وبتأخير
مواد التدريب	شرائح + إرشادات مباشرة	دروس فيديو شاملة
طريقة الدفع	بالساعة	لكل حوار مقبول

الأداة التقنية: RAGAPHENE

استخدام أداة تعليق متخصصة تُدعى RAGAPHENE، بالمميزات التالية:

الاسترجاع والتوليد في الوقت الفعلي
تعليق صلة الفقرات
تحرير الإجابات وتصور الفروقات
أداة إعادة الاستعلام
تلميحات الجودة وقوائم التحقق

مؤشرات التقييم

مؤشرات جودة الحوار

متوسط عدد الأدوار: طول الحوار، حيث تكون الأدوار اللاحقة عادة أكثر تحدياً
متوسط عدد التعديلات: عدد الأدوار التي تم تعديلها من قبل المُعلِّق، مما يعكس التعقيد
متوسط عدد الاستعلامات: يشمل السؤال الأولي وعمليات إعادة الاستعلام
متوسط عدد الفقرات الفريدة: قياس تنوع الفقرات

طرق تقييم الجودة

معدلات القبول/الرفض: تحديد جودة الحوار من خلال المراجعة اليدوية
التعليقات الآلية: تغذية راجعة على الجودة يتم توليدها بواسطة النظام
البحث مع المستخدمين: جمع التجربة الذاتية للمُعلِّقين

إعداد التجربة

مراحل جمع البيانات

تنقسم الدراسة إلى ثلاث مراحل، امتدت لحوالي سنة واحدة (مايو 2024 - مايو 2025):

مرحلة التجريب: تجارب صغيرة الحجم، معايرة المهام والتعليمات
مرحلة الإنشاء: إنشاء حوارات واسع النطاق، تحسين بناءً على ملاحظات التجريب
مرحلة المراجعة: مراجعة الجودة والتحسين

حجم البيانات

المُعلِّقون الداخليون: حوالي 1,500 حوار
المُعلِّقون الخارجيون: حوالي 5,000 حوار
مجموعة فرعية للتحليل: 86 في مرحلة التجريب، 618 في مرحلة الإنشاء، 424 في مرحلة المراجعة

نتائج التجربة

الاكتشافات الرئيسية

الفروقات في جودة البيانات

المؤشر	المُعلِّقون الداخليون	المُعلِّقون الخارجيون
متوسط عدد الأدوار	7.6	4.2
متوسط عدد التعديلات	7.0	3.0
متوسط عدد الاستعلامات	12.7	6.2
متوسط عدد الفقرات الفريدة	17.1	7.3
معدل القبول	87%	69%

الوقت والجهد المستثمر

وقت الإنشاء: المُعلِّقون الداخليون 60-75 دقيقة/حوار، المُعلِّقون الخارجيون 30-45 دقيقة/حوار
حجم قراءة الفقرات: يقرأ المُعلِّقون الداخليون فقرات أكثر في المتوسط (6-12 فقرة/دور)
فهم المهمة: 100% من المُعلِّقين الداخليين أبلغوا عن ترتيب العمليات الصحيح، بينما كان هناك سوء فهم بين المُعلِّقين الخارجيين

الفروقات في إدراك مميزات الأداة

يوجد فروقات كبيرة بين المُعلِّقين الداخليين والخارجيين في إدراكهم لأهمية مميزات الأداة:

ميزة التلميحات: أكبر فرق (μ الفرق=1.41)، يعتبرها المُعلِّقون الداخليون أكثر أهمية
أداة إعادة الاستعلام: يقيّمها المُعلِّقون الداخليون بشكل أعلى (μ الفرق=0.78)
ميزة تعليم الفقرات: يعطيها المُعلِّقون الداخليون وزناً أكبر (μ الفرق=0.78)
تحرير الإجابات: تقييم متقارب بين المجموعتين (μ الفرق=0.04)

مقارنة البيانات الاصطناعية

الحوارات المولدة باستخدام نماذج اللغة الكبيرة أقل من الحوارات المُنشأة يدويًا في التنوع والتعقيد:

معدل القبول: 72% (بين معدلات المجموعتين البشريتين)
تنوع الفقرات واضح أنه غير كافٍ
نقص عمليات التحرير اليدوي وإعادة الاستعلام

الأعمال ذات الصلة

أبحاث أنظمة RAG

مجموعات البيانات المعيارية: RAD-Bench، RAGBench، RGB، MTRAG وغيرها
طرق توليد البيانات: المقارنة بين التوليد الاصطناعي والتعليق اليدوي من حيث الجودة
متطلبات التعقيد: الحمل المعرفي للحوارات متعددة الأدوار ومتطلبات الجودة

إدارة جودة تعليق البيانات

أنواع المُعلِّقين: الفروقات في الجودة بين الخبراء والعاملين بالعمل الجماعي
تعقيد المهام: استراتيجيات الإدارة المختلفة للمهام الدقيقة مقابل المهام الكبيرة
ضمان الجودة: استراتيجيات التصفية، العمليات متعددة المراحل، المراجعة من قبل الخبراء

تأثير هيكل الاتصال

آليات التغذية الراجعة: تأثير الاتصال المباشر مقابل غير المباشر على جودة العمل
أدوات التعاون: تصميم الواجهات التي تدعم مهام التعليق المعقدة
مواد التدريب: استراتيجيات التدريب المختلفة تحت هياكل الاتصال المختلفة

الخلاصات والنقاش

الاستنتاجات الرئيسية

تأثير حلقات التغذية الراجعة كبير: حلقات التغذية الراجعة المباشرة تحسّن جودة البيانات بشكل ملحوظ، لكنها تقلل من الإنتاجية
المزايا المتكاملة: المُعلِّقون الداخليون متفوقون في الجودة، بينما المُعلِّقون الخارجيون متفوقون في الكمية والتنوع
أهمية تصميم الأداة: التلميحات والتغذية الراجعة الآلية يمكنها تعويض القيود في الاتصال جزئياً
فعالية الاستراتيجية متعددة المراحل: عملية ثنائية المراحل (الإنشاء-المراجعة) فعالة في موازنة الجودة والكفاءة

التوصيات العملية

استراتيجية توزيع المهام

الاستفادة من المُعلِّقين الداخليين لتحسين مواد التوجيه بسرعة
توزيع المهام المحددة على المُعلِّقين الخارجيين، ذات درجة تعقيد أقل
عملية ثنائية المراحل: الإنشاء الخارجي + المراجعة الداخلية

مبادئ تصميم الأداة

التلميحات الآلية: تعويض نقص التغذية الراجعة المباشرة
التعليقات الدقيقة: دعم توصيات تحسين محددة
فحوصات الجودة: التحقق الآلي قبل التصدير

تحسين مواد التدريب

الاستفادة من التغذية الراجعة المباشرة لتحسين محتوى التدريب
دروس الفيديو: التكيف مع احتياجات الاتصال غير المباشر
التحسين المستمر: تحديث المواد بناءً على الأسئلة الشائعة

القيود

حجم العينة: عدد المُعلِّقين الداخليين قليل، مما يحد من التحليل الإحصائي
آليات الحافز: قد تؤثر طرق الدفع المختلفة على جودة العمل
الخصوصية المجالية: قد لا تنطبق الاستنتاجات على جميع مهام التعليق المعقدة
العوامل الزمنية: لم يتم النظر بشكل كافٍ في تأثير منحنى التعلم وتراكم الخبرة

الاتجاهات المستقبلية

توسيع نطاق البحث: عدد أكبر من المُعلِّقين وأنواع مهام مختلفة
دراسة آليات الحافز: التأثير المحدد لطرق الدفع على الجودة
المساعدة الآلية: تقييم فعالية التعليق بمساعدة الذكاء الاصطناعي
التحقق عبر المجالات: التحقق من الاكتشافات في مهام معقدة أخرى

التقييم المتعمق

المزايا

قيمة عملية عالية: حل المشاكل الرئيسية في مشاريع التعليق في العالم الحقيقي
منهجية صارمة: تصميم دراسة طولية، تقييم متعدد الأبعاد
اكتشافات ذات معنى: الكشف عن تأثير حلقات التغذية الراجعة على المهام المعقدة
قوة إرشادية: توفير توصيات محددة وقابلة للتطبيق

أوجه القصور

التحكم في المتغيرات غير كافٍ: عدم القدرة على فصل تأثير حلقات التغذية الراجعة عن العوامل الأخرى بالكامل
قيود التعميم: يركز البحث على مهام RAG، وتطبيقيته على مجالات أخرى غير معروفة
التحليل الكمي محدود: عينة صغيرة من المُعلِّقين الداخليين، قدرة اختبار إحصائي محدودة
التأثيرات طويلة الأجل غير معروفة: نقص الملاحظات على فترة زمنية أطول

التأثير

المساهمة الأكاديمية: توفير منظور جديد لمجال التقاطع بين HCI و NLP
الإرشادات العملية: توفير إطار مرجعي لمشاريع التعليق على مستوى المؤسسات
ابتكار المنهجية: عرض طريقة منهجية لدراسة التعليق على المهام المعقدة
قيمة الأداة: أداة RAGAPHENE لها إمكانية التطبيق والنشر الواسع

السيناريوهات المطبقة

مشاريع التعليق على مستوى المؤسسات: الحاجة إلى موازنة الجودة والكفاءة في إنشاء البيانات واسع النطاق
مهام NLP المعقدة: العمل الذي يتطلب خطوات متعددة وحملاً معرفياً عالياً
فرق التعليق المختلطة: المشاريع التي تستخدم موارد تعليق داخلية وخارجية في نفس الوقت
التطبيقات الحساسة للجودة: تطوير أنظمة الذكاء الاصطناعي التي تتطلب جودة بيانات عالية جداً

المراجع

تستشهد الورقة بـ 82 مرجعاً ذا صلة، تغطي أنظمة RAG وجودة تعليق البيانات وتصميم الأدوات وهياكل الاتصال وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.

الملخص: هذا بحث HCI ذو قيمة عملية مهمة، يكشف من خلال تصميم دراسة طولية صارمة عن التأثير الكبير لهيكل حلقات التغذية الراجعة على جودة المهام المعقدة للتعليق، مما يوفر رؤى وإرشادات قيمة للأوساط الأكاديمية والصناعية.