2025-11-18T12:13:13.294087

A Longitudinal Study on Different Annotator Feedback Loops in Complex RAG Tasks

Rosenthal, Hanafi, Katsis et al.

Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.

academic

জটিল RAG কাজে বিভিন্ন টীকাকারকারী প্রতিক্রিয়া লুপের উপর একটি দীর্ঘমেয়াদী অধ্যয়ন

মৌলিক তথ্য

পেপার আইডি: 2510.11897
শিরোনাম: জটিল RAG কাজে বিভিন্ন টীকাকারকারী প্রতিক্রিয়া লুপের উপর একটি দীর্ঘমেয়াদী অধ্যয়ন
লেখক: সারা রোজেন্থাল, মায়েদা হানাফি, ইয়ানিস কাৎসিস, লুসিয়ান পোপা, মেরিনা ড্যানিলেভস্কি (IBM)
শ্রেণীবিভাগ: cs.HC (মানব-কম্পিউটার ইন্টারঅ্যাকশন)
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর (ACM-এ জমা দেওয়া)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.11897

সারসংক্ষেপ

এই পেপারটি জটিল পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) কাজে বিভিন্ন মানব টীকাকারকারী প্রতিক্রিয়া লুপের ডেটা গুণমানের উপর প্রভাব অধ্যয়ন করে। লেখকরা অভ্যন্তরীণ এবং বাহ্যিক উভয় টীকাকারকারী দলের উপর প্রায় এক বছরের দীর্ঘমেয়াদী গবেষণা পরিচালনা করেছেন, বহু-পর্যায়ের RAG কথোপকথন তৈরিতে তাদের কর্মক্ষমতার পার্থক্য বিশ্লেষণ করেছেন। গবেষণায় দেখা গেছে যে আরও ঘনিষ্ঠ প্রতিক্রিয়া লুপ উচ্চতর গুণমানের কথোপকথন তৈরি করে, তবে পরিমাণ এবং বৈচিত্র্য হ্রাস করে। পেপারটি বিভিন্ন টীকাকারকারী দলকে সর্বোত্তমভাবে কীভাবে ব্যবহার করতে হয় তার জন্য নির্দেশনামূলক পরামর্শ প্রদান করে।

গবেষণার পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

মূল সমস্যা: জটিল বহু-পর্যায়ের RAG কথোপকথন তৈরির কাজে বিভিন্ন টীকাকারকারী প্রতিক্রিয়া লুপ কাঠামো ডেটা গুণমানকে কীভাবে প্রভাবিত করে?
গুরুত্ব: RAG সিস্টেমগুলির জটিল প্রশ্ন পরিচালনার ক্ষমতা মূল্যায়নের জন্য উচ্চ-মানের বেঞ্চমার্ক ডেটা প্রয়োজন, যা হ্যালুসিনেশন এবং ভুল তথ্য এড়ায়
বিদ্যমান সীমাবদ্ধতা:
- কথোপকথনমূলক RAG ডেটা ম্যানুয়ালি তৈরি করা জ্ঞানীয়ভাবে অত্যন্ত দাবিদার
- বিদ্যমান গবেষণা প্রায়শই সরাসরি যোগাযোগ প্রতিক্রিয়া লুপ অনুমান করে, বাস্তব-বিশ্বের পরোক্ষ যোগাযোগের পরিস্থিতি উপেক্ষা করে
- জটিল কাজে বিভিন্ন টীকাকারকারী দলের কর্মক্ষমতার পার্থক্যের উপর পদ্ধতিগত গবেষণার অভাব

গবেষণার প্রেরণা

বাস্তব-বিশ্বের সীমাবদ্ধতার অধীনে ডেটা টীকাকরণ গুণমান ব্যবস্থাপনা কৌশল অন্বেষণ করা
প্রতিক্রিয়া লুপ কাঠামো জটিল টীকাকরণ কাজের উপর প্রভাব বোঝা
এন্টারপ্রাইজ-স্তরের টীকাকরণ প্রকল্পের জন্য ব্যবহারিক নির্দেশনা প্রদান করা

মূল অবদান

প্রথম পদ্ধতিগত অধ্যয়ন জটিল RAG টীকাকরণ কাজে বিভিন্ন যোগাযোগ প্রতিক্রিয়া লুপের ডেটা গুণমানের উপর প্রভাব সম্পর্কে
মূল অন্তর্দৃষ্টি আবিষ্কার: ঘনিষ্ঠ প্রতিক্রিয়া লুপের টীকাকারকারীরা উচ্চতর গুণমানের ডেটা তৈরি করে, কিন্তু শিথিল প্রতিক্রিয়া লুপের টীকাকারকারীরা পরিমাণ এবং বৈচিত্র্যে সুবিধা রাখে
ব্যবহারিক কৌশল প্রদান: বাস্তব-বিশ্বের সীমাবদ্ধতার অধীনে ডেটা তৈরি প্রক্রিয়ার জন্য নির্দিষ্ট গুণমান ব্যবস্থাপনা সুপারিশ প্রস্তাব করা
মূল্যায়ন কাঠামো তৈরি করা: স্বয়ংক্রিয় মেট্রিক্স এবং ব্যবহারকারী গবেষণার মাধ্যমে টীকাকারকারী অভিজ্ঞতা এবং ডেটা গুণমান ব্যাপকভাবে মূল্যায়ন করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

বহু-পর্যায়ের RAG কথোপকথন তৈরি নিম্নলিখিত মূল পদক্ষেপ অন্তর্ভুক্ত করে:

প্রশ্ন তৈরি করা: টীকাকারকারীরা কর্পাসের সাথে সম্পর্কিত প্রশ্ন উত্থাপন করে
প্রাসঙ্গিক অনুচ্ছেদ পুনরুদ্ধার করা: সিস্টেম স্বয়ংক্রিয়ভাবে প্রাসঙ্গিক নথির অনুচ্ছেদ পুনরুদ্ধার করে
অনুচ্ছেদ পর্যালোচনা এবং টীকাকরণ করা: টীকাকারকারীরা অনুচ্ছেদের প্রাসঙ্গিকতা মূল্যায়ন করে, প্রয়োজনে পুনরায় অনুসন্ধান করে
AI প্রতিক্রিয়া সম্পাদনা করা: নির্ভুলতা এবং সম্পূর্ণতা নিশ্চিত করতে জেনারেটর আউটপুট সংশোধন করা
লেবেল যোগ করা: প্রতিটি কথোপকথন পর্যায়ে মেটাডেটা লেবেল যোগ করা

পরীক্ষামূলক ডিজাইন

টীকাকারকারী দল

অভ্যন্তরীণ টীকাকারকারী (৭ জন): গবেষণা দলের সাথে একই সংস্থায়, সরাসরি যোগাযোগ প্রতিক্রিয়া লুপ, ঘণ্টায় অর্থপ্রদান
বাহ্যিক টীকাকারকারী (৪০ জন): বাহ্যিক টীকাকরণ সেবার মাধ্যমে নিয়োগ, পরোক্ষ যোগাযোগ প্রতিক্রিয়া লুপ, গৃহীত কথোপকথনের জন্য অর্থপ্রদান

যোগাযোগ কাঠামোর পার্থক্য

মাত্রা	অভ্যন্তরীণ টীকাকারকারী	বাহ্যিক টীকাকারকারী
যোগাযোগ পদ্ধতি	সরাসরি (ইমেল, Slack, ভিডিও সম্মেলন)	পরোক্ষ (মধ্যস্থতাকারীর মাধ্যমে)
প্রতিক্রিয়া ফ্রিকোয়েন্সি	রিয়েল-টাইম, ব্যক্তিগতকৃত	ব্যাচ, বিলম্বিত
প্রশিক্ষণ উপকরণ	স্লাইড + সরাসরি নির্দেশনা	ব্যাপক ভিডিও টিউটোরিয়াল
অর্থপ্রদানের পদ্ধতি	প্রতি ঘণ্টায়	গৃহীত কথোপকথন প্রতি

প্রযুক্তিগত সরঞ্জাম: RAGAPHENE

নিম্নলিখিত কার্যকারিতা সহ বিশেষভাবে ডিজাইন করা টীকাকরণ সরঞ্জাম ব্যবহার করা হয়েছে:

রিয়েল-টাইম পুনরুদ্ধার এবং প্রজন্ম
অনুচ্ছেদ প্রাসঙ্গিকতা টীকাকরণ
প্রতিক্রিয়া সম্পাদনা এবং পার্থক্য ভিজ্যুয়ালাইজেশন
পুনরায় অনুসন্ধান সরঞ্জাম
গুণমান প্রম্পট এবং চেকলিস্ট

মূল্যায়ন মেট্রিক্স

কথোপকথন গুণমান মেট্রিক্স

গড় পর্যায় সংখ্যা: কথোপকথনের দৈর্ঘ্য, পরবর্তী পর্যায়গুলি সাধারণত আরও চ্যালেঞ্জিং
গড় সম্পাদনা সংখ্যা: টীকাকারকারী দ্বারা সংশোধিত পর্যায়ের সংখ্যা, জটিলতা প্রতিফলিত করে
গড় অনুসন্ধান সংখ্যা: প্রাথমিক প্রশ্ন এবং পুনরায় অনুসন্ধান সহ
গড় অনন্য অনুচ্ছেদ সংখ্যা: অনুচ্ছেদ বৈচিত্র্য পরিমাপ করা

গুণমান মূল্যায়ন পদ্ধতি

গ্রহণ/প্রত্যাখ্যান হার: মানব পর্যালোচনার মাধ্যমে কথোপকথন গুণমান নির্ধারণ
স্বয়ংক্রিয় মন্তব্য: সিস্টেম-উত্পন্ন গুণমান প্রতিক্রিয়া
ব্যবহারকারী গবেষণা: টীকাকারকারীর বিষয়গত অভিজ্ঞতা সংগ্রহ করা

পরীক্ষামূলক সেটআপ

ডেটা সংগ্রহের পর্যায়

গবেষণা তিনটি পর্যায়ে বিভক্ত, প্রায় এক বছর স্থায়ী (২০২৪ সালের মে - ২০২৫ সালের মে):

পাইলট পর্যায়: ছোট-আকারের পরীক্ষা, কাজ এবং নির্দেশনা ক্যালিব্রেশন
তৈরি পর্যায়: বড় আকারের কথোপকথন তৈরি, পাইলট প্রতিক্রিয়ার উপর ভিত্তি করে উন্নতি
পর্যালোচনা পর্যায়: গুণমান পর্যালোচনা এবং উন্নতি

ডেটা স্কেল

অভ্যন্তরীণ টীকাকারকারী: প্রায় ১,৫০০ কথোপকথন
বাহ্যিক টীকাকারকারী: প্রায় ৫,০০০ কথোপকথন
বিশ্লেষণ সাবসেট: পাইলট পর্যায় ৮৬টি, তৈরি পর্যায় ৬১৮টি, পর্যালোচনা পর্যায় ৪২৪টি

পরীক্ষামূলক ফলাফল

প্রধান অনুসন্ধান

ডেটা গুণমানের পার্থক্য

মেট্রিক	অভ্যন্তরীণ টীকাকারকারী	বাহ্যিক টীকাকারকারী
গড় পর্যায় সংখ্যা	৭.৬	৪.২
গড় সম্পাদনা সংখ্যা	৭.০	৩.০
গড় অনুসন্ধান সংখ্যা	১২.৭	৬.२
গড় অনন্য অনুচ্ছেদ সংখ্যা	১७.१	७.३
গ্রহণের হার	৮৭%	৬৯%

সময় এবং প্রচেষ্টা বিনিয়োগ

তৈরির সময়: অভ্যন্তরীণ টীকাকারকারী ৬০-৭৫ মিনিট/কথোপকথন, বাহ্যিক টীকাকারকারী ৩০-৪৫ মিনিট/কথোপকথন
অনুচ্ছেদ পড়ার পরিমাণ: অভ্যন্তরীণ টীকাকারকারী গড়ে আরও অনুচ্ছেদ পড়ে (৬-१२টি/পর্যায়)
কাজের বোঝাপড়া: অভ্যন্তরীণ টীকাকারকারীরা ১০০% সঠিক অপারেশন ক্রম রিপোর্ট করে, বাহ্যিক টীকাকারকারীদের মধ্যে ভুল বোঝাপড়া রয়েছে

সরঞ্জাম কার্যকারিতা উপলব্ধি পার্থক্য

অভ্যন্তরীণ এবং বাহ্যিক টীকাকারকারীরা সরঞ্জাম কার্যকারিতার গুরুত্ব সম্পর্কে উল্লেখযোগ্য পার্থক্য উপলব্ধি করে:

প্রম্পট বৈশিষ্ট্য: সর্ববৃহৎ পার্থক্য (μ পার্থক্য=१.४१), অভ্যন্তরীণ টীকাকারকারীরা আরও গুরুত্বপূর্ণ মনে করে
পুনরায় অনুসন্ধান সরঞ্জাম: অভ্যন্তরীণ টীকাকারকারীরা উচ্চতর মূল্যায়ন করে (μ পার্থক্য=०.७८)
অনুচ্ছেদ চিহ্নিতকরণ বৈশিষ্ট্য: অভ্যন্তরীণ টীকাকারকারীরা আরও মূল্য দেয় (μ পার্থক্য=०.७८)
প্রতিক্রিয়া সম্পাদনা: উভয় দল একই রকম মূল্যায়ন করে (μ পার্থক্য=०.०४)

সংশ্লেষিত ডেটা তুলনা

LLM দ্বারা উত্পন্ন সংশ্লেষিত কথোপকথন বৈচিত্র্য এবং জটিলতার ক্ষেত্রে মানব-নির্মিত কথোপকথনের চেয়ে নিম্নতর:

গ্রহণের হার: ৭२% (দুটি মানব টীকাকারকারী দলের মধ্যে মধ্যবর্তী)
অনুচ্ছেদ বৈচিত্র্য স্পষ্টভাবে অপর্যাপ্ত
মানব সম্পাদনা এবং পুনরায় অনুসন্ধান প্রক্রিয়ার অভাব

উপসংহার এবং আলোচনা

প্রধান উপসংহার

প্রতিক্রিয়া লুপের প্রভাব উল্লেখযোগ্য: সরাসরি প্রতিক্রিয়া লুপ ডেটা গুণমান উল্লেখযোগ্যভাবে উন্নত করে, কিন্তু আউটপুট পরিমাণ হ্রাস করে
পরিপূরক সুবিধা: অভ্যন্তরীণ টীকাকারকারীরা গুণমানে পারদর্শী, বাহ্যিক টীকাকারকারীরা পরিমাণ এবং বৈচিত্র্যে পারদর্শী
সরঞ্জাম ডিজাইন গুরুত্বপূর্ণ: প্রম্পট এবং স্বয়ংক্রিয় প্রতিক্রিয়া যোগাযোগ সীমাবদ্ধতা আংশিকভাবে পূরণ করতে পারে
পর্যায়-ভিত্তিক কৌশল কার্যকর: তৈরি-পর্যালোচনা দুই-পর্যায়ের প্রবাহ গুণমান এবং দক্ষতার ভারসাম্য রাখতে পারে

ব্যবহারিক সুপারিশ

কাজ বরাদ্দ কৌশল

অভ্যন্তরীণ টীকাকারকারী ব্যবহার করুন নির্দেশনা উপকরণ দ্রুত পরিমার্জনের জন্য
বাহ্যিক টীকাকারকারীদের দিন লক্ষ্যবস্তু, কম জটিলতার উপ-কাজ
দুই-পর্যায়ের প্রবাহ: বাহ্যিক তৈরি + অভ্যন্তরীণ পর্যালোচনা

সরঞ্জাম ডিজাইন নীতি

স্বয়ংক্রিয় প্রম্পট: সরাসরি প্রতিক্রিয়ার অভাব পূরণ করা
সূক্ষ্ম-দানাদার মন্তব্য: নির্দিষ্ট উন্নতি পরামর্শ সমর্থন করা
গুণমান পরীক্ষা: রপ্তানির আগে স্বয়ংক্রিয় যাচাইকরণ

প্রশিক্ষণ উপকরণ অপ্টিমাইজেশন

সরাসরি প্রতিক্রিয়া ব্যবহার করুন প্রশিক্ষণ সামগ্রী উন্নত করতে
ভিডিও টিউটোরিয়াল: পরোক্ষ যোগাযোগ চাহিদা মিটাতে
পুনরাবৃত্তিমূলক উন্নতি: সাধারণ প্রশ্নের উপর ভিত্তি করে উপকরণ আপডেট করা

সীমাবদ্ধতা

নমুনা আকার: অভ্যন্তরীণ টীকাকারকারীর সংখ্যা কম, পরিসংখ্যানগত বিশ্লেষণ সীমিত
প্রণোদনা প্রক্রিয়া: বিভিন্ন অর্থপ্রদান পদ্ধতি কাজের গুণমান প্রভাবিত করতে পারে
ডোমেইন-নির্দিষ্টতা: সিদ্ধান্ত সমস্ত জটিল টীকাকরণ কাজের জন্য প্রযোজ্য নাও হতে পারে
সময়ের কারণ: শেখার বক্ররেখা এবং অভিজ্ঞতা সঞ্চয়ের প্রভাব সম্পূর্ণভাবে বিবেচনা করা হয়নি

ভবিষ্যত দিকনির্দেশনা

গবেষণা স্কেল সম্প্রসারণ করুন: আরও টীকাকারকারী এবং কাজের ধরন
প্রণোদনা প্রক্রিয়া গবেষণা: অর্থপ্রদান পদ্ধতির গুণমানের উপর নির্দিষ্ট প্রভাব
স্বয়ংক্রিয় সহায়তা: AI-সহায়ক টীকাকরণের কার্যকারিতা মূল্যায়ন
ক্রস-ডোমেইন যাচাইকরণ: অন্যান্য জটিল কাজে অনুসন্ধান যাচাই করা

গভীর মূল্যায়ন

শক্তি

উচ্চ ব্যবহারিক মূল্য: বাস্তব-বিশ্বের টীকাকরণ প্রকল্পের মূল সমস্যা সমাধান করা
কঠোর পদ্ধতি: দীর্ঘমেয়াদী গবেষণা ডিজাইন, বহু-মাত্রিক মূল্যায়ন
অর্থপূর্ণ আবিষ্কার: প্রতিক্রিয়া লুপের জটিল কাজের উপর গুরুত্বপূর্ণ প্রভাব প্রকাশ করা
শক্তিশালী নির্দেশনা: নির্দিষ্ট, কার্যকর সুপারিশ প্রদান করা

অপূর্ণতা

নিয়ন্ত্রণ পরিবর্তনশীল অপর্যাপ্ত: প্রতিক্রিয়া লুপ এবং অন্যান্য কারণের প্রভাব সম্পূর্ণভাবে আলাদা করতে অক্ষম
সাধারণীকরণ সীমাবদ্ধতা: গবেষণা RAG কাজে কেন্দ্রীভূত, অন্যান্য ক্ষেত্রে প্রযোজ্যতা অজানা
পরিমাণগত বিশ্লেষণ সীমিত: অভ্যন্তরীণ টীকাকারকারী নমুনা ছোট, পরিসংখ্যানগত পরীক্ষার শক্তি সীমিত
দীর্ঘমেয়াদী প্রভাব অজানা: দীর্ঘ সময়ের পর্যবেক্ষণের অভাব

প্রভাব

একাডেমিক অবদান: HCI এবং NLP ক্রস-ডিসিপ্লিনারি ক্ষেত্রে নতুন দৃষ্টিভঙ্গি প্রদান করা
ব্যবহারিক নির্দেশনা: এন্টারপ্রাইজ-স্তরের টীকাকরণ প্রকল্পের জন্য রেফারেন্স ফ্রেমওয়ার্ক প্রদান করা
পদ্ধতি উদ্ভাবন: জটিল কাজ টীকাকরণের পদ্ধতিগত গবেষণা পদ্ধতি প্রদর্শন করা
সরঞ্জাম মূল্য: RAGAPHENE সরঞ্জাম প্রচার প্রয়োগের সম্ভাবনা রয়েছে

প্রযোজ্য পরিস্থিতি

এন্টারপ্রাইজ-স্তরের টীকাকরণ প্রকল্প: গুণমান এবং দক্ষতার ভারসাম্য প্রয়োজন এমন বড় আকারের ডেটা তৈরি
জটিল NLP কাজ: বহু-পদক্ষেপ, উচ্চ জ্ঞানীয় বোঝা সহ টীকাকরণ কাজ প্রয়োজন
মিশ্র টীকাকারকারী দল: অভ্যন্তরীণ এবং বাহ্যিক টীকাকরণ সম্পদ একসাথে ব্যবহার করা প্রকল্প
গুণমান-সংবেদনশীল অ্যাপ্লিকেশন: ডেটা গুণমানের প্রতি অত্যন্ত দাবিদার AI সিস্টেম উন্নয়ন

তথ্যসূত্র

পেপারটি ৮२টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা RAG সিস্টেম, ডেটা টীকাকরণ গুণমান, সরঞ্জাম ডিজাইন এবং যোগাযোগ কাঠামো সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, যা গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সারসংক্ষেপ: এটি একটি গুরুত্বপূর্ণ ব্যবহারিক মূল্যের HCI গবেষণা, যা কঠোর দীর্ঘমেয়াদী গবেষণা ডিজাইনের মাধ্যমে, প্রতিক্রিয়া লুপ কাঠামো জটিল টীকাকরণ কাজের গুণমানের উপর উল্লেখযোগ্য প্রভাব প্রকাশ করে, একাডেমিক এবং শিল্প উভয় ক্ষেত্রের জন্য মূল্যবান অন্তর্দৃষ্টি এবং নির্দেশনা প্রদান করে।