Grounding conversations in existing passages, known as Retrieval-Augmented Generation (RAG), is an important aspect of Chat-Based Assistants powered by Large Language Models (LLMs) to ensure they are faithful and don't provide misinformation. Several benchmarks have been created to measure the performance of LLMs on this task. We present a longitudinal study comparing the feedback loop of an internal and external human annotator group for the complex annotation task of creating multi-turn RAG conversations for evaluating LLMs. We analyze the conversations produced by both groups and provide results of a survey comparing their experiences. Our study highlights the advantages of each annotator population and the impact of the different feedback loops; a closer loop creates higher quality conversations with a decrease in quantity and diversity. Further, we present guidance for how to best utilize two different population groups when performing annotation tasks, particularly when the task is complex.
- পেপার আইডি: 2510.11897
- শিরোনাম: জটিল RAG কাজে বিভিন্ন টীকাকারকারী প্রতিক্রিয়া লুপের উপর একটি দীর্ঘমেয়াদী অধ্যয়ন
- লেখক: সারা রোজেন্থাল, মায়েদা হানাফি, ইয়ানিস কাৎসিস, লুসিয়ান পোপা, মেরিনা ড্যানিলেভস্কি (IBM)
- শ্রেণীবিভাগ: cs.HC (মানব-কম্পিউটার ইন্টারঅ্যাকশন)
- প্রকাশনার সময়: ২০২৫ সালের অক্টোবর (ACM-এ জমা দেওয়া)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.11897
এই পেপারটি জটিল পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) কাজে বিভিন্ন মানব টীকাকারকারী প্রতিক্রিয়া লুপের ডেটা গুণমানের উপর প্রভাব অধ্যয়ন করে। লেখকরা অভ্যন্তরীণ এবং বাহ্যিক উভয় টীকাকারকারী দলের উপর প্রায় এক বছরের দীর্ঘমেয়াদী গবেষণা পরিচালনা করেছেন, বহু-পর্যায়ের RAG কথোপকথন তৈরিতে তাদের কর্মক্ষমতার পার্থক্য বিশ্লেষণ করেছেন। গবেষণায় দেখা গেছে যে আরও ঘনিষ্ঠ প্রতিক্রিয়া লুপ উচ্চতর গুণমানের কথোপকথন তৈরি করে, তবে পরিমাণ এবং বৈচিত্র্য হ্রাস করে। পেপারটি বিভিন্ন টীকাকারকারী দলকে সর্বোত্তমভাবে কীভাবে ব্যবহার করতে হয় তার জন্য নির্দেশনামূলক পরামর্শ প্রদান করে।
- মূল সমস্যা: জটিল বহু-পর্যায়ের RAG কথোপকথন তৈরির কাজে বিভিন্ন টীকাকারকারী প্রতিক্রিয়া লুপ কাঠামো ডেটা গুণমানকে কীভাবে প্রভাবিত করে?
- গুরুত্ব: RAG সিস্টেমগুলির জটিল প্রশ্ন পরিচালনার ক্ষমতা মূল্যায়নের জন্য উচ্চ-মানের বেঞ্চমার্ক ডেটা প্রয়োজন, যা হ্যালুসিনেশন এবং ভুল তথ্য এড়ায়
- বিদ্যমান সীমাবদ্ধতা:
- কথোপকথনমূলক RAG ডেটা ম্যানুয়ালি তৈরি করা জ্ঞানীয়ভাবে অত্যন্ত দাবিদার
- বিদ্যমান গবেষণা প্রায়শই সরাসরি যোগাযোগ প্রতিক্রিয়া লুপ অনুমান করে, বাস্তব-বিশ্বের পরোক্ষ যোগাযোগের পরিস্থিতি উপেক্ষা করে
- জটিল কাজে বিভিন্ন টীকাকারকারী দলের কর্মক্ষমতার পার্থক্যের উপর পদ্ধতিগত গবেষণার অভাব
- বাস্তব-বিশ্বের সীমাবদ্ধতার অধীনে ডেটা টীকাকরণ গুণমান ব্যবস্থাপনা কৌশল অন্বেষণ করা
- প্রতিক্রিয়া লুপ কাঠামো জটিল টীকাকরণ কাজের উপর প্রভাব বোঝা
- এন্টারপ্রাইজ-স্তরের টীকাকরণ প্রকল্পের জন্য ব্যবহারিক নির্দেশনা প্রদান করা
- প্রথম পদ্ধতিগত অধ্যয়ন জটিল RAG টীকাকরণ কাজে বিভিন্ন যোগাযোগ প্রতিক্রিয়া লুপের ডেটা গুণমানের উপর প্রভাব সম্পর্কে
- মূল অন্তর্দৃষ্টি আবিষ্কার: ঘনিষ্ঠ প্রতিক্রিয়া লুপের টীকাকারকারীরা উচ্চতর গুণমানের ডেটা তৈরি করে, কিন্তু শিথিল প্রতিক্রিয়া লুপের টীকাকারকারীরা পরিমাণ এবং বৈচিত্র্যে সুবিধা রাখে
- ব্যবহারিক কৌশল প্রদান: বাস্তব-বিশ্বের সীমাবদ্ধতার অধীনে ডেটা তৈরি প্রক্রিয়ার জন্য নির্দিষ্ট গুণমান ব্যবস্থাপনা সুপারিশ প্রস্তাব করা
- মূল্যায়ন কাঠামো তৈরি করা: স্বয়ংক্রিয় মেট্রিক্স এবং ব্যবহারকারী গবেষণার মাধ্যমে টীকাকারকারী অভিজ্ঞতা এবং ডেটা গুণমান ব্যাপকভাবে মূল্যায়ন করা
বহু-পর্যায়ের RAG কথোপকথন তৈরি নিম্নলিখিত মূল পদক্ষেপ অন্তর্ভুক্ত করে:
- প্রশ্ন তৈরি করা: টীকাকারকারীরা কর্পাসের সাথে সম্পর্কিত প্রশ্ন উত্থাপন করে
- প্রাসঙ্গিক অনুচ্ছেদ পুনরুদ্ধার করা: সিস্টেম স্বয়ংক্রিয়ভাবে প্রাসঙ্গিক নথির অনুচ্ছেদ পুনরুদ্ধার করে
- অনুচ্ছেদ পর্যালোচনা এবং টীকাকরণ করা: টীকাকারকারীরা অনুচ্ছেদের প্রাসঙ্গিকতা মূল্যায়ন করে, প্রয়োজনে পুনরায় অনুসন্ধান করে
- AI প্রতিক্রিয়া সম্পাদনা করা: নির্ভুলতা এবং সম্পূর্ণতা নিশ্চিত করতে জেনারেটর আউটপুট সংশোধন করা
- লেবেল যোগ করা: প্রতিটি কথোপকথন পর্যায়ে মেটাডেটা লেবেল যোগ করা
- অভ্যন্তরীণ টীকাকারকারী (৭ জন): গবেষণা দলের সাথে একই সংস্থায়, সরাসরি যোগাযোগ প্রতিক্রিয়া লুপ, ঘণ্টায় অর্থপ্রদান
- বাহ্যিক টীকাকারকারী (৪০ জন): বাহ্যিক টীকাকরণ সেবার মাধ্যমে নিয়োগ, পরোক্ষ যোগাযোগ প্রতিক্রিয়া লুপ, গৃহীত কথোপকথনের জন্য অর্থপ্রদান
| মাত্রা | অভ্যন্তরীণ টীকাকারকারী | বাহ্যিক টীকাকারকারী |
|---|
| যোগাযোগ পদ্ধতি | সরাসরি (ইমেল, Slack, ভিডিও সম্মেলন) | পরোক্ষ (মধ্যস্থতাকারীর মাধ্যমে) |
| প্রতিক্রিয়া ফ্রিকোয়েন্সি | রিয়েল-টাইম, ব্যক্তিগতকৃত | ব্যাচ, বিলম্বিত |
| প্রশিক্ষণ উপকরণ | স্লাইড + সরাসরি নির্দেশনা | ব্যাপক ভিডিও টিউটোরিয়াল |
| অর্থপ্রদানের পদ্ধতি | প্রতি ঘণ্টায় | গৃহীত কথোপকথন প্রতি |
নিম্নলিখিত কার্যকারিতা সহ বিশেষভাবে ডিজাইন করা টীকাকরণ সরঞ্জাম ব্যবহার করা হয়েছে:
- রিয়েল-টাইম পুনরুদ্ধার এবং প্রজন্ম
- অনুচ্ছেদ প্রাসঙ্গিকতা টীকাকরণ
- প্রতিক্রিয়া সম্পাদনা এবং পার্থক্য ভিজ্যুয়ালাইজেশন
- পুনরায় অনুসন্ধান সরঞ্জাম
- গুণমান প্রম্পট এবং চেকলিস্ট
- গড় পর্যায় সংখ্যা: কথোপকথনের দৈর্ঘ্য, পরবর্তী পর্যায়গুলি সাধারণত আরও চ্যালেঞ্জিং
- গড় সম্পাদনা সংখ্যা: টীকাকারকারী দ্বারা সংশোধিত পর্যায়ের সংখ্যা, জটিলতা প্রতিফলিত করে
- গড় অনুসন্ধান সংখ্যা: প্রাথমিক প্রশ্ন এবং পুনরায় অনুসন্ধান সহ
- গড় অনন্য অনুচ্ছেদ সংখ্যা: অনুচ্ছেদ বৈচিত্র্য পরিমাপ করা
- গ্রহণ/প্রত্যাখ্যান হার: মানব পর্যালোচনার মাধ্যমে কথোপকথন গুণমান নির্ধারণ
- স্বয়ংক্রিয় মন্তব্য: সিস্টেম-উত্পন্ন গুণমান প্রতিক্রিয়া
- ব্যবহারকারী গবেষণা: টীকাকারকারীর বিষয়গত অভিজ্ঞতা সংগ্রহ করা
গবেষণা তিনটি পর্যায়ে বিভক্ত, প্রায় এক বছর স্থায়ী (২০২৪ সালের মে - ২০২৫ সালের মে):
- পাইলট পর্যায়: ছোট-আকারের পরীক্ষা, কাজ এবং নির্দেশনা ক্যালিব্রেশন
- তৈরি পর্যায়: বড় আকারের কথোপকথন তৈরি, পাইলট প্রতিক্রিয়ার উপর ভিত্তি করে উন্নতি
- পর্যালোচনা পর্যায়: গুণমান পর্যালোচনা এবং উন্নতি
- অভ্যন্তরীণ টীকাকারকারী: প্রায় ১,৫০০ কথোপকথন
- বাহ্যিক টীকাকারকারী: প্রায় ৫,০০০ কথোপকথন
- বিশ্লেষণ সাবসেট: পাইলট পর্যায় ৮৬টি, তৈরি পর্যায় ৬১৮টি, পর্যালোচনা পর্যায় ৪২৪টি
| মেট্রিক | অভ্যন্তরীণ টীকাকারকারী | বাহ্যিক টীকাকারকারী |
|---|
| গড় পর্যায় সংখ্যা | ৭.৬ | ৪.২ |
| গড় সম্পাদনা সংখ্যা | ৭.০ | ৩.০ |
| গড় অনুসন্ধান সংখ্যা | ১২.৭ | ৬.२ |
| গড় অনন্য অনুচ্ছেদ সংখ্যা | ১७.१ | ७.३ |
| গ্রহণের হার | ৮৭% | ৬৯% |
- তৈরির সময়: অভ্যন্তরীণ টীকাকারকারী ৬০-৭৫ মিনিট/কথোপকথন, বাহ্যিক টীকাকারকারী ৩০-৪৫ মিনিট/কথোপকথন
- অনুচ্ছেদ পড়ার পরিমাণ: অভ্যন্তরীণ টীকাকারকারী গড়ে আরও অনুচ্ছেদ পড়ে (৬-१२টি/পর্যায়)
- কাজের বোঝাপড়া: অভ্যন্তরীণ টীকাকারকারীরা ১০০% সঠিক অপারেশন ক্রম রিপোর্ট করে, বাহ্যিক টীকাকারকারীদের মধ্যে ভুল বোঝাপড়া রয়েছে
অভ্যন্তরীণ এবং বাহ্যিক টীকাকারকারীরা সরঞ্জাম কার্যকারিতার গুরুত্ব সম্পর্কে উল্লেখযোগ্য পার্থক্য উপলব্ধি করে:
- প্রম্পট বৈশিষ্ট্য: সর্ববৃহৎ পার্থক্য (μ পার্থক্য=१.४१), অভ্যন্তরীণ টীকাকারকারীরা আরও গুরুত্বপূর্ণ মনে করে
- পুনরায় অনুসন্ধান সরঞ্জাম: অভ্যন্তরীণ টীকাকারকারীরা উচ্চতর মূল্যায়ন করে (μ পার্থক্য=०.७८)
- অনুচ্ছেদ চিহ্নিতকরণ বৈশিষ্ট্য: অভ্যন্তরীণ টীকাকারকারীরা আরও মূল্য দেয় (μ পার্থক্য=०.७८)
- প্রতিক্রিয়া সম্পাদনা: উভয় দল একই রকম মূল্যায়ন করে (μ পার্থক্য=०.०४)
LLM দ্বারা উত্পন্ন সংশ্লেষিত কথোপকথন বৈচিত্র্য এবং জটিলতার ক্ষেত্রে মানব-নির্মিত কথোপকথনের চেয়ে নিম্নতর:
- গ্রহণের হার: ৭२% (দুটি মানব টীকাকারকারী দলের মধ্যে মধ্যবর্তী)
- অনুচ্ছেদ বৈচিত্র্য স্পষ্টভাবে অপর্যাপ্ত
- মানব সম্পাদনা এবং পুনরায় অনুসন্ধান প্রক্রিয়ার অভাব
- বেঞ্চমার্ক ডেটাসেট: RAD-Bench, RAGBench, RGB, MTRAG ইত্যাদি
- ডেটা প্রজন্ম পদ্ধতি: সংশ্লেষিত প্রজন্ম বনাম মানব টীকাকরণের গুণমান ট্রেড-অফ
- জটিলতার প্রয়োজনীয়তা: বহু-পর্যায়ের কথোপকথনের জ্ঞানীয় বোঝা এবং গুণমানের প্রয়োজনীয়তা
- টীকাকারকারীর ধরন: বিশেষজ্ঞ বনাম ভিড়-সোর্সড কর্মীদের গুণমানের পার্থক্য
- কাজের জটিলতা: মাইক্রো-কাজ বনাম ম্যাক্রো-কাজের বিভিন্ন ব্যবস্থাপনা কৌশল
- গুণমান নিশ্চিতকরণ: ফিল্টারিং কৌশল, বহু-পর্যায়ের প্রক্রিয়া, বিশেষজ্ঞ পর্যালোচনা
- প্রতিক্রিয়া প্রক্রিয়া: সরাসরি বনাম পরোক্ষ যোগাযোগ কাজের গুণমানের উপর প্রভাব
- সহযোগিতা সরঞ্জাম: জটিল টীকাকরণ কাজ সমর্থন করার জন্য ইন্টারফেস ডিজাইন
- প্রশিক্ষণ উপকরণ: বিভিন্ন যোগাযোগ কাঠামোর অধীনে প্রশিক্ষণ কৌশল
- প্রতিক্রিয়া লুপের প্রভাব উল্লেখযোগ্য: সরাসরি প্রতিক্রিয়া লুপ ডেটা গুণমান উল্লেখযোগ্যভাবে উন্নত করে, কিন্তু আউটপুট পরিমাণ হ্রাস করে
- পরিপূরক সুবিধা: অভ্যন্তরীণ টীকাকারকারীরা গুণমানে পারদর্শী, বাহ্যিক টীকাকারকারীরা পরিমাণ এবং বৈচিত্র্যে পারদর্শী
- সরঞ্জাম ডিজাইন গুরুত্বপূর্ণ: প্রম্পট এবং স্বয়ংক্রিয় প্রতিক্রিয়া যোগাযোগ সীমাবদ্ধতা আংশিকভাবে পূরণ করতে পারে
- পর্যায়-ভিত্তিক কৌশল কার্যকর: তৈরি-পর্যালোচনা দুই-পর্যায়ের প্রবাহ গুণমান এবং দক্ষতার ভারসাম্য রাখতে পারে
- অভ্যন্তরীণ টীকাকারকারী ব্যবহার করুন নির্দেশনা উপকরণ দ্রুত পরিমার্জনের জন্য
- বাহ্যিক টীকাকারকারীদের দিন লক্ষ্যবস্তু, কম জটিলতার উপ-কাজ
- দুই-পর্যায়ের প্রবাহ: বাহ্যিক তৈরি + অভ্যন্তরীণ পর্যালোচনা
- স্বয়ংক্রিয় প্রম্পট: সরাসরি প্রতিক্রিয়ার অভাব পূরণ করা
- সূক্ষ্ম-দানাদার মন্তব্য: নির্দিষ্ট উন্নতি পরামর্শ সমর্থন করা
- গুণমান পরীক্ষা: রপ্তানির আগে স্বয়ংক্রিয় যাচাইকরণ
- সরাসরি প্রতিক্রিয়া ব্যবহার করুন প্রশিক্ষণ সামগ্রী উন্নত করতে
- ভিডিও টিউটোরিয়াল: পরোক্ষ যোগাযোগ চাহিদা মিটাতে
- পুনরাবৃত্তিমূলক উন্নতি: সাধারণ প্রশ্নের উপর ভিত্তি করে উপকরণ আপডেট করা
- নমুনা আকার: অভ্যন্তরীণ টীকাকারকারীর সংখ্যা কম, পরিসংখ্যানগত বিশ্লেষণ সীমিত
- প্রণোদনা প্রক্রিয়া: বিভিন্ন অর্থপ্রদান পদ্ধতি কাজের গুণমান প্রভাবিত করতে পারে
- ডোমেইন-নির্দিষ্টতা: সিদ্ধান্ত সমস্ত জটিল টীকাকরণ কাজের জন্য প্রযোজ্য নাও হতে পারে
- সময়ের কারণ: শেখার বক্ররেখা এবং অভিজ্ঞতা সঞ্চয়ের প্রভাব সম্পূর্ণভাবে বিবেচনা করা হয়নি
- গবেষণা স্কেল সম্প্রসারণ করুন: আরও টীকাকারকারী এবং কাজের ধরন
- প্রণোদনা প্রক্রিয়া গবেষণা: অর্থপ্রদান পদ্ধতির গুণমানের উপর নির্দিষ্ট প্রভাব
- স্বয়ংক্রিয় সহায়তা: AI-সহায়ক টীকাকরণের কার্যকারিতা মূল্যায়ন
- ক্রস-ডোমেইন যাচাইকরণ: অন্যান্য জটিল কাজে অনুসন্ধান যাচাই করা
- উচ্চ ব্যবহারিক মূল্য: বাস্তব-বিশ্বের টীকাকরণ প্রকল্পের মূল সমস্যা সমাধান করা
- কঠোর পদ্ধতি: দীর্ঘমেয়াদী গবেষণা ডিজাইন, বহু-মাত্রিক মূল্যায়ন
- অর্থপূর্ণ আবিষ্কার: প্রতিক্রিয়া লুপের জটিল কাজের উপর গুরুত্বপূর্ণ প্রভাব প্রকাশ করা
- শক্তিশালী নির্দেশনা: নির্দিষ্ট, কার্যকর সুপারিশ প্রদান করা
- নিয়ন্ত্রণ পরিবর্তনশীল অপর্যাপ্ত: প্রতিক্রিয়া লুপ এবং অন্যান্য কারণের প্রভাব সম্পূর্ণভাবে আলাদা করতে অক্ষম
- সাধারণীকরণ সীমাবদ্ধতা: গবেষণা RAG কাজে কেন্দ্রীভূত, অন্যান্য ক্ষেত্রে প্রযোজ্যতা অজানা
- পরিমাণগত বিশ্লেষণ সীমিত: অভ্যন্তরীণ টীকাকারকারী নমুনা ছোট, পরিসংখ্যানগত পরীক্ষার শক্তি সীমিত
- দীর্ঘমেয়াদী প্রভাব অজানা: দীর্ঘ সময়ের পর্যবেক্ষণের অভাব
- একাডেমিক অবদান: HCI এবং NLP ক্রস-ডিসিপ্লিনারি ক্ষেত্রে নতুন দৃষ্টিভঙ্গি প্রদান করা
- ব্যবহারিক নির্দেশনা: এন্টারপ্রাইজ-স্তরের টীকাকরণ প্রকল্পের জন্য রেফারেন্স ফ্রেমওয়ার্ক প্রদান করা
- পদ্ধতি উদ্ভাবন: জটিল কাজ টীকাকরণের পদ্ধতিগত গবেষণা পদ্ধতি প্রদর্শন করা
- সরঞ্জাম মূল্য: RAGAPHENE সরঞ্জাম প্রচার প্রয়োগের সম্ভাবনা রয়েছে
- এন্টারপ্রাইজ-স্তরের টীকাকরণ প্রকল্প: গুণমান এবং দক্ষতার ভারসাম্য প্রয়োজন এমন বড় আকারের ডেটা তৈরি
- জটিল NLP কাজ: বহু-পদক্ষেপ, উচ্চ জ্ঞানীয় বোঝা সহ টীকাকরণ কাজ প্রয়োজন
- মিশ্র টীকাকারকারী দল: অভ্যন্তরীণ এবং বাহ্যিক টীকাকরণ সম্পদ একসাথে ব্যবহার করা প্রকল্প
- গুণমান-সংবেদনশীল অ্যাপ্লিকেশন: ডেটা গুণমানের প্রতি অত্যন্ত দাবিদার AI সিস্টেম উন্নয়ন
পেপারটি ৮२টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা RAG সিস্টেম, ডেটা টীকাকরণ গুণমান, সরঞ্জাম ডিজাইন এবং যোগাযোগ কাঠামো সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, যা গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সারসংক্ষেপ: এটি একটি গুরুত্বপূর্ণ ব্যবহারিক মূল্যের HCI গবেষণা, যা কঠোর দীর্ঘমেয়াদী গবেষণা ডিজাইনের মাধ্যমে, প্রতিক্রিয়া লুপ কাঠামো জটিল টীকাকরণ কাজের গুণমানের উপর উল্লেখযোগ্য প্রভাব প্রকাশ করে, একাডেমিক এবং শিল্প উভয় ক্ষেত্রের জন্য মূল্যবান অন্তর্দৃষ্টি এবং নির্দেশনা প্রদান করে।