Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
- পেপার আইডি: 2511.21401
- শিরোনাম: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
- লেখক: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (ব্রনো প্রযুক্তি বিশ্ববিদ্যালয়, চেক প্রজাতন্ত্র)
- শ্রেণীবিভাগ: cs.CL (গণনামূলক ভাষাবিজ্ঞান)
- প্রকাশনার সময়: ২০২৫ সালের ২৬ নভেম্বর (arXiv প্রাক-মুদ্রণ)
- পেপার লিঙ্ক: https://arxiv.org/abs/2511.21401
এই গবেষণাপত্রটি বৃহৎ ভাষা মডেল (LLM) গুলির তথ্য যাচাইয়ের পরিস্থিতিতে সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশনের ক্ষমতা অধ্যয়ন করে, বিশেষত চেক এবং স্লোভাক ভাষায়। গবেষণাটি ১৮৬টি নমুনা সহ একটি দ্বৈত-মন্তব্যকৃত ডেটাসেট তৈরি করেছে, যেখানে প্রতিটি নমুনা দুজন স্বাধীন মন্তব্যকারী দ্বারা সূক্ষ্ম-দানাদার প্রমাণ দিয়ে মন্তব্য করা হয়েছে। ১৭টি বিভিন্ন আকারের LLM (৪B থেকে ৬৮৫B প্যারামিটার) মূল্যায়ন করা হয়েছে এবং নিম্নলিখিত আবিষ্কার করা হয়েছে: (১) LLM গুলি প্রায়শই উৎস পাঠ্য থেকে প্রমাণ শব্দে শব্দে অনুলিপি করতে ব্যর্থ হয়, যা অবৈধ আউটপুট তৈরি করে; (২) llama3.1:8b মডেল ছোট আকার সত্ত্বেও উচ্চ নির্ভুলতা রয়েছে, যখন gpt-oss-120b অনেক প্যারামিটার থাকা সত্ত্বেও দুর্বল পারফরম্যান্স করে; (৩) qwen3:14b, deepseek-r1:32b এবং gpt-oss:20b মডেল আকার এবং মানব মন্তব্যের সারিবদ্ধতার মধ্যে কার্যকর ভারসাম্য অর্জন করে।
অনলাইন সংবাদ নিবন্ধের মন্তব্য বিভাগ মিথ্যা তথ্য প্রচারের একটি গুরুত্বপূর্ণ স্থান। অনলাইন আলোচনা কার্যকরভাবে পরিচালনা করতে এবং মিথ্যা তথ্যের বিরুদ্ধে লড়াই করতে, স্বয়ংক্রিয় সিস্টেমগুলির প্রয়োজন যা:
- ব্যবহারকারীর মন্তব্য থেকে যাচাইযোগ্য দাবি নিষ্কাশন করতে পারে
- প্রাসঙ্গিক বিশ্বস্ত নথি পুনরুদ্ধার করতে পারে
- নথিতে দাবি সমর্থন বা খণ্ডন করে এমন পাঠ্য অংশগুলি সঠিকভাবে সনাক্ত করতে পারে (সূক্ষ্ম-দানাদার প্রমাণ)
এই পেপারটি শেষ কাজটিতে ফোকাস করে — সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন।
- ব্যবহারকারীর চাহিদা: ৩/৪ এর বেশি ব্যবহারকারী মন্তব্য বিভাগে আলোচনায় বিশেষজ্ঞ প্রতিক্রিয়া চান, কিন্তু ম্যানুয়াল প্রতিক্রিয়া অব্যবহারিক
- দক্ষতা এবং প্ররোচনা: সম্পূর্ণ নথি প্রমাণ হিসাবে প্রদান করা খুব অপরিশোধিত, যখন সূক্ষ্ম-দানাদার পাঠ্য অংশগুলি পাঠকদের দ্রুত মূল্যায়ন করতে এবং বিচার নির্ভুলতা হ্রাস না করে সক্ষম করে
- প্ল্যাটফর্ম অনুশীলন: X প্ল্যাটফর্ম (পূর্ববর্তী Twitter) "সম্প্রদায়ের নোট" ব্যবহার করে, Seznam.cz নির্বাচিত মন্তব্যের জন্য তথ্য যাচাইকরণ তথ্য যোগ করে
- মোটা-দানাদার প্রমাণ: বিদ্যমান স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম (যেমন FactLens, Loki) শুধুমাত্র অনুচ্ছেদ-স্তরের প্রমাণ প্রদান করে
- ডেটাসেট অনুপস্থিতি: FEVER এবং SciFact বাক্য-স্তরের প্রমাণ প্রদান করে, কিন্তু চেক/স্লোভাক ভাষার জন্য কোন ডেটাসেট নেই, এবং বিদ্যমান ডেটাসেটগুলির সবচেয়ে সূক্ষ্ম দানাদারিত্ব শুধুমাত্র বাক্য-স্তর, স্প্যান (span) স্তর নয়
- LLM ক্ষমতা অজানা: যদিও LLM যুক্তি ক্ষমতা ক্রমাগত উন্নত হচ্ছে, সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন কাজে মানব মন্তব্যের সাথে এর সারিবদ্ধতার মাত্রা এখনও পদ্ধতিগতভাবে মূল্যায়ন করা হয়নি
LLM গুলি মানুষের মতো সূক্ষ্ম-দানাদার প্রমাণ সনাক্ত এবং নিষ্কাশন করতে পারে কিনা তা যাচাই করা, স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম তৈরির জন্য প্রযুক্তিগত ভিত্তি প্রদান করা।
১. নতুন ডেটাসেট নির্মাণ: ১৮৬টি চেক/স্লোভাক দাবি-পাঠ্য জোড়া সহ একটি ডেটাসেট তৈরি করা, যেখানে প্রতিটি নমুনা দুজন স্বাধীন মন্তব্যকারী দ্বারা সূক্ষ্ম-দানাদার প্রমাণ দিয়ে মন্তব্য করা হয়েছে, যা এই ভাষা জোড়া এবং স্প্যান-স্তরের মন্তব্যের ফাঁক পূরণ করে
२. LLM এর সিস্টেমেটিক মূল্যায়ন: ১৭টি বিভিন্ন আকারের LLM মূল্যায়ন করা (৬৮৫B DeepSeek-R1, ১२०B gpt-oss ইত্যাদি যুক্তি মডেল সহ, এবং Gemma-3, Phi4 ইত্যাদি খোলা ওজনের মডেল সহ) সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন কাজে
३. ত্রুটির হার এবং সারিবদ্ধতা বিশ্লেষণ:
- LLM অবৈধ আউটপুট তৈরি করার ত্রুটির হার বিশ্লেষণ করা
- হাঙ্গেরিয়ান ম্যাচিং অ্যালগরিদম এবং Token-F1 ব্যবহার করে মানব মন্তব্যের সাথে সারিবদ্ধতা মূল্যায়ন করা
- মডেল আকার এবং কর্মক্ষমতার মধ্যে অ-রৈখিক সম্পর্ক আবিষ্কার করা
४. সর্বোত্তম মডেল সনাক্তকরণ: মধ্যম আকারের মডেলগুলি (१४B-३२B) দক্ষতা এবং নির্ভুলতার মধ্যে সেরা ভারসাম্য অর্জন করে তা আবিষ্কার করা
সমস্যা বিবৃতি: একটি দাবি এবং একটি টোকেনাইজড পাঠ্য t = (t₁, t₂, ..., tₙ) দেওয়া হলে, স্প্যান সেটের একটি সংগ্রহ S = {s₁, s₂, ..., sₘ} নির্বাচন করুন, যেখানে প্রতিটি স্প্যান sₘ = (tᵢ, ..., tⱼ) (i ≤ j) সেই দাবি সমর্থন করে এমন একটি ক্রমাগত উপক্রম প্রতিনিধিত্ব করে।
মূল সীমাবদ্ধতা:
- স্প্যান অবশ্যই পাঠ্যে একটি ক্রমাগত উপক্রম হতে হবে
- সর্বনিম্ন পাঠ্য অংশ নির্বাচন করুন
- একাধিক স্প্যান নির্বাচন করা যেতে পারে
- স্প্যান সরাসরি দাবির সত্যতা সমর্থন করা উচিত
१. নমুনা সংগ্রহ: १८६টি দাবি-পাঠ্য জোড়া
२. মন্তব্যকারীর পুল: ८ জন অ-বিশেষজ্ঞ পেইড মন্তব্যকারী
३. স্বাধীন মন্তব্য: প্রতিটি নমুনা দুজন ভিন্ন মন্তব্যকারী দ্বারা স্বাধীনভাবে মন্তব্য করা হয়েছে
४. মন্তব্য সরঞ্জাম:
- প্রথম মন্তব্য: কাস্টম মন্তব্য সরঞ্জাম
- দ্বিতীয় মন্তব্য: Label Studio
५. মন্তব্য নির্দেশিকা:
"দাবি সমর্থন বা খণ্ডন করে এমন সর্বনিম্ন পাঠ্য অংশ হাইলাইট করুন। যে অংশটি আপনাকে বিবৃতিটি সত্য হওয়ার বিষয়ে সবচেয়ে বেশি প্ররোচিত করে তা হাইলাইট করুন।"
- মানব মন্তব্যকারীরা সরাসরি পাঠ্য হাইলাইট করে, নিশ্চিত করে যে নির্বাচিত অংশ উৎস পাঠ্যে ক্রমাগত স্প্যান
- LLM গুলিকে স্প্যান পাঠ্য পুনরায় তৈরি করতে হবে, যা উৎস পাঠ্যে অনুপস্থিত আউটপুট তৈরি করতে পারে
তিনটি শ্রেণীর মডেল মূল্যায়ন করা হয়েছে:
१. মান LLM (९টি):
- qwen2.5 (72B, 32B)
- llama3.3 (70B)
- llama3.1 (8B)
- gemma2 (27B)
- gemma3 (27B, 12B, 4B)
- phi4 (14B)
- mixtral (8×7B)
२. চিন্তার শৃঙ্খল (CoT) যুক্তি মডেল (८টি):
- deepseek-r1 (685B, 32B)
- gpt-oss (120B, 20B)
- qwen3 (32B, 14B)
LLM নিম্নলিখিত ইনপুট পায়:
- মূল মন্তব্য (প্রসঙ্গ প্রদান করে)
- নিষ্কাশিত দাবি
- যে পাঠ্য থেকে প্রমাণ নিষ্কাশন করতে হবে
মূল নির্দেশনা:
१. দাবি সরাসরি সমর্থন করে এমন সর্বনিম্ন পাঠ্য অংশ সনাক্ত করুন
२. দাবির সত্যতা প্রমাণ করে এমন সবচেয়ে ভাল বাক্যাংশ নির্বাচন করুন
३. সম্পূর্ণ বাক্য নির্বাচন এড়িয়ে চলুন, যদি না সম্পূর্ণভাবে প্রয়োজনীয়
४. একাধিক স্প্যান নির্বাচন করা যেতে পারে
५. পাঠ্য সংশোধন, সংশোধন বা পুনর্লিখন করবেন না, সমস্ত ব্যাকরণ এবং বাক্য গঠনগত ত্রুটি সংরক্ষণ করুন
६. JSON ফর্ম্যাটে আউটপুট: {"spans": [...]}
७. প্রতিটি স্প্যান অবশ্যই উৎস পাঠ্যের একটি সঠিক উপস্ট্রিং হতে হবে (অক্ষর-দ্বারা-অক্ষর সম্পূর্ণ অনুরূপ)
१. দাবি বেসলাইন:
- দাবি টোকেনাইজ করুন c = (c₁, c₂, ..., cₒ)
- পাঠ্যে দাবিতে শব্দ ক্রম ম্যাচ করুন
- স্প্যান সেট Sᴄ তৈরি করুন
२. Query বেসলাইন:
- মন্তব্যকারীরা প্রমাণ অনুসন্ধান করার সময় ব্যবহার করা প্রশ্ন শব্দ ব্যবহার করুন
- দাবি বেসলাইনের মতো একই ম্যাচিং পদ্ধতি
३. Random বেসলাইন:
- ক্রমাগত স্প্যান র্যান্ডমলি নমুনা করুন
- স্প্যান সংখ্যা এবং দৈর্ঘ্য র্যান্ডমলি নির্বাচিত মন্তব্যকারীর সাথে মেলে
সমস্ত প্রমাণ সেট থেকে স্টপওয়ার্ড সরান (পরিশিষ্ট A দেখুন, চেক/স্লোভাক সাধারণ স্টপওয়ার্ড যেমন "a", "je", "to" ইত্যাদি অন্তর্ভুক্ত)
१. স্প্যান জোড়া F1: দুটি মন্তব্য সেটে সমস্ত সম্ভাব্য স্প্যান জোড়ার টোকেন-স্তরের F1 স্কোর গণনা করুন
२. হাঙ্গেরিয়ান ম্যাচিং: সর্বোত্তম বরাদ্দ খুঁজে পেতে হাঙ্গেরিয়ান অ্যালগরিদম ব্যবহার করুন, মোট F1 সর্বাধিক করুন
३. চূড়ান্ত স্কোর: সর্বোত্তম ম্যাচিংয়ের গড় F1 একটি ডেটা পয়েন্টের টোকেন-স্তরের F1 হিসাবে
কারণ: মন্তব্যকারী এবং LLM বিভিন্ন সংখ্যক স্প্যান নির্বাচন করতে পারে (বিস্তারিত মাত্রা ভিন্ন), হাঙ্গেরিয়ান অ্যালগরিদম এই পার্থক্যের জন্য শাস্তি দেওয়া এড়ায়।
- ত্রুটির হার: অবৈধ আউটপুটের অনুপাত (উৎস পাঠ্যে নেই এমন স্প্যান তৈরি করা)
- Token-F1: মানব মন্তব্যের সাথে সারিবদ্ধতার মাত্রা
- মানব মধ্যে সামঞ্জস্য: দুজন মন্তব্যকারীর মধ্যে F1 স্কোর
- আকার: १८६টি নমুনা
- ভাষা: চেক এবং স্লোভাক
- মন্তব্য: প্রতিটি নমুনা २টি স্বাধীন মন্তব্য
- উৎস: অনলাইন সংবাদ মন্তব্যে যাচাইযোগ্য দাবি
- নথি: মন্তব্যকারীরা সার্চ ইঞ্জিন ব্যবহার করে খুঁজে পাওয়া অত্যন্ত প্রাসঙ্গিক নথি
- Invalid %: অবৈধ আউটপুট শতাংশ (উৎস পাঠ্যে নেই এমন স্প্যান তৈরি করা)
- Token-F1: হাঙ্গেরিয়ান ম্যাচিংয়ের উপর ভিত্তি করে টোকেন-স্তরের F1 স্কোর (০-१००স্কেল)
- Max F1: দুজন মন্তব্যকারীর মধ্যে উচ্চতর F1 স্কোর (কমপক্ষে একজন মন্তব্যকারীর সাথে সারিবদ্ধতা প্রতিফলিত করে)
- মানব মন্তব্য: ann 1 (LS) এবং ann 2
- १७টি LLM: বিভিন্ন আকার এবং আর্কিটেকচার
- ३টি বেসলাইন: random, claim, query
- একই প্রম্পট টেমপ্লেট ব্যবহার করুন (পরিশিষ্ট B দেখুন)
- JSON ফর্ম্যাট আউটপুট
- প্রযুক্তিগত সীমাবদ্ধতা জোরপূর্বক নয় (ত্রুটি পর্যবেক্ষণ করতে উৎস পাঠ্যে নেই এমন স্প্যান তৈরি করার অনুমতি)
- স্টপওয়ার্ড সরানোর পরে F1 গণনা করুন
সর্বনিম্ন ত্রুটির হার:
- qwen2.5:72b: ४.३% (সেরা, ७२B প্যারামিটার)
- deepseek-r1: ७.०% (६८५B প্যারামিটার)
- llama3.1:8b: १३.४% (শুধুমাত্র ८B প্যারামিটার, চমৎকার পারফরম্যান্স)
সর্বোচ্চ ত্রুটির হার:
- mixtral:8x7b: ६१.८% (সবচেয়ে খারাপ, ७B কার্যকর প্যারামিটার)
- gemma3:4b: ५७.५% (४B প্যারামিটার)
- qwen3:14b: ४०.३%
অস্বাভাবিক ক্ষেত্র:
- gpt-oss-120b: ३२.८% (१२०B প্যারামিটার কিন্তু উচ্চ ত্রুটির হার, প্রত্যাশা পূরণ করেনি)
- llama3.3:70b: २७.४% (७०B প্যারামিটার কিন্তু তুলনামূলকভাবে উচ্চ ত্রুটির হার)
সামগ্রিক প্রবণতা: মডেল আকার যত বড়, ত্রুটির হার সাধারণত তত কম, তবে উল্লেখযোগ্য ব্যতিক্রম রয়েছে।
মানব মধ্যে সামঞ্জস্য:
- ann 1 (LS) বনাম ann 2: F1 = ४८
সেরা LLM পারফরম্যান্স (ann 1 (LS) এর সাথে):
- qwen3:14b: F1 = ५६ (মানব সামঞ্জস্য অতিক্রম করে)
- deepseek-r1:32b: F1 = ५५ (মানব সামঞ্জস্য অতিক্রম করে)
- deepseek-r1 (685B): F1 = ३८
- qwen2.5:72b: F1 = ४३
ann २ এর সাথে সারিবদ্ধতা:
- সমস্ত LLM এর ann २ এর সাথে F1 স্কোর ann १ (LS) এর সাথে F1 স্কোরের চেয়ে কম
- দুটি মন্তব্য পরিবেশ বিভিন্ন মন্তব্য শৈলী তৈরি করেছে তা নির্দেশ করে
বেসলাইন পারফরম্যান্স:
- দাবি বেসলাইন: F1 = १७ (নির্ভুলতা প্রায় ३०, স্মরণ খুব কম)
- query বেসলাইন: F1 = १२
- random বেসলাইন: F1 = १०
সমস্ত অ-নিউরাল বেসলাইন পদ্ধতি দুর্বল পারফরম্যান্স করে (F1 < १८)।
মূল আবিষ্কার:
- ছোট থেকে মধ্যম আকার: আকারের সাথে কর্মক্ষমতা বৃদ্ধি পায়
- অতি-বড় আকার: ६८५B deepseek-r1 এবং १२०B gpt-oss আরও উন্নতি আনেনি
- সর্বোত্তম ভারসাম্য পয়েন্ট:
- qwen3:14b: Max F1 ≈ ०.५६
- deepseek-r1:32b: Max F1 ≈ ०.५५
- gpt-oss:20b: Max F1 ≈ ०.४५
উপসংহার: একটি নির্দিষ্ট থ্রেশহোল্ডের বাইরে, শুধুমাত্র প্যারামিটার পরিমাণ বৃদ্ধি নিষ্কাশন কর্মক্ষমতা উন্নত করে না।
যদিও পেপারটি ঐতিহ্যবাহী অ্যাবলেশন পরীক্ষা পরিচালনা করেনি, বিভিন্ন মডেলের তুলনার মাধ্যমে নিম্নলিখিত বিশ্লেষণ নিহিত:
মডেল আর্কিটেকচারের প্রভাব:
- যুক্তি মডেল (CoT) ধারাবাহিকভাবে মান মডেলের চেয়ে ভাল নয়
- deepseek-r1:32b চমৎকার পারফরম্যান্স করে, কিন্তু deepseek-r1 (685B) আরও ভাল নয়
মডেল আকারের প্রভাব:
- ८B llama3.1 অনেক বড় মডেলের চেয়ে ভাল পারফরম্যান্স করে
- মডেল গুণমান এবং প্রশিক্ষণ ডেটা বিশুদ্ধ আকারের চেয়ে বেশি গুরুত্বপূর্ণ তা নির্দেশ করে
মন্তব্য সরঞ্জামের প্রভাব:
- Label Studio মন্তব্য (ann १) কাস্টম সরঞ্জাম মন্তব্যের (ann २) সাথে সিস্টেমেটিক পার্থক্য রয়েছে
- সমস্ত LLM Label Studio মন্তব্যের কাছাকাছি
পেপারটি নির্দিষ্ট কেস প্রদান করেনি, তবে পদ্ধতি বর্ণনা থেকে অনুমান করা যায়:
মানব মন্তব্য উদাহরণ:
- ইন্টারফেসে সরাসরি সর্বনিম্ন প্রাসঙ্গিক পাঠ্য অংশ হাইলাইট করুন
- ব্যাকরণগত ত্রুটি সহ মূল পাঠ্য অন্তর্ভুক্ত করতে পারে
LLM আউটপুট উদাহরণ (অনুমান):
- সঠিক ক্ষেত্র: উৎস পাঠ্য অংশ সঠিকভাবে অনুলিপি করুন
- ত্রুটি ক্ষেত্র: পুনর্লিখন, ব্যাকরণ সংশোধন, বা অ-বিদ্যমান পাঠ্য তৈরি করুন
१. মডেল আকার অ-একঘেয়ে সম্পর্ক: মধ্যম আকারের মডেল অতি-বড় মডেলের চেয়ে ভাল হতে পারে
२. নির্দেশনা মেনে চলার ক্ষমতা পার্থক্য: অনেক LLM "শব্দে শব্দে অনুলিপি" নির্দেশনা কঠোরভাবে মেনে চলতে ব্যর্থ
३. মন্তব্য পরিবেশ প্রভাব: বিভিন্ন মন্তব্য সরঞ্জাম বিভিন্ন দানাদারিত্বের মন্তব্য তৈরি করে
४. বেসলাইন পদ্ধতি সীমাবদ্ধতা: সহজ শব্দ ম্যাচিং পদ্ধতি নির্ভুলতা যুক্তিসঙ্গত কিন্তু স্মরণ অত্যন্ত কম
५. ক্রস-ভাষা ক্ষমতা: LLM চেক/স্লোভাক ভাষায় যুক্তিসঙ্গত পারফরম্যান্স করে, এর বহুভাষিক ক্ষমতা প্রমাণ করে
६. ত্রুটির হার এবং সারিবদ্ধতা সম্পূর্ণভাবে সম্পর্কিত নয়: কম ত্রুটির হার উচ্চ F1 অর্থ করে না (যেমন qwen2.5:72b)
FactLens:
- জটিল দাবি উপ-দাবিতে বিভক্ত করুন
- প্রতিটি উপ-দাবির সত্যতা স্বাধীনভাবে মূল্যায়ন করুন
- সীমাবদ্ধতা: শুধুমাত্র অনুচ্ছেদ-স্তরের প্রমাণ প্রদান করে
Loki:
- স্বয়ংক্রিয় প্রক্রিয়া: যাচাইযোগ্য দাবি সনাক্ত করুন → প্রমাণ পুনরুদ্ধার করুন → যাচাই করুন
- সীমাবদ্ধতা: প্রমাণ এখনও অনুচ্ছেদ-স্তরে
AmbiFC:
- অস্পষ্টতা প্রবর্তন করুন, একাধিক বাক্য-স্তরের মন্তব্য অনুমতি দিন
- বাক্য-স্তরের প্রমাণ নির্বাচনের গুরুত্ব প্রদর্শন করুন
- তবে প্রকৃত মন্তব্য এখনও অনুচ্ছেদ-স্তরে
FEVER:
- সাধারণ দাবি, উইকিপিডিয়া থেকে উৎস
- বাক্য-স্তরের প্রমাণ
- ইংরেজি ডেটা
SciFact:
- বৈজ্ঞানিক কাগজপত্র সারাংশে কারণ মন্তব্য
- বাক্য-স্তরের প্রমাণ
- ইংরেজি ডেটা
এই পেপারের ডেটাসেটের অনন্যতা:
- চেক/স্লোভাক ভাষা
- স্প্যান-স্তরের প্রমাণ (বাক্য-স্তরের চেয়ে আরও সূক্ষ্ম-দানাদার)
- দ্বৈত মন্তব্য
স্কেলিং আইন:
- মডেল আকার, আর্কিটেকচার উন্নতি এবং যুক্তি ক্ষমতার সাথে কর্মক্ষমতা উন্নত হয়
- তবে এই পেপারটি হ্রাসমান রিটার্ন খুঁজে পায়
বহুভাষিক ক্ষমতা:
- পূর্ববর্তী কাজ দেখায় যে LLM চেক এবং স্লোভাক ডেটাসেটে শক্তিশালী যুক্তি ক্ষমতা রয়েছে
- এই পেপারটি সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন কাজে এর প্রযোজ্যতা যাচাই করে
- স্প্যান-স্তরের সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশনে LLM কর্মক্ষমতা সিস্টেমেটিকভাবে মূল্যায়ন করার প্রথম
- চেক/স্লোভাক ভাষায় সূক্ষ্ম-দানাদার প্রমাণ ডেটাসেট প্রদান করার প্রথম
- মডেল আকার এবং কর্মক্ষমতার অ-রৈখিক সম্পর্ক প্রকাশ করে
१. ডেটাসেট অবদান: চেক/স্লোভাক ভাষায় প্রথম স্প্যান-স্তরের সূক্ষ্ম-দানাদার প্রমাণ ডেটাসেট তৈরি করা হয়েছে, মানব মধ্যে সামঞ্জস্য F1 ४७
२. ত্রুটির হার এবং মডেল আকার:
- স্পষ্ট সম্পর্ক: ছোট মডেল (४B gemma३, ८B mixtral) ত্রুটির হার > ५०%
- সীমাবদ্ধ ডিকোডিং প্রক্রিয়া গ্রহণের প্রয়োজন
३. কর্মক্ষমতা হ্রাসমান রিটার্ন:
- ছোট থেকে মধ্যম আকার: কর্মক্ষমতা উন্নতি
- অতি-বড় আকার (६८५B, १२०B): আরও উন্নতি নেই
- সর্বোত্তম ভারসাম্য: १४B qwen३, ३२B deepseek-r१, २०B gpt-oss
४. মানব সারিবদ্ধতা অতিক্রম করা: কিছু LLM (qwen३:१४b, deepseek-r१:३२b) F१ স্কোর মানব মধ্যে সামঞ্জস্যের চেয়ে বেশি (কিন্তু শুধুমাত্র বৈধ নমুনায়)
१. ডেটাসেট আকার:
- শুধুমাত্র १८६টি নমুনা
- কিছু মডেল ११६টি অবৈধ আউটপুট তৈরি করে
- মূল্যায়ন পক্ষপাত প্রবর্তন করতে পারে
२. মূল্যায়ন পক্ষপাত:
- অবৈধ আউটপুট বাদ দেওয়া আরও কঠিন নমুনা সরাতে পারে
- কিছু মডেলের কর্মক্ষমতা মেট্রিক্স কৃত্রিমভাবে বৃদ্ধি করে
३. একক কাজ:
- শুধুমাত্র সমর্থনকারী প্রমাণে ফোকাস করুন
- খণ্ডনকারী প্রমাণ বিশ্লেষণ করেনি
४. ভাষা সীমাবদ্ধতা:
- শুধুমাত্র চেক এবং স্লোভাক ভাষা কভার করে
- অন্যান্য ভাষায় সাধারণীকরণ ক্ষমতা অজানা
५. মন্তব্য পার্থক্য:
- দুটি মন্তব্য সরঞ্জাম সিস্টেমেটিক পার্থক্য তৈরি করে
- কারণ আরও বিশ্লেষণের প্রয়োজন
६. সীমাহীন প্রজন্ম:
- স্প্যান অবশ্যই উৎস পাঠ্যে থাকতে হবে তা প্রযুক্তিগতভাবে জোরপূর্বক করেনি
- উচ্চ ত্রুটির হার সৃষ্টি করে
१. সীমাবদ্ধ ডিকোডিং:
- সীমাবদ্ধ ডিকোডিং বা কাঠামোগত আউটপুট প্রজন্ম প্রয়োগ করুন
- শব্দার্থগত এবং কাঠামোগতভাবে বৈধ প্রমাণ প্রজন্ম জোরপূর্বক করুন
- অবৈধ আউটপুট উল্লেখযোগ্যভাবে হ্রাস করুন
२. খণ্ডনকারী প্রমাণ:
- খণ্ডনকারী প্রমাণে একই বিশ্লেষণ পরিচালনা করুন
- তথ্য যাচাইকরণ প্রক্রিয়া নিখুঁত করুন
३. ডেটাসেট সম্প্রসারণ:
- নমুনা সংখ্যা বৃদ্ধি করুন
- পরিসংখ্যানগত তাৎপর্য উন্নত করুন
४. মন্তব্য পার্থক্য বিশ্লেষণ:
- দুটি মন্তব্য পরিবেশের পার্থক্য গভীরভাবে বিশ্লেষণ করুন
- মন্তব্য মান একীভূত করুন
५. এন্ড-টু-এন্ড সিস্টেম:
- দাবি নিষ্কাশন, নথি পুনরুদ্ধার এবং প্রমাণ নিষ্কাশন একীভূত করুন
- সম্পূর্ণ স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম তৈরি করুন
६. বহুভাষিক সম্প্রসারণ:
- অন্যান্য ভাষায় সম্প্রসারণ করুন
- ক্রস-ভাষা সাধারণীকরণ ক্ষমতা মূল্যায়ন করুন
- প্রথম স্প্যান-স্তরের মন্তব্য: বিদ্যমান বাক্য-স্তরের চেয়ে আরও সূক্ষ্ম-দানাদার, প্রকৃত অ্যাপ্লিকেশন চাহিদার সাথে আরও ভাল সামঞ্জস্যপূর্ণ
- দ্বৈত মন্তব্য ডিজাইন: মানব মধ্যে সামঞ্জস্য গণনা করতে পারে, LLM মূল্যায়নের জন্য বেঞ্চমার্ক প্রদান করে
- হাঙ্গেরিয়ান ম্যাচিং অ্যালগরিদম: বিভিন্ন বিস্তারিত মাত্রার সারিবদ্ধতা সমস্যা চতুরভাবে সমাধান করে, অন্যায্য শাস্তি এড়ায়
- মডেল কভারেজ ব্যাপক: १७টি LLM, ४B থেকে ६८५B প্যারামিটার, মান মডেল এবং যুক্তি মডেল কভার করে
- বহুমাত্রিক বিশ্লেষণ: ত্রুটির হার, সারিবদ্ধতা, মডেল আকার সম্পর্ক
- বেসলাইন তুলনা: অ-নিউরাল বেসলাইন এবং মানব মন্তব্য বেঞ্চমার্ক অন্তর্ভুক্ত করে
- বিপরীত-স্বজ্ঞাত আবিষ্কার: মডেল আকার এবং কর্মক্ষমতার অ-রৈখিক সম্পর্ক প্রকাশ করে
- ব্যবহারিক মূল্য: সর্বোত্তম মূল্য-কর্মক্ষমতা মডেল সনাক্ত করে (१४B-३२B)
- সৎ রিপোর্টিং: উচ্চ ত্রুটির হার এবং মূল্যায়ন পক্ষপাত সৎভাবে রিপোর্ট করে
- সমস্যা সংজ্ঞা স্পষ্ট (আনুষ্ঠানিক সংজ্ঞা)
- পদ্ধতি বর্ণনা বিস্তারিত (সম্পূর্ণ প্রম্পট অন্তর্ভুক্ত)
- ফলাফল ভিজ্যুয়ালাইজেশন স্পষ্ট (চিত্র १-३)
- সীমাহীন প্রজন্ম: স্প্যান অবশ্যই উৎস পাঠ্যে থাকতে হবে তা জোরপূর্বক করেনি, ३०%-६०% অবৈধ আউটপুট সৃষ্টি করে
- স্টপওয়ার্ড প্রক্রিয়াকরণ: সহজ অপসারণ গুরুত্বপূর্ণ তথ্য হারাতে পারে
- একক প্রম্পট: বিভিন্ন প্রম্পট কৌশলের প্রভাব অন্বেষণ করেনি
- নমুনা পরিমাণ ছোট: १८६টি নমুনা শক্তিশালী সিদ্ধান্তের জন্য অপর্যাপ্ত হতে পারে
- মূল্যায়ন পক্ষপাত: অবৈধ নমুনা বাদ দেওয়া কর্মক্ষমতা তুলনা বিকৃত করতে পারে
- পরিসংখ্যানগত তাৎপর্য পরীক্ষা অনুপস্থিত: পরিসংখ্যানগত তাৎপর্য রিপোর্ট করেনি
- একক চালান: একাধিক চালানের ভেরিয়েন্স রিপোর্ট করেনি
- কেস স্টাডি অনুপস্থিত: নির্দিষ্ট সাফল্য/ব্যর্থতা কেস প্রদর্শন করেনি
- ত্রুটি ধরনের বিশ্লেষণ অনুপস্থিত: ত্রুটি ধরনে বিভক্ত করেনি (পুনর্লিখন, হ্যালুসিনেশন, ট্রাংকেশন ইত্যাদি)
- মন্তব্য পার্থক্য ব্যাখ্যা করেনি: দুটি মন্তব্য সরঞ্জামের সিস্টেমেটিক পার্থক্য আবিষ্কার করেছে কিন্তু গভীরভাবে বিশ্লেষণ করেনি
- ক্রস-ভাষা পার্থক্য: চেক এবং স্লোভাক ভাষার পারফরম্যান্স আলাদা করেনি
- হাইপারপ্যারামিটার রিপোর্ট করেনি: LLM তাপমাত্রা, top-p ইত্যাদি সেটিংস উল্লেখ করেনি
- অনুমান খরচ রিপোর্ট করেনি: বিভিন্ন আকারের মডেলের প্রকৃত গণনা খরচ তুলনা করেনি
- দৃঢ়তা যাচাই করেনি: প্রম্পট পরিবর্তন, পাঠ্য দৈর্ঘ্য ইত্যাদির প্রতি দৃঢ়তা পরীক্ষা করেনি
- ফাঁক পূরণ করা: চেক/স্লোভাক ভাষায় প্রথম সূক্ষ্ম-দানাদার প্রমাণ ডেটাসেট
- পদ্ধতিগত অবদান: স্প্যান সারিবদ্ধতা মূল্যায়নের জন্য হাঙ্গেরিয়ান ম্যাচিং ব্যবহার
- অভিজ্ঞতামূলক অন্তর্দৃষ্টি: মডেল আকার হ্রাসমান রিটার্নের অভিজ্ঞতামূলক প্রমাণ
- মডেল নির্বাচন নির্দেশনা: প্রকৃত স্থাপনার জন্য সর্বোত্তম মূল্য-কর্মক্ষমতা মডেল সুপারিশ প্রদান করে
- সমস্যা সচেতনতা: গবেষকদের LLM নির্দেশনা মেনে চলার সমস্যা সম্পর্কে সতর্ক করে
- অ্যাপ্লিকেশন পরিস্থিতি: অনলাইন আলোচনা পরিচালনার জন্য প্রযুক্তিগত পথ প্রদান করে
- সুবিধা:
- সম্পূর্ণ প্রম্পট প্রদান করুন (পরিশিষ্ট B)
- খোলা উৎস মডেল ব্যবহার করুন (বেশিরভাগ)
- পদ্ধতি বর্ণনা বিস্তারিত
- অপূর্ণতা:
- ডেটাসেট প্রকাশ করা হয়নি (পেপারে প্রকাশনা পরিকল্পনা উল্লেখ করা হয়নি)
- কোড খোলা উৎস করা হয়নি
- নির্দিষ্ট হাইপারপ্যারামিটার অনুপস্থিত
१. অনলাইন আলোচনা পরিচালনা: মন্তব্যের জন্য স্বয়ংক্রিয়ভাবে তথ্য যাচাইকরণ প্রমাণ প্রদান করুন
२. সংবাদ প্ল্যাটফর্ম: ব্যবহারকারী মন্তব্যের জন্য প্রসঙ্গ তথ্য যোগ করুন
३. শিক্ষা অ্যাপ্লিকেশন: শিক্ষার্থীদের প্রমাণ সনাক্ত করতে শিখতে সাহায্য করুন
४. গবেষণা সরঞ্জাম: গবেষকদের সাহিত্য পর্যালোচনা পরিচালনায় সহায়তা করুন
१. উচ্চ-ঝুঁকি সিদ্ধান্ত: চিকিৎসা, আইনি ইত্যাদি যেখানে ১००% নির্ভুলতা প্রয়োজন (ত্রুটির হার এখনও উচ্চ)
२. রিয়েল-টাইম অ্যাপ্লিকেশন: অতি-বড় মডেল (६८५B) গণনা খরচ খুব বেশি
३. কম-সম্পদ ভাষা: পদ্ধতির অন্যান্য ভাষায় কার্যকারিতা যাচাই করা হয়নি
४. দীর্ঘ নথি: দীর্ঘ পাঠ্য প্রক্রিয়াকরণ ক্ষমতা পরীক্ষা করা হয়নি
- প্রস্তাবিত মডেল: qwen३:१४b বা deepseek-r१:३२b (কর্মক্ষমতা এবং খরচ ভারসাম্য)
- প্রয়োজনীয় উন্নতি: ত্রুটির হার কমাতে সীমাবদ্ধ ডিকোডিং প্রয়োগ করুন
- মানব পর্যালোচনা: উচ্চ-ঝুঁকি অ্যাপ্লিকেশনে মানব পর্যালোচনা ধরে রাখুন
- বহুভাষিক সম্প্রসারণ: লক্ষ্য ভাষার জন্য পুনরায় মূল্যায়ন প্রয়োজন
এই পেপারটি তথ্য যাচাইয়ে সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশনের এই গুরুত্বপূর্ণ কিন্তু গবেষণা-অপর্যাপ্ত কাজে মূল্যবান অবদান রাখে। সর্বোচ্চ শক্তি হল চেক/স্লোভাক ভাষায় প্রথম স্প্যান-স্তরের মন্তব্যকৃত ডেটাসেট তৈরি করা এবং এই কাজে LLM ক্ষমতা এবং সীমাবদ্ধতা প্রকাশ করা — বিশেষত মডেল আকার হ্রাসমান রিটার্ন এবং মধ্যম-আকারের মডেলের চমৎকার মূল্য-কর্মক্ষমতা।
তবে, প্রধান সীমাবদ্ধতা ছোট নমুনা পরিমাণ (१८६টি), উচ্চ ত্রুটির হার (কিছু মডেল > ५०%) এবং অবৈধ নমুনা বাদ দেওয়া সম্ভাব্য মূল্যায়ন পক্ষপাত। ভবিষ্যত কাজ জরুরিভাবে সীমাবদ্ধ ডিকোডিং প্রক্রিয়া এবং ডেটাসেট সম্প্রসারণ প্রয়োজন।
অপূর্ণতা সত্ত্বেও, এই পেপারটি স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম নির্মাণের জন্য গুরুত্বপূর্ণ অভিজ্ঞতামূলক ভিত্তি এবং পদ্ধতিগত অবদান প্রদান করে, বিশেষত সম্পদ-সীমিত ভাষার জন্য। সুপারিশ সূচকাঙ্ক: ४/५ — মূল্যবান অন্বেষণমূলক গবেষণা, কিন্তু প্রকৃত স্থাপনার জন্য প্রযুক্তিগত সমস্যা সমাধানের জন্য পরবর্তী কাজ প্রয়োজন।