2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

Jarolím, Fajčík, Makaiová
Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
academic

LLM গুলি কি প্রমাণ-ভিত্তিক তথ্য যাচাইয়ের জন্য মানুষের মতো সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন করতে পারে?

মৌলিক তথ্য

  • পেপার আইডি: 2511.21401
  • শিরোনাম: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
  • লেখক: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (ব্রনো প্রযুক্তি বিশ্ববিদ্যালয়, চেক প্রজাতন্ত্র)
  • শ্রেণীবিভাগ: cs.CL (গণনামূলক ভাষাবিজ্ঞান)
  • প্রকাশনার সময়: ২০২৫ সালের ২৬ নভেম্বর (arXiv প্রাক-মুদ্রণ)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2511.21401

সারসংক্ষেপ

এই গবেষণাপত্রটি বৃহৎ ভাষা মডেল (LLM) গুলির তথ্য যাচাইয়ের পরিস্থিতিতে সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশনের ক্ষমতা অধ্যয়ন করে, বিশেষত চেক এবং স্লোভাক ভাষায়। গবেষণাটি ১৮৬টি নমুনা সহ একটি দ্বৈত-মন্তব্যকৃত ডেটাসেট তৈরি করেছে, যেখানে প্রতিটি নমুনা দুজন স্বাধীন মন্তব্যকারী দ্বারা সূক্ষ্ম-দানাদার প্রমাণ দিয়ে মন্তব্য করা হয়েছে। ১৭টি বিভিন্ন আকারের LLM (৪B থেকে ৬৮৫B প্যারামিটার) মূল্যায়ন করা হয়েছে এবং নিম্নলিখিত আবিষ্কার করা হয়েছে: (১) LLM গুলি প্রায়শই উৎস পাঠ্য থেকে প্রমাণ শব্দে শব্দে অনুলিপি করতে ব্যর্থ হয়, যা অবৈধ আউটপুট তৈরি করে; (২) llama3.1:8b মডেল ছোট আকার সত্ত্বেও উচ্চ নির্ভুলতা রয়েছে, যখন gpt-oss-120b অনেক প্যারামিটার থাকা সত্ত্বেও দুর্বল পারফরম্যান্স করে; (৩) qwen3:14b, deepseek-r1:32b এবং gpt-oss:20b মডেল আকার এবং মানব মন্তব্যের সারিবদ্ধতার মধ্যে কার্যকর ভারসাম্য অর্জন করে।

গবেষণার পটভূমি এবং প্রেরণা

১. সমাধান করার সমস্যা

অনলাইন সংবাদ নিবন্ধের মন্তব্য বিভাগ মিথ্যা তথ্য প্রচারের একটি গুরুত্বপূর্ণ স্থান। অনলাইন আলোচনা কার্যকরভাবে পরিচালনা করতে এবং মিথ্যা তথ্যের বিরুদ্ধে লড়াই করতে, স্বয়ংক্রিয় সিস্টেমগুলির প্রয়োজন যা:

  • ব্যবহারকারীর মন্তব্য থেকে যাচাইযোগ্য দাবি নিষ্কাশন করতে পারে
  • প্রাসঙ্গিক বিশ্বস্ত নথি পুনরুদ্ধার করতে পারে
  • নথিতে দাবি সমর্থন বা খণ্ডন করে এমন পাঠ্য অংশগুলি সঠিকভাবে সনাক্ত করতে পারে (সূক্ষ্ম-দানাদার প্রমাণ)

এই পেপারটি শেষ কাজটিতে ফোকাস করে — সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন।

২. সমস্যার গুরুত্ব

  • ব্যবহারকারীর চাহিদা: ৩/৪ এর বেশি ব্যবহারকারী মন্তব্য বিভাগে আলোচনায় বিশেষজ্ঞ প্রতিক্রিয়া চান, কিন্তু ম্যানুয়াল প্রতিক্রিয়া অব্যবহারিক
  • দক্ষতা এবং প্ররোচনা: সম্পূর্ণ নথি প্রমাণ হিসাবে প্রদান করা খুব অপরিশোধিত, যখন সূক্ষ্ম-দানাদার পাঠ্য অংশগুলি পাঠকদের দ্রুত মূল্যায়ন করতে এবং বিচার নির্ভুলতা হ্রাস না করে সক্ষম করে
  • প্ল্যাটফর্ম অনুশীলন: X প্ল্যাটফর্ম (পূর্ববর্তী Twitter) "সম্প্রদায়ের নোট" ব্যবহার করে, Seznam.cz নির্বাচিত মন্তব্যের জন্য তথ্য যাচাইকরণ তথ্য যোগ করে

৩. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • মোটা-দানাদার প্রমাণ: বিদ্যমান স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম (যেমন FactLens, Loki) শুধুমাত্র অনুচ্ছেদ-স্তরের প্রমাণ প্রদান করে
  • ডেটাসেট অনুপস্থিতি: FEVER এবং SciFact বাক্য-স্তরের প্রমাণ প্রদান করে, কিন্তু চেক/স্লোভাক ভাষার জন্য কোন ডেটাসেট নেই, এবং বিদ্যমান ডেটাসেটগুলির সবচেয়ে সূক্ষ্ম দানাদারিত্ব শুধুমাত্র বাক্য-স্তর, স্প্যান (span) স্তর নয়
  • LLM ক্ষমতা অজানা: যদিও LLM যুক্তি ক্ষমতা ক্রমাগত উন্নত হচ্ছে, সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন কাজে মানব মন্তব্যের সাথে এর সারিবদ্ধতার মাত্রা এখনও পদ্ধতিগতভাবে মূল্যায়ন করা হয়নি

৪. গবেষণার প্রেরণা

LLM গুলি মানুষের মতো সূক্ষ্ম-দানাদার প্রমাণ সনাক্ত এবং নিষ্কাশন করতে পারে কিনা তা যাচাই করা, স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম তৈরির জন্য প্রযুক্তিগত ভিত্তি প্রদান করা।

মূল অবদান

১. নতুন ডেটাসেট নির্মাণ: ১৮৬টি চেক/স্লোভাক দাবি-পাঠ্য জোড়া সহ একটি ডেটাসেট তৈরি করা, যেখানে প্রতিটি নমুনা দুজন স্বাধীন মন্তব্যকারী দ্বারা সূক্ষ্ম-দানাদার প্রমাণ দিয়ে মন্তব্য করা হয়েছে, যা এই ভাষা জোড়া এবং স্প্যান-স্তরের মন্তব্যের ফাঁক পূরণ করে

२. LLM এর সিস্টেমেটিক মূল্যায়ন: ১৭টি বিভিন্ন আকারের LLM মূল্যায়ন করা (৬৮৫B DeepSeek-R1, ১२०B gpt-oss ইত্যাদি যুক্তি মডেল সহ, এবং Gemma-3, Phi4 ইত্যাদি খোলা ওজনের মডেল সহ) সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন কাজে

३. ত্রুটির হার এবং সারিবদ্ধতা বিশ্লেষণ:

  • LLM অবৈধ আউটপুট তৈরি করার ত্রুটির হার বিশ্লেষণ করা
  • হাঙ্গেরিয়ান ম্যাচিং অ্যালগরিদম এবং Token-F1 ব্যবহার করে মানব মন্তব্যের সাথে সারিবদ্ধতা মূল্যায়ন করা
  • মডেল আকার এবং কর্মক্ষমতার মধ্যে অ-রৈখিক সম্পর্ক আবিষ্কার করা

४. সর্বোত্তম মডেল সনাক্তকরণ: মধ্যম আকারের মডেলগুলি (१४B-३२B) দক্ষতা এবং নির্ভুলতার মধ্যে সেরা ভারসাম্য অর্জন করে তা আবিষ্কার করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

সমস্যা বিবৃতি: একটি দাবি এবং একটি টোকেনাইজড পাঠ্য t = (t₁, t₂, ..., tₙ) দেওয়া হলে, স্প্যান সেটের একটি সংগ্রহ S = {s₁, s₂, ..., sₘ} নির্বাচন করুন, যেখানে প্রতিটি স্প্যান sₘ = (tᵢ, ..., tⱼ) (i ≤ j) সেই দাবি সমর্থন করে এমন একটি ক্রমাগত উপক্রম প্রতিনিধিত্ব করে।

মূল সীমাবদ্ধতা:

  • স্প্যান অবশ্যই পাঠ্যে একটি ক্রমাগত উপক্রম হতে হবে
  • সর্বনিম্ন পাঠ্য অংশ নির্বাচন করুন
  • একাধিক স্প্যান নির্বাচন করা যেতে পারে
  • স্প্যান সরাসরি দাবির সত্যতা সমর্থন করা উচিত

ডেটা নির্মাণ পদ্ধতি

দ্বৈত-মন্তব্য প্রক্রিয়া

१. নমুনা সংগ্রহ: १८६টি দাবি-পাঠ্য জোড়া २. মন্তব্যকারীর পুল: ८ জন অ-বিশেষজ্ঞ পেইড মন্তব্যকারী ३. স্বাধীন মন্তব্য: প্রতিটি নমুনা দুজন ভিন্ন মন্তব্যকারী দ্বারা স্বাধীনভাবে মন্তব্য করা হয়েছে ४. মন্তব্য সরঞ্জাম:

  • প্রথম মন্তব্য: কাস্টম মন্তব্য সরঞ্জাম
  • দ্বিতীয় মন্তব্য: Label Studio ५. মন্তব্য নির্দেশিকা:

"দাবি সমর্থন বা খণ্ডন করে এমন সর্বনিম্ন পাঠ্য অংশ হাইলাইট করুন। যে অংশটি আপনাকে বিবৃতিটি সত্য হওয়ার বিষয়ে সবচেয়ে বেশি প্ররোচিত করে তা হাইলাইট করুন।"

মন্তব্যের বৈশিষ্ট্য

  • মানব মন্তব্যকারীরা সরাসরি পাঠ্য হাইলাইট করে, নিশ্চিত করে যে নির্বাচিত অংশ উৎস পাঠ্যে ক্রমাগত স্প্যান
  • LLM গুলিকে স্প্যান পাঠ্য পুনরায় তৈরি করতে হবে, যা উৎস পাঠ্যে অনুপস্থিত আউটপুট তৈরি করতে পারে

LLM প্রমাণ নিষ্কাশন পদ্ধতি

মডেল নির্বাচন

তিনটি শ্রেণীর মডেল মূল্যায়ন করা হয়েছে:

१. মান LLM (९টি):

  • qwen2.5 (72B, 32B)
  • llama3.3 (70B)
  • llama3.1 (8B)
  • gemma2 (27B)
  • gemma3 (27B, 12B, 4B)
  • phi4 (14B)
  • mixtral (8×7B)

२. চিন্তার শৃঙ্খল (CoT) যুক্তি মডেল (८টি):

  • deepseek-r1 (685B, 32B)
  • gpt-oss (120B, 20B)
  • qwen3 (32B, 14B)

প্রম্পট ইঞ্জিনিয়ারিং

LLM নিম্নলিখিত ইনপুট পায়:

  • মূল মন্তব্য (প্রসঙ্গ প্রদান করে)
  • নিষ্কাশিত দাবি
  • যে পাঠ্য থেকে প্রমাণ নিষ্কাশন করতে হবে

মূল নির্দেশনা: १. দাবি সরাসরি সমর্থন করে এমন সর্বনিম্ন পাঠ্য অংশ সনাক্ত করুন २. দাবির সত্যতা প্রমাণ করে এমন সবচেয়ে ভাল বাক্যাংশ নির্বাচন করুন ३. সম্পূর্ণ বাক্য নির্বাচন এড়িয়ে চলুন, যদি না সম্পূর্ণভাবে প্রয়োজনীয় ४. একাধিক স্প্যান নির্বাচন করা যেতে পারে ५. পাঠ্য সংশোধন, সংশোধন বা পুনর্লিখন করবেন না, সমস্ত ব্যাকরণ এবং বাক্য গঠনগত ত্রুটি সংরক্ষণ করুন ६. JSON ফর্ম্যাটে আউটপুট: {"spans": [...]} ७. প্রতিটি স্প্যান অবশ্যই উৎস পাঠ্যের একটি সঠিক উপস্ট্রিং হতে হবে (অক্ষর-দ্বারা-অক্ষর সম্পূর্ণ অনুরূপ)

বেসলাইন পদ্ধতি

१. দাবি বেসলাইন:

  • দাবি টোকেনাইজ করুন c = (c₁, c₂, ..., cₒ)
  • পাঠ্যে দাবিতে শব্দ ক্রম ম্যাচ করুন
  • স্প্যান সেট Sᴄ তৈরি করুন

२. Query বেসলাইন:

  • মন্তব্যকারীরা প্রমাণ অনুসন্ধান করার সময় ব্যবহার করা প্রশ্ন শব্দ ব্যবহার করুন
  • দাবি বেসলাইনের মতো একই ম্যাচিং পদ্ধতি

३. Random বেসলাইন:

  • ক্রমাগত স্প্যান র্যান্ডমলি নমুনা করুন
  • স্প্যান সংখ্যা এবং দৈর্ঘ্য র্যান্ডমলি নির্বাচিত মন্তব্যকারীর সাথে মেলে

মূল্যায়ন পদ্ধতি

প্রাক-প্রক্রিয়াকরণ

সমস্ত প্রমাণ সেট থেকে স্টপওয়ার্ড সরান (পরিশিষ্ট A দেখুন, চেক/স্লোভাক সাধারণ স্টপওয়ার্ড যেমন "a", "je", "to" ইত্যাদি অন্তর্ভুক্ত)

Token-F1 গণনা

१. স্প্যান জোড়া F1: দুটি মন্তব্য সেটে সমস্ত সম্ভাব্য স্প্যান জোড়ার টোকেন-স্তরের F1 স্কোর গণনা করুন २. হাঙ্গেরিয়ান ম্যাচিং: সর্বোত্তম বরাদ্দ খুঁজে পেতে হাঙ্গেরিয়ান অ্যালগরিদম ব্যবহার করুন, মোট F1 সর্বাধিক করুন ३. চূড়ান্ত স্কোর: সর্বোত্তম ম্যাচিংয়ের গড় F1 একটি ডেটা পয়েন্টের টোকেন-স্তরের F1 হিসাবে

কারণ: মন্তব্যকারী এবং LLM বিভিন্ন সংখ্যক স্প্যান নির্বাচন করতে পারে (বিস্তারিত মাত্রা ভিন্ন), হাঙ্গেরিয়ান অ্যালগরিদম এই পার্থক্যের জন্য শাস্তি দেওয়া এড়ায়।

মূল্যায়ন মেট্রিক্স

  • ত্রুটির হার: অবৈধ আউটপুটের অনুপাত (উৎস পাঠ্যে নেই এমন স্প্যান তৈরি করা)
  • Token-F1: মানব মন্তব্যের সাথে সারিবদ্ধতার মাত্রা
  • মানব মধ্যে সামঞ্জস্য: দুজন মন্তব্যকারীর মধ্যে F1 স্কোর

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • আকার: १८६টি নমুনা
  • ভাষা: চেক এবং স্লোভাক
  • মন্তব্য: প্রতিটি নমুনা २টি স্বাধীন মন্তব্য
  • উৎস: অনলাইন সংবাদ মন্তব্যে যাচাইযোগ্য দাবি
  • নথি: মন্তব্যকারীরা সার্চ ইঞ্জিন ব্যবহার করে খুঁজে পাওয়া অত্যন্ত প্রাসঙ্গিক নথি

মূল্যায়ন মেট্রিক্স

  • Invalid %: অবৈধ আউটপুট শতাংশ (উৎস পাঠ্যে নেই এমন স্প্যান তৈরি করা)
  • Token-F1: হাঙ্গেরিয়ান ম্যাচিংয়ের উপর ভিত্তি করে টোকেন-স্তরের F1 স্কোর (০-१००স্কেল)
  • Max F1: দুজন মন্তব্যকারীর মধ্যে উচ্চতর F1 স্কোর (কমপক্ষে একজন মন্তব্যকারীর সাথে সারিবদ্ধতা প্রতিফলিত করে)

তুলনা পদ্ধতি

  • মানব মন্তব্য: ann 1 (LS) এবং ann 2
  • १७টি LLM: বিভিন্ন আকার এবং আর্কিটেকচার
  • ३টি বেসলাইন: random, claim, query

বাস্তবায়ন বিবরণ

  • একই প্রম্পট টেমপ্লেট ব্যবহার করুন (পরিশিষ্ট B দেখুন)
  • JSON ফর্ম্যাট আউটপুট
  • প্রযুক্তিগত সীমাবদ্ধতা জোরপূর্বক নয় (ত্রুটি পর্যবেক্ষণ করতে উৎস পাঠ্যে নেই এমন স্প্যান তৈরি করার অনুমতি)
  • স্টপওয়ার্ড সরানোর পরে F1 গণনা করুন

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

१. ত্রুটির হার বিশ্লেষণ (চিত্র १)

সর্বনিম্ন ত্রুটির হার:

  • qwen2.5:72b: ४.३% (সেরা, ७२B প্যারামিটার)
  • deepseek-r1: ७.०% (६८५B প্যারামিটার)
  • llama3.1:8b: १३.४% (শুধুমাত্র ८B প্যারামিটার, চমৎকার পারফরম্যান্স)

সর্বোচ্চ ত্রুটির হার:

  • mixtral:8x7b: ६१.८% (সবচেয়ে খারাপ, ७B কার্যকর প্যারামিটার)
  • gemma3:4b: ५७.५% (४B প্যারামিটার)
  • qwen3:14b: ४०.३%

অস্বাভাবিক ক্ষেত্র:

  • gpt-oss-120b: ३२.८% (१२०B প্যারামিটার কিন্তু উচ্চ ত্রুটির হার, প্রত্যাশা পূরণ করেনি)
  • llama3.3:70b: २७.४% (७०B প্যারামিটার কিন্তু তুলনামূলকভাবে উচ্চ ত্রুটির হার)

সামগ্রিক প্রবণতা: মডেল আকার যত বড়, ত্রুটির হার সাধারণত তত কম, তবে উল্লেখযোগ্য ব্যতিক্রম রয়েছে।

२. নিষ্কাশন কর্মক্ষমতা বিশ্লেষণ (চিত্র २)

মানব মধ্যে সামঞ্জস্য:

  • ann 1 (LS) বনাম ann 2: F1 = ४८

সেরা LLM পারফরম্যান্স (ann 1 (LS) এর সাথে):

  • qwen3:14b: F1 = ५६ (মানব সামঞ্জস্য অতিক্রম করে)
  • deepseek-r1:32b: F1 = ५५ (মানব সামঞ্জস্য অতিক্রম করে)
  • deepseek-r1 (685B): F1 = ३८
  • qwen2.5:72b: F1 = ४३

ann २ এর সাথে সারিবদ্ধতা:

  • সমস্ত LLM এর ann २ এর সাথে F1 স্কোর ann १ (LS) এর সাথে F1 স্কোরের চেয়ে কম
  • দুটি মন্তব্য পরিবেশ বিভিন্ন মন্তব্য শৈলী তৈরি করেছে তা নির্দেশ করে

বেসলাইন পারফরম্যান্স:

  • দাবি বেসলাইন: F1 = १७ (নির্ভুলতা প্রায় ३०, স্মরণ খুব কম)
  • query বেসলাইন: F1 = १२
  • random বেসলাইন: F1 = १०

সমস্ত অ-নিউরাল বেসলাইন পদ্ধতি দুর্বল পারফরম্যান্স করে (F1 < १८)।

३. মডেল আকার এবং কর্মক্ষমতা সম্পর্ক (চিত্র ३)

মূল আবিষ্কার:

  • ছোট থেকে মধ্যম আকার: আকারের সাথে কর্মক্ষমতা বৃদ্ধি পায়
  • অতি-বড় আকার: ६८५B deepseek-r1 এবং १२०B gpt-oss আরও উন্নতি আনেনি
  • সর্বোত্তম ভারসাম্য পয়েন্ট:
    • qwen3:14b: Max F1 ≈ ०.५६
    • deepseek-r1:32b: Max F1 ≈ ०.५५
    • gpt-oss:20b: Max F1 ≈ ०.४५

উপসংহার: একটি নির্দিষ্ট থ্রেশহোল্ডের বাইরে, শুধুমাত্র প্যারামিটার পরিমাণ বৃদ্ধি নিষ্কাশন কর্মক্ষমতা উন্নত করে না।

অ্যাবলেশন পরীক্ষা

যদিও পেপারটি ঐতিহ্যবাহী অ্যাবলেশন পরীক্ষা পরিচালনা করেনি, বিভিন্ন মডেলের তুলনার মাধ্যমে নিম্নলিখিত বিশ্লেষণ নিহিত:

মডেল আর্কিটেকচারের প্রভাব:

  • যুক্তি মডেল (CoT) ধারাবাহিকভাবে মান মডেলের চেয়ে ভাল নয়
  • deepseek-r1:32b চমৎকার পারফরম্যান্স করে, কিন্তু deepseek-r1 (685B) আরও ভাল নয়

মডেল আকারের প্রভাব:

  • ८B llama3.1 অনেক বড় মডেলের চেয়ে ভাল পারফরম্যান্স করে
  • মডেল গুণমান এবং প্রশিক্ষণ ডেটা বিশুদ্ধ আকারের চেয়ে বেশি গুরুত্বপূর্ণ তা নির্দেশ করে

মন্তব্য সরঞ্জামের প্রভাব:

  • Label Studio মন্তব্য (ann १) কাস্টম সরঞ্জাম মন্তব্যের (ann २) সাথে সিস্টেমেটিক পার্থক্য রয়েছে
  • সমস্ত LLM Label Studio মন্তব্যের কাছাকাছি

কেস স্টাডি

পেপারটি নির্দিষ্ট কেস প্রদান করেনি, তবে পদ্ধতি বর্ণনা থেকে অনুমান করা যায়:

মানব মন্তব্য উদাহরণ:

  • ইন্টারফেসে সরাসরি সর্বনিম্ন প্রাসঙ্গিক পাঠ্য অংশ হাইলাইট করুন
  • ব্যাকরণগত ত্রুটি সহ মূল পাঠ্য অন্তর্ভুক্ত করতে পারে

LLM আউটপুট উদাহরণ (অনুমান):

  • সঠিক ক্ষেত্র: উৎস পাঠ্য অংশ সঠিকভাবে অনুলিপি করুন
  • ত্রুটি ক্ষেত্র: পুনর্লিখন, ব্যাকরণ সংশোধন, বা অ-বিদ্যমান পাঠ্য তৈরি করুন

পরীক্ষামূলক আবিষ্কার

१. মডেল আকার অ-একঘেয়ে সম্পর্ক: মধ্যম আকারের মডেল অতি-বড় মডেলের চেয়ে ভাল হতে পারে

२. নির্দেশনা মেনে চলার ক্ষমতা পার্থক্য: অনেক LLM "শব্দে শব্দে অনুলিপি" নির্দেশনা কঠোরভাবে মেনে চলতে ব্যর্থ

३. মন্তব্য পরিবেশ প্রভাব: বিভিন্ন মন্তব্য সরঞ্জাম বিভিন্ন দানাদারিত্বের মন্তব্য তৈরি করে

४. বেসলাইন পদ্ধতি সীমাবদ্ধতা: সহজ শব্দ ম্যাচিং পদ্ধতি নির্ভুলতা যুক্তিসঙ্গত কিন্তু স্মরণ অত্যন্ত কম

५. ক্রস-ভাষা ক্ষমতা: LLM চেক/স্লোভাক ভাষায় যুক্তিসঙ্গত পারফরম্যান্স করে, এর বহুভাষিক ক্ষমতা প্রমাণ করে

६. ত্রুটির হার এবং সারিবদ্ধতা সম্পূর্ণভাবে সম্পর্কিত নয়: কম ত্রুটির হার উচ্চ F1 অর্থ করে না (যেমন qwen2.5:72b)

সম্পর্কিত কাজ

१. স্বয়ংক্রিয় তথ্য যাচাইকরণ

FactLens:

  • জটিল দাবি উপ-দাবিতে বিভক্ত করুন
  • প্রতিটি উপ-দাবির সত্যতা স্বাধীনভাবে মূল্যায়ন করুন
  • সীমাবদ্ধতা: শুধুমাত্র অনুচ্ছেদ-স্তরের প্রমাণ প্রদান করে

Loki:

  • স্বয়ংক্রিয় প্রক্রিয়া: যাচাইযোগ্য দাবি সনাক্ত করুন → প্রমাণ পুনরুদ্ধার করুন → যাচাই করুন
  • সীমাবদ্ধতা: প্রমাণ এখনও অনুচ্ছেদ-স্তরে

AmbiFC:

  • অস্পষ্টতা প্রবর্তন করুন, একাধিক বাক্য-স্তরের মন্তব্য অনুমতি দিন
  • বাক্য-স্তরের প্রমাণ নির্বাচনের গুরুত্ব প্রদর্শন করুন
  • তবে প্রকৃত মন্তব্য এখনও অনুচ্ছেদ-স্তরে

२. তথ্য যাচাইকরণ ডেটাসেট

FEVER:

  • সাধারণ দাবি, উইকিপিডিয়া থেকে উৎস
  • বাক্য-স্তরের প্রমাণ
  • ইংরেজি ডেটা

SciFact:

  • বৈজ্ঞানিক কাগজপত্র সারাংশে কারণ মন্তব্য
  • বাক্য-স্তরের প্রমাণ
  • ইংরেজি ডেটা

এই পেপারের ডেটাসেটের অনন্যতা:

  • চেক/স্লোভাক ভাষা
  • স্প্যান-স্তরের প্রমাণ (বাক্য-স্তরের চেয়ে আরও সূক্ষ্ম-দানাদার)
  • দ্বৈত মন্তব্য

३. LLM যুক্তি ক্ষমতা

স্কেলিং আইন:

  • মডেল আকার, আর্কিটেকচার উন্নতি এবং যুক্তি ক্ষমতার সাথে কর্মক্ষমতা উন্নত হয়
  • তবে এই পেপারটি হ্রাসমান রিটার্ন খুঁজে পায়

বহুভাষিক ক্ষমতা:

  • পূর্ববর্তী কাজ দেখায় যে LLM চেক এবং স্লোভাক ডেটাসেটে শক্তিশালী যুক্তি ক্ষমতা রয়েছে
  • এই পেপারটি সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশন কাজে এর প্রযোজ্যতা যাচাই করে

এই পেপারের অবস্থান

  • স্প্যান-স্তরের সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশনে LLM কর্মক্ষমতা সিস্টেমেটিকভাবে মূল্যায়ন করার প্রথম
  • চেক/স্লোভাক ভাষায় সূক্ষ্ম-দানাদার প্রমাণ ডেটাসেট প্রদান করার প্রথম
  • মডেল আকার এবং কর্মক্ষমতার অ-রৈখিক সম্পর্ক প্রকাশ করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. ডেটাসেট অবদান: চেক/স্লোভাক ভাষায় প্রথম স্প্যান-স্তরের সূক্ষ্ম-দানাদার প্রমাণ ডেটাসেট তৈরি করা হয়েছে, মানব মধ্যে সামঞ্জস্য F1 ४७

२. ত্রুটির হার এবং মডেল আকার:

  • স্পষ্ট সম্পর্ক: ছোট মডেল (४B gemma३, ८B mixtral) ত্রুটির হার > ५०%
  • সীমাবদ্ধ ডিকোডিং প্রক্রিয়া গ্রহণের প্রয়োজন

३. কর্মক্ষমতা হ্রাসমান রিটার্ন:

  • ছোট থেকে মধ্যম আকার: কর্মক্ষমতা উন্নতি
  • অতি-বড় আকার (६८५B, १२०B): আরও উন্নতি নেই
  • সর্বোত্তম ভারসাম্য: १४B qwen३, ३२B deepseek-r१, २०B gpt-oss

४. মানব সারিবদ্ধতা অতিক্রম করা: কিছু LLM (qwen३:१४b, deepseek-r१:३२b) F१ স্কোর মানব মধ্যে সামঞ্জস্যের চেয়ে বেশি (কিন্তু শুধুমাত্র বৈধ নমুনায়)

সীমাবদ্ধতা

१. ডেটাসেট আকার:

  • শুধুমাত্র १८६টি নমুনা
  • কিছু মডেল ११६টি অবৈধ আউটপুট তৈরি করে
  • মূল্যায়ন পক্ষপাত প্রবর্তন করতে পারে

२. মূল্যায়ন পক্ষপাত:

  • অবৈধ আউটপুট বাদ দেওয়া আরও কঠিন নমুনা সরাতে পারে
  • কিছু মডেলের কর্মক্ষমতা মেট্রিক্স কৃত্রিমভাবে বৃদ্ধি করে

३. একক কাজ:

  • শুধুমাত্র সমর্থনকারী প্রমাণে ফোকাস করুন
  • খণ্ডনকারী প্রমাণ বিশ্লেষণ করেনি

४. ভাষা সীমাবদ্ধতা:

  • শুধুমাত্র চেক এবং স্লোভাক ভাষা কভার করে
  • অন্যান্য ভাষায় সাধারণীকরণ ক্ষমতা অজানা

५. মন্তব্য পার্থক্য:

  • দুটি মন্তব্য সরঞ্জাম সিস্টেমেটিক পার্থক্য তৈরি করে
  • কারণ আরও বিশ্লেষণের প্রয়োজন

६. সীমাহীন প্রজন্ম:

  • স্প্যান অবশ্যই উৎস পাঠ্যে থাকতে হবে তা প্রযুক্তিগতভাবে জোরপূর্বক করেনি
  • উচ্চ ত্রুটির হার সৃষ্টি করে

ভবিষ্যত দিকনির্দেশনা

१. সীমাবদ্ধ ডিকোডিং:

  • সীমাবদ্ধ ডিকোডিং বা কাঠামোগত আউটপুট প্রজন্ম প্রয়োগ করুন
  • শব্দার্থগত এবং কাঠামোগতভাবে বৈধ প্রমাণ প্রজন্ম জোরপূর্বক করুন
  • অবৈধ আউটপুট উল্লেখযোগ্যভাবে হ্রাস করুন

२. খণ্ডনকারী প্রমাণ:

  • খণ্ডনকারী প্রমাণে একই বিশ্লেষণ পরিচালনা করুন
  • তথ্য যাচাইকরণ প্রক্রিয়া নিখুঁত করুন

३. ডেটাসেট সম্প্রসারণ:

  • নমুনা সংখ্যা বৃদ্ধি করুন
  • পরিসংখ্যানগত তাৎপর্য উন্নত করুন

४. মন্তব্য পার্থক্য বিশ্লেষণ:

  • দুটি মন্তব্য পরিবেশের পার্থক্য গভীরভাবে বিশ্লেষণ করুন
  • মন্তব্য মান একীভূত করুন

५. এন্ড-টু-এন্ড সিস্টেম:

  • দাবি নিষ্কাশন, নথি পুনরুদ্ধার এবং প্রমাণ নিষ্কাশন একীভূত করুন
  • সম্পূর্ণ স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম তৈরি করুন

६. বহুভাষিক সম্প্রসারণ:

  • অন্যান্য ভাষায় সম্প্রসারণ করুন
  • ক্রস-ভাষা সাধারণীকরণ ক্ষমতা মূল্যায়ন করুন

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবনী

  • প্রথম স্প্যান-স্তরের মন্তব্য: বিদ্যমান বাক্য-স্তরের চেয়ে আরও সূক্ষ্ম-দানাদার, প্রকৃত অ্যাপ্লিকেশন চাহিদার সাথে আরও ভাল সামঞ্জস্যপূর্ণ
  • দ্বৈত মন্তব্য ডিজাইন: মানব মধ্যে সামঞ্জস্য গণনা করতে পারে, LLM মূল্যায়নের জন্য বেঞ্চমার্ক প্রদান করে
  • হাঙ্গেরিয়ান ম্যাচিং অ্যালগরিদম: বিভিন্ন বিস্তারিত মাত্রার সারিবদ্ধতা সমস্যা চতুরভাবে সমাধান করে, অন্যায্য শাস্তি এড়ায়

२. পরীক্ষামূলক সম্পূর্ণতা

  • মডেল কভারেজ ব্যাপক: १७টি LLM, ४B থেকে ६८५B প্যারামিটার, মান মডেল এবং যুক্তি মডেল কভার করে
  • বহুমাত্রিক বিশ্লেষণ: ত্রুটির হার, সারিবদ্ধতা, মডেল আকার সম্পর্ক
  • বেসলাইন তুলনা: অ-নিউরাল বেসলাইন এবং মানব মন্তব্য বেঞ্চমার্ক অন্তর্ভুক্ত করে

३. ফলাফল অন্তর্দৃষ্টি

  • বিপরীত-স্বজ্ঞাত আবিষ্কার: মডেল আকার এবং কর্মক্ষমতার অ-রৈখিক সম্পর্ক প্রকাশ করে
  • ব্যবহারিক মূল্য: সর্বোত্তম মূল্য-কর্মক্ষমতা মডেল সনাক্ত করে (१४B-३२B)
  • সৎ রিপোর্টিং: উচ্চ ত্রুটির হার এবং মূল্যায়ন পক্ষপাত সৎভাবে রিপোর্ট করে

४. লেখার স্পষ্টতা

  • সমস্যা সংজ্ঞা স্পষ্ট (আনুষ্ঠানিক সংজ্ঞা)
  • পদ্ধতি বর্ণনা বিস্তারিত (সম্পূর্ণ প্রম্পট অন্তর্ভুক্ত)
  • ফলাফল ভিজ্যুয়ালাইজেশন স্পষ্ট (চিত্র १-३)

অপূর্ণতা

१. পদ্ধতি সীমাবদ্ধতা

  • সীমাহীন প্রজন্ম: স্প্যান অবশ্যই উৎস পাঠ্যে থাকতে হবে তা জোরপূর্বক করেনি, ३०%-६०% অবৈধ আউটপুট সৃষ্টি করে
  • স্টপওয়ার্ড প্রক্রিয়াকরণ: সহজ অপসারণ গুরুত্বপূর্ণ তথ্য হারাতে পারে
  • একক প্রম্পট: বিভিন্ন প্রম্পট কৌশলের প্রভাব অন্বেষণ করেনি

२. পরীক্ষামূলক সেটআপ ত্রুটি

  • নমুনা পরিমাণ ছোট: १८६টি নমুনা শক্তিশালী সিদ্ধান্তের জন্য অপর্যাপ্ত হতে পারে
  • মূল্যায়ন পক্ষপাত: অবৈধ নমুনা বাদ দেওয়া কর্মক্ষমতা তুলনা বিকৃত করতে পারে
  • পরিসংখ্যানগত তাৎপর্য পরীক্ষা অনুপস্থিত: পরিসংখ্যানগত তাৎপর্য রিপোর্ট করেনি
  • একক চালান: একাধিক চালানের ভেরিয়েন্স রিপোর্ট করেনি

३. বিশ্লেষণ অপর্যাপ্ত

  • কেস স্টাডি অনুপস্থিত: নির্দিষ্ট সাফল্য/ব্যর্থতা কেস প্রদর্শন করেনি
  • ত্রুটি ধরনের বিশ্লেষণ অনুপস্থিত: ত্রুটি ধরনে বিভক্ত করেনি (পুনর্লিখন, হ্যালুসিনেশন, ট্রাংকেশন ইত্যাদি)
  • মন্তব্য পার্থক্য ব্যাখ্যা করেনি: দুটি মন্তব্য সরঞ্জামের সিস্টেমেটিক পার্থক্য আবিষ্কার করেছে কিন্তু গভীরভাবে বিশ্লেষণ করেনি
  • ক্রস-ভাষা পার্থক্য: চেক এবং স্লোভাক ভাষার পারফরম্যান্স আলাদা করেনি

४. প্রযুক্তিগত বিবরণ

  • হাইপারপ্যারামিটার রিপোর্ট করেনি: LLM তাপমাত্রা, top-p ইত্যাদি সেটিংস উল্লেখ করেনি
  • অনুমান খরচ রিপোর্ট করেনি: বিভিন্ন আকারের মডেলের প্রকৃত গণনা খরচ তুলনা করেনি
  • দৃঢ়তা যাচাই করেনি: প্রম্পট পরিবর্তন, পাঠ্য দৈর্ঘ্য ইত্যাদির প্রতি দৃঢ়তা পরীক্ষা করেনি

প্রভাব

१. ক্ষেত্রে অবদান

  • ফাঁক পূরণ করা: চেক/স্লোভাক ভাষায় প্রথম সূক্ষ্ম-দানাদার প্রমাণ ডেটাসেট
  • পদ্ধতিগত অবদান: স্প্যান সারিবদ্ধতা মূল্যায়নের জন্য হাঙ্গেরিয়ান ম্যাচিং ব্যবহার
  • অভিজ্ঞতামূলক অন্তর্দৃষ্টি: মডেল আকার হ্রাসমান রিটার্নের অভিজ্ঞতামূলক প্রমাণ

२. ব্যবহারিক মূল্য

  • মডেল নির্বাচন নির্দেশনা: প্রকৃত স্থাপনার জন্য সর্বোত্তম মূল্য-কর্মক্ষমতা মডেল সুপারিশ প্রদান করে
  • সমস্যা সচেতনতা: গবেষকদের LLM নির্দেশনা মেনে চলার সমস্যা সম্পর্কে সতর্ক করে
  • অ্যাপ্লিকেশন পরিস্থিতি: অনলাইন আলোচনা পরিচালনার জন্য প্রযুক্তিগত পথ প্রদান করে

३. পুনরুৎপাদনযোগ্যতা

  • সুবিধা:
    • সম্পূর্ণ প্রম্পট প্রদান করুন (পরিশিষ্ট B)
    • খোলা উৎস মডেল ব্যবহার করুন (বেশিরভাগ)
    • পদ্ধতি বর্ণনা বিস্তারিত
  • অপূর্ণতা:
    • ডেটাসেট প্রকাশ করা হয়নি (পেপারে প্রকাশনা পরিকল্পনা উল্লেখ করা হয়নি)
    • কোড খোলা উৎস করা হয়নি
    • নির্দিষ্ট হাইপারপ্যারামিটার অনুপস্থিত

প্রযোজ্য পরিস্থিতি

উপযুক্ত পরিস্থিতি

१. অনলাইন আলোচনা পরিচালনা: মন্তব্যের জন্য স্বয়ংক্রিয়ভাবে তথ্য যাচাইকরণ প্রমাণ প্রদান করুন २. সংবাদ প্ল্যাটফর্ম: ব্যবহারকারী মন্তব্যের জন্য প্রসঙ্গ তথ্য যোগ করুন ३. শিক্ষা অ্যাপ্লিকেশন: শিক্ষার্থীদের প্রমাণ সনাক্ত করতে শিখতে সাহায্য করুন ४. গবেষণা সরঞ্জাম: গবেষকদের সাহিত্য পর্যালোচনা পরিচালনায় সহায়তা করুন

অনুপযুক্ত পরিস্থিতি

१. উচ্চ-ঝুঁকি সিদ্ধান্ত: চিকিৎসা, আইনি ইত্যাদি যেখানে ১००% নির্ভুলতা প্রয়োজন (ত্রুটির হার এখনও উচ্চ) २. রিয়েল-টাইম অ্যাপ্লিকেশন: অতি-বড় মডেল (६८५B) গণনা খরচ খুব বেশি ३. কম-সম্পদ ভাষা: পদ্ধতির অন্যান্য ভাষায় কার্যকারিতা যাচাই করা হয়নি ४. দীর্ঘ নথি: দীর্ঘ পাঠ্য প্রক্রিয়াকরণ ক্ষমতা পরীক্ষা করা হয়নি

স্থাপনা সুপারিশ

  • প্রস্তাবিত মডেল: qwen३:१४b বা deepseek-r१:३२b (কর্মক্ষমতা এবং খরচ ভারসাম্য)
  • প্রয়োজনীয় উন্নতি: ত্রুটির হার কমাতে সীমাবদ্ধ ডিকোডিং প্রয়োগ করুন
  • মানব পর্যালোচনা: উচ্চ-ঝুঁকি অ্যাপ্লিকেশনে মানব পর্যালোচনা ধরে রাখুন
  • বহুভাষিক সম্প্রসারণ: লক্ষ্য ভাষার জন্য পুনরায় মূল্যায়ন প্রয়োজন

সংক্ষিপ্ত মূল্যায়ন

এই পেপারটি তথ্য যাচাইয়ে সূক্ষ্ম-দানাদার প্রমাণ নিষ্কাশনের এই গুরুত্বপূর্ণ কিন্তু গবেষণা-অপর্যাপ্ত কাজে মূল্যবান অবদান রাখে। সর্বোচ্চ শক্তি হল চেক/স্লোভাক ভাষায় প্রথম স্প্যান-স্তরের মন্তব্যকৃত ডেটাসেট তৈরি করা এবং এই কাজে LLM ক্ষমতা এবং সীমাবদ্ধতা প্রকাশ করা — বিশেষত মডেল আকার হ্রাসমান রিটার্ন এবং মধ্যম-আকারের মডেলের চমৎকার মূল্য-কর্মক্ষমতা।

তবে, প্রধান সীমাবদ্ধতা ছোট নমুনা পরিমাণ (१८६টি), উচ্চ ত্রুটির হার (কিছু মডেল > ५०%) এবং অবৈধ নমুনা বাদ দেওয়া সম্ভাব্য মূল্যায়ন পক্ষপাত। ভবিষ্যত কাজ জরুরিভাবে সীমাবদ্ধ ডিকোডিং প্রক্রিয়া এবং ডেটাসেট সম্প্রসারণ প্রয়োজন।

অপূর্ণতা সত্ত্বেও, এই পেপারটি স্বয়ংক্রিয় তথ্য যাচাইকরণ সিস্টেম নির্মাণের জন্য গুরুত্বপূর্ণ অভিজ্ঞতামূলক ভিত্তি এবং পদ্ধতিগত অবদান প্রদান করে, বিশেষত সম্পদ-সীমিত ভাষার জন্য। সুপারিশ সূচকাঙ্ক: ४/५ — মূল্যবান অন্বেষণমূলক গবেষণা, কিন্তু প্রকৃত স্থাপনার জন্য প্রযুক্তিগত সমস্যা সমাধানের জন্য পরবর্তী কাজ প্রয়োজন।