2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic

চীনা সাধারণ জ্ঞান যুক্তি বেঞ্চমার্কিং একটি মাল্টি-হপ যুক্তি দৃষ্টিভঙ্গি সহ

মৌলিক তথ্য

  • পেপার আইডি: 2510.08800
  • শিরোনাম: চীনা সাধারণ জ্ঞান যুক্তি বেঞ্চমার্কিং একটি মাল্টি-হপ যুক্তি দৃষ্টিভঙ্গি সহ
  • লেখক: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
  • শ্রেণীবিভাগ: cs.CL cs.AI
  • প্রকাশনার সময়: ২০২৫ সালের জানুয়ারি (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.08800
  • প্রতিষ্ঠান: বাইটডান্স ডাউইন কন্টেন্ট গ্রুপ, সুজু বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞান ও প্রযুক্তি কলেজ

সারসংক্ষেপ

বড় ভাষা মডেল (LLMs) উন্নত যুক্তি ক্ষমতা প্রদর্শন করলেও, চীনা ভাষাগত প্রসঙ্গে ব্যাপক মূল্যায়ন এখনও অপর্যাপ্ত। এই শূন্যতা পূরণের জন্য, এই পেপারটি চীনা সাধারণ জ্ঞান মাল্টি-হপ যুক্তি (CCMOR) বেঞ্চমার্ক প্রস্তাব করে, যা LLMs-এর চীনা-নির্দিষ্ট তথ্যসংক্রান্ত জ্ঞান এবং বহু-ধাপীয় যুক্তিসংগত যুক্তি একীভূত করার ক্ষমতা মূল্যায়ন করার লক্ষ্য রাখে। নির্দিষ্টভাবে, লেখকরা প্রথমে বিদ্যমান QA ডেটাসেট থেকে ডোমেইন-ভারসাম্যপূর্ণ বীজ সেট তৈরি করেন, তারপর তথ্যসংক্রান্ত ইউনিট চেইনের উপর ভিত্তি করে মাল্টি-হপ প্রশ্ন তৈরি করতে LLM-ভিত্তিক পাইপলাইন বিকাশ করেন। ডেটাসেট গুণমান নিশ্চিত করতে, একটি মানব-মেশিন সহযোগিতা যাচাইকরণ সিস্টেম প্রয়োগ করা হয়েছে, যেখানে ডোমেইন বিশেষজ্ঞরা সিস্টেমেটিকভাবে উৎপন্ন প্রশ্নগুলি যাচাই এবং পরিমার্জন করেন। CCMOR ব্যবহার করে অত্যাধুনিক LLMs মূল্যায়ন করলে, ফলাফলগুলি দেখায় যে LLMs দীর্ঘ-লেজ জ্ঞান এবং জ্ঞান-নিবিড় যুক্তি সম্পাদনে ক্রমাগত সীমাবদ্ধতা রয়েছে। উল্লেখযোগ্যভাবে, পুনরুদ্ধার-বর্ধিত প্রজন্ম এই জ্ঞান ব্যবধান উল্লেখযোগ্যভাবে হ্রাস করে, উল্লেখযোগ্য কর্মক্ষমতা উন্নতি নিয়ে আসে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যা সমাধান করে তা হল: চীনা সাধারণ জ্ঞান মাল্টি-হপ যুক্তি কাজে বড় ভাষা মডেলের ক্ষমতা ব্যাপকভাবে কীভাবে মূল্যায়ন করা যায়। এটি নির্দিষ্টভাবে অন্তর্ভুক্ত করে:

  1. চীনা যুক্তি মূল্যায়নের অভাব: বিদ্যমান মাল্টি-হপ যুক্তি ডেটাসেটগুলি প্রধানত ইংরেজিতে ফোকাস করে, চীনা ভাষাগত প্রসঙ্গে সিস্টেমেটিক মূল্যায়ন সম্পদের অভাব রয়েছে
  2. সাংস্কৃতিক প্রাসঙ্গিকতার অভাব: চীনা সাংস্কৃতিক জ্ঞান, বাগধারা এবং যুক্তিসংগত যুক্তির ধরণে প্রোথিত মূল্যায়ন বেঞ্চমার্কের প্রয়োজন
  3. যুক্তি বনাম স্মৃতি: প্রকৃত যুক্তি ক্ষমতা এবং সাধারণ স্মৃতি ক্ষমতার মধ্যে পার্থক্য করার প্রয়োজন

গবেষণার গুরুত্ব

  1. প্রযুক্তিগত চাহিদা: OpenAI-o1, DeepSeek-R1 এর মতো বিশেষায়িত যুক্তি মডেলের উদ্ভবের সাথে, চীনা পরিস্থিতিতে বিশেষায়িত মূল্যায়নের প্রয়োজন
  2. প্রয়োগের মূল্য: চীনা বিশ্বের সবচেয়ে বেশি ব্যবহৃত ভাষাগুলির মধ্যে একটি, চীনা যুক্তি ক্ষমতার মূল্যায়ন গুরুত্বপূর্ণ ব্যবহারিক মূল্য রাখে
  3. একাডেমিক শূন্যতা: চীনা মাল্টি-হপ যুক্তি মূল্যায়নের একাডেমিক শূন্যতা পূরণ করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. ভাষাগত সীমাবদ্ধতা: HotpotQA, WikiHop, DROP ইত্যাদি প্রধানত ইংরেজিতে ফোকাস করে
  2. দুর্বল সাংস্কৃতিক অভিযোজন: সরাসরি অনুবাদকৃত ডেটাসেট চীনা-নির্দিষ্ট সংস্কৃতি এবং যুক্তির ধরণ প্রতিফলিত করতে পারে না
  3. গুণমান নিয়ন্ত্রণের কঠিনতা: উচ্চ-মানের চীনা মাল্টি-হপ যুক্তি ডেটাসেট নির্মাণ নির্ভুলতা, সামঞ্জস্য এবং স্পষ্টতার চ্যালেঞ্জের সম্মুখীন

মূল অবদান

  1. CCMOR বেঞ্চমার্ক প্রস্তাব: চীনা সাধারণ জ্ঞান মাল্টি-হপ যুক্তির জন্য প্রথম ব্যাপক মূল্যায়ন বেঞ্চমার্ক
  2. উদ্ভাবনী ডেটা নির্মাণ পদ্ধতি: LLM-চালিত স্বয়ংক্রিয় পাইপলাইন বিকাশ করা হয়েছে, মানব-মেশিন সহযোগিতা যাচাইকরণ সিস্টেমের সাথে মিলিত
  3. ব্যাপক পরীক্ষামূলক মূল্যায়ন: অত্যাধুনিক LLMs-এর সিস্টেমেটিক মূল্যায়ন, জ্ঞান-নিবিড় যুক্তিতে তাদের সীমাবদ্ধতা প্রকাশ করে
  4. গভীর বিশ্লেষণাত্মক অন্তর্দৃষ্টি: বিভিন্ন যুক্তির শৈলী, প্রম্পট কৌশল এবং RAG প্রভাব সম্পর্কে বিস্তারিত বিশ্লেষণ প্রদান করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

CCMOR নিম্নলিখিত দিকগুলিতে LLMs-এর ক্ষমতা মূল্যায়ন করার লক্ষ্য রাখে:

  • ইনপুট: চীনা মাল্টি-হপ যুক্তি প্রশ্ন, যা যুক্তি করার জন্য একাধিক তথ্য একীভূত করার প্রয়োজন
  • আউটপুট: চূড়ান্ত উত্তর এবং ঐচ্ছিক মধ্যবর্তী যুক্তি পদক্ষেপ
  • সীমাবদ্ধতা: প্রশ্নগুলি যাচাইযোগ্য তথ্য চেইনের উপর ভিত্তি করে হতে হবে, উত্তর অনন্য এবং নির্দিষ্ট হতে হবে

ডেটা নির্মাণ প্রক্রিয়া

প্রথম পদক্ষেপ: বীজ ডেটা স্যাম্পলিং

  • ডেটা উৎস: Chinese SimpleQA, CHARM-Memorization এবং অন্যান্য বিদ্যমান চীনা তথ্যসংক্রান্ত QA ডেটাসেট
  • ডোমেইন শ্রেণীবিভাগ: LLM ব্যবহার করে প্রশ্নগুলি ছয়টি প্রধান ডোমেইনে পুনরায় শ্রেণীবদ্ধ করা হয়: চীনা সংস্কৃতি, মানবিক এবং সামাজিক বিজ্ঞান, প্রকৌশল এবং প্রযুক্তি, জীবন এবং শিল্প, সমাজ, প্রাকৃতিক বিজ্ঞান
  • গুণমান নিয়ন্ত্রণ: প্রতিটি QA জোড়ার সঠিকতা এবং স্পষ্টতা মূল্যায়ন করতে একাধিক LLMs ব্যবহার করা হয়

দ্বিতীয় পদক্ষেপ: উপ-প্রশ্ন পুনরাবৃত্তিমূলক প্রজন্ম

  • নোঙর তথ্য: পূর্ববর্তী স্তরের উত্তরকে নোঙর তথ্য হিসাবে ব্যবহার করে পরবর্তী প্রশ্ন তৈরি করা হয়
  • পুনরাবৃত্তিমূলক সম্প্রসারণ: প্রতিটি স্তর ℓ ∈ 1,N-এ, প্রতিটি QA জোড়ার জন্য n টি নতুন QA জোড়া তৈরি করা হয়:
    QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
    
  • বৈচিত্র্য নিশ্চিতকরণ: মডেল-নির্দিষ্ট পক্ষপাত হ্রাস করতে বিভিন্ন LLMs বিকল্পভাবে ব্যবহার করা হয়

তৃতীয় পদক্ষেপ: মাল্টি-হপ প্রশ্ন সমন্বয়

  • পথ স্যাম্পলিং: গাছ কাঠামো থেকে সমস্ত দৈর্ঘ্য L-এর বৈধ পথ স্যাম্পল করা হয়
  • প্রশ্ন সমন্বয়: স্বাধীন QA জোড়াগুলি সংযুক্ত মাল্টি-হপ প্রশ্নে একত্রিত করা হয়
  • গুণমান মূল্যায়ন: বৈশ্বিক উত্তর অনন্যতা, ক্রম সামঞ্জস্য এবং নিরাপত্তা মূল্যায়ন করা হয়

গুণমান নিয়ন্ত্রণ প্রক্রিয়া

LLM যাচাইকরণ মান

  1. উত্তরযোগ্যতা এবং যাচাইযোগ্যতা: প্রশ্নগুলির অবশ্যই নির্দিষ্ট, সীমিত যাচাইযোগ্য উত্তর সেট থাকতে হবে
  2. বিশেষত্ব এবং নির্ধারণীয়তা: প্রশ্নগুলি নির্দিষ্ট তথ্য বা সম্পর্কের জন্য স্পষ্টভাবে লক্ষ্য করা উচিত
  3. সময় এবং তথ্য স্থিতিশীলতা: উত্তরগুলি অবশ্যই উদ্দেশ্যমূলক, সময়-অপরিবর্তনীয় তথ্য হতে হবে

মানব-মেশিন সহযোগিতা যাচাইকরণ

  • পেশাদার টীকাকারী: ডোমেইন বিশেষজ্ঞদের দ্বারা স্বাধীন পর্যালোচনা পরিচালিত হয়
  • বহু-রাউন্ড যাচাইকরণ: প্রতিটি উদাহরণ দুই জন টীকাকারী দ্বারা স্বাধীনভাবে পর্যালোচনা করা হয়, মতবিরোধ তৃতীয় পক্ষ দ্বারা সমাধান করা হয়
  • কর্তৃপক্ষ যাচাইকরণ: সমস্ত তথ্য কর্তৃপক্ষ উৎসের বিপরীতে যাচাই করা হয়

পরীক্ষামূলক সেটআপ

ডেটাসেট আকার

  • 3-হপ প্রশ্ন: 480টি (1000টি প্রাথমিক নমুনা থেকে ফিল্টার করা)
  • 6-হপ প্রশ্ন: 166টি (1000টি প্রাথমিক নমুনা থেকে ফিল্টার করা)
  • গড় দৈর্ঘ্য: 3-হপ প্রশ্ন 39.19 অক্ষর, 6-হপ প্রশ্ন 68.51 অক্ষর
  • ডোমেইন কভারেজ: গড় 1.65টি ডোমেইন (3-হপ) এবং 2.26টি ডোমেইন (6-হপ)

মূল্যায়ন মেট্রিক্স

  1. ROUGE-L রিকল: শব্দ-স্তরের ওভারল্যাপ পরিমাপ করে
  2. LLM-as-Judge নির্ভুলতা: তিনটি স্বাধীন বিচারক মডেল ব্যবহার করে সিমান্টিক-স্তরের মূল্যায়ন, সংখ্যাগরিষ্ঠ ভোট সহ

মূল্যায়ন সেটআপ

  1. ধাপ-দ্বারা-ধাপ প্রশ্নোত্তর (SQA): মাল্টি-হপ প্রশ্নগুলি উপ-প্রশ্নে বিভক্ত করা হয়, ধাপে ধাপে উত্তর দেওয়া হয়
  2. সামগ্রিক উত্তর (OA): সম্পূর্ণ মাল্টি-হপ প্রশ্নের সরাসরি উত্তর দেওয়া হয়

তুলনামূলক মডেল

  • System-1 শৈলী: Qwen2.5/3 সিরিজ, LLaMA3, GPT-4 সিরিজ, Gemini-2.5 ইত্যাদি
  • System-2 শৈলী: DeepSeek-R1, OpenAI-o1, Qwen-QwQ ইত্যাদি দীর্ঘ-চেইন চিন্তাভাবনা সহ মডেল

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

  1. সামগ্রিক কর্মক্ষমতা: এমনকি শীর্ষ মডেলগুলিও গড় মাল্টি-হপ নির্ভুলতা 75% এর নিচে, বেঞ্চমার্কের চ্যালেঞ্জিং প্রকৃতি প্রদর্শন করে
  2. System-2 সুবিধা: গভীর চিন্তাভাবনা ক্ষমতা সহ মডেলগুলি OA সেটআপে System-1 মডেলগুলিকে উল্লেখযোগ্যভাবে অতিক্রম করে
  3. হপ সংখ্যার প্রভাব: যুক্তি হপ সংখ্যা বৃদ্ধির সাথে কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়
  4. SQA বনাম OA ব্যবধান: সমস্ত মডেল SQA এবং OA-এর মধ্যে ক্রমাগত কর্মক্ষমতা ব্যবধান প্রদর্শন করে, সামগ্রিক যুক্তি এখনও চ্যালেঞ্জিং থাকে তা নির্দেশ করে

নির্দিষ্ট কর্মক্ষমতা ডেটা

  • সেরা মডেল: Gemini-2.5-Pro গড় নির্ভুলতায় 73.61% অর্জন করে
  • চীনা সুবিধা: Yi-lightning, GLM-4, Doubao ইত্যাদি চীনা সম্প্রদায়ের মডেলগুলি নির্দিষ্ট সেটআপে উল্লেখযোগ্য কর্মক্ষমতা প্রদর্শন করে
  • বন্ধ-উৎস বনাম খোলা-উৎস: বন্ধ-উৎস মডেলগুলি সাধারণত খোলা-উৎস মডেলগুলিকে অতিক্রম করে

ডোমেইন বিশ্লেষণ

  • সবচেয়ে সহজ ডোমেইন: প্রাকৃতিক বিজ্ঞান গড় স্কোর 83.93
  • সবচেয়ে কঠিন ডোমেইন: জীবন এবং শিল্প গড় স্কোর 66.61
  • চীনা সংস্কৃতি: চীনা সম্প্রদায়ের মডেলগুলি চীনা সংস্কৃতি ডোমেইনে আরও ভাল কর্মক্ষমতা প্রদর্শন করে

RAG প্রভাব

  • উল্লেখযোগ্য উন্নতি: RAG গড়ে 9.5 শতাংশ পয়েন্ট নির্ভুলতা উন্নতি নিয়ে আসে
  • মডেল পার্থক্য: Doubao সর্বাধিক উন্নতি প্রদর্শন করে, যখন Kimi এবং Wenxin সীমিত উন্নতি দেখায়
  • বহু-রাউন্ড পুনরুদ্ধার: বহু-রাউন্ড পুনরুদ্ধার সমর্থন করে এমন মডেলগুলি মাল্টি-হপ যুক্তিতে আরও সুবিধাজনক

সম্পর্কিত কাজ

মাল্টি-হপ যুক্তি বেঞ্চমার্ক

  • ইংরেজি বেঞ্চমার্ক: HotpotQA, 2WikiMultiHopQA, MuSiQue ইত্যাদি ভিত্তি স্থাপন করেছে
  • সর্বশেষ উন্নয়ন: MoreHopQA, Multihop-RAG ইত্যাদি উচ্চতর মানের প্রশ্ন নির্মাণে LLMs ব্যবহার করে
  • চীনা শূন্যতা: NLPCC-MH, CoreCode, CHARM ইত্যাদি প্রাথমিক প্রচেষ্টা, কিন্তু সিস্টেমেটিক যাচাইযোগ্য বহু-ধাপীয় যুক্তির অভাব

চীনা সাধারণ জ্ঞান বেঞ্চমার্ক

  • উন্নয়ন ইতিহাস: ইংরেজি বেঞ্চমার্ক অনুবাদ থেকে মূল চীনা মূল্যায়নে
  • প্রতিনিধিত্বমূলক কাজ: C3, CMQA, Chinese SimpleQA ইত্যাদি
  • সীমাবদ্ধতা: প্রধানত একক-হপ তথ্য প্রশ্নে ফোকাস করে, মাল্টি-হপ যুক্তি মূল্যায়নের অভাব

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. কর্মক্ষমতা সীমাবদ্ধতা: বর্তমান অত্যাধুনিক LLMs চীনা মাল্টি-হপ যুক্তিতে উল্লেখযোগ্য সীমাবদ্ধতা রয়েছে
  2. যুক্তি শৈলীর গুরুত্ব: System-2 শৈলীর গভীর চিন্তাভাবনা মাল্টি-হপ যুক্তির জন্য গুরুত্বপূর্ণ
  3. RAG কার্যকারিতা: পুনরুদ্ধার-বর্ধিত প্রজন্ম জ্ঞান-নিবিড় যুক্তি উল্লেখযোগ্যভাবে উন্নত করতে পারে
  4. ডোমেইন পার্থক্য: তথ্য-কেন্দ্রিক ডোমেইনগুলি তুলনামূলকভাবে সহজ, প্রক্রিয়াগত বা বিমূর্ত যুক্তি আরও চ্যালেঞ্জিং

সীমাবদ্ধতা

  1. LLM নির্ভরতা: ডেটা নির্মাণ প্রক্রিয়া LLM প্রজন্মের উপর নির্ভর করে, যা হ্যালুসিনেশন বা পক্ষপাত প্রবর্তন করতে পারে
  2. মূল্যায়ন পদ্ধতি: LLM-as-Judge মূল্যায়ন মডেল-নির্দিষ্ট পছন্দ দ্বারা প্রভাবিত হতে পারে
  3. কভারেজ পরিসীমা: পাঠ্য সাধারণ জ্ঞানে ফোকাস করে, মাল্টি-মোডাল যুক্তি অন্তর্ভুক্ত করে না

ভবিষ্যত দিকনির্দেশনা

  1. মাল্টি-মোডাল সম্প্রসারণ: বেঞ্চমার্ক মাল্টি-মোডাল যুক্তি কাজে সম্প্রসারণ করা
  2. ইন্টারঅ্যাক্টিভ যুক্তি: বহু-রাউন্ড ইন্টারঅ্যাকশন প্রয়োজন এমন যুক্তি পরিস্থিতি অন্তর্ভুক্ত করা
  3. যুক্তি বিশেষায়ন: যুক্তির জন্য বিশেষায়িত মডেল উন্নয়ন করা

গভীর মূল্যায়ন

শক্তি

  1. গুরুত্বপূর্ণ শূন্যতা পূরণ: প্রথম সিস্টেমেটিক চীনা মাল্টি-হপ যুক্তি বেঞ্চমার্ক, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে
  2. পদ্ধতিগত উদ্ভাবন: LLM-চালিত ডেটা নির্মাণ পাইপলাইন মানব-মেশিন সহযোগিতা যাচাইকরণের সাথে মিলিত, ডেটা গুণমান নিশ্চিত করে
  3. ব্যাপক মূল্যায়ন: একাধিক মডেল প্রকার, যুক্তি শৈলী এবং বর্ধন কৌশল জুড়ে সিস্টেমেটিক মূল্যায়ন
  4. গভীর বিশ্লেষণ: ডোমেইন, যুক্তি শৈলী, প্রম্পট কৌশল ইত্যাদি সহ সমৃদ্ধ বিশ্লেষণ মাত্রা প্রদান করে
  5. উচ্চ গুণমান নিয়ন্ত্রণ: কঠোর গুণমান নিয়ন্ত্রণ মান এবং বহু-রাউন্ড যাচাইকরণ প্রক্রিয়া

দুর্বলতা

  1. আকার সীমাবদ্ধতা: ডেটাসেট আকার তুলনামূলকভাবে ছোট (646টি প্রশ্ন), মূল্যায়নের সম্পূর্ণতা প্রভাবিত করতে পারে
  2. নির্মাণ খরচ: মানব-মেশিন সহযোগিতা নির্মাণ পদ্ধতি খরচ-নিবিড়, বড় আকারে সম্প্রসারণ কঠিন
  3. মূল্যায়ন নির্ভরতা: LLM-as-Judge-এর উপর অত্যধিক নির্ভরতা, মূল্যায়ন পক্ষপাত থাকতে পারে
  4. ডোমেইন ভারসাম্য: যদিও ডোমেইন ভারসাম্য অনুসরণ করা হয়, নির্দিষ্ট ডোমেইনের নমুনা এখনও অপর্যাপ্ত হতে পারে

প্রভাব

  1. একাডেমিক অবদান: চীনা NLP ক্ষেত্রে গুরুত্বপূর্ণ মূল্যায়ন সম্পদ প্রদান করে
  2. ব্যবহারিক মূল্য: চীনা LLMs উন্নয়ন এবং মূল্যায়নে সরাসরি নির্দেশনা প্রদান করে
  3. পদ্ধতি অনুপ্রেরণা: ডেটা নির্মাণ পদ্ধতি অন্যান্য ভাষার অনুরূপ বেঞ্চমার্ক নির্মাণের জন্য রেফারেন্স মূল্য রয়েছে
  4. পুনরুৎপাদনযোগ্যতা: বিস্তারিত পদ্ধতি বর্ণনা এবং ডেটা প্রকাশের প্রতিশ্রুতি পুনরুৎপাদনযোগ্যতা নিশ্চিত করে

প্রযোজ্য পরিস্থিতি

  1. মডেল মূল্যায়ন: চীনা LLMs-এর যুক্তি ক্ষমতা মূল্যায়ন করা
  2. মডেল উন্নয়ন: যুক্তি ক্ষমতা উন্নতির দিকনির্দেশনা প্রদান করা
  3. প্রয়োগ স্থাপনা: জটিল যুক্তি প্রয়োজন এমন চীনা প্রয়োগের জন্য কর্মক্ষমতা রেফারেন্স প্রদান করা
  4. গবেষণা বেঞ্চমার্ক: চীনা যুক্তি গবেষণার জন্য মান মূল্যায়ন বেঞ্চমার্ক হিসাবে কাজ করা

সংদর্ভ

পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • HotpotQA (Yang et al., 2018): মাল্টি-হপ যুক্তির ভিত্তিস্থাপনকারী কাজ
  • Chinese SimpleQA (He et al., 2024): উচ্চ-মানের চীনা তথ্যসংক্রান্ত QA বেঞ্চমার্ক
  • MoreHopQA (Schnitzler et al., 2024): এই পেপারের পদ্ধতির আংশিক অনুপ্রেরণা উৎস
  • CHARM (Sun et al., 2024): চীনা সাধারণ জ্ঞান যুক্তি সম্পর্কিত কাজ

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা চীনা মাল্টি-হপ যুক্তি মূল্যায়নের গুরুত্বপূর্ণ শূন্যতা পূরণ করে। পেপারটির পদ্ধতি কঠোর, পরীক্ষা ব্যাপক, বিশ্লেষণ গভীর, চীনা NLP এবং যুক্তি গবেষণা উন্নয়নে উল্লেখযোগ্য মূল্য রয়েছে। যদিও ডেটা আকার এবং মূল্যায়ন পদ্ধতিতে কিছু সীমাবদ্ধতা রয়েছে, তবে এর অবদান উল্লেখযোগ্য এবং ক্ষেত্রের উন্নয়নের জন্য গুরুত্বপূর্ণ ভিত্তি স্থাপন করে।