2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.

While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.

academic

चीनी सामान्य ज्ञान तर्क को बहु-चरण तर्क दृष्टिकोण के साथ बेंचमार्क करना

मूल जानकारी

पेपर ID: 2510.08800
शीर्षक: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
लेखक: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
वर्गीकरण: cs.CL cs.AI
प्रकाशन समय: जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08800
संस्थान: बाइटडांस डाउइन कंटेंट ग्रुप, सुझोउ विश्वविद्यालय कंप्यूटर विज्ञान और प्रौद्योगिकी कॉलेज

सारांश

बड़े भाषा मॉडल (LLMs) उन्नत तर्क क्षमता प्रदर्शित करते हैं, लेकिन चीनी भाषा के संदर्भ में व्यापक मूल्यांकन अभी भी अपर्याप्त है। इस अंतराल को भरने के लिए, यह पेपर चीनी सामान्य ज्ञान बहु-चरण तर्क (CCMOR) बेंचमार्क प्रस्तावित करता है, जिसका उद्देश्य LLMs की चीनी-विशिष्ट तथ्य ज्ञान और बहु-चरणीय तार्किक तर्क को एकीकृत करने की क्षमता का मूल्यांकन करना है। विशेष रूप से, लेखकों ने पहले मौजूदा QA डेटासेट से डोमेन-संतुलित बीज सेट का निर्माण किया, फिर तथ्य इकाई श्रृंखलाओं के आधार पर बहु-चरण प्रश्न उत्पन्न करने के लिए LLM-आधारित पाइपलाइन विकसित की। डेटासेट गुणवत्ता सुनिश्चित करने के लिए, एक मानव-मशीन सहयोग सत्यापन प्रणाली लागू की गई, जिसमें डोमेन विशेषज्ञ व्यवस्थित रूप से उत्पन्न प्रश्नों को सत्यापित और परिष्कृत करते हैं। CCMOR का उपयोग करके अत्याधुनिक LLMs का मूल्यांकन करने से पता चलता है कि LLMs को लंबी-पूंछ ज्ञान और ज्ञान-गहन तर्क को संभालने में निरंतर सीमाएं हैं। उल्लेखनीय रूप से, पुनः प्राप्ति-संवर्धित पीढ़ी इन ज्ञान अंतराल को काफी हद तक कम करती है, जिससे महत्वपूर्ण प्रदर्शन सुधार होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: चीनी सामान्य ज्ञान बहु-चरण तर्क कार्यों पर बड़े भाषा मॉडल की क्षमता का व्यापक मूल्यांकन कैसे करें। विशेष रूप से इसमें शामिल है:

चीनी तर्क मूल्यांकन की कमी: मौजूदा बहु-चरण तर्क डेटासेट मुख्य रूप से अंग्रेजी पर ध्यान केंद्रित करते हैं, चीनी भाषा के संदर्भ में व्यवस्थित मूल्यांकन संसाधनों की कमी है
सांस्कृतिक प्रासंगिकता की कमी: चीनी सांस्कृतिक ज्ञान, मुहावरों और तार्किक तर्क पैटर्न में निहित मूल्यांकन बेंचमार्क की आवश्यकता है
तर्क बनाम स्मृति: वास्तविक तर्क क्षमता और सरल स्मृति क्षमता के बीच अंतर करने की आवश्यकता है

अनुसंधान का महत्व

तकनीकी आवश्यकता: OpenAI-o1, DeepSeek-R1 जैसे विशेष तर्क मॉडल के उदय के साथ, चीनी परिदृश्य के लिए विशेष मूल्यांकन की आवश्यकता है
अनुप्रयोग मूल्य: चीनी दुनिया में सबसे अधिक बोली जाने वाली भाषाओं में से एक है, चीनी तर्क क्षमता के मूल्यांकन का महत्वपूर्ण व्यावहारिक मूल्य है
शैक्षणिक अंतराल: चीनी बहु-चरण तर्क मूल्यांकन में शैक्षणिक अंतराल को भरना

मौजूदा विधियों की सीमाएं

भाषा सीमा: HotpotQA, WikiHop, DROP आदि मुख्य रूप से अंग्रेजी पर ध्यान केंद्रित करते हैं
सांस्कृतिक अनुकूलन में कमी: सीधे अनुवादित डेटासेट चीनी-विशिष्ट संस्कृति और तर्क पैटर्न को प्रतिबिंबित नहीं कर सकते
गुणवत्ता नियंत्रण की कठिनाई: उच्च-गुणवत्ता वाले चीनी बहु-चरण तर्क डेटासेट का निर्माण सटीकता, सामंजस्य और स्पष्टता की चुनौतियों का सामना करता है

मुख्य योगदान

CCMOR बेंचमार्क प्रस्ताव: चीनी सामान्य ज्ञान बहु-चरण तर्क के लिए पहला व्यापक मूल्यांकन बेंचमार्क
नवीन डेटा निर्माण विधि: LLM-आधारित स्वचालित पाइपलाइन विकसित की, जिसमें मानव-मशीन सहयोग सत्यापन प्रणाली है
व्यापक प्रायोगिक मूल्यांकन: अत्याधुनिक LLMs का व्यवस्थित मूल्यांकन, ज्ञान-गहन तर्क में उनकी सीमाओं को प्रकट करता है
गहन विश्लेषणात्मक अंतर्दृष्टि: विभिन्न तर्क शैलियों, प्रेरणा रणनीतियों और RAG प्रभावों पर विस्तृत विश्लेषण प्रदान करता है

विधि विवरण

कार्य परिभाषा

CCMOR का उद्देश्य LLMs की निम्नलिखित क्षमताओं का मूल्यांकन करना है:

इनपुट: चीनी बहु-चरण तर्क प्रश्न, जिनके लिए तर्क के लिए कई तथ्यों को एकीकृत करने की आवश्यकता है
आउटपुट: अंतिम उत्तर साथ ही वैकल्पिक मध्यवर्ती तर्क चरण
बाधाएं: प्रश्न सत्यापन योग्य तथ्य श्रृंखला पर आधारित होना चाहिए, उत्तर अद्वितीय और ठोस होना चाहिए

डेटा निर्माण प्रक्रिया

चरण एक: बीज डेटा नमूनाकरण

डेटा स्रोत: Chinese SimpleQA, CHARM-Memorization आदि मौजूदा चीनी तथ्य QA डेटासेट
डोमेन वर्गीकरण: LLM का उपयोग करके प्रश्नों को छह मुख्य डोमेन में पुनः वर्गीकृत करें: चीनी संस्कृति, मानविकी और सामाजिक विज्ञान, इंजीनियरिंग और प्रौद्योगिकी, जीवन और कला, समाज, प्राकृतिक विज्ञान
गुणवत्ता नियंत्रण: प्रत्येक QA जोड़ी की सटीकता और स्पष्टता का मूल्यांकन करने के लिए कई LLMs का उपयोग करें

चरण दो: उप-प्रश्न पुनरावर्ती पीढ़ी

लंगर तथ्य: पूर्ववर्ती परत के उत्तर को लंगर तथ्य के रूप में उपयोग करके बाद के प्रश्न उत्पन्न करें
पुनरावर्ती विस्तार: प्रत्येक परत ℓ ∈ 1,N में, प्रत्येक QA जोड़ी के लिए n नए QA जोड़े उत्पन्न करें:
```
QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
```
विविधता सुनिश्चितता: मॉडल-विशिष्ट पूर्वाग्रह को कम करने के लिए विभिन्न LLMs का वैकल्पिक उपयोग करें

चरण तीन: बहु-चरण प्रश्न संयोजन

पथ नमूनाकरण: वृक्ष संरचना से लंबाई L के सभी वैध पथों का नमूना लें
प्रश्न संयोजन: स्वतंत्र QA जोड़ों को सुसंगत बहु-चरण प्रश्नों में संयोजित करें
गुणवत्ता मूल्यांकन: वैश्विक उत्तर विशिष्टता, अनुक्रम सामंजस्य और हानिरहितता का मूल्यांकन करें

गुणवत्ता नियंत्रण तंत्र

LLM सत्यापन मानदंड

उत्तरदायित्व और सत्यापनीयता: प्रश्न का एक ठोस, सीमित सत्यापन योग्य उत्तर सेट होना चाहिए
विशिष्टता और निश्चितता: प्रश्न विशिष्ट तथ्य या संबंध के लिए स्पष्ट रूप से लक्षित होना चाहिए
समय और तथ्य स्थिरता: उत्तर उद्देश्य, समय-अपरिवर्तनीय तथ्य होना चाहिए

मानव-मशीन सहयोग सत्यापन

पेशेवर एनोटेटर: डोमेन विशेषज्ञों द्वारा स्वतंत्र समीक्षा
बहु-दौर सत्यापन: प्रत्येक उदाहरण को दो एनोटेटर द्वारा स्वतंत्र रूप से समीक्षा की जाती है, असहमति को तीसरे पक्ष द्वारा हल किया जाता है
प्राधिकार सत्यापन: सभी तथ्यों को प्राधिकार स्रोतों के विरुद्ध सत्यापित किया जाता है

प्रायोगिक सेटअप

डेटासेट आकार

3-चरण प्रश्न: 480 (1000 प्रारंभिक नमूनों से फ़िल्टर किए गए)
6-चरण प्रश्न: 166 (1000 प्रारंभिक नमूनों से फ़िल्टर किए गए)
औसत लंबाई: 3-चरण प्रश्न 39.19 वर्ण, 6-चरण प्रश्न 68.51 वर्ण
डोमेन कवरेज: औसत 1.65 डोमेन (3-चरण) और 2.26 डोमेन (6-चरण)

मूल्यांकन मेट्रिक्स

ROUGE-L रिकॉल: शब्दावली स्तर पर ओवरलैप को मापता है
LLM-as-Judge सटीकता: तीन स्वतंत्र निर्णय मॉडल का उपयोग करके शब्दार्थ-स्तर के मूल्यांकन के लिए, बहुमत मतदान का उपयोग करके

मूल्यांकन सेटिंग्स

चरणबद्ध प्रश्न उत्तर (SQA): बहु-चरण प्रश्न को उप-प्रश्नों में विघटित करें, चरणबद्ध रूप से उत्तर दें
समग्र उत्तर (OA): पूर्ण बहु-चरण प्रश्न का सीधे उत्तर दें

तुलनात्मक मॉडल

System-1 शैली: Qwen2.5/3 श्रृंखला, LLaMA3, GPT-4 श्रृंखला, Gemini-2.5 आदि
System-2 शैली: DeepSeek-R1, OpenAI-o1, Qwen-QwQ आदि लंबी श्रृंखला विचार वाले मॉडल

प्रायोगिक परिणाम

मुख्य परिणाम

समग्र प्रदर्शन: शीर्ष मॉडल भी औसत बहु-चरण सटीकता में 75% से कम है, बेंचमार्क की चुनौती को दर्शाता है
System-2 लाभ: गहन विचार क्षमता वाले मॉडल OA सेटिंग में System-1 मॉडल से काफी बेहतर हैं
चरण प्रभाव: तर्क चरणों की संख्या बढ़ने के साथ प्रदर्शन में महत्वपूर्ण गिरावट आती है
SQA बनाम OA अंतराल: सभी मॉडल SQA और OA के बीच निरंतर प्रदर्शन अंतराल दिखाते हैं, जो दर्शाता है कि व्यापक तर्क अभी भी चुनौतीपूर्ण है

विशिष्ट प्रदर्शन डेटा

सर्वश्रेष्ठ मॉडल: Gemini-2.5-Pro औसत सटीकता में 73.61% तक पहुंचता है
चीनी लाभ: Yi-lightning, GLM-4, Doubao आदि चीनी समुदाय के मॉडल कुछ सेटिंग्स में उत्कृष्ट प्रदर्शन करते हैं
बंद स्रोत बनाम खुला स्रोत: बंद स्रोत मॉडल आम तौर पर खुले स्रोत मॉडल से बेहतर हैं

डोमेन विश्लेषण

सबसे आसान डोमेन: प्राकृतिक विज्ञान औसत स्कोर 83.93
सबसे कठिन डोमेन: जीवन और कला औसत स्कोर 66.61
चीनी संस्कृति: चीनी समुदाय के मॉडल चीनी संस्कृति डोमेन में बेहतर प्रदर्शन करते हैं

RAG प्रभाव

महत्वपूर्ण सुधार: RAG औसतन 9.5 प्रतिशत अंक की सटीकता में सुधार लाता है
मॉडल अंतर: Doubao सबसे बड़ा सुधार दिखाता है, जबकि Kimi और Wenxin सीमित सुधार दिखाते हैं
बहु-दौर पुनः प्राप्ति: बहु-दौर पुनः प्राप्ति का समर्थन करने वाले मॉडल बहु-चरण तर्क में अधिक लाभान्वित होते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रदर्शन सीमाएं: वर्तमान अत्याधुनिक LLMs चीनी बहु-चरण तर्क में महत्वपूर्ण सीमाएं दिखाते हैं
तर्क शैली का महत्व: System-2 शैली की गहन विचार बहु-चरण तर्क के लिए महत्वपूर्ण है
RAG प्रभावशीलता: पुनः प्राप्ति-संवर्धित पीढ़ी ज्ञान-गहन तर्क में काफी सुधार कर सकती है
डोमेन अंतर: तथ्य-केंद्रित डोमेन अपेक्षाकृत आसान हैं, प्रक्रियात्मक या अमूर्त तर्क अधिक चुनौतीपूर्ण है

सीमाएं

LLM निर्भरता: डेटा निर्माण प्रक्रिया LLM पीढ़ी पर निर्भर है, जो भ्रम या पूर्वाग्रह का परिचय दे सकती है
मूल्यांकन विधि: LLM-as-Judge मूल्यांकन मॉडल-विशिष्ट प्राथमिकताओं से प्रभावित हो सकता है
कवरेज रेंज: पाठ सामान्य ज्ञान पर ध्यान केंद्रित, बहु-मोडल तर्क को शामिल नहीं करता

भविष्य की दिशाएं

बहु-मोडल विस्तार: बेंचमार्क को बहु-मोडल तर्क कार्यों तक विस्तारित करें
इंटरैक्टिव तर्क: बहु-दौर इंटरैक्शन की आवश्यकता वाले तर्क परिदृश्यों को शामिल करें
तर्क विशेषज्ञता: तर्क के लिए विशेष मॉडल विकसित करें

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण अंतराल को भरना: पहला व्यवस्थित चीनी बहु-चरण तर्क बेंचमार्क, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य के साथ
पद्धति नवाचार: LLM-संचालित डेटा निर्माण पाइपलाइन मानव-मशीन सहयोग सत्यापन के साथ, डेटा गुणवत्ता सुनिश्चित करता है
व्यापक मूल्यांकन: कई मॉडल प्रकार, तर्क शैलियों और वर्धन तकनीकों का व्यवस्थित मूल्यांकन
गहन विश्लेषण: डोमेन, तर्क शैली, प्रेरणा रणनीति आदि सहित समृद्ध विश्लेषण आयाम प्रदान करता है
उच्च गुणवत्ता नियंत्रण: कठोर गुणवत्ता नियंत्रण मानदंड और बहु-दौर सत्यापन तंत्र

कमियां

आकार सीमा: डेटासेट आकार अपेक्षाकृत छोटा है (646 प्रश्न), मूल्यांकन की व्यापकता को प्रभावित कर सकता है
निर्माण लागत: मानव-मशीन सहयोग निर्माण विधि लागत-गहन है, बड़े पैमाने पर विस्तार करना मुश्किल है
मूल्यांकन निर्भरता: LLM-as-Judge पर अत्यधिक निर्भरता, मूल्यांकन पूर्वाग्रह हो सकता है
डोमेन संतुलन: डोमेन संतुलन के लिए प्रयास के बावजूद, कुछ डोमेन के नमूने अभी भी अपर्याप्त हो सकते हैं

प्रभाव

शैक्षणिक योगदान: चीनी NLP क्षेत्र के लिए महत्वपूर्ण मूल्यांकन संसाधन प्रदान करता है
व्यावहारिक मूल्य: चीनी LLMs के विकास और मूल्यांकन के लिए प्रत्यक्ष मार्गदर्शन मूल्य
विधि प्रेरणा: डेटा निर्माण विधि अन्य भाषाओं के समान बेंचमार्क निर्माण के लिए संदर्भ मूल्य है
पुनरुत्पादनीयता: विस्तृत विधि विवरण और डेटा प्रकाशन का वचन पुनरुत्पादनीयता सुनिश्चित करता है

लागू परिदृश्य

मॉडल मूल्यांकन: चीनी LLMs की तर्क क्षमता का मूल्यांकन करें
मॉडल विकास: तर्क क्षमता सुधार की दिशा निर्देशित करें
अनुप्रयोग तैनाती: जटिल तर्क की आवश्यकता वाले चीनी अनुप्रयोगों के लिए प्रदर्शन संदर्भ
अनुसंधान बेंचमार्क: चीनी तर्क अनुसंधान के लिए मानक मूल्यांकन बेंचमार्क के रूप में

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

HotpotQA (Yang et al., 2018): बहु-चरण तर्क का आधारभूत कार्य
Chinese SimpleQA (He et al., 2024): उच्च-गुणवत्ता वाला चीनी तथ्य QA बेंचमार्क
MoreHopQA (Schnitzler et al., 2024): इस पेपर की विधि के आंशिक प्रेरणा स्रोत
CHARM (Sun et al., 2024): चीनी सामान्य ज्ञान तर्क संबंधित कार्य

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो चीनी बहु-चरण तर्क मूल्यांकन में महत्वपूर्ण अंतराल को भरता है। पेपर की विधि कठोर है, प्रयोग व्यापक है, विश्लेषण गहन है, और चीनी NLP और तर्क अनुसंधान को आगे बढ़ाने में महत्वपूर्ण मूल्य है। हालांकि डेटा आकार और मूल्यांकन विधि में कुछ सीमाएं हैं, लेकिन इसका योगदान महत्वपूर्ण है और इस क्षेत्र के विकास के लिए एक महत्वपूर्ण आधार स्थापित करता है।