Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic
चीनी सामान्य ज्ञान तर्क को बहु-चरण तर्क दृष्टिकोण के साथ बेंचमार्क करना
बड़े भाषा मॉडल (LLMs) उन्नत तर्क क्षमता प्रदर्शित करते हैं, लेकिन चीनी भाषा के संदर्भ में व्यापक मूल्यांकन अभी भी अपर्याप्त है। इस अंतराल को भरने के लिए, यह पेपर चीनी सामान्य ज्ञान बहु-चरण तर्क (CCMOR) बेंचमार्क प्रस्तावित करता है, जिसका उद्देश्य LLMs की चीनी-विशिष्ट तथ्य ज्ञान और बहु-चरणीय तार्किक तर्क को एकीकृत करने की क्षमता का मूल्यांकन करना है। विशेष रूप से, लेखकों ने पहले मौजूदा QA डेटासेट से डोमेन-संतुलित बीज सेट का निर्माण किया, फिर तथ्य इकाई श्रृंखलाओं के आधार पर बहु-चरण प्रश्न उत्पन्न करने के लिए LLM-आधारित पाइपलाइन विकसित की। डेटासेट गुणवत्ता सुनिश्चित करने के लिए, एक मानव-मशीन सहयोग सत्यापन प्रणाली लागू की गई, जिसमें डोमेन विशेषज्ञ व्यवस्थित रूप से उत्पन्न प्रश्नों को सत्यापित और परिष्कृत करते हैं। CCMOR का उपयोग करके अत्याधुनिक LLMs का मूल्यांकन करने से पता चलता है कि LLMs को लंबी-पूंछ ज्ञान और ज्ञान-गहन तर्क को संभालने में निरंतर सीमाएं हैं। उल्लेखनीय रूप से, पुनः प्राप्ति-संवर्धित पीढ़ी इन ज्ञान अंतराल को काफी हद तक कम करती है, जिससे महत्वपूर्ण प्रदर्शन सुधार होता है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: चीनी सामान्य ज्ञान बहु-चरण तर्क कार्यों पर बड़े भाषा मॉडल की क्षमता का व्यापक मूल्यांकन कैसे करें। विशेष रूप से इसमें शामिल है:
चीनी तर्क मूल्यांकन की कमी: मौजूदा बहु-चरण तर्क डेटासेट मुख्य रूप से अंग्रेजी पर ध्यान केंद्रित करते हैं, चीनी भाषा के संदर्भ में व्यवस्थित मूल्यांकन संसाधनों की कमी है
सांस्कृतिक प्रासंगिकता की कमी: चीनी सांस्कृतिक ज्ञान, मुहावरों और तार्किक तर्क पैटर्न में निहित मूल्यांकन बेंचमार्क की आवश्यकता है
तर्क बनाम स्मृति: वास्तविक तर्क क्षमता और सरल स्मृति क्षमता के बीच अंतर करने की आवश्यकता है
डेटा स्रोत: Chinese SimpleQA, CHARM-Memorization आदि मौजूदा चीनी तथ्य QA डेटासेट
डोमेन वर्गीकरण: LLM का उपयोग करके प्रश्नों को छह मुख्य डोमेन में पुनः वर्गीकृत करें: चीनी संस्कृति, मानविकी और सामाजिक विज्ञान, इंजीनियरिंग और प्रौद्योगिकी, जीवन और कला, समाज, प्राकृतिक विज्ञान
गुणवत्ता नियंत्रण: प्रत्येक QA जोड़ी की सटीकता और स्पष्टता का मूल्यांकन करने के लिए कई LLMs का उपयोग करें
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
HotpotQA (Yang et al., 2018): बहु-चरण तर्क का आधारभूत कार्य
Chinese SimpleQA (He et al., 2024): उच्च-गुणवत्ता वाला चीनी तथ्य QA बेंचमार्क
MoreHopQA (Schnitzler et al., 2024): इस पेपर की विधि के आंशिक प्रेरणा स्रोत
CHARM (Sun et al., 2024): चीनी सामान्य ज्ञान तर्क संबंधित कार्य
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो चीनी बहु-चरण तर्क मूल्यांकन में महत्वपूर्ण अंतराल को भरता है। पेपर की विधि कठोर है, प्रयोग व्यापक है, विश्लेषण गहन है, और चीनी NLP और तर्क अनुसंधान को आगे बढ़ाने में महत्वपूर्ण मूल्य है। हालांकि डेटा आकार और मूल्यांकन विधि में कुछ सीमाएं हैं, लेकिन इसका योगदान महत्वपूर्ण है और इस क्षेत्र के विकास के लिए एक महत्वपूर्ण आधार स्थापित करता है।