Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic
معايرة التفكير السليم الصيني من منظور التفكير متعدد المراحل
على الرغم من أن نماذج اللغة الكبيرة (LLMs) تُظهر قدرات استدلالية متقدمة، إلا أن التقييم الشامل في السياق الصيني لا يزال غير كافٍ. لسد هذه الفجوة، تقترح هذه الورقة معيار التفكير السليم متعدد المراحل الصيني (CCMOR)، الذي يهدف إلى تقييم قدرة نماذج اللغة الكبيرة على دمج المعرفة الواقعية الخاصة بالسياق الصيني والاستدلال المنطقي متعدد الخطوات. بشكل محدد، يقوم المؤلفون أولاً ببناء مجموعة بذور متوازنة من حيث المجال من مجموعات بيانات الأسئلة والأجوبة الموجودة، ثم يطورون خط أنابيب يعتمد على نماذج اللغة الكبيرة لإنشاء أسئلة متعددة المراحل بناءً على سلاسل الوحدات الواقعية. لضمان جودة مجموعة البيانات، تم تطبيق نظام التحقق التعاوني بين الإنسان والآلة، حيث يقوم الخبراء المتخصصون بالتحقق المنهجي وتحسين الأسئلة المُنشأة. باستخدام CCMOR لتقييم أحدث نماذج اللغة الكبيرة، تُظهر النتائج أن نماذج اللغة الكبيرة تواجه قيوداً مستمرة في التعامل مع المعرفة ذات الذيل الطويل وتنفيذ الاستدلال الكثيف بالمعرفة. وجدير بالملاحظة أن الإنشاء المعزز بالاسترجاع يخفف بشكل كبير من هذه الفجوات المعرفية، مما يؤدي إلى تحسينات أداء ملحوظة.
المشكلة الأساسية التي يسعى هذا البحث إلى حلها هي: كيفية تقييم قدرات نماذج اللغة الكبيرة بشكل شامل في مهام التفكير السليم متعدد المراحل الصيني. يتضمن ذلك بشكل محدد:
غياب تقييم الاستدلال الصيني: مجموعات البيانات الموجودة للاستدلال متعدد المراحل تركز بشكل أساسي على اللغة الإنجليزية، وتفتقر إلى موارد تقييم منهجية للسياق الصيني
عدم كفاية الملاءمة الثقافية: الحاجة إلى معايير تقييم متجذرة في المعرفة الثقافية الصينية والتعابير الاصطلاحية وأنماط الاستدلال المنطقي
الاستدلال مقابل الذاكرة: الحاجة إلى التمييز بين قدرات الاستدلال الحقيقية والقدرات البسيطة على الحفظ
مصادر البيانات: مجموعات بيانات الأسئلة والأجوبة الواقعية الصينية الموجودة مثل Chinese SimpleQA و CHARM-Memorization
التصنيف حسب المجال: استخدام نماذج اللغة الكبيرة لإعادة تصنيف الأسئلة إلى ستة مجالات رئيسية: الثقافة الصينية، العلوم الإنسانية والاجتماعية، الهندسة والتكنولوجيا، الحياة والفنون، المجتمع، العلوم الطبيعية
التحكم في الجودة: تقييم صحة ووضوح كل زوج أسئلة وأجوبة من قبل نماذج لغة كبيرة متعددة
تستشهد الورقة بأعمال ذات صلة مهمة متعددة، بما في ذلك:
HotpotQA (Yang et al., 2018): عمل تأسيسي في الاستدلال متعدد المراحل
Chinese SimpleQA (He et al., 2024): معيار أسئلة وأجوبة واقعي صيني عالي الجودة
MoreHopQA (Schnitzler et al., 2024): مصدر إلهام جزئي لطريقة هذه الورقة
CHARM (Sun et al., 2024): أعمال ذات صلة بالاستدلال السليم الصيني
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تسد فجوة مهمة في تقييم الاستدلال متعدد المراحل الصيني. الورقة تتمتع بمنهجية صارمة وتجارب شاملة وتحليل عميق، وتتمتع بقيمة مهمة في تعزيز أبحاث معالجة اللغة الطبيعية والاستدلال الصيني. على الرغم من وجود بعض القيود في حجم البيانات وطرق التقييم، إلا أن مساهماتها كبيرة وتضع أساساً مهماً لتطور هذا المجال.