2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.

While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.

academic

معايرة التفكير السليم الصيني من منظور التفكير متعدد المراحل

المعلومات الأساسية

معرّف الورقة: 2510.08800
العنوان: معايرة التفكير السليم الصيني من منظور التفكير متعدد المراحل
المؤلفون: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
التصنيف: cs.CL cs.AI
تاريخ النشر: يناير 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2510.08800
المؤسسات: مجموعة محتوى Douyin بشركة ByteDance، كلية علوم الحاسوب والتكنولوجيا بجامعة سوتشو

الملخص

على الرغم من أن نماذج اللغة الكبيرة (LLMs) تُظهر قدرات استدلالية متقدمة، إلا أن التقييم الشامل في السياق الصيني لا يزال غير كافٍ. لسد هذه الفجوة، تقترح هذه الورقة معيار التفكير السليم متعدد المراحل الصيني (CCMOR)، الذي يهدف إلى تقييم قدرة نماذج اللغة الكبيرة على دمج المعرفة الواقعية الخاصة بالسياق الصيني والاستدلال المنطقي متعدد الخطوات. بشكل محدد، يقوم المؤلفون أولاً ببناء مجموعة بذور متوازنة من حيث المجال من مجموعات بيانات الأسئلة والأجوبة الموجودة، ثم يطورون خط أنابيب يعتمد على نماذج اللغة الكبيرة لإنشاء أسئلة متعددة المراحل بناءً على سلاسل الوحدات الواقعية. لضمان جودة مجموعة البيانات، تم تطبيق نظام التحقق التعاوني بين الإنسان والآلة، حيث يقوم الخبراء المتخصصون بالتحقق المنهجي وتحسين الأسئلة المُنشأة. باستخدام CCMOR لتقييم أحدث نماذج اللغة الكبيرة، تُظهر النتائج أن نماذج اللغة الكبيرة تواجه قيوداً مستمرة في التعامل مع المعرفة ذات الذيل الطويل وتنفيذ الاستدلال الكثيف بالمعرفة. وجدير بالملاحظة أن الإنشاء المعزز بالاسترجاع يخفف بشكل كبير من هذه الفجوات المعرفية، مما يؤدي إلى تحسينات أداء ملحوظة.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث إلى حلها هي: كيفية تقييم قدرات نماذج اللغة الكبيرة بشكل شامل في مهام التفكير السليم متعدد المراحل الصيني. يتضمن ذلك بشكل محدد:

غياب تقييم الاستدلال الصيني: مجموعات البيانات الموجودة للاستدلال متعدد المراحل تركز بشكل أساسي على اللغة الإنجليزية، وتفتقر إلى موارد تقييم منهجية للسياق الصيني
عدم كفاية الملاءمة الثقافية: الحاجة إلى معايير تقييم متجذرة في المعرفة الثقافية الصينية والتعابير الاصطلاحية وأنماط الاستدلال المنطقي
الاستدلال مقابل الذاكرة: الحاجة إلى التمييز بين قدرات الاستدلال الحقيقية والقدرات البسيطة على الحفظ

أهمية البحث

الاحتياجات التكنولوجية: مع ظهور نماذج استدلالية متخصصة مثل OpenAI-o1 و DeepSeek-R1، هناك حاجة إلى تقييم متخصص للسيناريوهات الصينية
القيمة التطبيقية: اللغة الصينية هي إحدى أكثر اللغات استخداماً في العالم، وتقييم قدرات الاستدلال الصيني له قيمة عملية مهمة
الفجوة الأكاديمية: سد الفجوة الأكاديمية في تقييم الاستدلال متعدد المراحل الصيني

قيود الطرق الموجودة

القيود اللغوية: HotpotQA و WikiHop و DROP وغيرها تركز بشكل أساسي على اللغة الإنجليزية
ضعف التكيف الثقافي: مجموعات البيانات المترجمة مباشرة لا يمكنها عكس الأنماط الثقافية والاستدلالية الفريدة للغة الصينية
صعوبة التحكم في الجودة: بناء مجموعة بيانات صينية عالية الجودة للاستدلال متعدد المراحل يواجه تحديات في الدقة والاتساق والوضوح

المساهمات الأساسية

اقتراح معيار CCMOR: أول معيار تقييم شامل متخصص للتفكير السليم متعدد المراحل الصيني
طريقة بناء بيانات مبتكرة: تطوير خط أنابيب آلي يعتمد على نماذج اللغة الكبيرة، مدمج مع نظام التحقق التعاوني بين الإنسان والآلة
تقييم تجريبي شامل: تقييم منهجي لأحدث نماذج اللغة الكبيرة، يكشف عن القيود في الاستدلال الكثيف بالمعرفة
رؤى تحليلية عميقة: توفير تحليل تفصيلي حول أنماط الاستدلال المختلفة واستراتيجيات الإشارات وتأثيرات الإنشاء المعزز بالاسترجاع

شرح الطريقة

تعريف المهمة

يهدف معيار CCMOR إلى تقييم قدرات نماذج اللغة الكبيرة في:

المدخلات: أسئلة استدلال صينية متعددة المراحل تتطلب دمج حقائق متعددة للاستدلال
المخرجات: الإجابة النهائية وخطوات الاستدلال الوسيطة الاختيارية
القيود: يجب أن تكون الأسئلة مبنية على سلاسل حقائق قابلة للتحقق، والإجابة فريدة وملموسة

عملية بناء البيانات

الخطوة الأولى: أخذ عينات من البيانات الأساسية

مصادر البيانات: مجموعات بيانات الأسئلة والأجوبة الواقعية الصينية الموجودة مثل Chinese SimpleQA و CHARM-Memorization
التصنيف حسب المجال: استخدام نماذج اللغة الكبيرة لإعادة تصنيف الأسئلة إلى ستة مجالات رئيسية: الثقافة الصينية، العلوم الإنسانية والاجتماعية، الهندسة والتكنولوجيا، الحياة والفنون، المجتمع، العلوم الطبيعية
التحكم في الجودة: تقييم صحة ووضوح كل زوج أسئلة وأجوبة من قبل نماذج لغة كبيرة متعددة

الخطوة الثانية: إنشاء الأسئلة الفرعية بشكل متكرر

تثبيت الحقائق: استخدام الإجابة من الطبقة السابقة كحقيقة مثبتة لإنشاء أسئلة لاحقة
التوسع المتكرر: في كل طبقة ℓ ∈ 1,N، يتم إنشاء n زوج أسئلة وأجوبة جديد لكل زوج:
```
QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
```
ضمان التنوع: استخدام نماذج لغة كبيرة مختلفة بالتناوب لتقليل الانحيازات الخاصة بالنموذج

الخطوة الثالثة: دمج الأسئلة متعددة المراحل

أخذ عينات المسارات: أخذ عينات من جميع المسارات ذات الطول L من البنية الشجرية
دمج الأسئلة: دمج أزواج الأسئلة والأجوبة المستقلة في أسئلة متعددة المراحل متماسكة
تقييم الجودة: تقييم تفردية الإجابة العامة واتساق التسلسل والضرر المحتمل

آليات التحكم في الجودة

معايير التحقق من نماذج اللغة الكبيرة

القابلية للإجابة والتحقق: يجب أن يكون للسؤال مجموعة إجابات محددة وقابلة للتحقق
الخصوصية والحتمية: يجب أن يكون السؤال موجهاً بوضوح نحو حقيقة أو علاقة محددة
الاستقرار الزمني والواقعي: يجب أن تكون الإجابة حقيقة موضوعية وثابتة زمنياً

التحقق التعاوني بين الإنسان والآلة

المُصنّفون المتخصصون: مراجعة مستقلة من قبل خبراء متخصصين
التحقق متعدد الجولات: يتم مراجعة كل مثيل بشكل مستقل من قبل اثنين من المُصنّفين، مع حل الخلافات من قبل طرف ثالث
التحقق الموثوق: يتم التحقق من جميع الحقائق مقابل مصادر موثوقة

الإعدادات التجريبية

حجم مجموعة البيانات

أسئلة 3 مراحل: 480 سؤال (مُختارة من 1000 عينة أولية)
أسئلة 6 مراحل: 166 سؤال (مُختارة من 1000 عينة أولية)
متوسط الطول: 39.19 حرف للأسئلة ذات 3 مراحل، 68.51 حرف للأسئلة ذات 6 مراحل
تغطية المجالات: متوسط 1.65 مجال (3 مراحل) و 2.26 مجال (6 مراحل)

مقاييس التقييم

معدل استدعاء ROUGE-L: قياس التداخل على مستوى المفردات
دقة LLM-as-Judge: استخدام ثلاثة نماذج حكم مستقلة للتقييم على المستوى الدلالي، مع استخدام التصويت بالأغلبية

إعدادات التقييم

الأسئلة والأجوبة المرحلية (SQA): تقسيم الأسئلة متعددة المراحل إلى أسئلة فرعية والإجابة عليها بشكل تدريجي
الإجابة الشاملة (OA): الإجابة المباشرة على السؤال متعدد المراحل الكامل

النماذج المقارنة

نمط System-1: سلسلة Qwen2.5/3 و LLaMA3 و GPT-4 و Gemini-2.5 وغيرها
نمط System-2: DeepSeek-R1 و OpenAI-o1 و Qwen-QwQ وغيرها من النماذج ذات التفكير المتسلسل الطويل

نتائج التجارب

النتائج الرئيسية

الأداء الإجمالي: حتى أفضل النماذج تحقق دقة استدلال متعددة المراحل أقل من 75% في المتوسط، مما يُظهر تحدي المعيار
أفضلية System-2: النماذج ذات قدرات التفكير العميق تتفوق بشكل كبير على نماذج System-1 في إعداد OA
تأثير عدد المراحل: تنخفض الأداء بشكل كبير مع زيادة عدد مراحل الاستدلال
فجوة SQA مقابل OA: جميع النماذج تُظهر فجوة أداء مستمرة بين SQA و OA، مما يشير إلى أن الاستدلال الشامل لا يزال يشكل تحدياً

بيانات الأداء المحددة

أفضل نموذج: Gemini-2.5-Pro يحقق دقة متوسطة بنسبة 73.61%
الأفضلية الصينية: نماذج المجتمع الصيني مثل Yi-lightning و GLM-4 و Doubao تُظهر أداء متميزة في بعض الإعدادات
المصادر المغلقة مقابل المفتوحة: النماذج المصادر المغلقة تتفوق بشكل عام على النماذج مفتوحة المصدر

تحليل المجالات

أسهل مجال: العلوم الطبيعية بمتوسط درجة 83.93
أصعب مجال: الحياة والفنون بمتوسط درجة 66.61
الثقافة الصينية: نماذج المجتمع الصيني تُظهر أداء أفضل في مجال الثقافة الصينية

تأثير الإنشاء المعزز بالاسترجاع

تحسن ملحوظ: الإنشاء المعزز بالاسترجاع يحقق متوسط تحسن بنسبة 9.5 نقطة مئوية في دقة الاستدلال
اختلافات النموذج: Doubao يُظهر أكبر تحسن، بينما Kimi و Wenxin يُظهران تحسناً محدوداً
الاسترجاع متعدد الجولات: النماذج التي تدعم الاسترجاع متعدد الجولات تتمتع بمزايا أكبر في الاستدلال متعدد المراحل

الأعمال ذات الصلة

معايير الاستدلال متعدد المراحل

المعايير الإنجليزية: HotpotQA و 2WikiMultiHopQA و MuSiQue وضعت الأساس
التطورات الحديثة: MoreHopQA و Multihop-RAG تستفيد من نماذج اللغة الكبيرة لبناء أسئلة عالية الجودة
الفجوة الصينية: NLPCC-MH و CoreCode و CHARM تمثل جهوداً أولية، لكنها تفتقر إلى الاستدلال المتعدد الخطوات المنهجي والقابل للتحقق

معايير التفكير السليم الصيني

مسار التطور: من ترجمة المعايير الإنجليزية إلى التقييم الأصلي الصيني
الأعمال الممثلة: C3 و CMQA و Chinese SimpleQA وغيرها
القيود: تركز بشكل أساسي على مشاكل الحقائق أحادية المرحلة، وتفتقر إلى تقييم الاستدلال متعدد المراحل

الخلاصة والمناقشة

الاستنتاجات الرئيسية

قيود الأداء: أحدث نماذج اللغة الكبيرة لا تزال تواجه قيوداً كبيرة في الاستدلال متعدد المراحل الصيني
أهمية نمط الاستدلال: التفكير العميق بنمط System-2 حاسم للاستدلال متعدد المراحل
فعالية الإنشاء المعزز بالاسترجاع: يمكن للإنشاء المعزز بالاسترجاع أن يحسن بشكل كبير الاستدلال الكثيف بالمعرفة
الاختلافات بين المجالات: المجالات المركزة على الحقائق نسبياً أسهل، بينما الاستدلال الإجرائي أو المجرد أكثر تحدياً

القيود

الاعتماد على نماذج اللغة الكبيرة: عملية بناء البيانات تعتمد على إنشاء نماذج اللغة الكبيرة، مما قد يؤدي إلى هلوسة أو انحيازات
طريقة التقييم: قد يتأثر تقييم LLM-as-Judge بتفضيلات النموذج المحددة
نطاق التغطية: يركز على معرفة التفكير السليم النصي، لا يشمل الاستدلال متعدد الوسائط

الاتجاهات المستقبلية

التوسع متعدد الوسائط: توسيع المعيار ليشمل مهام الاستدلال متعدد الوسائط
الاستدلال التفاعلي: دمج سيناريوهات الاستدلال التي تتطلب تفاعلات متعددة الجولات
تخصص الاستدلال: تطوير نماذج متخصصة للاستدلال

التقييم المتعمق

المميزات

سد فجوة مهمة: أول معيار منهجي للاستدلال متعدد المراحل الصيني، ذو قيمة أكاديمية وعملية مهمة
ابتكار منهجي: خط أنابيب يعتمد على نماذج اللغة الكبيرة مدمج مع التحقق التعاوني بين الإنسان والآلة، مما يضمن جودة البيانات
تقييم شامل: يشمل أنواع نماذج متعددة وأنماط استدلال وتقنيات تحسين منهجية
تحليل عميق: توفير أبعاد تحليلية غنية، بما في ذلك المجالات وأنماط الاستدلال واستراتيجيات الإشارات وغيرها
تحكم جودة عالي: معايير تحكم جودة صارمة وآلية تحقق متعددة الجولات

أوجه القصور

قيود الحجم: حجم مجموعة البيانات نسبياً صغير (646 سؤال)، قد يؤثر على شمولية التقييم
تكلفة البناء: طريقة البناء التعاونية بين الإنسان والآلة مكلفة نسبياً، يصعب توسيعها على نطاق واسع
اعتماد التقييم: الاعتماد المفرط على LLM-as-Judge، قد يكون هناك انحيازات في التقييم
توازن المجالات: على الرغم من السعي لتحقيق توازن المجالات، قد تكون عينات بعض المجالات لا تزال غير كافية

التأثير

المساهمة الأكاديمية: توفير موارد تقييم مهمة لمجال معالجة اللغة الطبيعية الصينية
القيمة العملية: توفير إرشادات مباشرة لتطوير وتقييم نماذج اللغة الكبيرة الصينية
الإلهام المنهجي: طريقة بناء البيانات لها قيمة مرجعية لبناء معايير مماثلة للغات أخرى
إمكانية التكرار: الوصف المفصل للطريقة والالتزام بنشر البيانات يضمان إمكانية التكرار

السيناريوهات المطبقة

تقييم النموذج: تقييم قدرات الاستدلال لنماذج اللغة الكبيرة الصينية
تطوير النموذج: توجيه اتجاهات تحسين قدرات الاستدلال
نشر التطبيقات: توفير مراجع أداء للتطبيقات الصينية التي تتطلب استدلالاً معقداً
معيار البحث: بمثابة معيار تقييم قياسي لأبحاث الاستدلال الصيني

المراجع

تستشهد الورقة بأعمال ذات صلة مهمة متعددة، بما في ذلك:

HotpotQA (Yang et al., 2018): عمل تأسيسي في الاستدلال متعدد المراحل
Chinese SimpleQA (He et al., 2024): معيار أسئلة وأجوبة واقعي صيني عالي الجودة
MoreHopQA (Schnitzler et al., 2024): مصدر إلهام جزئي لطريقة هذه الورقة
CHARM (Sun et al., 2024): أعمال ذات صلة بالاستدلال السليم الصيني

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تسد فجوة مهمة في تقييم الاستدلال متعدد المراحل الصيني. الورقة تتمتع بمنهجية صارمة وتجارب شاملة وتحليل عميق، وتتمتع بقيمة مهمة في تعزيز أبحاث معالجة اللغة الطبيعية والاستدلال الصيني. على الرغم من وجود بعض القيود في حجم البيانات وطرق التقييم، إلا أن مساهماتها كبيرة وتضع أساساً مهماً لتطور هذا المجال.