2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.

While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.

academic

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

基本信息

论文ID: 2510.08800
标题: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
作者: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
分类: cs.CL cs.AI
发表时间: 2025年1月 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.08800
机构: 字节跳动抖音内容组、苏州大学计算机科学与技术学院

摘要

大语言模型(LLMs)虽然展现出先进的推理能力，但在中文语境下的综合评估仍然不足。为填补这一空白，本文提出了中文常识多跳推理(CCMOR)基准，旨在评估LLMs整合中文特定事实知识与多步逻辑推理的能力。具体而言，作者首先从现有QA数据集构建领域平衡的种子集，然后开发基于LLM的管道来生成基于事实单元链的多跳问题。为确保数据集质量，实施了人机协作验证系统，由领域专家系统性地验证和完善生成的问题。使用CCMOR评估最先进的LLMs，结果显示LLMs在处理长尾知识和执行知识密集型推理方面存在持续性局限。值得注意的是，检索增强生成显著缓解了这些知识缺口，带来了显著的性能提升。

研究背景与动机

问题定义

本研究要解决的核心问题是：如何全面评估大语言模型在中文常识多跳推理任务上的能力。具体包括：

中文推理评估缺失：现有的多跳推理数据集主要关注英语，缺乏针对中文语境的系统性评估资源
文化相关性不足：需要根植于中文文化知识、习语和逻辑推理模式的评估基准
推理vs记忆：需要区分真正的推理能力和简单的记忆能力

研究重要性

技术需求：随着OpenAI-o1、DeepSeek-R1等专门推理模型的出现，需要针对中文场景的专门评估
应用价值：中文是世界上使用人数最多的语言之一，对中文推理能力的评估具有重要实用价值
学术空白：填补中文多跳推理评估的学术空白

现有方法局限性

语言局限：HotpotQA、WikiHop、DROP等主要关注英语
文化适应性差：直接翻译的数据集无法体现中文特有的文化和推理模式
质量控制难：构建高质量中文多跳推理数据集面临准确性、一致性和清晰度的挑战

核心贡献

提出CCMOR基准：首个专门针对中文常识多跳推理的综合性评估基准
创新的数据构建方法：开发了基于LLM的自动化管道，结合人机协作验证系统
全面的实验评估：对最先进的LLMs进行系统性评估，揭示其在知识密集型推理方面的局限性
深入的分析洞察：提供了关于不同推理风格、提示策略和RAG效果的详细分析

方法详解

任务定义

CCMOR旨在评估LLMs在以下方面的能力：

输入：中文多跳推理问题，需要整合多个事实进行推理
输出：最终答案以及可选的中间推理步骤
约束：问题必须基于可验证的事实链，答案唯一且具体

数据构建流程

第一步：种子数据采样

数据来源：Chinese SimpleQA、CHARM-Memorization等现有中文事实QA数据集
领域分类：使用LLM将问题重新分类到六个主要领域：中国文化、人文社科、工程与技术、生活与艺术、社会、自然科学
质量控制：多个LLMs评估每个QA对的正确性和清晰度

第二步：子问题递归生成

锚定事实：将前一层的答案作为锚定事实生成后续问题

递归扩展：在每一层ℓ ∈ 1,N，为每个QA对生成n个新的QA对：

QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}

多样性保证：交替使用不同LLMs减少模型特定偏差

第三步：多跳问题组合

路径采样：从树结构中采样所有长度为L的有效路径
问题组合：将独立的QA对组合成连贯的多跳问题
质量评估：评估全局答案唯一性、序列一致性和无害性

质量控制机制

LLM验证标准

可回答性和可验证性：问题必须有具体、有限的可验证答案集
特异性和确定性：问题应明确针对特定事实或关系
时间和事实稳定性：答案必须是客观的、时间不变的事实

人机协作验证

专业标注员：由领域专家进行独立审核
多轮验证：每个实例由两名标注员独立审核，分歧由第三方解决
权威验证：所有事实都对照权威来源验证

实验设置

数据集规模

3跳问题：480个（从1000个初始样本筛选）
6跳问题：166个（从1000个初始样本筛选）
平均长度：3跳问题39.19字符，6跳问题68.51字符
领域覆盖：平均1.65个领域（3跳）和2.26个领域（6跳）

评价指标

ROUGE-L召回率：衡量词汇层面的重叠
LLM-as-Judge准确率：使用三个独立判断模型进行语义级评估，采用多数投票

评估设置

分步问答(SQA)：将多跳问题分解为子问题，逐步回答
整体回答(OA)：直接回答完整的多跳问题

对比模型

System-1风格：Qwen2.5/3系列、LLaMA3、GPT-4系列、Gemini-2.5等
System-2风格：DeepSeek-R1、OpenAI-o1、Qwen-QwQ等具有长链思维的模型

实验结果

主要结果

整体性能：即使是顶级模型，平均多跳准确率也低于75%，显示了基准的挑战性
System-2优势：具有深度思考能力的模型在OA设置中显著优于System-1模型
跳数影响：随着推理跳数增加，性能显著下降
SQA vs OA差距：所有模型在SQA和OA之间存在持续的性能差距，表明综合推理仍具挑战性

具体性能数据

最佳模型：Gemini-2.5-Pro在平均准确率上达到73.61%
中文优势：Yi-lightning、GLM-4、Doubao等中文社区模型在某些设置下表现突出
闭源vs开源：闭源模型普遍优于开源模型

领域分析

最易领域：自然科学平均得分83.93
最难领域：生活与艺术平均得分66.61
中文文化：中文社区模型在中文文化领域表现更好

RAG效果

显著提升：RAG平均带来9.5个百分点的准确率提升
模型差异：Doubao显示最大改进，而Kimi和Wenxin改进有限
多轮检索：支持多轮检索的模型在多跳推理中更有优势

结论与讨论

主要结论

性能局限：当前最先进的LLMs在中文多跳推理方面仍存在显著局限
推理风格重要性：System-2风格的深度思考对多跳推理至关重要
RAG有效性：检索增强生成能显著改善知识密集型推理
领域差异：事实中心的领域相对容易，程序性或抽象推理更具挑战性

局限性

LLM依赖：数据构建过程依赖LLM生成，可能引入幻觉或偏见
评估方法：LLM-as-Judge评估可能受模型特定偏好影响
覆盖范围：专注于文本常识知识，未涵盖多模态推理

未来方向

多模态扩展：将基准扩展到多模态推理任务
交互式推理：纳入需要多轮交互的推理场景
推理专门化：开发针对推理的专门化模型

深度评价

优点

填补重要空白：首个系统性的中文多跳推理基准，具有重要学术和实用价值
方法论创新：LLM驱动的数据构建管道结合人机协作验证，保证了数据质量
全面评估：涵盖多种模型类型、推理风格和增强技术的系统性评估
深入分析：提供了丰富的分析维度，包括领域、推理风格、提示策略等
高质量控制：严格的质量控制标准和多轮验证机制

不足

规模限制：数据集规模相对较小（646个问题），可能影响评估的全面性
构建成本：人机协作的构建方式成本较高，难以大规模扩展
评估依赖：过度依赖LLM-as-Judge，可能存在评估偏见
领域平衡：虽然追求领域平衡，但某些领域的样本可能仍然不足

影响力

学术贡献：为中文NLP领域提供了重要的评估资源
实用价值：对中文LLMs的开发和评估具有直接指导意义
方法启发：数据构建方法对其他语言的类似基准构建具有参考价值
可复现性：详细的方法描述和承诺的数据发布保证了可复现性

适用场景

模型评估：评估中文LLMs的推理能力
模型开发：指导推理能力的改进方向
应用部署：为需要复杂推理的中文应用提供性能参考
研究基准：作为中文推理研究的标准评估基准

参考文献

论文引用了多个重要的相关工作，包括：

HotpotQA (Yang et al., 2018)：多跳推理的奠基性工作
Chinese SimpleQA (He et al., 2024)：高质量中文事实QA基准
MoreHopQA (Schnitzler et al., 2024)：本文方法的部分灵感来源
CHARM (Sun et al., 2024)：中文常识推理相关工作

总体评价：这是一篇高质量的研究论文，填补了中文多跳推理评估的重要空白。论文方法严谨，实验全面，分析深入，对推动中文NLP和推理研究具有重要价值。虽然在数据规模和评估方法上存在一些局限，但其贡献显著，为该领域的发展奠定了重要基础。