2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

基本信息

  • 论文ID: 2510.08800
  • 标题: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
  • 作者: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
  • 分类: cs.CL cs.AI
  • 发表时间: 2025年1月 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.08800
  • 机构: 字节跳动抖音内容组、苏州大学计算机科学与技术学院

摘要

大语言模型(LLMs)虽然展现出先进的推理能力,但在中文语境下的综合评估仍然不足。为填补这一空白,本文提出了中文常识多跳推理(CCMOR)基准,旨在评估LLMs整合中文特定事实知识与多步逻辑推理的能力。具体而言,作者首先从现有QA数据集构建领域平衡的种子集,然后开发基于LLM的管道来生成基于事实单元链的多跳问题。为确保数据集质量,实施了人机协作验证系统,由领域专家系统性地验证和完善生成的问题。使用CCMOR评估最先进的LLMs,结果显示LLMs在处理长尾知识和执行知识密集型推理方面存在持续性局限。值得注意的是,检索增强生成显著缓解了这些知识缺口,带来了显著的性能提升。

研究背景与动机

问题定义

本研究要解决的核心问题是:如何全面评估大语言模型在中文常识多跳推理任务上的能力。具体包括:

  1. 中文推理评估缺失:现有的多跳推理数据集主要关注英语,缺乏针对中文语境的系统性评估资源
  2. 文化相关性不足:需要根植于中文文化知识、习语和逻辑推理模式的评估基准
  3. 推理vs记忆:需要区分真正的推理能力和简单的记忆能力

研究重要性

  1. 技术需求:随着OpenAI-o1、DeepSeek-R1等专门推理模型的出现,需要针对中文场景的专门评估
  2. 应用价值:中文是世界上使用人数最多的语言之一,对中文推理能力的评估具有重要实用价值
  3. 学术空白:填补中文多跳推理评估的学术空白

现有方法局限性

  1. 语言局限:HotpotQA、WikiHop、DROP等主要关注英语
  2. 文化适应性差:直接翻译的数据集无法体现中文特有的文化和推理模式
  3. 质量控制难:构建高质量中文多跳推理数据集面临准确性、一致性和清晰度的挑战

核心贡献

  1. 提出CCMOR基准:首个专门针对中文常识多跳推理的综合性评估基准
  2. 创新的数据构建方法:开发了基于LLM的自动化管道,结合人机协作验证系统
  3. 全面的实验评估:对最先进的LLMs进行系统性评估,揭示其在知识密集型推理方面的局限性
  4. 深入的分析洞察:提供了关于不同推理风格、提示策略和RAG效果的详细分析

方法详解

任务定义

CCMOR旨在评估LLMs在以下方面的能力:

  • 输入:中文多跳推理问题,需要整合多个事实进行推理
  • 输出:最终答案以及可选的中间推理步骤
  • 约束:问题必须基于可验证的事实链,答案唯一且具体

数据构建流程

第一步:种子数据采样

  • 数据来源:Chinese SimpleQA、CHARM-Memorization等现有中文事实QA数据集
  • 领域分类:使用LLM将问题重新分类到六个主要领域:中国文化、人文社科、工程与技术、生活与艺术、社会、自然科学
  • 质量控制:多个LLMs评估每个QA对的正确性和清晰度

第二步:子问题递归生成

  • 锚定事实:将前一层的答案作为锚定事实生成后续问题
  • 递归扩展:在每一层ℓ ∈ 1,N,为每个QA对生成n个新的QA对:
    QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
    
  • 多样性保证:交替使用不同LLMs减少模型特定偏差

第三步:多跳问题组合

  • 路径采样:从树结构中采样所有长度为L的有效路径
  • 问题组合:将独立的QA对组合成连贯的多跳问题
  • 质量评估:评估全局答案唯一性、序列一致性和无害性

质量控制机制

LLM验证标准

  1. 可回答性和可验证性:问题必须有具体、有限的可验证答案集
  2. 特异性和确定性:问题应明确针对特定事实或关系
  3. 时间和事实稳定性:答案必须是客观的、时间不变的事实

人机协作验证

  • 专业标注员:由领域专家进行独立审核
  • 多轮验证:每个实例由两名标注员独立审核,分歧由第三方解决
  • 权威验证:所有事实都对照权威来源验证

实验设置

数据集规模

  • 3跳问题:480个(从1000个初始样本筛选)
  • 6跳问题:166个(从1000个初始样本筛选)
  • 平均长度:3跳问题39.19字符,6跳问题68.51字符
  • 领域覆盖:平均1.65个领域(3跳)和2.26个领域(6跳)

评价指标

  1. ROUGE-L召回率:衡量词汇层面的重叠
  2. LLM-as-Judge准确率:使用三个独立判断模型进行语义级评估,采用多数投票

评估设置

  1. 分步问答(SQA):将多跳问题分解为子问题,逐步回答
  2. 整体回答(OA):直接回答完整的多跳问题

对比模型

  • System-1风格:Qwen2.5/3系列、LLaMA3、GPT-4系列、Gemini-2.5等
  • System-2风格:DeepSeek-R1、OpenAI-o1、Qwen-QwQ等具有长链思维的模型

实验结果

主要结果

  1. 整体性能:即使是顶级模型,平均多跳准确率也低于75%,显示了基准的挑战性
  2. System-2优势:具有深度思考能力的模型在OA设置中显著优于System-1模型
  3. 跳数影响:随着推理跳数增加,性能显著下降
  4. SQA vs OA差距:所有模型在SQA和OA之间存在持续的性能差距,表明综合推理仍具挑战性

具体性能数据

  • 最佳模型:Gemini-2.5-Pro在平均准确率上达到73.61%
  • 中文优势:Yi-lightning、GLM-4、Doubao等中文社区模型在某些设置下表现突出
  • 闭源vs开源:闭源模型普遍优于开源模型

领域分析

  • 最易领域:自然科学平均得分83.93
  • 最难领域:生活与艺术平均得分66.61
  • 中文文化:中文社区模型在中文文化领域表现更好

RAG效果

  • 显著提升:RAG平均带来9.5个百分点的准确率提升
  • 模型差异:Doubao显示最大改进,而Kimi和Wenxin改进有限
  • 多轮检索:支持多轮检索的模型在多跳推理中更有优势

相关工作

多跳推理基准

  • 英文基准:HotpotQA、2WikiMultiHopQA、MuSiQue等奠定了基础
  • 最新发展:MoreHopQA、Multihop-RAG等利用LLMs构建更高质量的问题
  • 中文缺口:NLPCC-MH、CoreCode、CHARM等初步努力,但缺乏系统性的可验证多步推理

中文常识基准

  • 发展历程:从翻译英文基准到原生中文评估
  • 代表性工作:C3、CMQA、Chinese SimpleQA等
  • 局限性:主要关注单跳事实问题,缺乏多跳推理评估

结论与讨论

主要结论

  1. 性能局限:当前最先进的LLMs在中文多跳推理方面仍存在显著局限
  2. 推理风格重要性:System-2风格的深度思考对多跳推理至关重要
  3. RAG有效性:检索增强生成能显著改善知识密集型推理
  4. 领域差异:事实中心的领域相对容易,程序性或抽象推理更具挑战性

局限性

  1. LLM依赖:数据构建过程依赖LLM生成,可能引入幻觉或偏见
  2. 评估方法:LLM-as-Judge评估可能受模型特定偏好影响
  3. 覆盖范围:专注于文本常识知识,未涵盖多模态推理

未来方向

  1. 多模态扩展:将基准扩展到多模态推理任务
  2. 交互式推理:纳入需要多轮交互的推理场景
  3. 推理专门化:开发针对推理的专门化模型

深度评价

优点

  1. 填补重要空白:首个系统性的中文多跳推理基准,具有重要学术和实用价值
  2. 方法论创新:LLM驱动的数据构建管道结合人机协作验证,保证了数据质量
  3. 全面评估:涵盖多种模型类型、推理风格和增强技术的系统性评估
  4. 深入分析:提供了丰富的分析维度,包括领域、推理风格、提示策略等
  5. 高质量控制:严格的质量控制标准和多轮验证机制

不足

  1. 规模限制:数据集规模相对较小(646个问题),可能影响评估的全面性
  2. 构建成本:人机协作的构建方式成本较高,难以大规模扩展
  3. 评估依赖:过度依赖LLM-as-Judge,可能存在评估偏见
  4. 领域平衡:虽然追求领域平衡,但某些领域的样本可能仍然不足

影响力

  1. 学术贡献:为中文NLP领域提供了重要的评估资源
  2. 实用价值:对中文LLMs的开发和评估具有直接指导意义
  3. 方法启发:数据构建方法对其他语言的类似基准构建具有参考价值
  4. 可复现性:详细的方法描述和承诺的数据发布保证了可复现性

适用场景

  1. 模型评估:评估中文LLMs的推理能力
  2. 模型开发:指导推理能力的改进方向
  3. 应用部署:为需要复杂推理的中文应用提供性能参考
  4. 研究基准:作为中文推理研究的标准评估基准

参考文献

论文引用了多个重要的相关工作,包括:

  • HotpotQA (Yang et al., 2018):多跳推理的奠基性工作
  • Chinese SimpleQA (He et al., 2024):高质量中文事实QA基准
  • MoreHopQA (Schnitzler et al., 2024):本文方法的部分灵感来源
  • CHARM (Sun et al., 2024):中文常识推理相关工作

总体评价:这是一篇高质量的研究论文,填补了中文多跳推理评估的重要空白。论文方法严谨,实验全面,分析深入,对推动中文NLP和推理研究具有重要价值。虽然在数据规模和评估方法上存在一些局限,但其贡献显著,为该领域的发展奠定了重要基础。