2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic

中国語常識推理のベンチマーク:マルチホップ推理の観点から

基本情報

  • 論文ID: 2510.08800
  • タイトル: Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
  • 著者: Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
  • 分類: cs.CL cs.AI
  • 発表時期: 2025年1月(arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.08800
  • 所属機関: ByteDance Douyin Content Group、蘇州大学コンピュータサイエンス・テクノロジー学院

要約

大規模言語モデル(LLMs)は高度な推理能力を示していますが、中国語文脈における包括的な評価はまだ不十分です。このギャップを埋めるため、本論文は中国語常識マルチホップ推理(CCMOR)ベンチマークを提案しており、LLMsが中国語固有の事実知識と多段階の論理推理を統合する能力を評価することを目的としています。具体的には、著者らは既存のQAデータセットから領域バランスの取れたシードセットを構築し、その後、事実ユニットチェーンに基づくマルチホップ質問を生成するためのLLMベースのパイプラインを開発しました。データセット品質を確保するため、領域専門家がシステマティックに生成された質問を検証・改善する人機協働検証システムを実装しました。CCMORを使用して最先端のLLMsを評価した結果、LLMsはロングテール知識の処理と知識集約的な推理の実行において継続的な制限があることが示されました。特筆すべきことに、検索拡張生成はこれらの知識ギャップを大幅に軽減し、顕著なパフォーマンス向上をもたらしました。

研究背景と動機

問題定義

本研究が解決しようとする中核的な問題は、大規模言語モデルの中国語常識マルチホップ推理タスクにおける能力をいかに包括的に評価するかです。具体的には以下を含みます:

  1. 中国語推理評価の欠落:既存のマルチホップ推理データセットは主に英語に焦点を当てており、中国語文脈における体系的な評価リソースが不足しています
  2. 文化的関連性の不足:中国語の文化知識、慣用句、論理推理パターンに根ざした評価ベンチマークが必要です
  3. 推理対記憶:真の推理能力と単純な記憶能力を区別する必要があります

研究の重要性

  1. 技術的必要性:OpenAI-o1やDeepSeek-R1などの専門的推理モデルの出現に伴い、中国語シナリオ向けの専門的評価が必要です
  2. 応用価値:中国語は世界で最も使用者数が多い言語の一つであり、中国語推理能力の評価は重要な実用的価値を持ちます
  3. 学術的空白:中国語マルチホップ推理評価における学術的空白を埋めます

既存手法の制限

  1. 言語的制限:HotpotQA、WikiHop、DROPなどは主に英語に焦点を当てています
  2. 文化適応性の低さ:直接翻訳されたデータセットは中国語固有の文化と推理パターンを反映できません
  3. 品質管理の困難さ:高品質な中国語マルチホップ推理データセットの構築は、正確性、一貫性、明確性の課題に直面しています

核心的貢献

  1. CCMORベンチマークの提案:中国語常識マルチホップ推理に特化した初の包括的評価ベンチマーク
  2. 革新的なデータ構築方法:LLMベースの自動化パイプラインと人機協働検証システムを開発
  3. 包括的な実験評価:最先端のLLMsの体系的評価を実施し、知識集約的推理における制限を明らかにしました
  4. 深い分析洞察:異なる推理スタイル、プロンプト戦略、RAG効果に関する詳細な分析を提供

方法の詳細

タスク定義

CCMORは、LLMsが以下の側面における能力を評価することを目的としています:

  • 入力:複数の事実を統合して推理する必要がある中国語マルチホップ推理質問
  • 出力:最終的な答えおよびオプションの中間推理ステップ
  • 制約:質問は検証可能な事実チェーンに基づいており、答えは一意で具体的である必要があります

データ構築プロセス

ステップ1:シードデータサンプリング

  • データソース:Chinese SimpleQA、CHARM-Memorizationなどの既存中国語事実QAデータセット
  • 領域分類:LLMを使用して質問を6つの主要領域に再分類:中国文化、人文社会科学、工学・技術、生活・芸術、社会、自然科学
  • 品質管理:複数のLLMsが各QAペアの正確性と明確性を評価

ステップ2:サブ質問の再帰的生成

  • アンカー事実:前のレイヤーの答えをアンカー事実として使用して後続の質問を生成
  • 再帰的拡張:各レイヤーℓ ∈ 1,Nで、各QAペアに対してn個の新しいQAペアを生成:
    QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
    
  • 多様性の確保:異なるLLMsを交互に使用してモデル特有のバイアスを軽減

ステップ3:マルチホップ質問の組み合わせ

  • パスサンプリング:ツリー構造からすべての長さLの有効パスをサンプリング
  • 質問の組み合わせ:独立したQAペアを一貫性のあるマルチホップ質問に組み合わせ
  • 品質評価:グローバル答えの一意性、シーケンス一貫性、無害性を評価

品質管理メカニズム

LLM検証基準

  1. 回答可能性と検証可能性:質問は具体的で限定的な検証可能な答えセットを持つ必要があります
  2. 特異性と確定性:質問は特定の事実または関係を明確に対象とする必要があります
  3. 時間的および事実的安定性:答えは客観的で時間不変の事実である必要があります

人機協働検証

  • 専門的アノテーター:領域専門家による独立した審査
  • 複数ラウンド検証:各インスタンスは2名のアノテーターにより独立して審査され、相違は第三者が解決
  • 権威的検証:すべての事実は権威あるソースと照合して検証

実験設定

データセット規模

  • 3ホップ質問:480個(1000個の初期サンプルから選別)
  • 6ホップ質問:166個(1000個の初期サンプルから選別)
  • 平均長:3ホップ質問39.19文字、6ホップ質問68.51文字
  • 領域カバレッジ:平均1.65領域(3ホップ)および2.26領域(6ホップ)

評価指標

  1. ROUGE-L再現率:語彙レベルのオーバーラップを測定
  2. LLM-as-Judge正確度:3つの独立した判定モデルを使用して意味レベルの評価を実施し、多数決を採用

評価設定

  1. 段階的質問応答(SQA):マルチホップ質問をサブ質問に分解し、段階的に回答
  2. 全体的応答(OA):完全なマルチホップ質問に直接回答

比較モデル

  • System-1スタイル:Qwen2.5/3シリーズ、LLaMA3、GPT-4シリーズ、Gemini-2.5など
  • System-2スタイル:DeepSeek-R1、OpenAI-o1、Qwen-QwQなど長鎖思考能力を持つモデル

実験結果

主要な結果

  1. 全体的パフォーマンス:最先端モデルでさえ、平均マルチホップ正確度は75%未満であり、ベンチマークの難しさを示しています
  2. System-2の優位性:深い思考能力を持つモデルはOA設定でSystem-1モデルを大幅に上回ります
  3. ホップ数の影響:推理ホップ数の増加に伴い、パフォーマンスは大幅に低下します
  4. SQA対OAギャップ:すべてのモデルはSQAとOA間で継続的なパフォーマンスギャップを示しており、統合推理は依然として課題です

具体的なパフォーマンスデータ

  • 最良モデル:Gemini-2.5-Proは平均正確度で73.61%に達しました
  • 中国語の優位性:Yi-lightning、GLM-4、Doubaoなどの中国語コミュニティモデルは特定の設定で優れたパフォーマンスを示します
  • クローズドソース対オープンソース:クローズドソースモデルは一般的にオープンソースモデルを上回ります

領域分析

  • 最も簡単な領域:自然科学の平均スコア83.93
  • 最も難しい領域:生活と芸術の平均スコア66.61
  • 中国文化:中国語コミュニティモデルは中国文化領域でより良いパフォーマンスを示します

RAG効果

  • 顕著な向上:RAGは平均9.5パーセントポイントの正確度向上をもたらします
  • モデル間差異:Doubaoは最大の改善を示し、KimiとWenxinは改善が限定的です
  • 複数ラウンド検索:複数ラウンド検索をサポートするモデルはマルチホップ推理でより有利です

関連研究

マルチホップ推理ベンチマーク

  • 英語ベンチマーク:HotpotQA、2WikiMultiHopQA、MuSiQueなどが基礎を確立しました
  • 最新の発展:MoreHopQA、Multihop-RAGなどはLLMsを利用してより高品質な質問を構築しています
  • 中国語のギャップ:NLPCC-MH、CoreCode、CHARMなどの初期的な取り組みがありますが、体系的な検証可能な多段階推理が不足しています

中国語常識ベンチマーク

  • 発展の歴史:英語ベンチマークの翻訳から原生中国語評価へ
  • 代表的な研究:C3、CMQA、Chinese SimpleQAなど
  • 制限:主に単一ホップの事実問題に焦点を当てており、マルチホップ推理評価が不足しています

結論と考察

主要な結論

  1. パフォーマンスの制限:現在の最先端LLMsは中国語マルチホップ推理において依然として顕著な制限があります
  2. 推理スタイルの重要性:System-2スタイルの深い思考はマルチホップ推理に不可欠です
  3. RAGの有効性:検索拡張生成は知識集約的推理を大幅に改善できます
  4. 領域差異:事実中心の領域は比較的容易であり、手続き的または抽象的推理はより課題があります

制限事項

  1. LLM依存性:データ構築プロセスはLLM生成に依存しており、幻覚またはバイアスを導入する可能性があります
  2. 評価方法:LLM-as-Judge評価はモデル特有の好みの影響を受ける可能性があります
  3. カバレッジ範囲:テキスト常識知識に焦点を当てており、マルチモーダル推理は含まれていません

今後の方向性

  1. マルチモーダル拡張:ベンチマークをマルチモーダル推理タスクに拡張
  2. インタラクティブ推理:複数ラウンドのインタラクションが必要な推理シナリオを組み込む
  3. 推理の専門化:推理に特化した専門化されたモデルを開発

深い評価

強み

  1. 重要なギャップの埋め込み:初の体系的な中国語マルチホップ推理ベンチマークであり、重要な学術的および実用的価値があります
  2. 方法論的革新:LLM駆動のデータ構築パイプラインと人機協働検証がデータ品質を確保しています
  3. 包括的な評価:複数のモデルタイプ、推理スタイル、強化技術を含む体系的な評価
  4. 深い分析:領域、推理スタイル、プロンプト戦略など豊富な分析次元を提供
  5. 高い品質管理:厳格な品質管理基準と複数ラウンドの検証メカニズム

不足

  1. 規模の制限:データセット規模は比較的小さい(646個の質問)であり、評価の包括性に影響する可能性があります
  2. 構築コスト:人機協働の構築方法はコストが高く、大規模な拡張が困難です
  3. 評価依存性:LLM-as-Judgeに過度に依存しており、評価バイアスが存在する可能性があります
  4. 領域バランス:領域バランスを追求していますが、特定の領域のサンプルは依然として不十分な可能性があります

影響力

  1. 学術的貢献:中国語NLP分野に重要な評価リソースを提供
  2. 実用的価値:中国語LLMsの開発と評価に直接的な指導意義があります
  3. 方法的啓発:データ構築方法は他の言語の類似ベンチマーク構築に参考価値があります
  4. 再現性:詳細な方法説明とデータ公開の約束により再現性を確保

適用シナリオ

  1. モデル評価:中国語LLMsの推理能力を評価
  2. モデル開発:推理能力の改善方向を指導
  3. 応用展開:複雑な推理が必要な中国語アプリケーションのパフォーマンス参考値を提供
  4. 研究ベンチマーク:中国語推理研究の標準評価ベンチマークとして機能

参考文献

論文は複数の重要な関連研究を引用しており、以下を含みます:

  • HotpotQA (Yang et al., 2018):マルチホップ推理の基礎的研究
  • Chinese SimpleQA (He et al., 2024):高品質な中国語事実QAベンチマーク
  • MoreHopQA (Schnitzler et al., 2024):本論文の方法の部分的な着想源
  • CHARM (Sun et al., 2024):中国語常識推理に関連する研究

総合評価:これは高品質な研究論文であり、中国語マルチホップ推理評価における重要なギャップを埋めています。論文の方法は厳密であり、実験は包括的で、分析は深く、中国語NLPと推理研究の発展を推進するうえで重要な価値があります。データ規模と評価方法にいくつかの制限がありますが、その貢献は顕著であり、この分野の発展のための重要な基礎を確立しています。