While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic 論文ID : 2510.08800タイトル : Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective著者 : Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang分類 : cs.CL cs.AI発表時期 : 2025年1月(arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.08800 所属機関 : ByteDance Douyin Content Group、蘇州大学コンピュータサイエンス・テクノロジー学院大規模言語モデル(LLMs)は高度な推理能力を示していますが、中国語文脈における包括的な評価はまだ不十分です。このギャップを埋めるため、本論文は中国語常識マルチホップ推理(CCMOR)ベンチマークを提案しており、LLMsが中国語固有の事実知識と多段階の論理推理を統合する能力を評価することを目的としています。具体的には、著者らは既存のQAデータセットから領域バランスの取れたシードセットを構築し、その後、事実ユニットチェーンに基づくマルチホップ質問を生成するためのLLMベースのパイプラインを開発しました。データセット品質を確保するため、領域専門家がシステマティックに生成された質問を検証・改善する人機協働検証システムを実装しました。CCMORを使用して最先端のLLMsを評価した結果、LLMsはロングテール知識の処理と知識集約的な推理の実行において継続的な制限があることが示されました。特筆すべきことに、検索拡張生成はこれらの知識ギャップを大幅に軽減し、顕著なパフォーマンス向上をもたらしました。
本研究が解決しようとする中核的な問題は、大規模言語モデルの中国語常識マルチホップ推理タスクにおける能力をいかに包括的に評価するかです。具体的には以下を含みます:
中国語推理評価の欠落 :既存のマルチホップ推理データセットは主に英語に焦点を当てており、中国語文脈における体系的な評価リソースが不足しています文化的関連性の不足 :中国語の文化知識、慣用句、論理推理パターンに根ざした評価ベンチマークが必要です推理対記憶 :真の推理能力と単純な記憶能力を区別する必要があります技術的必要性 :OpenAI-o1やDeepSeek-R1などの専門的推理モデルの出現に伴い、中国語シナリオ向けの専門的評価が必要です応用価値 :中国語は世界で最も使用者数が多い言語の一つであり、中国語推理能力の評価は重要な実用的価値を持ちます学術的空白 :中国語マルチホップ推理評価における学術的空白を埋めます言語的制限 :HotpotQA、WikiHop、DROPなどは主に英語に焦点を当てています文化適応性の低さ :直接翻訳されたデータセットは中国語固有の文化と推理パターンを反映できません品質管理の困難さ :高品質な中国語マルチホップ推理データセットの構築は、正確性、一貫性、明確性の課題に直面していますCCMORベンチマークの提案 :中国語常識マルチホップ推理に特化した初の包括的評価ベンチマーク革新的なデータ構築方法 :LLMベースの自動化パイプラインと人機協働検証システムを開発包括的な実験評価 :最先端のLLMsの体系的評価を実施し、知識集約的推理における制限を明らかにしました深い分析洞察 :異なる推理スタイル、プロンプト戦略、RAG効果に関する詳細な分析を提供CCMORは、LLMsが以下の側面における能力を評価することを目的としています:
入力 :複数の事実を統合して推理する必要がある中国語マルチホップ推理質問出力 :最終的な答えおよびオプションの中間推理ステップ制約 :質問は検証可能な事実チェーンに基づいており、答えは一意で具体的である必要がありますデータソース :Chinese SimpleQA、CHARM-Memorizationなどの既存中国語事実QAデータセット領域分類 :LLMを使用して質問を6つの主要領域に再分類:中国文化、人文社会科学、工学・技術、生活・芸術、社会、自然科学品質管理 :複数のLLMsが各QAペアの正確性と明確性を評価アンカー事実 :前のレイヤーの答えをアンカー事実として使用して後続の質問を生成再帰的拡張 :各レイヤーℓ ∈ 1,N で、各QAペアに対してn個の新しいQAペアを生成:
QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
多様性の確保 :異なるLLMsを交互に使用してモデル特有のバイアスを軽減パスサンプリング :ツリー構造からすべての長さLの有効パスをサンプリング質問の組み合わせ :独立したQAペアを一貫性のあるマルチホップ質問に組み合わせ品質評価 :グローバル答えの一意性、シーケンス一貫性、無害性を評価回答可能性と検証可能性 :質問は具体的で限定的な検証可能な答えセットを持つ必要があります特異性と確定性 :質問は特定の事実または関係を明確に対象とする必要があります時間的および事実的安定性 :答えは客観的で時間不変の事実である必要があります専門的アノテーター :領域専門家による独立した審査複数ラウンド検証 :各インスタンスは2名のアノテーターにより独立して審査され、相違は第三者が解決権威的検証 :すべての事実は権威あるソースと照合して検証3ホップ質問 :480個(1000個の初期サンプルから選別)6ホップ質問 :166個(1000個の初期サンプルから選別)平均長 :3ホップ質問39.19文字、6ホップ質問68.51文字領域カバレッジ :平均1.65領域(3ホップ)および2.26領域(6ホップ)ROUGE-L再現率 :語彙レベルのオーバーラップを測定LLM-as-Judge正確度 :3つの独立した判定モデルを使用して意味レベルの評価を実施し、多数決を採用段階的質問応答(SQA) :マルチホップ質問をサブ質問に分解し、段階的に回答全体的応答(OA) :完全なマルチホップ質問に直接回答System-1スタイル :Qwen2.5/3シリーズ、LLaMA3、GPT-4シリーズ、Gemini-2.5などSystem-2スタイル :DeepSeek-R1、OpenAI-o1、Qwen-QwQなど長鎖思考能力を持つモデル全体的パフォーマンス :最先端モデルでさえ、平均マルチホップ正確度は75%未満であり、ベンチマークの難しさを示していますSystem-2の優位性 :深い思考能力を持つモデルはOA設定でSystem-1モデルを大幅に上回りますホップ数の影響 :推理ホップ数の増加に伴い、パフォーマンスは大幅に低下しますSQA対OAギャップ :すべてのモデルはSQAとOA間で継続的なパフォーマンスギャップを示しており、統合推理は依然として課題です最良モデル :Gemini-2.5-Proは平均正確度で73.61%に達しました中国語の優位性 :Yi-lightning、GLM-4、Doubaoなどの中国語コミュニティモデルは特定の設定で優れたパフォーマンスを示しますクローズドソース対オープンソース :クローズドソースモデルは一般的にオープンソースモデルを上回ります最も簡単な領域 :自然科学の平均スコア83.93最も難しい領域 :生活と芸術の平均スコア66.61中国文化 :中国語コミュニティモデルは中国文化領域でより良いパフォーマンスを示します顕著な向上 :RAGは平均9.5パーセントポイントの正確度向上をもたらしますモデル間差異 :Doubaoは最大の改善を示し、KimiとWenxinは改善が限定的です複数ラウンド検索 :複数ラウンド検索をサポートするモデルはマルチホップ推理でより有利です英語ベンチマーク :HotpotQA、2WikiMultiHopQA、MuSiQueなどが基礎を確立しました最新の発展 :MoreHopQA、Multihop-RAGなどはLLMsを利用してより高品質な質問を構築しています中国語のギャップ :NLPCC-MH、CoreCode、CHARMなどの初期的な取り組みがありますが、体系的な検証可能な多段階推理が不足しています発展の歴史 :英語ベンチマークの翻訳から原生中国語評価へ代表的な研究 :C3、CMQA、Chinese SimpleQAなど制限 :主に単一ホップの事実問題に焦点を当てており、マルチホップ推理評価が不足していますパフォーマンスの制限 :現在の最先端LLMsは中国語マルチホップ推理において依然として顕著な制限があります推理スタイルの重要性 :System-2スタイルの深い思考はマルチホップ推理に不可欠ですRAGの有効性 :検索拡張生成は知識集約的推理を大幅に改善できます領域差異 :事実中心の領域は比較的容易であり、手続き的または抽象的推理はより課題がありますLLM依存性 :データ構築プロセスはLLM生成に依存しており、幻覚またはバイアスを導入する可能性があります評価方法 :LLM-as-Judge評価はモデル特有の好みの影響を受ける可能性がありますカバレッジ範囲 :テキスト常識知識に焦点を当てており、マルチモーダル推理は含まれていませんマルチモーダル拡張 :ベンチマークをマルチモーダル推理タスクに拡張インタラクティブ推理 :複数ラウンドのインタラクションが必要な推理シナリオを組み込む推理の専門化 :推理に特化した専門化されたモデルを開発重要なギャップの埋め込み :初の体系的な中国語マルチホップ推理ベンチマークであり、重要な学術的および実用的価値があります方法論的革新 :LLM駆動のデータ構築パイプラインと人機協働検証がデータ品質を確保しています包括的な評価 :複数のモデルタイプ、推理スタイル、強化技術を含む体系的な評価深い分析 :領域、推理スタイル、プロンプト戦略など豊富な分析次元を提供高い品質管理 :厳格な品質管理基準と複数ラウンドの検証メカニズム規模の制限 :データセット規模は比較的小さい(646個の質問)であり、評価の包括性に影響する可能性があります構築コスト :人機協働の構築方法はコストが高く、大規模な拡張が困難です評価依存性 :LLM-as-Judgeに過度に依存しており、評価バイアスが存在する可能性があります領域バランス :領域バランスを追求していますが、特定の領域のサンプルは依然として不十分な可能性があります学術的貢献 :中国語NLP分野に重要な評価リソースを提供実用的価値 :中国語LLMsの開発と評価に直接的な指導意義があります方法的啓発 :データ構築方法は他の言語の類似ベンチマーク構築に参考価値があります再現性 :詳細な方法説明とデータ公開の約束により再現性を確保モデル評価 :中国語LLMsの推理能力を評価モデル開発 :推理能力の改善方向を指導応用展開 :複雑な推理が必要な中国語アプリケーションのパフォーマンス参考値を提供研究ベンチマーク :中国語推理研究の標準評価ベンチマークとして機能論文は複数の重要な関連研究を引用しており、以下を含みます:
HotpotQA (Yang et al., 2018):マルチホップ推理の基礎的研究 Chinese SimpleQA (He et al., 2024):高品質な中国語事実QAベンチマーク MoreHopQA (Schnitzler et al., 2024):本論文の方法の部分的な着想源 CHARM (Sun et al., 2024):中国語常識推理に関連する研究 総合評価 :これは高品質な研究論文であり、中国語マルチホップ推理評価における重要なギャップを埋めています。論文の方法は厳密であり、実験は包括的で、分析は深く、中国語NLPと推理研究の発展を推進するうえで重要な価値があります。データ規模と評価方法にいくつかの制限がありますが、その貢献は顕著であり、この分野の発展のための重要な基礎を確立しています。