2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.

While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.

academic

Évaluation du Raisonnement de Sens Commun Chinois selon une Perspective de Raisonnement Multi-sauts

Informations de Base

ID de l'article : 2510.08800
Titre : Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
Auteurs : Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
Classification : cs.CL cs.AI
Date de publication : Janvier 2025 (préimpression arXiv)
Lien de l'article : https://arxiv.org/abs/2510.08800
Institutions : Groupe de contenu ByteDance Douyin, Faculté d'informatique et de technologie, Université de Suzhou

Résumé

Bien que les modèles de langage de grande taille (LLMs) démontrent des capacités de raisonnement avancées, leur évaluation complète dans le contexte chinois reste insuffisante. Pour combler cette lacune, cet article propose l'indice de référence CCMOR (Chinese Commonsense Multi-hop Reasoning), visant à évaluer la capacité des LLMs à intégrer les connaissances factuelles spécifiques au chinois et le raisonnement logique multi-étapes. Concrètement, les auteurs construisent d'abord un ensemble de semences équilibré par domaine à partir de jeux de données QA existants, puis développent un pipeline basé sur les LLMs pour générer des questions multi-sauts basées sur des chaînes d'unités factuelles. Pour assurer la qualité de l'ensemble de données, un système de validation homme-machine est mis en œuvre, où des experts du domaine vérifient et affinent systématiquement les questions générées. L'évaluation des LLMs les plus avancés avec CCMOR révèle que les LLMs présentent des limitations persistantes dans le traitement des connaissances de longue traîne et l'exécution du raisonnement intensif en connaissances. Notamment, la génération augmentée par récupération atténue considérablement ces lacunes de connaissances, apportant des améliorations de performance significatives.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : comment évaluer de manière complète la capacité des grands modèles de langage à effectuer des tâches de raisonnement multi-sauts de sens commun en chinois. Cela comprend spécifiquement :

Absence d'évaluation du raisonnement en chinois : Les ensembles de données de raisonnement multi-sauts existants se concentrent principalement sur l'anglais, manquant de ressources d'évaluation systématiques adaptées au contexte chinois
Pertinence culturelle insuffisante : Nécessité d'un indice de référence d'évaluation enraciné dans les connaissances culturelles chinoises, les idiomes et les modèles de raisonnement logique
Raisonnement vs mémorisation : Nécessité de distinguer les véritables capacités de raisonnement de la simple mémorisation

Importance de la Recherche

Besoins technologiques : Avec l'émergence de modèles de raisonnement spécialisés tels que OpenAI-o1 et DeepSeek-R1, une évaluation spécialisée pour les scénarios chinois est nécessaire
Valeur applicative : Le chinois est l'une des langues les plus parlées au monde, et l'évaluation des capacités de raisonnement en chinois a une valeur pratique importante
Lacune académique : Combler le vide académique dans l'évaluation du raisonnement multi-sauts en chinois

Limitations des Approches Existantes

Limitations linguistiques : HotpotQA, WikiHop, DROP et autres se concentrent principalement sur l'anglais
Faible adaptabilité culturelle : Les ensembles de données traduits directement ne peuvent pas refléter les modes de culture et de raisonnement spécifiques au chinois
Difficultés du contrôle de qualité : La construction d'ensembles de données de raisonnement multi-sauts en chinois de haute qualité fait face à des défis d'exactitude, de cohérence et de clarté

Contributions Principales

Proposition de l'indice de référence CCMOR : Premier indice de référence d'évaluation complète spécialisé dans le raisonnement multi-sauts de sens commun en chinois
Méthode innovante de construction de données : Développement d'un pipeline automatisé basé sur les LLMs, combiné avec un système de validation homme-machine
Évaluation expérimentale complète : Évaluation systématique des LLMs les plus avancés, révélant leurs limitations dans le raisonnement intensif en connaissances
Analyses approfondies : Fourniture d'analyses détaillées sur les différents styles de raisonnement, stratégies d'incitation et effets de la RAG

Détails de la Méthode

Définition de la Tâche

CCMOR vise à évaluer la capacité des LLMs dans les domaines suivants :

Entrée : Questions de raisonnement multi-sauts en chinois, nécessitant l'intégration de plusieurs faits pour le raisonnement
Sortie : Réponse finale ainsi que les étapes de raisonnement intermédiaires optionnelles
Contraintes : Les questions doivent être basées sur des chaînes de faits vérifiables, avec une réponse unique et concrète

Processus de Construction des Données

Première étape : Échantillonnage des Données de Semence

Sources de données : Ensembles de données QA factuels chinois existants tels que Chinese SimpleQA et CHARM-Memorization
Classification par domaine : Utilisation des LLMs pour reclasser les questions en six domaines principaux : culture chinoise, sciences humaines et sociales, ingénierie et technologie, vie et arts, société, sciences naturelles
Contrôle de qualité : Évaluation par plusieurs LLMs de l'exactitude et de la clarté de chaque paire QA

Deuxième étape : Génération Récursive de Sous-questions

Fait d'ancrage : Utilisation de la réponse de la couche précédente comme fait d'ancrage pour générer les questions suivantes
Extension récursive : À chaque couche ℓ ∈ 1,N, génération de n nouvelles paires QA pour chaque paire QA :
```
QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
```
Assurance de diversité : Utilisation alternée de différents LLMs pour réduire les biais spécifiques aux modèles

Troisième étape : Combinaison de Questions Multi-sauts

Échantillonnage de chemins : Échantillonnage de tous les chemins valides de longueur L à partir de la structure arborescente
Combinaison de questions : Combinaison de paires QA indépendantes en questions multi-sauts cohérentes
Évaluation de qualité : Évaluation de l'unicité de la réponse globale, de la cohérence des séquences et de l'innocuité

Mécanismes de Contrôle de Qualité

Normes de Vérification par LLM

Répondabilité et vérifiabilité : Les questions doivent avoir un ensemble de réponses vérifiables concret et limité
Spécificité et déterminisme : Les questions doivent cibler clairement des faits ou des relations spécifiques
Stabilité temporelle et factuelle : Les réponses doivent être des faits objectifs et invariants dans le temps

Validation Homme-Machine

Annotateurs professionnels : Révision indépendante par des experts du domaine
Validation multi-tours : Chaque instance est examinée indépendamment par deux annotateurs, les divergences étant résolues par un tiers
Vérification d'autorité : Tous les faits sont vérifiés par rapport à des sources d'autorité

Configuration Expérimentale

Taille de l'Ensemble de Données

Questions à 3 sauts : 480 (filtrées à partir de 1000 échantillons initiaux)
Questions à 6 sauts : 166 (filtrées à partir de 1000 échantillons initiaux)
Longueur moyenne : 39,19 caractères pour les questions à 3 sauts, 68,51 caractères pour les questions à 6 sauts
Couverture de domaine : Moyenne de 1,65 domaines (3 sauts) et 2,26 domaines (6 sauts)

Métriques d'Évaluation

Rappel ROUGE-L : Mesure du chevauchement au niveau lexical
Précision LLM-as-Judge : Utilisation de trois modèles de jugement indépendants pour l'évaluation au niveau sémantique, avec vote majoritaire

Configurations d'Évaluation

Questions-Réponses Étape par Étape (SQA) : Décomposition des questions multi-sauts en sous-questions, réponse progressive
Réponse Globale (OA) : Réponse directe à la question multi-sauts complète

Modèles de Comparaison

Style System-1 : Séries Qwen2.5/3, LLaMA3, séries GPT-4, Gemini-2.5, etc.
Style System-2 : DeepSeek-R1, OpenAI-o1, Qwen-QwQ et autres modèles avec pensée en chaîne longue

Résultats Expérimentaux

Résultats Principaux

Performance globale : Même les modèles de premier plan affichent une précision multi-sauts moyenne inférieure à 75%, démontrant le défi de l'indice de référence
Avantage System-2 : Les modèles avec capacité de réflexion profonde surpassent significativement les modèles System-1 dans la configuration OA
Impact du nombre de sauts : La performance diminue significativement avec l'augmentation du nombre de sauts de raisonnement
Écart SQA vs OA : Tous les modèles présentent un écart de performance persistant entre SQA et OA, indiquant que le raisonnement intégré reste un défi

Données de Performance Spécifiques

Meilleur modèle : Gemini-2.5-Pro atteint 73,61% de précision moyenne
Avantage chinois : Yi-lightning, GLM-4, Doubao et autres modèles de la communauté chinoise se distinguent dans certaines configurations
Fermé vs Open-source : Les modèles fermés surpassent généralement les modèles open-source

Analyse par Domaine

Domaine le plus facile : Sciences naturelles avec un score moyen de 83,93
Domaine le plus difficile : Vie et arts avec un score moyen de 66,61
Culture chinoise : Les modèles de la communauté chinoise performent mieux dans le domaine de la culture chinoise

Effet de la RAG

Amélioration significative : La RAG apporte en moyenne une amélioration de 9,5 points de pourcentage de précision
Différences de modèles : Doubao affiche l'amélioration la plus importante, tandis que Kimi et Wenxin montrent des améliorations limitées
Récupération multi-tours : Les modèles supportant la récupération multi-tours sont plus avantagés dans le raisonnement multi-sauts

Travaux Connexes

Indices de Référence de Raisonnement Multi-sauts

Indices de référence en anglais : HotpotQA, 2WikiMultiHopQA, MuSiQue et autres ont jeté les bases
Développements récents : MoreHopQA, Multihop-RAG et autres utilisant les LLMs pour construire des questions de meilleure qualité
Lacune chinoise : NLPCC-MH, CoreCode, CHARM et autres efforts préliminaires, mais manquant d'évaluation systématique du raisonnement multi-étapes vérifiable

Indices de Référence de Sens Commun Chinois

Évolution historique : De la traduction d'indices de référence anglais à l'évaluation native en chinois
Travaux représentatifs : C3, CMQA, Chinese SimpleQA et autres
Limitations : Se concentrant principalement sur les questions de faits à un seul saut, manquant d'évaluation du raisonnement multi-sauts

Conclusions et Discussion

Conclusions Principales

Limitations de performance : Les LLMs les plus avancés actuels présentent encore des limitations significatives dans le raisonnement multi-sauts en chinois
Importance du style de raisonnement : La réflexion profonde de style System-2 est cruciale pour le raisonnement multi-sauts
Efficacité de la RAG : La génération augmentée par récupération peut considérablement améliorer le raisonnement intensif en connaissances
Différences de domaine : Les domaines centrés sur les faits sont relativement faciles, tandis que le raisonnement procédural ou abstrait est plus difficile

Limitations

Dépendance aux LLMs : Le processus de construction des données dépend de la génération par LLM, pouvant introduire des hallucinations ou des biais
Méthode d'évaluation : L'évaluation LLM-as-Judge peut être affectée par les préférences spécifiques aux modèles
Étendue de couverture : Concentré sur les connaissances textuelles de sens commun, ne couvrant pas le raisonnement multimodal

Directions Futures

Extension multimodale : Élargissement de l'indice de référence aux tâches de raisonnement multimodal
Raisonnement interactif : Intégration de scénarios de raisonnement nécessitant une interaction multi-tours
Spécialisation du raisonnement : Développement de modèles spécialisés pour le raisonnement

Évaluation Approfondie

Points Forts

Combler une lacune importante : Premier indice de référence systématique de raisonnement multi-sauts en chinois, avec une valeur académique et pratique importante
Innovation méthodologique : Pipeline de construction de données piloté par LLM combiné avec validation homme-machine, assurant la qualité des données
Évaluation complète : Évaluation systématique couvrant plusieurs types de modèles, styles de raisonnement et techniques d'amélioration
Analyses approfondies : Fourniture de dimensions d'analyse riches, incluant domaine, style de raisonnement, stratégies d'incitation, etc.
Contrôle de qualité élevé : Normes de contrôle de qualité strictes et mécanisme de validation multi-tours

Insuffisances

Limitation de taille : Taille d'ensemble de données relativement petite (646 questions), pouvant affecter la complétude de l'évaluation
Coût de construction : L'approche de construction homme-machine est coûteuse, difficile à étendre à grande échelle
Dépendance d'évaluation : Dépendance excessive à LLM-as-Judge, pouvant présenter des biais d'évaluation
Équilibre de domaine : Bien que cherchant l'équilibre de domaine, certains domaines peuvent toujours avoir des échantillons insuffisants

Impact

Contribution académique : Fourniture d'une ressource d'évaluation importante pour le domaine du NLP chinois
Valeur pratique : Orientation directe pour le développement et l'évaluation des LLMs chinois
Inspiration méthodologique : La méthode de construction de données a une valeur de référence pour la construction d'indices de référence similaires dans d'autres langues
Reproductibilité : Description méthodique détaillée et engagement de publication de données assurant la reproductibilité

Scénarios Applicables

Évaluation de modèles : Évaluation des capacités de raisonnement des LLMs chinois
Développement de modèles : Orientation des directions d'amélioration des capacités de raisonnement
Déploiement d'applications : Fourniture de références de performance pour les applications chinoises nécessitant un raisonnement complexe
Indice de référence de recherche : Indice de référence d'évaluation standard pour la recherche en raisonnement chinois

Références

L'article cite plusieurs travaux connexes importants, notamment :

HotpotQA (Yang et al., 2018) : Travail fondateur du raisonnement multi-sauts
Chinese SimpleQA (He et al., 2024) : Indice de référence QA factuel chinois de haute qualité
MoreHopQA (Schnitzler et al., 2024) : Source d'inspiration partielle pour la méthode de cet article
CHARM (Sun et al., 2024) : Travaux connexes en raisonnement de sens commun chinois

Évaluation Globale : Ceci est un article de recherche de haute qualité qui comble une lacune importante dans l'évaluation du raisonnement multi-sauts en chinois. L'article présente une méthodologie rigoureuse, des expériences complètes et des analyses approfondies, ayant une valeur importante pour promouvoir la recherche en NLP et en raisonnement chinois. Bien qu'il existe certaines limitations en termes de taille de données et de méthodes d'évaluation, ses contributions sont significatives et jettent les bases importantes pour le développement du domaine.