2025-11-15T12:13:12.098814

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective

You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic

Évaluation du Raisonnement de Sens Commun Chinois selon une Perspective de Raisonnement Multi-sauts

Informations de Base

  • ID de l'article : 2510.08800
  • Titre : Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
  • Auteurs : Wangjie You, Xusheng Wang, Xing Wang, Wenxiang Jiao, Chao Feng, Juntao Li, Min Zhang
  • Classification : cs.CL cs.AI
  • Date de publication : Janvier 2025 (préimpression arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.08800
  • Institutions : Groupe de contenu ByteDance Douyin, Faculté d'informatique et de technologie, Université de Suzhou

Résumé

Bien que les modèles de langage de grande taille (LLMs) démontrent des capacités de raisonnement avancées, leur évaluation complète dans le contexte chinois reste insuffisante. Pour combler cette lacune, cet article propose l'indice de référence CCMOR (Chinese Commonsense Multi-hop Reasoning), visant à évaluer la capacité des LLMs à intégrer les connaissances factuelles spécifiques au chinois et le raisonnement logique multi-étapes. Concrètement, les auteurs construisent d'abord un ensemble de semences équilibré par domaine à partir de jeux de données QA existants, puis développent un pipeline basé sur les LLMs pour générer des questions multi-sauts basées sur des chaînes d'unités factuelles. Pour assurer la qualité de l'ensemble de données, un système de validation homme-machine est mis en œuvre, où des experts du domaine vérifient et affinent systématiquement les questions générées. L'évaluation des LLMs les plus avancés avec CCMOR révèle que les LLMs présentent des limitations persistantes dans le traitement des connaissances de longue traîne et l'exécution du raisonnement intensif en connaissances. Notamment, la génération augmentée par récupération atténue considérablement ces lacunes de connaissances, apportant des améliorations de performance significatives.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : comment évaluer de manière complète la capacité des grands modèles de langage à effectuer des tâches de raisonnement multi-sauts de sens commun en chinois. Cela comprend spécifiquement :

  1. Absence d'évaluation du raisonnement en chinois : Les ensembles de données de raisonnement multi-sauts existants se concentrent principalement sur l'anglais, manquant de ressources d'évaluation systématiques adaptées au contexte chinois
  2. Pertinence culturelle insuffisante : Nécessité d'un indice de référence d'évaluation enraciné dans les connaissances culturelles chinoises, les idiomes et les modèles de raisonnement logique
  3. Raisonnement vs mémorisation : Nécessité de distinguer les véritables capacités de raisonnement de la simple mémorisation

Importance de la Recherche

  1. Besoins technologiques : Avec l'émergence de modèles de raisonnement spécialisés tels que OpenAI-o1 et DeepSeek-R1, une évaluation spécialisée pour les scénarios chinois est nécessaire
  2. Valeur applicative : Le chinois est l'une des langues les plus parlées au monde, et l'évaluation des capacités de raisonnement en chinois a une valeur pratique importante
  3. Lacune académique : Combler le vide académique dans l'évaluation du raisonnement multi-sauts en chinois

Limitations des Approches Existantes

  1. Limitations linguistiques : HotpotQA, WikiHop, DROP et autres se concentrent principalement sur l'anglais
  2. Faible adaptabilité culturelle : Les ensembles de données traduits directement ne peuvent pas refléter les modes de culture et de raisonnement spécifiques au chinois
  3. Difficultés du contrôle de qualité : La construction d'ensembles de données de raisonnement multi-sauts en chinois de haute qualité fait face à des défis d'exactitude, de cohérence et de clarté

Contributions Principales

  1. Proposition de l'indice de référence CCMOR : Premier indice de référence d'évaluation complète spécialisé dans le raisonnement multi-sauts de sens commun en chinois
  2. Méthode innovante de construction de données : Développement d'un pipeline automatisé basé sur les LLMs, combiné avec un système de validation homme-machine
  3. Évaluation expérimentale complète : Évaluation systématique des LLMs les plus avancés, révélant leurs limitations dans le raisonnement intensif en connaissances
  4. Analyses approfondies : Fourniture d'analyses détaillées sur les différents styles de raisonnement, stratégies d'incitation et effets de la RAG

Détails de la Méthode

Définition de la Tâche

CCMOR vise à évaluer la capacité des LLMs dans les domaines suivants :

  • Entrée : Questions de raisonnement multi-sauts en chinois, nécessitant l'intégration de plusieurs faits pour le raisonnement
  • Sortie : Réponse finale ainsi que les étapes de raisonnement intermédiaires optionnelles
  • Contraintes : Les questions doivent être basées sur des chaînes de faits vérifiables, avec une réponse unique et concrète

Processus de Construction des Données

Première étape : Échantillonnage des Données de Semence

  • Sources de données : Ensembles de données QA factuels chinois existants tels que Chinese SimpleQA et CHARM-Memorization
  • Classification par domaine : Utilisation des LLMs pour reclasser les questions en six domaines principaux : culture chinoise, sciences humaines et sociales, ingénierie et technologie, vie et arts, société, sciences naturelles
  • Contrôle de qualité : Évaluation par plusieurs LLMs de l'exactitude et de la clarté de chaque paire QA

Deuxième étape : Génération Récursive de Sous-questions

  • Fait d'ancrage : Utilisation de la réponse de la couche précédente comme fait d'ancrage pour générer les questions suivantes
  • Extension récursive : À chaque couche ℓ ∈ 1,N, génération de n nouvelles paires QA pour chaque paire QA :
    QAℓ = ⋃(i∈QAℓ⁻¹) {(qℓᵢ,₁, aℓᵢ,₁), ..., (qℓᵢ,ₙ, aℓᵢ,ₙ)}
    
  • Assurance de diversité : Utilisation alternée de différents LLMs pour réduire les biais spécifiques aux modèles

Troisième étape : Combinaison de Questions Multi-sauts

  • Échantillonnage de chemins : Échantillonnage de tous les chemins valides de longueur L à partir de la structure arborescente
  • Combinaison de questions : Combinaison de paires QA indépendantes en questions multi-sauts cohérentes
  • Évaluation de qualité : Évaluation de l'unicité de la réponse globale, de la cohérence des séquences et de l'innocuité

Mécanismes de Contrôle de Qualité

Normes de Vérification par LLM

  1. Répondabilité et vérifiabilité : Les questions doivent avoir un ensemble de réponses vérifiables concret et limité
  2. Spécificité et déterminisme : Les questions doivent cibler clairement des faits ou des relations spécifiques
  3. Stabilité temporelle et factuelle : Les réponses doivent être des faits objectifs et invariants dans le temps

Validation Homme-Machine

  • Annotateurs professionnels : Révision indépendante par des experts du domaine
  • Validation multi-tours : Chaque instance est examinée indépendamment par deux annotateurs, les divergences étant résolues par un tiers
  • Vérification d'autorité : Tous les faits sont vérifiés par rapport à des sources d'autorité

Configuration Expérimentale

Taille de l'Ensemble de Données

  • Questions à 3 sauts : 480 (filtrées à partir de 1000 échantillons initiaux)
  • Questions à 6 sauts : 166 (filtrées à partir de 1000 échantillons initiaux)
  • Longueur moyenne : 39,19 caractères pour les questions à 3 sauts, 68,51 caractères pour les questions à 6 sauts
  • Couverture de domaine : Moyenne de 1,65 domaines (3 sauts) et 2,26 domaines (6 sauts)

Métriques d'Évaluation

  1. Rappel ROUGE-L : Mesure du chevauchement au niveau lexical
  2. Précision LLM-as-Judge : Utilisation de trois modèles de jugement indépendants pour l'évaluation au niveau sémantique, avec vote majoritaire

Configurations d'Évaluation

  1. Questions-Réponses Étape par Étape (SQA) : Décomposition des questions multi-sauts en sous-questions, réponse progressive
  2. Réponse Globale (OA) : Réponse directe à la question multi-sauts complète

Modèles de Comparaison

  • Style System-1 : Séries Qwen2.5/3, LLaMA3, séries GPT-4, Gemini-2.5, etc.
  • Style System-2 : DeepSeek-R1, OpenAI-o1, Qwen-QwQ et autres modèles avec pensée en chaîne longue

Résultats Expérimentaux

Résultats Principaux

  1. Performance globale : Même les modèles de premier plan affichent une précision multi-sauts moyenne inférieure à 75%, démontrant le défi de l'indice de référence
  2. Avantage System-2 : Les modèles avec capacité de réflexion profonde surpassent significativement les modèles System-1 dans la configuration OA
  3. Impact du nombre de sauts : La performance diminue significativement avec l'augmentation du nombre de sauts de raisonnement
  4. Écart SQA vs OA : Tous les modèles présentent un écart de performance persistant entre SQA et OA, indiquant que le raisonnement intégré reste un défi

Données de Performance Spécifiques

  • Meilleur modèle : Gemini-2.5-Pro atteint 73,61% de précision moyenne
  • Avantage chinois : Yi-lightning, GLM-4, Doubao et autres modèles de la communauté chinoise se distinguent dans certaines configurations
  • Fermé vs Open-source : Les modèles fermés surpassent généralement les modèles open-source

Analyse par Domaine

  • Domaine le plus facile : Sciences naturelles avec un score moyen de 83,93
  • Domaine le plus difficile : Vie et arts avec un score moyen de 66,61
  • Culture chinoise : Les modèles de la communauté chinoise performent mieux dans le domaine de la culture chinoise

Effet de la RAG

  • Amélioration significative : La RAG apporte en moyenne une amélioration de 9,5 points de pourcentage de précision
  • Différences de modèles : Doubao affiche l'amélioration la plus importante, tandis que Kimi et Wenxin montrent des améliorations limitées
  • Récupération multi-tours : Les modèles supportant la récupération multi-tours sont plus avantagés dans le raisonnement multi-sauts

Travaux Connexes

Indices de Référence de Raisonnement Multi-sauts

  • Indices de référence en anglais : HotpotQA, 2WikiMultiHopQA, MuSiQue et autres ont jeté les bases
  • Développements récents : MoreHopQA, Multihop-RAG et autres utilisant les LLMs pour construire des questions de meilleure qualité
  • Lacune chinoise : NLPCC-MH, CoreCode, CHARM et autres efforts préliminaires, mais manquant d'évaluation systématique du raisonnement multi-étapes vérifiable

Indices de Référence de Sens Commun Chinois

  • Évolution historique : De la traduction d'indices de référence anglais à l'évaluation native en chinois
  • Travaux représentatifs : C3, CMQA, Chinese SimpleQA et autres
  • Limitations : Se concentrant principalement sur les questions de faits à un seul saut, manquant d'évaluation du raisonnement multi-sauts

Conclusions et Discussion

Conclusions Principales

  1. Limitations de performance : Les LLMs les plus avancés actuels présentent encore des limitations significatives dans le raisonnement multi-sauts en chinois
  2. Importance du style de raisonnement : La réflexion profonde de style System-2 est cruciale pour le raisonnement multi-sauts
  3. Efficacité de la RAG : La génération augmentée par récupération peut considérablement améliorer le raisonnement intensif en connaissances
  4. Différences de domaine : Les domaines centrés sur les faits sont relativement faciles, tandis que le raisonnement procédural ou abstrait est plus difficile

Limitations

  1. Dépendance aux LLMs : Le processus de construction des données dépend de la génération par LLM, pouvant introduire des hallucinations ou des biais
  2. Méthode d'évaluation : L'évaluation LLM-as-Judge peut être affectée par les préférences spécifiques aux modèles
  3. Étendue de couverture : Concentré sur les connaissances textuelles de sens commun, ne couvrant pas le raisonnement multimodal

Directions Futures

  1. Extension multimodale : Élargissement de l'indice de référence aux tâches de raisonnement multimodal
  2. Raisonnement interactif : Intégration de scénarios de raisonnement nécessitant une interaction multi-tours
  3. Spécialisation du raisonnement : Développement de modèles spécialisés pour le raisonnement

Évaluation Approfondie

Points Forts

  1. Combler une lacune importante : Premier indice de référence systématique de raisonnement multi-sauts en chinois, avec une valeur académique et pratique importante
  2. Innovation méthodologique : Pipeline de construction de données piloté par LLM combiné avec validation homme-machine, assurant la qualité des données
  3. Évaluation complète : Évaluation systématique couvrant plusieurs types de modèles, styles de raisonnement et techniques d'amélioration
  4. Analyses approfondies : Fourniture de dimensions d'analyse riches, incluant domaine, style de raisonnement, stratégies d'incitation, etc.
  5. Contrôle de qualité élevé : Normes de contrôle de qualité strictes et mécanisme de validation multi-tours

Insuffisances

  1. Limitation de taille : Taille d'ensemble de données relativement petite (646 questions), pouvant affecter la complétude de l'évaluation
  2. Coût de construction : L'approche de construction homme-machine est coûteuse, difficile à étendre à grande échelle
  3. Dépendance d'évaluation : Dépendance excessive à LLM-as-Judge, pouvant présenter des biais d'évaluation
  4. Équilibre de domaine : Bien que cherchant l'équilibre de domaine, certains domaines peuvent toujours avoir des échantillons insuffisants

Impact

  1. Contribution académique : Fourniture d'une ressource d'évaluation importante pour le domaine du NLP chinois
  2. Valeur pratique : Orientation directe pour le développement et l'évaluation des LLMs chinois
  3. Inspiration méthodologique : La méthode de construction de données a une valeur de référence pour la construction d'indices de référence similaires dans d'autres langues
  4. Reproductibilité : Description méthodique détaillée et engagement de publication de données assurant la reproductibilité

Scénarios Applicables

  1. Évaluation de modèles : Évaluation des capacités de raisonnement des LLMs chinois
  2. Développement de modèles : Orientation des directions d'amélioration des capacités de raisonnement
  3. Déploiement d'applications : Fourniture de références de performance pour les applications chinoises nécessitant un raisonnement complexe
  4. Indice de référence de recherche : Indice de référence d'évaluation standard pour la recherche en raisonnement chinois

Références

L'article cite plusieurs travaux connexes importants, notamment :

  • HotpotQA (Yang et al., 2018) : Travail fondateur du raisonnement multi-sauts
  • Chinese SimpleQA (He et al., 2024) : Indice de référence QA factuel chinois de haute qualité
  • MoreHopQA (Schnitzler et al., 2024) : Source d'inspiration partielle pour la méthode de cet article
  • CHARM (Sun et al., 2024) : Travaux connexes en raisonnement de sens commun chinois

Évaluation Globale : Ceci est un article de recherche de haute qualité qui comble une lacune importante dans l'évaluation du raisonnement multi-sauts en chinois. L'article présente une méthodologie rigoureuse, des expériences complètes et des analyses approfondies, ayant une valeur importante pour promouvoir la recherche en NLP et en raisonnement chinois. Bien qu'il existe certaines limitations en termes de taille de données et de méthodes d'évaluation, ses contributions sont significatives et jettent les bases importantes pour le développement du domaine.