Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective
You, Wang, Wang et al.
While Large Language Models (LLMs) have demonstrated advanced reasoning capabilities, their comprehensive evaluation in general Chinese-language contexts remains understudied. To bridge this gap, we propose Chinese Commonsense Multi-hop Reasoning (CCMOR), a novel benchmark designed to evaluate LLMs' ability to integrate Chinese-specific factual knowledge with multi-step logical reasoning. Specifically, we first construct a domain-balanced seed set from existing QA datasets, then develop an LLM-powered pipeline to generate multi-hop questions anchored on factual unit chains. To ensure the quality of resulting dataset, we implement a human-in-the-loop verification system, where domain experts systematically validate and refine the generated questions. Using CCMOR, we evaluate state-of-the-art LLMs, demonstrating persistent limitations in LLMs' ability to process long-tail knowledge and execute knowledge-intensive reasoning. Notably, retrieval-augmented generation substantially mitigates these knowledge gaps, yielding significant performance gains.
academic
Évaluation du Raisonnement de Sens Commun Chinois selon une Perspective de Raisonnement Multi-sauts
Bien que les modèles de langage de grande taille (LLMs) démontrent des capacités de raisonnement avancées, leur évaluation complète dans le contexte chinois reste insuffisante. Pour combler cette lacune, cet article propose l'indice de référence CCMOR (Chinese Commonsense Multi-hop Reasoning), visant à évaluer la capacité des LLMs à intégrer les connaissances factuelles spécifiques au chinois et le raisonnement logique multi-étapes. Concrètement, les auteurs construisent d'abord un ensemble de semences équilibré par domaine à partir de jeux de données QA existants, puis développent un pipeline basé sur les LLMs pour générer des questions multi-sauts basées sur des chaînes d'unités factuelles. Pour assurer la qualité de l'ensemble de données, un système de validation homme-machine est mis en œuvre, où des experts du domaine vérifient et affinent systématiquement les questions générées. L'évaluation des LLMs les plus avancés avec CCMOR révèle que les LLMs présentent des limitations persistantes dans le traitement des connaissances de longue traîne et l'exécution du raisonnement intensif en connaissances. Notamment, la génération augmentée par récupération atténue considérablement ces lacunes de connaissances, apportant des améliorations de performance significatives.
Le problème fondamental que cette recherche vise à résoudre est : comment évaluer de manière complète la capacité des grands modèles de langage à effectuer des tâches de raisonnement multi-sauts de sens commun en chinois. Cela comprend spécifiquement :
Absence d'évaluation du raisonnement en chinois : Les ensembles de données de raisonnement multi-sauts existants se concentrent principalement sur l'anglais, manquant de ressources d'évaluation systématiques adaptées au contexte chinois
Pertinence culturelle insuffisante : Nécessité d'un indice de référence d'évaluation enraciné dans les connaissances culturelles chinoises, les idiomes et les modèles de raisonnement logique
Raisonnement vs mémorisation : Nécessité de distinguer les véritables capacités de raisonnement de la simple mémorisation
Besoins technologiques : Avec l'émergence de modèles de raisonnement spécialisés tels que OpenAI-o1 et DeepSeek-R1, une évaluation spécialisée pour les scénarios chinois est nécessaire
Valeur applicative : Le chinois est l'une des langues les plus parlées au monde, et l'évaluation des capacités de raisonnement en chinois a une valeur pratique importante
Lacune académique : Combler le vide académique dans l'évaluation du raisonnement multi-sauts en chinois
Limitations linguistiques : HotpotQA, WikiHop, DROP et autres se concentrent principalement sur l'anglais
Faible adaptabilité culturelle : Les ensembles de données traduits directement ne peuvent pas refléter les modes de culture et de raisonnement spécifiques au chinois
Difficultés du contrôle de qualité : La construction d'ensembles de données de raisonnement multi-sauts en chinois de haute qualité fait face à des défis d'exactitude, de cohérence et de clarté
Proposition de l'indice de référence CCMOR : Premier indice de référence d'évaluation complète spécialisé dans le raisonnement multi-sauts de sens commun en chinois
Méthode innovante de construction de données : Développement d'un pipeline automatisé basé sur les LLMs, combiné avec un système de validation homme-machine
Évaluation expérimentale complète : Évaluation systématique des LLMs les plus avancés, révélant leurs limitations dans le raisonnement intensif en connaissances
Analyses approfondies : Fourniture d'analyses détaillées sur les différents styles de raisonnement, stratégies d'incitation et effets de la RAG
Sources de données : Ensembles de données QA factuels chinois existants tels que Chinese SimpleQA et CHARM-Memorization
Classification par domaine : Utilisation des LLMs pour reclasser les questions en six domaines principaux : culture chinoise, sciences humaines et sociales, ingénierie et technologie, vie et arts, société, sciences naturelles
Contrôle de qualité : Évaluation par plusieurs LLMs de l'exactitude et de la clarté de chaque paire QA
Performance globale : Même les modèles de premier plan affichent une précision multi-sauts moyenne inférieure à 75%, démontrant le défi de l'indice de référence
Avantage System-2 : Les modèles avec capacité de réflexion profonde surpassent significativement les modèles System-1 dans la configuration OA
Impact du nombre de sauts : La performance diminue significativement avec l'augmentation du nombre de sauts de raisonnement
Écart SQA vs OA : Tous les modèles présentent un écart de performance persistant entre SQA et OA, indiquant que le raisonnement intégré reste un défi
Indices de référence en anglais : HotpotQA, 2WikiMultiHopQA, MuSiQue et autres ont jeté les bases
Développements récents : MoreHopQA, Multihop-RAG et autres utilisant les LLMs pour construire des questions de meilleure qualité
Lacune chinoise : NLPCC-MH, CoreCode, CHARM et autres efforts préliminaires, mais manquant d'évaluation systématique du raisonnement multi-étapes vérifiable
Limitations de performance : Les LLMs les plus avancés actuels présentent encore des limitations significatives dans le raisonnement multi-sauts en chinois
Importance du style de raisonnement : La réflexion profonde de style System-2 est cruciale pour le raisonnement multi-sauts
Efficacité de la RAG : La génération augmentée par récupération peut considérablement améliorer le raisonnement intensif en connaissances
Différences de domaine : Les domaines centrés sur les faits sont relativement faciles, tandis que le raisonnement procédural ou abstrait est plus difficile
Combler une lacune importante : Premier indice de référence systématique de raisonnement multi-sauts en chinois, avec une valeur académique et pratique importante
Innovation méthodologique : Pipeline de construction de données piloté par LLM combiné avec validation homme-machine, assurant la qualité des données
Évaluation complète : Évaluation systématique couvrant plusieurs types de modèles, styles de raisonnement et techniques d'amélioration
Analyses approfondies : Fourniture de dimensions d'analyse riches, incluant domaine, style de raisonnement, stratégies d'incitation, etc.
Contrôle de qualité élevé : Normes de contrôle de qualité strictes et mécanisme de validation multi-tours
Contribution académique : Fourniture d'une ressource d'évaluation importante pour le domaine du NLP chinois
Valeur pratique : Orientation directe pour le développement et l'évaluation des LLMs chinois
Inspiration méthodologique : La méthode de construction de données a une valeur de référence pour la construction d'indices de référence similaires dans d'autres langues
Reproductibilité : Description méthodique détaillée et engagement de publication de données assurant la reproductibilité
L'article cite plusieurs travaux connexes importants, notamment :
HotpotQA (Yang et al., 2018) : Travail fondateur du raisonnement multi-sauts
Chinese SimpleQA (He et al., 2024) : Indice de référence QA factuel chinois de haute qualité
MoreHopQA (Schnitzler et al., 2024) : Source d'inspiration partielle pour la méthode de cet article
CHARM (Sun et al., 2024) : Travaux connexes en raisonnement de sens commun chinois
Évaluation Globale : Ceci est un article de recherche de haute qualité qui comble une lacune importante dans l'évaluation du raisonnement multi-sauts en chinois. L'article présente une méthodologie rigoureuse, des expériences complètes et des analyses approfondies, ayant une valeur importante pour promouvoir la recherche en NLP et en raisonnement chinois. Bien qu'il existe certaines limitations en termes de taille de données et de méthodes d'évaluation, ses contributions sont significatives et jettent les bases importantes pour le développement du domaine.