2025-11-18T14:37:13.937958

Systematic Diagnosis of Brittle Reasoning in Large Language Models

Parupudi

A central question in artificial intelligence is the extent to which machine learning models comprehend mathematics. To address this, we propose a novel framework for measuring mathematical reasoning that moves beyond standard benchmarks to diagnose specific failure points. Our method first generates structured, step-by-step reasoning from gpt-3.5-turbo on the GSM8K dataset. We then use a more capable analyst model, gpt-4o-mini, to categorize errors and, crucially, perform an unsupervised clustering of every reasoning sentence to identify emergent "reasoning modes." This analysis reveals a cognitive profile with a stark, nonhuman-like brittleness: while the model achieves near-perfect accuracy on procedural modes like sequential calculation, its performance on modes requiring combinatorial reasoning with restrictions plummets. By identifying and quantifying the reliability of these distinct reasoning skills, our work provides a more granular method to evaluate mathematical comprehension and offers a precise roadmap for developing new capabilities and more reliable future applications.

academic

Diagnostic Systématique du Raisonnement Fragile dans les Grands Modèles de Langage

Informations Fondamentales

ID de l'article : 2510.08595
Titre : Systematic Diagnosis of Brittle Reasoning in Large Language Models
Auteur : V. S. Raghu Parupudi (Université de Californie, San Diego)
Classification : cs.CL (Calcul et Langage)
Conférence de publication : 39ème Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025) Atelier : MATH-AI
Lien de l'article : https://arxiv.org/abs/2510.08595v1

Résumé

L'une des questions fondamentales du domaine de l'intelligence artificielle concerne le degré de compréhension des mathématiques par les modèles d'apprentissage automatique. Pour aborder cette question, cet article propose un cadre novateur pour mesurer les capacités de raisonnement mathématique, qui va au-delà des tests de référence standards et permet de diagnostiquer les points d'échec spécifiques. La méthode génère d'abord un raisonnement structuré étape par étape à partir de GPT-3.5-turbo sur l'ensemble de données GSM8K, puis utilise un modèle d'analyse plus puissant, GPT-4o-mini, pour classer les erreurs et effectuer un clustering non supervisé sur chaque phrase de raisonnement afin d'identifier les « motifs de raisonnement » émergents. L'analyse révèle un profil cognitif présentant une fragilité distinctement non-humaine : bien que le modèle atteigne une précision quasi parfaite sur les motifs procéduraux tels que le calcul séquentiel, ses performances chutent drastiquement sur les motifs nécessitant un raisonnement combinatoire et des contraintes.

Contexte et Motivation de la Recherche

Définition du Problème

La question fondamentale que cette recherche vise à résoudre est : Comment diagnostiquer systématiquement les motifs d'échec spécifiques des grands modèles de langage dans le raisonnement mathématique. Bien que les LLM aient réalisé des progrès remarquables dans les tâches de raisonnement mathématique, les méthodes d'évaluation actuelles se concentrent principalement sur l'exactitude de la réponse finale, manquant d'une analyse approfondie des points d'échec spécifiques dans le processus de raisonnement.

Importance du Problème

Fiabilité du raisonnement : Même les modèles les plus avancés entraînés avec supervision de processus produisent régulièrement des erreurs logiques
Absence de diagnostic : Le domaine manque d'un cadre systématique et évolutif pour diagnostiquer les motifs d'échec persistants
Besoins applicatifs : Les applications pratiques nécessitent de comprendre quand et où les modèles échouent, ainsi que les raisons de ces échecs

Limitations des Approches Existantes

Évaluation à grain grossier : Les tests de référence existants se concentrent principalement sur la précision au niveau des tâches, sans fournir de diagnostic cognitif à grain fin
Manque de systématicité : Absence de méthodes automatisées et a posteriori pour diagnostiquer les échecs de raisonnement
Reconnaissance insuffisante des motifs : Incapacité à identifier et quantifier la fiabilité de différentes compétences de raisonnement

Contributions Principales

Proposition d'un cadre de diagnostic novateur : Développement d'un système automatisé et a posteriori de diagnostic des échecs de raisonnement
Découverte de motifs de raisonnement : Identification de différents « motifs de raisonnement » par clustering non supervisé et quantification de leur fiabilité
Révélation de la fragilité cognitive : Découverte de caractéristiques de fragilité non-humaines dans le raisonnement des LLM — manifestation d'une dichotomie extrême sur les concepts mathématiques connexes (100% de succès vs 0% d'échec)
Fourniture d'une feuille de route d'amélioration précise : Fourniture d'un programme basé sur les données pour développer des modèles plus fiables

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Problèmes mathématiques GSM8K Sortie : Analyse diagnostique des trajectoires de raisonnement structuré, incluant la classification des erreurs et l'évaluation de la fiabilité des motifs de raisonnement Objectif : Identifier et quantifier les motifs d'échec spécifiques du raisonnement mathématique des LLM

Architecture du Modèle

Pipeline d'Analyse à Trois Niveaux

Modèle générateur : GPT-3.5-turbo-1106 génère des trajectoires de raisonnement structuré
Modèle d'embedding : text-embedding-3-large génère des embeddings de phrases
Modèle analyseur : GPT-4o-mini effectue la classification des erreurs et l'annotation du clustering

Flux de Processus de la Méthode Principale

Étape 1 : Génération de Raisonnement Structuré

Utilisation du format JSON pour forcer la sortie du modèle en raisonnement étape par étape et réponse finale
Température fixée à 0,0 pour assurer une sortie déterministe

Étape 2 : Diagnostic Automatisé

Le modèle analyseur vérifie programmatiquement chaque trajectoire d'échec
Identification et classification du premier point d'échec

Étape 3 : Analyse de Clustering des Motifs de Raisonnement

Conversion de toutes les phrases de raisonnement en vecteurs de haute dimension (text-embedding-3-large)
Traitement de normalisation L2 des vecteurs d'embedding
Utilisation de l'algorithme HDBSCAN pour le clustering non supervisé
Génération automatique des étiquettes de clustering par GPT-4o-mini

Étape 4 : Quantification de la Fiabilité

Annotation binaire au niveau des trajectoires (correct/incorrect)
Calcul du « taux de correction » pour chaque cluster (pourcentage de phrases appartenant à des trajectoires de raisonnement réussies)
Utilisation du test exact de Fisher pour valider la signification statistique

Points d'Innovation Technique

Mécanisme de pénalité au niveau des trajectoires : Toute erreur unique invalide la trajectoire de raisonnement entière, fournissant un signal statistique binaire clair
Découverte de motifs non supervisée : Découverte automatique de motifs de raisonnement émergents par clustering, plutôt que des catégories prédéfinies
Collaboration multi-modèles : Exploitation de modèles aux capacités différentes travaillant en division du travail (génération, embedding, analyse)
Validation statistique : Utilisation du test exact de Fisher pour assurer que les motifs découverts possèdent une signification statistique

Configuration Expérimentale

Ensemble de Données

Source de données : Échantillon aléatoire de l'ensemble d'entraînement GSM8K
Taille de l'échantillon : 1 000 problèmes
Méthode d'échantillonnage : Graine aléatoire fixe pour assurer la reproductibilité

Métriques d'Évaluation

Précision au niveau des tâches : Exactitude de la réponse finale
Taux de correction du cluster : Proportion de phrases dans chaque cluster de motif de raisonnement appartenant à des trajectoires réussies
Signification statistique : Test exact de Fisher (p < 0,05)

Détails d'Implémentation

Configuration des modèles : Température fixée à 0,0 pour tous les modèles
Algorithme de clustering : HDBSCAN appliqué directement aux embeddings normalisés de haute dimension
Comparaison de base : Précision au niveau des problèmes de 84,9% comme base de référence pour la précision au niveau des phrases

Résultats Expérimentaux

Résultats Principaux

Performance Globale

Précision globale : 84,9% (849/1000)
Cas d'échec : 151 réponses erronées utilisées pour l'analyse détaillée

Classification d'Erreurs de Haut Niveau

Catégorie d'Erreur	Nombre	Pourcentage
Erreur de raisonnement	75	49,7%
Erreur de calcul	50	33,1%
Erreur de compréhension	17	11,3%
Non classifié	5	3,3%
Hallucination factuelle	4	2,6%

Analyse de Fiabilité des Motifs de Raisonnement

Motifs de Haute Fiabilité (Quasi-Parfaits) :

Cluster 172 : Calcul du coût total des articles - 100,0% de taux de correction
Cluster 47 : Étapes de calcul séquentiel - 100,0% de taux de correction
Cluster 171 : Calcul du coût total ou du profit - 95,1% de taux de correction

Motifs de Raisonnement Fragile (Échec Significatif) :

Cluster 11 : Calcul de combinaisons avec contraintes - 0,0% de taux de correction
Cluster 93 : Substitution et simplification d'équations - 27,3% de taux de correction
Cluster 60 : Calcul et arrondi du temps ou de la quantité - 27,3% de taux de correction

Découvertes Clés

Caractéristiques de Fragilité Cognitive

Dichotomie Extrême : Manifestation d'un contraste extrême entre 100% de succès et 0% d'échec sur les concepts mathématiques connexes
Procédural vs Combinatoire : Les tâches procédurales (comme le calcul séquentiel) sont quasi parfaites, tandis que les tâches de raisonnement combinatoire échouent complètement
Motif Cognitif Non-Humain : Cette dichotomie extrême succès-échec diffère significativement des motifs d'apprentissage humain

Validation Statistique

Tous les clusters mis en évidence ont réussi le test exact de Fisher (p < 0,05), confirmant que les performances observées ne sont pas le résultat d'une coïncidence aléatoire.

Travaux Connexes

Génération et Supervision des Trajectoires de Raisonnement

Méthode Chaîne de Pensée (CoT) : Amélioration significative des performances de raisonnement mathématique par incitation aux étapes intermédiaires
Cadre Arbre de Pensée (ToT) : Permet l'exploration de multiples trajectoires de raisonnement divergentes et l'auto-évaluation
Supervision de Processus : Lightman et al. ont démontré que fournir des retours sur chaque étape intermédiaire est plus efficace que la supervision du seul résultat final

Paradigme LLM en tant qu'Évaluateur

LLM-as-a-Judge : Zheng et al. ont découvert que les modèles puissants comme GPT-4 atteignent plus de 80% de cohérence avec les préférences humaines sur les tâches ouvertes
Cadres d'Auto-Amélioration : Utilisation d'un seul LLM pour générer une sortie initiale, fournir des retours et améliorer la sortie

Conclusion et Discussion

Conclusions Principales

Découverte d'une Fragilité Systématique : Les LLM manifestent une fragilité cognitive non-humaine dans le raisonnement mathématique
Identification des Motifs d'Échec Clés : Le raisonnement combinatoire et la gestion des contraintes sont les principaux points faibles
Fourniture d'Outils de Diagnostic : Développement d'un cadre évolutif de diagnostic des échecs de raisonnement

Limitations

Limitation d'un Modèle Unique : L'analyse est basée uniquement sur un modèle générateur GPT-3.5-turbo
Portée de l'Ensemble de Données : Utilisation exclusive de l'ensemble de données GSM8K, ce qui peut limiter la généralisation
Dépendance de l'Analyseur : Le diagnostic dépend de l'analyseur LLM, dont la précision des jugements nécessite une vérification supplémentaire
Limitations de Ressources : Incapacité à mener une analyse inter-modèles à plus grande échelle en raison de limitations de ressources

Directions Futures

Analyse Inter-Modèles : Application du pipeline à plusieurs modèles de pointe (GPT-4, Claude 3, Gemini 1.5)
Extension Thématique : Extension à des domaines de raisonnement plus complexes
Amélioration en Boucle Fermée : Utilisation des clusters fragiles identifiés pour un fine-tuning ciblé, vérification de la capacité à corriger les défauts de raisonnement spécifiques

Évaluation Approfondie

Points Forts

Forte Innovativité Méthodologique : Première proposition d'un cadre systématique de diagnostic des motifs de raisonnement
Découvertes Perspicaces : Révélation des caractéristiques de fragilité cognitive non-humaine des LLM
Conception Expérimentale Rigoureuse : Utilisation de tests statistiques pour valider la signification des découvertes
Valeur Pratique Élevée : Fourniture de directives précises basées sur les données pour l'amélioration des modèles

Insuffisances

Taille d'Échantillon Limitée : 1 000 échantillons peuvent être insuffisants pour représenter pleinement tous les motifs de raisonnement
Dépendance Modèle : Dépendance excessive envers des modèles OpenAI spécifiques, pouvant affecter la généralisation des résultats
Interprétabilité du Clustering : L'interprétabilité et la stabilité des résultats du clustering HDBSCAN nécessitent une vérification supplémentaire
Absence de Comparaison Humaine : Manque de comparaison directe avec les motifs de raisonnement humain pour validation

Impact

Contribution Théorique : Fourniture d'un nouveau cadre théorique pour comprendre les capacités de raisonnement mathématique des LLM
Orientation Pratique : Fourniture de directions cibles spécifiques pour l'entraînement et l'amélioration des modèles
Valeur Méthodologique : Le cadre de diagnostic peut être appliqué à d'autres tâches de raisonnement et modèles

Scénarios Applicables

Évaluation de Modèles : Fourniture d'une évaluation à grain fin des capacités de raisonnement mathématique des LLM
Optimisation d'Entraînement : Orientation de l'entraînement ciblé des modèles et de l'augmentation des données
Déploiement d'Applications : Aide à l'identification de la fiabilité des modèles dans des scénarios de raisonnement spécifiques
Outil de Recherche : Fourniture d'un outil de diagnostic standardisé pour la recherche sur les capacités de raisonnement

Références

Campello, R. J. G. B., Moulavi, D., & Sander, J. (2013). Density-based clustering based on hierarchical density estimates.
Cobbe, K., et al. (2021). Training verifiers to solve math word problems.
Lightman, H., et al. (2023). Let's verify step by step.
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models.
Yao, S., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models.

Évaluation Globale : Cet article possède une valeur théorique et pratique importante, étant le premier à diagnostiquer systématiquement les motifs de fragilité du raisonnement mathématique des LLM. Bien qu'il présente des limitations en termes d'échelle expérimentale et de couverture de modèles, le cadre de diagnostic proposé et les caractéristiques de fragilité cognitive découvertes fournissent des perspectives importantes pour comprendre et améliorer les capacités de raisonnement des LLM. L'innovation méthodologique et la valeur pratique de l'article lui confèrent une influence importante dans le domaine de la recherche sur le raisonnement en IA.