2025-11-18T14:37:13.937958

Systematic Diagnosis of Brittle Reasoning in Large Language Models

Parupudi
A central question in artificial intelligence is the extent to which machine learning models comprehend mathematics. To address this, we propose a novel framework for measuring mathematical reasoning that moves beyond standard benchmarks to diagnose specific failure points. Our method first generates structured, step-by-step reasoning from gpt-3.5-turbo on the GSM8K dataset. We then use a more capable analyst model, gpt-4o-mini, to categorize errors and, crucially, perform an unsupervised clustering of every reasoning sentence to identify emergent "reasoning modes." This analysis reveals a cognitive profile with a stark, nonhuman-like brittleness: while the model achieves near-perfect accuracy on procedural modes like sequential calculation, its performance on modes requiring combinatorial reasoning with restrictions plummets. By identifying and quantifying the reliability of these distinct reasoning skills, our work provides a more granular method to evaluate mathematical comprehension and offers a precise roadmap for developing new capabilities and more reliable future applications.
academic

Diagnostic Systématique du Raisonnement Fragile dans les Grands Modèles de Langage

Informations Fondamentales

  • ID de l'article : 2510.08595
  • Titre : Systematic Diagnosis of Brittle Reasoning in Large Language Models
  • Auteur : V. S. Raghu Parupudi (Université de Californie, San Diego)
  • Classification : cs.CL (Calcul et Langage)
  • Conférence de publication : 39ème Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025) Atelier : MATH-AI
  • Lien de l'article : https://arxiv.org/abs/2510.08595v1

Résumé

L'une des questions fondamentales du domaine de l'intelligence artificielle concerne le degré de compréhension des mathématiques par les modèles d'apprentissage automatique. Pour aborder cette question, cet article propose un cadre novateur pour mesurer les capacités de raisonnement mathématique, qui va au-delà des tests de référence standards et permet de diagnostiquer les points d'échec spécifiques. La méthode génère d'abord un raisonnement structuré étape par étape à partir de GPT-3.5-turbo sur l'ensemble de données GSM8K, puis utilise un modèle d'analyse plus puissant, GPT-4o-mini, pour classer les erreurs et effectuer un clustering non supervisé sur chaque phrase de raisonnement afin d'identifier les « motifs de raisonnement » émergents. L'analyse révèle un profil cognitif présentant une fragilité distinctement non-humaine : bien que le modèle atteigne une précision quasi parfaite sur les motifs procéduraux tels que le calcul séquentiel, ses performances chutent drastiquement sur les motifs nécessitant un raisonnement combinatoire et des contraintes.

Contexte et Motivation de la Recherche

Définition du Problème

La question fondamentale que cette recherche vise à résoudre est : Comment diagnostiquer systématiquement les motifs d'échec spécifiques des grands modèles de langage dans le raisonnement mathématique. Bien que les LLM aient réalisé des progrès remarquables dans les tâches de raisonnement mathématique, les méthodes d'évaluation actuelles se concentrent principalement sur l'exactitude de la réponse finale, manquant d'une analyse approfondie des points d'échec spécifiques dans le processus de raisonnement.

Importance du Problème

  1. Fiabilité du raisonnement : Même les modèles les plus avancés entraînés avec supervision de processus produisent régulièrement des erreurs logiques
  2. Absence de diagnostic : Le domaine manque d'un cadre systématique et évolutif pour diagnostiquer les motifs d'échec persistants
  3. Besoins applicatifs : Les applications pratiques nécessitent de comprendre quand et où les modèles échouent, ainsi que les raisons de ces échecs

Limitations des Approches Existantes

  1. Évaluation à grain grossier : Les tests de référence existants se concentrent principalement sur la précision au niveau des tâches, sans fournir de diagnostic cognitif à grain fin
  2. Manque de systématicité : Absence de méthodes automatisées et a posteriori pour diagnostiquer les échecs de raisonnement
  3. Reconnaissance insuffisante des motifs : Incapacité à identifier et quantifier la fiabilité de différentes compétences de raisonnement

Contributions Principales

  1. Proposition d'un cadre de diagnostic novateur : Développement d'un système automatisé et a posteriori de diagnostic des échecs de raisonnement
  2. Découverte de motifs de raisonnement : Identification de différents « motifs de raisonnement » par clustering non supervisé et quantification de leur fiabilité
  3. Révélation de la fragilité cognitive : Découverte de caractéristiques de fragilité non-humaines dans le raisonnement des LLM — manifestation d'une dichotomie extrême sur les concepts mathématiques connexes (100% de succès vs 0% d'échec)
  4. Fourniture d'une feuille de route d'amélioration précise : Fourniture d'un programme basé sur les données pour développer des modèles plus fiables

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Problèmes mathématiques GSM8K Sortie : Analyse diagnostique des trajectoires de raisonnement structuré, incluant la classification des erreurs et l'évaluation de la fiabilité des motifs de raisonnement Objectif : Identifier et quantifier les motifs d'échec spécifiques du raisonnement mathématique des LLM

Architecture du Modèle

Pipeline d'Analyse à Trois Niveaux

  1. Modèle générateur : GPT-3.5-turbo-1106 génère des trajectoires de raisonnement structuré
  2. Modèle d'embedding : text-embedding-3-large génère des embeddings de phrases
  3. Modèle analyseur : GPT-4o-mini effectue la classification des erreurs et l'annotation du clustering

Flux de Processus de la Méthode Principale

Étape 1 : Génération de Raisonnement Structuré

  • Utilisation du format JSON pour forcer la sortie du modèle en raisonnement étape par étape et réponse finale
  • Température fixée à 0,0 pour assurer une sortie déterministe

Étape 2 : Diagnostic Automatisé

  • Le modèle analyseur vérifie programmatiquement chaque trajectoire d'échec
  • Identification et classification du premier point d'échec

Étape 3 : Analyse de Clustering des Motifs de Raisonnement

  • Conversion de toutes les phrases de raisonnement en vecteurs de haute dimension (text-embedding-3-large)
  • Traitement de normalisation L2 des vecteurs d'embedding
  • Utilisation de l'algorithme HDBSCAN pour le clustering non supervisé
  • Génération automatique des étiquettes de clustering par GPT-4o-mini

Étape 4 : Quantification de la Fiabilité

  • Annotation binaire au niveau des trajectoires (correct/incorrect)
  • Calcul du « taux de correction » pour chaque cluster (pourcentage de phrases appartenant à des trajectoires de raisonnement réussies)
  • Utilisation du test exact de Fisher pour valider la signification statistique

Points d'Innovation Technique

  1. Mécanisme de pénalité au niveau des trajectoires : Toute erreur unique invalide la trajectoire de raisonnement entière, fournissant un signal statistique binaire clair
  2. Découverte de motifs non supervisée : Découverte automatique de motifs de raisonnement émergents par clustering, plutôt que des catégories prédéfinies
  3. Collaboration multi-modèles : Exploitation de modèles aux capacités différentes travaillant en division du travail (génération, embedding, analyse)
  4. Validation statistique : Utilisation du test exact de Fisher pour assurer que les motifs découverts possèdent une signification statistique

Configuration Expérimentale

Ensemble de Données

  • Source de données : Échantillon aléatoire de l'ensemble d'entraînement GSM8K
  • Taille de l'échantillon : 1 000 problèmes
  • Méthode d'échantillonnage : Graine aléatoire fixe pour assurer la reproductibilité

Métriques d'Évaluation

  • Précision au niveau des tâches : Exactitude de la réponse finale
  • Taux de correction du cluster : Proportion de phrases dans chaque cluster de motif de raisonnement appartenant à des trajectoires réussies
  • Signification statistique : Test exact de Fisher (p < 0,05)

Détails d'Implémentation

  • Configuration des modèles : Température fixée à 0,0 pour tous les modèles
  • Algorithme de clustering : HDBSCAN appliqué directement aux embeddings normalisés de haute dimension
  • Comparaison de base : Précision au niveau des problèmes de 84,9% comme base de référence pour la précision au niveau des phrases

Résultats Expérimentaux

Résultats Principaux

Performance Globale

  • Précision globale : 84,9% (849/1000)
  • Cas d'échec : 151 réponses erronées utilisées pour l'analyse détaillée

Classification d'Erreurs de Haut Niveau

Catégorie d'ErreurNombrePourcentage
Erreur de raisonnement7549,7%
Erreur de calcul5033,1%
Erreur de compréhension1711,3%
Non classifié53,3%
Hallucination factuelle42,6%

Analyse de Fiabilité des Motifs de Raisonnement

Motifs de Haute Fiabilité (Quasi-Parfaits) :

  • Cluster 172 : Calcul du coût total des articles - 100,0% de taux de correction
  • Cluster 47 : Étapes de calcul séquentiel - 100,0% de taux de correction
  • Cluster 171 : Calcul du coût total ou du profit - 95,1% de taux de correction

Motifs de Raisonnement Fragile (Échec Significatif) :

  • Cluster 11 : Calcul de combinaisons avec contraintes - 0,0% de taux de correction
  • Cluster 93 : Substitution et simplification d'équations - 27,3% de taux de correction
  • Cluster 60 : Calcul et arrondi du temps ou de la quantité - 27,3% de taux de correction

Découvertes Clés

Caractéristiques de Fragilité Cognitive

  1. Dichotomie Extrême : Manifestation d'un contraste extrême entre 100% de succès et 0% d'échec sur les concepts mathématiques connexes
  2. Procédural vs Combinatoire : Les tâches procédurales (comme le calcul séquentiel) sont quasi parfaites, tandis que les tâches de raisonnement combinatoire échouent complètement
  3. Motif Cognitif Non-Humain : Cette dichotomie extrême succès-échec diffère significativement des motifs d'apprentissage humain

Validation Statistique

Tous les clusters mis en évidence ont réussi le test exact de Fisher (p < 0,05), confirmant que les performances observées ne sont pas le résultat d'une coïncidence aléatoire.

Travaux Connexes

Génération et Supervision des Trajectoires de Raisonnement

  1. Méthode Chaîne de Pensée (CoT) : Amélioration significative des performances de raisonnement mathématique par incitation aux étapes intermédiaires
  2. Cadre Arbre de Pensée (ToT) : Permet l'exploration de multiples trajectoires de raisonnement divergentes et l'auto-évaluation
  3. Supervision de Processus : Lightman et al. ont démontré que fournir des retours sur chaque étape intermédiaire est plus efficace que la supervision du seul résultat final

Paradigme LLM en tant qu'Évaluateur

  1. LLM-as-a-Judge : Zheng et al. ont découvert que les modèles puissants comme GPT-4 atteignent plus de 80% de cohérence avec les préférences humaines sur les tâches ouvertes
  2. Cadres d'Auto-Amélioration : Utilisation d'un seul LLM pour générer une sortie initiale, fournir des retours et améliorer la sortie

Conclusion et Discussion

Conclusions Principales

  1. Découverte d'une Fragilité Systématique : Les LLM manifestent une fragilité cognitive non-humaine dans le raisonnement mathématique
  2. Identification des Motifs d'Échec Clés : Le raisonnement combinatoire et la gestion des contraintes sont les principaux points faibles
  3. Fourniture d'Outils de Diagnostic : Développement d'un cadre évolutif de diagnostic des échecs de raisonnement

Limitations

  1. Limitation d'un Modèle Unique : L'analyse est basée uniquement sur un modèle générateur GPT-3.5-turbo
  2. Portée de l'Ensemble de Données : Utilisation exclusive de l'ensemble de données GSM8K, ce qui peut limiter la généralisation
  3. Dépendance de l'Analyseur : Le diagnostic dépend de l'analyseur LLM, dont la précision des jugements nécessite une vérification supplémentaire
  4. Limitations de Ressources : Incapacité à mener une analyse inter-modèles à plus grande échelle en raison de limitations de ressources

Directions Futures

  1. Analyse Inter-Modèles : Application du pipeline à plusieurs modèles de pointe (GPT-4, Claude 3, Gemini 1.5)
  2. Extension Thématique : Extension à des domaines de raisonnement plus complexes
  3. Amélioration en Boucle Fermée : Utilisation des clusters fragiles identifiés pour un fine-tuning ciblé, vérification de la capacité à corriger les défauts de raisonnement spécifiques

Évaluation Approfondie

Points Forts

  1. Forte Innovativité Méthodologique : Première proposition d'un cadre systématique de diagnostic des motifs de raisonnement
  2. Découvertes Perspicaces : Révélation des caractéristiques de fragilité cognitive non-humaine des LLM
  3. Conception Expérimentale Rigoureuse : Utilisation de tests statistiques pour valider la signification des découvertes
  4. Valeur Pratique Élevée : Fourniture de directives précises basées sur les données pour l'amélioration des modèles

Insuffisances

  1. Taille d'Échantillon Limitée : 1 000 échantillons peuvent être insuffisants pour représenter pleinement tous les motifs de raisonnement
  2. Dépendance Modèle : Dépendance excessive envers des modèles OpenAI spécifiques, pouvant affecter la généralisation des résultats
  3. Interprétabilité du Clustering : L'interprétabilité et la stabilité des résultats du clustering HDBSCAN nécessitent une vérification supplémentaire
  4. Absence de Comparaison Humaine : Manque de comparaison directe avec les motifs de raisonnement humain pour validation

Impact

  1. Contribution Théorique : Fourniture d'un nouveau cadre théorique pour comprendre les capacités de raisonnement mathématique des LLM
  2. Orientation Pratique : Fourniture de directions cibles spécifiques pour l'entraînement et l'amélioration des modèles
  3. Valeur Méthodologique : Le cadre de diagnostic peut être appliqué à d'autres tâches de raisonnement et modèles

Scénarios Applicables

  1. Évaluation de Modèles : Fourniture d'une évaluation à grain fin des capacités de raisonnement mathématique des LLM
  2. Optimisation d'Entraînement : Orientation de l'entraînement ciblé des modèles et de l'augmentation des données
  3. Déploiement d'Applications : Aide à l'identification de la fiabilité des modèles dans des scénarios de raisonnement spécifiques
  4. Outil de Recherche : Fourniture d'un outil de diagnostic standardisé pour la recherche sur les capacités de raisonnement

Références

  1. Campello, R. J. G. B., Moulavi, D., & Sander, J. (2013). Density-based clustering based on hierarchical density estimates.
  2. Cobbe, K., et al. (2021). Training verifiers to solve math word problems.
  3. Lightman, H., et al. (2023). Let's verify step by step.
  4. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models.
  5. Yao, S., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models.

Évaluation Globale : Cet article possède une valeur théorique et pratique importante, étant le premier à diagnostiquer systématiquement les motifs de fragilité du raisonnement mathématique des LLM. Bien qu'il présente des limitations en termes d'échelle expérimentale et de couverture de modèles, le cadre de diagnostic proposé et les caractéristiques de fragilité cognitive découvertes fournissent des perspectives importantes pour comprendre et améliorer les capacités de raisonnement des LLM. L'innovation méthodologique et la valeur pratique de l'article lui confèrent une influence importante dans le domaine de la recherche sur le raisonnement en IA.