2025-11-18T14:37:13.937958

Systematic Diagnosis of Brittle Reasoning in Large Language Models

Parupudi

A central question in artificial intelligence is the extent to which machine learning models comprehend mathematics. To address this, we propose a novel framework for measuring mathematical reasoning that moves beyond standard benchmarks to diagnose specific failure points. Our method first generates structured, step-by-step reasoning from gpt-3.5-turbo on the GSM8K dataset. We then use a more capable analyst model, gpt-4o-mini, to categorize errors and, crucially, perform an unsupervised clustering of every reasoning sentence to identify emergent "reasoning modes." This analysis reveals a cognitive profile with a stark, nonhuman-like brittleness: while the model achieves near-perfect accuracy on procedural modes like sequential calculation, its performance on modes requiring combinatorial reasoning with restrictions plummets. By identifying and quantifying the reliability of these distinct reasoning skills, our work provides a more granular method to evaluate mathematical comprehension and offers a precise roadmap for developing new capabilities and more reliable future applications.

academic

Diagnóstico Sistemático del Razonamiento Frágil en Modelos de Lenguaje Grande

Información Básica

ID del Artículo: 2510.08595
Título: Systematic Diagnosis of Brittle Reasoning in Large Language Models
Autor: V. S. Raghu Parupudi (Universidad de California, San Diego)
Clasificación: cs.CL (Computación y Lenguaje)
Conferencia de Publicación: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025) Taller: MATH-AI
Enlace del Artículo: https://arxiv.org/abs/2510.08595v1

Resumen

Una de las cuestiones fundamentales en el campo de la inteligencia artificial es el grado de comprensión matemática de los modelos de aprendizaje automático. Para abordar esta cuestión, el presente artículo propone un marco novedoso para medir la capacidad de razonamiento matemático que va más allá de los puntos de referencia estándar, permitiendo diagnosticar puntos de fallo específicos. El método genera primero razonamiento estructurado paso a paso desde GPT-3.5-turbo en el conjunto de datos GSM8K, luego utiliza el modelo analítico más potente GPT-4o-mini para clasificar errores y ejecuta agrupamiento no supervisado en cada oración de razonamiento para identificar "patrones de razonamiento" emergentes. El análisis revela un perfil cognitivo con una fragilidad claramente no humana: aunque el modelo alcanza una precisión casi perfecta en patrones procedimentales como el cálculo secuencial, su desempeño cae drásticamente en patrones que requieren razonamiento combinatorio y restricciones.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación busca resolver es: ¿Cómo diagnosticar sistemáticamente los patrones específicos de fallo de los modelos de lenguaje grande en razonamiento matemático?. Aunque los LLMs han logrado avances significativos en tareas de razonamiento matemático, los métodos de evaluación actuales se centran principalmente en la corrección de la respuesta final, careciendo de un análisis profundo de los puntos de fallo específicos durante el proceso de razonamiento.

Importancia del Problema

Confiabilidad del Razonamiento: Incluso los modelos más avanzados entrenados con supervisión de procesos producen regularmente errores lógicos
Diagnóstico Faltante: El campo carece de un marco sistemático y escalable para diagnosticar patrones de fallo persistentes
Necesidades de Aplicación: Las aplicaciones prácticas requieren comprender cuándo, dónde y por qué los modelos fallan

Limitaciones de los Métodos Existentes

Evaluación de Grano Grueso: Los puntos de referencia existentes se centran principalmente en la precisión a nivel de tarea, sin poder proporcionar diagnósticos cognitivos de grano fino
Falta de Sistematicidad: Ausencia de métodos automatizados y posteriores para diagnosticar fallos de razonamiento
Reconocimiento de Patrones Insuficiente: Incapacidad para identificar y cuantificar la confiabilidad de diferentes habilidades de razonamiento

Contribuciones Principales

Propone un Marco de Diagnóstico Novedoso: Desarrolla un sistema automatizado y posterior de diagnóstico de fallos de razonamiento
Descubre Patrones de Razonamiento: Identifica diferentes "patrones de razonamiento" mediante agrupamiento no supervisado y cuantifica su confiabilidad
Revela Fragilidad Cognitiva: Descubre características de fragilidad no humana en el razonamiento de LLM—exhibiendo una dicotomía extrema en conceptos matemáticos relacionados (100% éxito vs 0% fracaso)
Proporciona una Hoja de Ruta de Mejora Precisa: Ofrece una agenda impulsada por datos para desarrollar modelos más confiables

Explicación Detallada del Método

Definición de la Tarea

Entrada: Problemas matemáticos de GSM8K Salida: Análisis diagnóstico de trayectorias de razonamiento estructurado, incluyendo clasificación de fallos y evaluación de confiabilidad de patrones de razonamiento Objetivo: Identificar y cuantificar patrones específicos de fallo en el razonamiento matemático de LLM

Arquitectura del Modelo

Tubería de Análisis de Tres Capas

Modelo Generador: GPT-3.5-turbo-1106 genera trayectorias de razonamiento estructurado
Modelo de Incrustación: text-embedding-3-large genera incrustaciones de oraciones
Modelo Analizador: GPT-4o-mini realiza clasificación de errores y anotación de agrupamientos

Flujo de Método Principal

Paso 1: Generación de Razonamiento Estructurado

Utiliza formato JSON para forzar la salida de razonamiento paso a paso y respuesta final
Establece temperatura en 0.0 para garantizar salida determinista

Paso 2: Diagnóstico Automatizado

El modelo analizador verifica programáticamente cada trayectoria fallida
Identifica y clasifica el primer punto de fallo

Paso 3: Análisis de Agrupamiento de Patrones de Razonamiento

Convierte todas las oraciones de razonamiento en vectores de alta dimensión (text-embedding-3-large)
Procesa normalización L2 en vectores de incrustación
Utiliza el algoritmo HDBSCAN para agrupamiento no supervisado
GPT-4o-mini genera automáticamente etiquetas de agrupamiento

Paso 4: Cuantificación de Confiabilidad

Basado en anotación binaria a nivel de trayectoria (correcto/incorrecto)
Calcula la "tasa de corrección" de cada agrupamiento (porcentaje de oraciones en trayectorias de razonamiento exitosas)
Utiliza la prueba exacta de Fisher para validar significancia estadística

Puntos de Innovación Técnica

Mecanismo de Penalización a Nivel de Trayectoria: Cualquier error único invalida toda la trayectoria de razonamiento, proporcionando una señal estadística binaria clara
Descubrimiento de Patrones No Supervisado: Descubre automáticamente patrones de razonamiento emergentes mediante agrupamiento, en lugar de categorías predefinidas
Colaboración Multimodelo: Aprovecha modelos con diferentes capacidades trabajando en conjunto (generación, incrustación, análisis)
Validación Estadística: Utiliza la prueba exacta de Fisher para garantizar que los patrones descubiertos tengan significancia estadística

Configuración Experimental

Conjunto de Datos

Fuente de Datos: Muestra aleatoria del conjunto de entrenamiento de GSM8K
Escala de Muestra: 1,000 problemas
Método de Muestreo: Semilla aleatoria fija para garantizar reproducibilidad

Métricas de Evaluación

Precisión a Nivel de Tarea: Corrección de la respuesta final
Precisión de Agrupamiento: Proporción de oraciones en agrupamientos de patrones de razonamiento que pertenecen a trayectorias exitosas
Significancia Estadística: Prueba exacta de Fisher (p < 0.05)

Detalles de Implementación

Configuración de Modelos: Temperatura establecida en 0.0 para todos los modelos
Algoritmo de Agrupamiento: HDBSCAN aplicado directamente a incrustaciones normalizadas de alta dimensión
Comparación de Línea Base: Precisión a nivel de problema del 84.9% como línea base de corrección a nivel de oración

Resultados Experimentales

Resultados Principales

Desempeño General

Precisión General: 84.9% (849/1000)
Casos de Fallo: 151 respuestas erróneas utilizadas para análisis detallado

Clasificación de Fallos de Alto Nivel

Categoría de Error	Cantidad	Porcentaje
Error de Razonamiento	75	49.7%
Error de Cálculo	50	33.1%
Error de Comprensión	17	11.3%
Sin Clasificar	5	3.3%
Alucinación de Hechos	4	2.6%

Análisis de Confiabilidad de Patrones de Razonamiento

Patrones de Alta Confiabilidad (Casi Perfectos):

Agrupamiento 172: Calcular costo total de artículos - 100.0% tasa de corrección
Agrupamiento 47: Pasos de cálculo secuencial - 100.0% tasa de corrección
Agrupamiento 171: Calcular costo total o ganancia - 95.1% tasa de corrección

Patrones de Razonamiento Frágil (Fallo Significativo):

Agrupamiento 11: Calcular combinaciones con restricciones - 0.0% tasa de corrección
Agrupamiento 93: Sustitución y simplificación de ecuaciones - 27.3% tasa de corrección
Agrupamiento 60: Calcular y redondear tiempo o cantidad - 27.3% tasa de corrección

Hallazgos Clave

Características de Fragilidad Cognitiva

Dicotomía Extrema: Exhibe contraste extremo de 100% éxito versus 0% fracaso en conceptos matemáticos relacionados
Procedimiento vs Combinatorio: Las tareas procedimentales (como cálculo secuencial) son casi perfectas, mientras que las tareas de razonamiento combinatorio fallan completamente
Patrón Cognitivo No Humano: Esta dicotomía extrema éxito-fracaso difiere significativamente de los patrones de aprendizaje humano

Validación Estadística

Todos los agrupamientos destacados pasaron la prueba exacta de Fisher (p < 0.05), confirmando que el desempeño observado no es resultado del azar aleatorio.

Trabajo Relacionado

Generación y Supervisión de Trayectorias de Razonamiento

Método de Cadena de Pensamiento (CoT): Mejora significativamente el desempeño de razonamiento matemático mediante indicaciones de pasos intermedios
Marco de Árbol de Pensamiento (ToT): Permite explorar múltiples trayectorias de razonamiento divergentes y autoevaluación
Supervisión de Procesos: Lightman et al. demostraron que proporcionar retroalimentación en cada paso intermedio es más efectivo que supervisar solo el resultado final

Paradigma de LLM como Evaluador

LLM-as-a-Judge: Zheng et al. descubrieron que modelos fuertes como GPT-4 alcanzan más del 80% de consistencia con preferencias humanas en tareas abiertas
Marco de Automejora: Utiliza un único LLM para generar salida inicial, proporcionar retroalimentación y mejorar la salida

Conclusiones y Discusión

Conclusiones Principales

Descubre Fragilidad Sistemática: Los LLM exhiben fragilidad cognitiva no humana en razonamiento matemático
Identifica Patrones de Fallo Clave: El razonamiento combinatorio y el manejo de restricciones son puntos débiles principales
Proporciona Herramientas de Diagnóstico: Desarrolla un marco escalable para diagnosticar fallos de razonamiento

Limitaciones

Limitación de Modelo Único: El análisis se basa solo en un modelo generador GPT-3.5-turbo
Alcance del Conjunto de Datos: Utiliza solo el conjunto de datos GSM8K, lo que puede limitar la generalización
Dependencia del Analizador: El diagnóstico depende del analizador LLM, cuya precisión de juicio requiere verificación adicional
Limitaciones de Recursos: Debido a limitaciones de recursos, no se realizó análisis más amplio entre modelos

Direcciones Futuras

Análisis Entre Modelos: Aplicar la tubería a múltiples modelos de última generación (GPT-4, Claude 3, Gemini 1.5)
Extensión de Dominio: Expandir a dominios de razonamiento más complejos
Mejora de Ciclo Cerrado: Utilizar agrupamientos frágiles identificados para ajuste fino dirigido, verificando si se pueden corregir deficiencias de razonamiento específicas

Evaluación Profunda

Fortalezas

Fuerte Innovación Metodológica: Propone por primera vez un marco sistemático de diagnóstico de patrones de razonamiento
Hallazgos Perspicaces: Revela características de fragilidad cognitiva no humana en LLM
Diseño Experimental Riguroso: Utiliza pruebas estadísticas para validar la significancia de los hallazgos
Alto Valor Práctico: Proporciona orientación impulsada por datos precisa para mejora de modelos

Deficiencias

Escala de Muestra Limitada: 1,000 muestras pueden ser insuficientes para representar completamente todos los patrones de razonamiento
Dependencia de Modelo: Dependencia excesiva de modelos específicos de OpenAI, lo que puede afectar la generalización de resultados
Interpretabilidad de Agrupamiento: La interpretabilidad y estabilidad de los resultados de agrupamiento HDBSCAN requieren verificación adicional
Falta de Comparación Humana: Sin comparación directa con patrones de razonamiento humano para validación

Impacto

Contribución Teórica: Proporciona un nuevo marco teórico para comprender la capacidad de razonamiento matemático de LLM
Orientación Práctica: Proporciona direcciones de objetivo específico para entrenamiento y mejora de modelos
Valor Metodológico: El marco de diagnóstico puede aplicarse a otras tareas de razonamiento y modelos

Escenarios Aplicables

Evaluación de Modelos: Proporciona evaluación de grano fino de la capacidad de razonamiento matemático de LLM
Optimización de Entrenamiento: Guía entrenamiento de modelo dirigido y aumento de datos
Despliegue de Aplicaciones: Ayuda a identificar la confiabilidad del modelo en escenarios de razonamiento específicos
Herramienta de Investigación: Proporciona herramienta de diagnóstico estandarizada para investigación de capacidad de razonamiento

Referencias

Campello, R. J. G. B., Moulavi, D., & Sander, J. (2013). Density-based clustering based on hierarchical density estimates.
Cobbe, K., et al. (2021). Training verifiers to solve math word problems.
Lightman, H., et al. (2023). Let's verify step by step.
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models.
Yao, S., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models.

Evaluación General: Este es un artículo con importante valor teórico y práctico que diagnostica sistemáticamente por primera vez los patrones de fragilidad en el razonamiento matemático de LLM. Aunque presenta limitaciones en escala experimental y cobertura de modelos, el marco de diagnóstico propuesto y las características de fragilidad cognitiva descubiertas proporcionan perspectivas importantes para comprender y mejorar la capacidad de razonamiento de LLM. La innovación metodológica y el valor práctico del artículo le confieren un impacto importante en el campo de la investigación de razonamiento en IA.