Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.
- ID del Artículo: 2510.13908
- Título: Interpreting the Latent Structure of Operator Precedence in Language Models
- Autores: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación/Conferencia: COLM 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.13908
Los modelos de lenguaje grandes (LLMs) demuestran excelentes capacidades de razonamiento, pero aún presentan dificultades en tareas aritméticas. Investigaciones previas se han enfocado principalmente en estrategias de salida o indicaciones, ignorando la estructura interna mediante la cual los modelos realizan cálculos aritméticos. Este estudio explora, a través del modelo LLaMA 3.2-3B de ajuste fino de instrucciones de código abierto, si los LLMs codifican la precedencia de operadores en sus representaciones internas. La investigación construye un conjunto de datos de expresiones aritméticas que contienen tres operandos y dos operadores, variando el orden de operaciones y la posición de paréntesis. Utilizando este conjunto de datos, se rastrean los resultados intermedios en el flujo residual del modelo, aplicando técnicas de interpretabilidad como logit lens, sondas de clasificación lineal y visualización geométrica UMAP. Los resultados demuestran que los cálculos intermedios existen en el flujo residual, particularmente después de bloques MLP. El estudio también revela que el modelo codifica linealmente información de precedencia en las incrustaciones de operadores después de capas de atención. El artículo introduce la técnica de intercambio parcial de incrustaciones, modificando la precedencia de operadores mediante el intercambio de dimensiones de incrustación de alto impacto entre operadores.
El problema central que aborda esta investigación es: ¿codifican los modelos de lenguaje grandes la precedencia de operadores en sus representaciones internas al procesar expresiones aritméticas, y cómo lo hacen? Específicamente, cuando el modelo se enfrenta a una expresión como "1 + 1 × 2", ¿calcula primero la multiplicación según las reglas de precedencia matemática, o simplemente procesa de izquierda a derecha?
- Significado Teórico: Comprender los mecanismos de razonamiento aritmético interno de los LLMs tiene un valor importante para la investigación de interpretabilidad del aprendizaje automático
- Valor Práctico: Mejorar el desempeño del modelo en tareas de razonamiento matemático, particularmente para modelos de menor escala
- Contribución Metodológica: Proporcionar nuevas técnicas para analizar representaciones internas de redes neuronales
- La mayoría de investigaciones se centran en indicaciones de lenguaje natural y resultados finales
- Falta análisis profundo del procesamiento de precedencia de operadores y pasos de cálculo intermedios
- Comprensión insuficiente de la estructura de cálculos aritméticos internos del modelo
Mediante métodos de interpretabilidad mecanicista, investigar profundamente cómo los LLMs procesan expresiones aritméticas internamente, con enfoque particular en los mecanismos de procesamiento del orden de operaciones.
- Construcción de un conjunto de datos de expresiones aritméticas sistemático: Expresiones con tres operandos y dos operadores, probando sistemáticamente precedencia sintáctica y semántica
- Descubrimiento de evidencia de cálculos intermedios: Mediante la técnica logit lens, se descubren cálculos intermedios en capas profundas de la red
- Revelación de codificación lineal de precedencia de operadores: Se demuestra que el modelo codifica linealmente información de precedencia de operadores después de capas de atención
- Propuesta de técnica de intercambio parcial de incrustaciones: Un nuevo método para modificar la precedencia de operadores mediante el intercambio de dimensiones de incrustación de alto impacto
- Provisión de análisis de visualización geométrica: Demostración de la estructura organizativa de representaciones de operadores mediante UMAP
Entrada: Expresiones aritméticas que contienen tres operandos y dos operadores, como "a o1 b o2 c"
Salida: El resultado del cálculo de la expresión por el modelo
Restricciones:
- Operandos a, b, c ∈ {1, 2, ..., 9}
- Pares de operadores (o1, o2) de un conjunto de precedencia mixta: {(+, *), (-, *), (+, /), (-, /)}
- Todos los resultados de cálculo son enteros positivos
Para cada combinación de operandos y operadores, se generan seis variantes estructurales:
- Paréntesis izquierdo: (a o1 b) o2 c
- Paréntesis derecho: a o1 (b o2 c)
- Paréntesis izquierdo invertido: (a o2 b) o1 c
- Paréntesis derecho invertido: a o2 (b o1 c)
- Sin paréntesis (orden natural): a o1 b o2 c
- Sin paréntesis (invertido): a o2 b o1 c
Se generan un total de 8547 indicaciones, de las cuales el modelo responde correctamente 4401.
- Objetivo: Rastrear si los cálculos intermedios aparecen en el flujo residual
- Método: Proyectar el flujo residual de cada capa a través de la matriz de desincorporación para obtener logits del vocabulario
- Análisis: Verificar si los 10 tokens principales incluyen los resultados intermedios esperados
- Sonda de Cálculo Intermedio: Entrenar una sonda lineal para predecir directamente valores intermedios de las activaciones del modelo
- Sonda de Precedencia: Utilizar un clasificador de regresión logística para predecir el orden de cálculo de operadores (primero o segundo)
Flujo del Algoritmo:
- Identificar dimensiones influyentes: Intercambiar secuencialmente cada dimensión de las representaciones ocultas de los operadores "+" y "*"
- Medir el efecto de perturbación: Si el intercambio cambia la predicción del modelo de una respuesta correcta (como 23) a una incorrecta (como 35), esa dimensión codifica información de precedencia
- Ordenamiento y selección: Ordenar dimensiones por influencia, determinar el subconjunto mínimo de dimensiones necesario para cambiar la predicción
- Proyectar vectores de activación de tokens de operadores a espacio de baja dimensión
- Formato de etiquetado: [posición][operador]precedencia, como "1m2" indicando que el símbolo de multiplicación está en la posición 1 pero tiene precedencia de cálculo 2
Se utiliza el modelo LLaMA 3.2-3B de ajuste fino de instrucciones de código abierto, que posee una estructura transformer de 28 capas.
- Indicaciones totales: 8547
- Respuestas correctas del modelo: 4401 (51.5%)
- Se utilizan solo muestras que el modelo predice correctamente para el análisis
- Tasa de Detección de Cálculo Intermedio: Proporción de resultados intermedios que aparecen en los logits principales
- Precisión de Sonda Lineal: Puntuación R² y precisión de clasificación
- Tasa de Éxito de Intercambio de Precedencia: Proporción de casos donde se cambia exitosamente la predicción del modelo
- Tasa de Detección: En 4401 indicaciones, se detectan 2799 veces (63.6%) cálculos intermedios en los logits principales
- Capas de Aparición: Principalmente en capas 16-27, con pico en capas 18-19
- Componente Clave: Los bloques MLP son componentes clave para introducir logits intermedios, no los bloques de atención
- Las sondas lineales pueden predecir con alta precisión cálculos intermedios después de la capa 0 (puntuación R² alta)
- Las sondas de clasificación de precedencia alcanzan 100% de precisión en el conjunto de prueba
- El mecanismo de atención mejora significativamente la decodificabilidad lineal de la precedencia de operadores
- Se logra exitosamente cambiar la predicción de logit máximo del modelo en múltiples instancias mediante el intercambio de dimensiones específicas
- Se demuestra la localización dispersa de información de precedencia de operadores en dimensiones de incrustación específicas
La visualización UMAP muestra:
- Separación evidente de incrustaciones de operadores antes y después de atención
- Agrupamiento de operadores con la misma posición y precedencia
- El mecanismo de atención codifica información de precedencia de operadores
| Métrica | Valor |
|---|
| Tasa de Detección de Cálculo Intermedio | 63.6% (2799/4401) |
| Precisión de Sonda de Precedencia | 100% |
| Rango de Capas de Detección Principal | 16-27 |
| Capa de Pico de Detección | 18-19 |
- Mirzadeh et al. (2024) y Bubeck et al. (2023) señalan las dificultades continuas de los LLMs en tareas aritméticas
- Lewkowycz et al. (2022) exploran estrategias de indicación como razonamiento de cadena de pensamiento
- Boye & Moell (2025) evalúan el cálculo aritmético en múltiples modelos, encontrando inconsistencias frecuentes
- Zhang et al. (2024) investigan la estructura interna de los LLMs en tareas aritméticas
- Stolfo et al. (2023) adoptan un marco de mediación causal para rastrear contribuciones de componentes internos en predicciones aritméticas
- Nainani et al. (2024) proponen el concepto de "circuitos" para explicar el comportamiento del modelo específico de tareas
- nostalgebraist (2020) propone la técnica logit lens
- Alain & Bengio (2018) desarrollan el método de sonda lineal
- McInnes et al. (2020) desarrollan la técnica de reducción dimensional UMAP
- Los Cálculos Intermedios Efectivamente Existen: El modelo LLaMA 3.2-3B realiza cálculos intermedios internamente, siendo esta información linealmente decodificable en capas profundas de la red
- Codificación Lineal de Precedencia: La información de precedencia de operadores se codifica linealmente en dimensiones de incrustación específicas después de capas de atención
- Papel Clave de MLP: Los bloques MLP, no los bloques de atención, son responsables de producir resultados de cálculos intermedios
- Estructura de Organización Geométrica: El modelo organiza representaciones de operadores según la posición del operador y su precedencia de cálculo
- Limitación de Escala de Modelo: Los experimentos se realizan solo en el modelo LLaMA de 3B parámetros, los resultados pueden no ser aplicables a modelos de mayor escala
- Complejidad de Tarea: Solo considera expresiones simples con tres operandos y dos operadores
- Tipos de Operadores: Solo involucra operaciones aritméticas básicas, sin cubrir operaciones matemáticas más complejas
- Limitación de Tasa de Éxito: El modelo solo puede responder correctamente aproximadamente el 51.5% de los problemas aritméticos
- Extensión a modelos de lenguaje de mayor escala
- Investigación de expresiones matemáticas más complejas y tipos de operaciones
- Exploración de representaciones internas de otros conceptos matemáticos (como funciones, ecuaciones)
- Desarrollo de métodos de mejora de modelos basados en estos hallazgos
- Innovación Metodológica: El intercambio parcial de incrustaciones es una técnica de intervención novedosa y efectiva
- Exhaustividad Experimental: Combinación de múltiples técnicas de interpretabilidad (logit lens, sondas lineales, UMAP, experimentos de intervención)
- Importancia de Hallazgos: Primera demostración sistemática del mecanismo de codificación de precedencia de operadores en LLMs
- Rigor Técnico: Diseño experimental razonable, utilizando solo muestras que el modelo responde correctamente para el análisis
- Limitación de Escala: Los experimentos se limitan a modelos de 3B parámetros, la generalización requiere verificación
- Simplificación de Tarea: Las expresiones aritméticas son relativamente simples, la complejidad en aplicaciones reales no se considera suficientemente
- Profundidad Teórica: Falta explicación teórica de por qué emergen estos mecanismos
- Practicidad: Aunque proporciona perspectivas importantes, cómo utilizar estos hallazgos para mejorar el desempeño del modelo aún no está claro
- Valor Académico: Proporciona contribución importante a la comprensión mecanicista del razonamiento aritmético de los LLMs
- Significado Metodológico: La técnica de intercambio parcial de incrustaciones puede aplicarse al análisis de otras tareas
- Potencial Práctico: Proporciona dirección para mejorar la capacidad de razonamiento aritmético de modelos de pequeña escala
- Reproducibilidad: Utiliza modelos de código abierto, los experimentos son relativamente fáciles de reproducir
- Análisis de Modelos: Aplicable al análisis de mecanismos internos de otros modelos de lenguaje
- Aplicaciones Educativas: Ayuda a comprender cómo la IA procesa conceptos matemáticos
- Mejora de Modelos: Proporciona orientación para desarrollar modelos con mejor razonamiento aritmético
- Referencia de Investigación de Interpretabilidad: Proporciona referencia metodológica para análisis mecanicista de otras tareas cognitivas
Este artículo cita literatura importante en los campos de interpretabilidad mecanicista, razonamiento aritmético y análisis de redes neuronales, incluyendo:
- nostalgebraist (2020) - Técnica logit lens
- Alain & Bengio (2018) - Método de sonda lineal
- Zhang et al. (2024) - Estructura interna del razonamiento aritmético de LLMs
- Stolfo et al. (2023) - Marco de análisis de mediación causal
- McInnes et al. (2020) - Técnica de reducción dimensional UMAP
Esta investigación proporciona perspectivas importantes para comprender los mecanismos de razonamiento aritmético interno de los modelos de lenguaje grandes, particularmente en el aspecto del procesamiento de precedencia de operadores. Aunque presenta algunas limitaciones, su innovación metodológica e importancia de hallazgos la convierten en una contribución valiosa al campo de la interpretabilidad mecanicista.