2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.

Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.

academic

Interpretación de la Estructura Latente de la Precedencia de Operadores en Modelos de Lenguaje

Información Básica

ID del Artículo: 2510.13908
Título: Interpreting the Latent Structure of Operator Precedence in Language Models
Autores: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación/Conferencia: COLM 2025
Enlace del Artículo: https://arxiv.org/abs/2510.13908

Resumen

Los modelos de lenguaje grandes (LLMs) demuestran excelentes capacidades de razonamiento, pero aún presentan dificultades en tareas aritméticas. Investigaciones previas se han enfocado principalmente en estrategias de salida o indicaciones, ignorando la estructura interna mediante la cual los modelos realizan cálculos aritméticos. Este estudio explora, a través del modelo LLaMA 3.2-3B de ajuste fino de instrucciones de código abierto, si los LLMs codifican la precedencia de operadores en sus representaciones internas. La investigación construye un conjunto de datos de expresiones aritméticas que contienen tres operandos y dos operadores, variando el orden de operaciones y la posición de paréntesis. Utilizando este conjunto de datos, se rastrean los resultados intermedios en el flujo residual del modelo, aplicando técnicas de interpretabilidad como logit lens, sondas de clasificación lineal y visualización geométrica UMAP. Los resultados demuestran que los cálculos intermedios existen en el flujo residual, particularmente después de bloques MLP. El estudio también revela que el modelo codifica linealmente información de precedencia en las incrustaciones de operadores después de capas de atención. El artículo introduce la técnica de intercambio parcial de incrustaciones, modificando la precedencia de operadores mediante el intercambio de dimensiones de incrustación de alto impacto entre operadores.

Contexto e Motivación de la Investigación

Definición del Problema

El problema central que aborda esta investigación es: ¿codifican los modelos de lenguaje grandes la precedencia de operadores en sus representaciones internas al procesar expresiones aritméticas, y cómo lo hacen? Específicamente, cuando el modelo se enfrenta a una expresión como "1 + 1 × 2", ¿calcula primero la multiplicación según las reglas de precedencia matemática, o simplemente procesa de izquierda a derecha?

Importancia

Significado Teórico: Comprender los mecanismos de razonamiento aritmético interno de los LLMs tiene un valor importante para la investigación de interpretabilidad del aprendizaje automático
Valor Práctico: Mejorar el desempeño del modelo en tareas de razonamiento matemático, particularmente para modelos de menor escala
Contribución Metodológica: Proporcionar nuevas técnicas para analizar representaciones internas de redes neuronales

Limitaciones de Métodos Existentes

La mayoría de investigaciones se centran en indicaciones de lenguaje natural y resultados finales
Falta análisis profundo del procesamiento de precedencia de operadores y pasos de cálculo intermedios
Comprensión insuficiente de la estructura de cálculos aritméticos internos del modelo

Motivación de la Investigación

Mediante métodos de interpretabilidad mecanicista, investigar profundamente cómo los LLMs procesan expresiones aritméticas internamente, con enfoque particular en los mecanismos de procesamiento del orden de operaciones.

Contribuciones Principales

Construcción de un conjunto de datos de expresiones aritméticas sistemático: Expresiones con tres operandos y dos operadores, probando sistemáticamente precedencia sintáctica y semántica
Descubrimiento de evidencia de cálculos intermedios: Mediante la técnica logit lens, se descubren cálculos intermedios en capas profundas de la red
Revelación de codificación lineal de precedencia de operadores: Se demuestra que el modelo codifica linealmente información de precedencia de operadores después de capas de atención
Propuesta de técnica de intercambio parcial de incrustaciones: Un nuevo método para modificar la precedencia de operadores mediante el intercambio de dimensiones de incrustación de alto impacto
Provisión de análisis de visualización geométrica: Demostración de la estructura organizativa de representaciones de operadores mediante UMAP

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Expresiones aritméticas que contienen tres operandos y dos operadores, como "a o1 b o2 c" Salida: El resultado del cálculo de la expresión por el modelo Restricciones:

Operandos a, b, c ∈ {1, 2, ..., 9}
Pares de operadores (o1, o2) de un conjunto de precedencia mixta: {(+, *), (-, *), (+, /), (-, /)}
Todos los resultados de cálculo son enteros positivos

Construcción del Conjunto de Datos

Para cada combinación de operandos y operadores, se generan seis variantes estructurales:

Paréntesis izquierdo: (a o1 b) o2 c
Paréntesis derecho: a o1 (b o2 c)
Paréntesis izquierdo invertido: (a o2 b) o1 c
Paréntesis derecho invertido: a o2 (b o1 c)
Sin paréntesis (orden natural): a o1 b o2 c
Sin paréntesis (invertido): a o2 b o1 c

Se generan un total de 8547 indicaciones, de las cuales el modelo responde correctamente 4401.

Métodos Técnicos Clave

1. Análisis de Logit Lens

Objetivo: Rastrear si los cálculos intermedios aparecen en el flujo residual
Método: Proyectar el flujo residual de cada capa a través de la matriz de desincorporación para obtener logits del vocabulario
Análisis: Verificar si los 10 tokens principales incluyen los resultados intermedios esperados

2. Técnica de Sonda Lineal

Sonda de Cálculo Intermedio: Entrenar una sonda lineal para predecir directamente valores intermedios de las activaciones del modelo
Sonda de Precedencia: Utilizar un clasificador de regresión logística para predecir el orden de cálculo de operadores (primero o segundo)

3. Intercambio Parcial de Incrustaciones

Flujo del Algoritmo:

Identificar dimensiones influyentes: Intercambiar secuencialmente cada dimensión de las representaciones ocultas de los operadores "+" y "*"
Medir el efecto de perturbación: Si el intercambio cambia la predicción del modelo de una respuesta correcta (como 23) a una incorrecta (como 35), esa dimensión codifica información de precedencia
Ordenamiento y selección: Ordenar dimensiones por influencia, determinar el subconjunto mínimo de dimensiones necesario para cambiar la predicción

4. Visualización Geométrica UMAP

Proyectar vectores de activación de tokens de operadores a espacio de baja dimensión
Formato de etiquetado: [posición][operador]precedencia, como "1m2" indicando que el símbolo de multiplicación está en la posición 1 pero tiene precedencia de cálculo 2

Configuración Experimental

Selección de Modelo

Se utiliza el modelo LLaMA 3.2-3B de ajuste fino de instrucciones de código abierto, que posee una estructura transformer de 28 capas.

Estadísticas del Conjunto de Datos

Indicaciones totales: 8547
Respuestas correctas del modelo: 4401 (51.5%)
Se utilizan solo muestras que el modelo predice correctamente para el análisis

Métricas de Evaluación

Tasa de Detección de Cálculo Intermedio: Proporción de resultados intermedios que aparecen en los logits principales
Precisión de Sonda Lineal: Puntuación R² y precisión de clasificación
Tasa de Éxito de Intercambio de Precedencia: Proporción de casos donde se cambia exitosamente la predicción del modelo

Resultados Experimentales

Hallazgos Principales

1. Existencia de Cálculos Intermedios

Tasa de Detección: En 4401 indicaciones, se detectan 2799 veces (63.6%) cálculos intermedios en los logits principales
Capas de Aparición: Principalmente en capas 16-27, con pico en capas 18-19
Componente Clave: Los bloques MLP son componentes clave para introducir logits intermedios, no los bloques de atención

2. Evidencia de Codificación Lineal

Las sondas lineales pueden predecir con alta precisión cálculos intermedios después de la capa 0 (puntuación R² alta)
Las sondas de clasificación de precedencia alcanzan 100% de precisión en el conjunto de prueba
El mecanismo de atención mejora significativamente la decodificabilidad lineal de la precedencia de operadores

3. Resultados de Intercambio Parcial de Incrustaciones

Se logra exitosamente cambiar la predicción de logit máximo del modelo en múltiples instancias mediante el intercambio de dimensiones específicas
Se demuestra la localización dispersa de información de precedencia de operadores en dimensiones de incrustación específicas

4. Análisis de Estructura Geométrica

La visualización UMAP muestra:

Separación evidente de incrustaciones de operadores antes y después de atención
Agrupamiento de operadores con la misma posición y precedencia
El mecanismo de atención codifica información de precedencia de operadores

Resultados Cuantitativos

Métrica	Valor
Tasa de Detección de Cálculo Intermedio	63.6% (2799/4401)
Precisión de Sonda de Precedencia	100%
Rango de Capas de Detección Principal	16-27
Capa de Pico de Detección	18-19

Trabajo Relacionado

Investigación de Razonamiento Aritmético

Mirzadeh et al. (2024) y Bubeck et al. (2023) señalan las dificultades continuas de los LLMs en tareas aritméticas
Lewkowycz et al. (2022) exploran estrategias de indicación como razonamiento de cadena de pensamiento
Boye & Moell (2025) evalúan el cálculo aritmético en múltiples modelos, encontrando inconsistencias frecuentes

Interpretabilidad Mecanicista

Zhang et al. (2024) investigan la estructura interna de los LLMs en tareas aritméticas
Stolfo et al. (2023) adoptan un marco de mediación causal para rastrear contribuciones de componentes internos en predicciones aritméticas
Nainani et al. (2024) proponen el concepto de "circuitos" para explicar el comportamiento del modelo específico de tareas

Métodos Técnicos

nostalgebraist (2020) propone la técnica logit lens
Alain & Bengio (2018) desarrollan el método de sonda lineal
McInnes et al. (2020) desarrollan la técnica de reducción dimensional UMAP

Conclusiones y Discusión

Conclusiones Principales

Los Cálculos Intermedios Efectivamente Existen: El modelo LLaMA 3.2-3B realiza cálculos intermedios internamente, siendo esta información linealmente decodificable en capas profundas de la red
Codificación Lineal de Precedencia: La información de precedencia de operadores se codifica linealmente en dimensiones de incrustación específicas después de capas de atención
Papel Clave de MLP: Los bloques MLP, no los bloques de atención, son responsables de producir resultados de cálculos intermedios
Estructura de Organización Geométrica: El modelo organiza representaciones de operadores según la posición del operador y su precedencia de cálculo

Limitaciones

Limitación de Escala de Modelo: Los experimentos se realizan solo en el modelo LLaMA de 3B parámetros, los resultados pueden no ser aplicables a modelos de mayor escala
Complejidad de Tarea: Solo considera expresiones simples con tres operandos y dos operadores
Tipos de Operadores: Solo involucra operaciones aritméticas básicas, sin cubrir operaciones matemáticas más complejas
Limitación de Tasa de Éxito: El modelo solo puede responder correctamente aproximadamente el 51.5% de los problemas aritméticos

Direcciones Futuras

Extensión a modelos de lenguaje de mayor escala
Investigación de expresiones matemáticas más complejas y tipos de operaciones
Exploración de representaciones internas de otros conceptos matemáticos (como funciones, ecuaciones)
Desarrollo de métodos de mejora de modelos basados en estos hallazgos

Evaluación Profunda

Fortalezas

Innovación Metodológica: El intercambio parcial de incrustaciones es una técnica de intervención novedosa y efectiva
Exhaustividad Experimental: Combinación de múltiples técnicas de interpretabilidad (logit lens, sondas lineales, UMAP, experimentos de intervención)
Importancia de Hallazgos: Primera demostración sistemática del mecanismo de codificación de precedencia de operadores en LLMs
Rigor Técnico: Diseño experimental razonable, utilizando solo muestras que el modelo responde correctamente para el análisis

Insuficiencias

Limitación de Escala: Los experimentos se limitan a modelos de 3B parámetros, la generalización requiere verificación
Simplificación de Tarea: Las expresiones aritméticas son relativamente simples, la complejidad en aplicaciones reales no se considera suficientemente
Profundidad Teórica: Falta explicación teórica de por qué emergen estos mecanismos
Practicidad: Aunque proporciona perspectivas importantes, cómo utilizar estos hallazgos para mejorar el desempeño del modelo aún no está claro

Impacto

Valor Académico: Proporciona contribución importante a la comprensión mecanicista del razonamiento aritmético de los LLMs
Significado Metodológico: La técnica de intercambio parcial de incrustaciones puede aplicarse al análisis de otras tareas
Potencial Práctico: Proporciona dirección para mejorar la capacidad de razonamiento aritmético de modelos de pequeña escala
Reproducibilidad: Utiliza modelos de código abierto, los experimentos son relativamente fáciles de reproducir

Escenarios de Aplicación

Análisis de Modelos: Aplicable al análisis de mecanismos internos de otros modelos de lenguaje
Aplicaciones Educativas: Ayuda a comprender cómo la IA procesa conceptos matemáticos
Mejora de Modelos: Proporciona orientación para desarrollar modelos con mejor razonamiento aritmético
Referencia de Investigación de Interpretabilidad: Proporciona referencia metodológica para análisis mecanicista de otras tareas cognitivas

Referencias

Este artículo cita literatura importante en los campos de interpretabilidad mecanicista, razonamiento aritmético y análisis de redes neuronales, incluyendo:

nostalgebraist (2020) - Técnica logit lens
Alain & Bengio (2018) - Método de sonda lineal
Zhang et al. (2024) - Estructura interna del razonamiento aritmético de LLMs
Stolfo et al. (2023) - Marco de análisis de mediación causal
McInnes et al. (2020) - Técnica de reducción dimensional UMAP

Esta investigación proporciona perspectivas importantes para comprender los mecanismos de razonamiento aritmético interno de los modelos de lenguaje grandes, particularmente en el aspecto del procesamiento de precedencia de operadores. Aunque presenta algunas limitaciones, su innovación metodológica e importancia de hallazgos la convierten en una contribución valiosa al campo de la interpretabilidad mecanicista.