The Mechanistic Emergence of Symbol Grounding in Language Models
Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic
La Emergencia Mecanicista del Anclaje de Símbolos en Modelos de Lenguaje
El anclaje de símbolos (symbol grounding) describe cómo los símbolos (como vocabulario) adquieren significado mediante la conexión con experiencias sensoriomotoras del mundo real. Investigaciones recientes sugieren que en modelos de lenguaje (visuales) entrenados a gran escala, la capacidad de anclaje puede emerger espontáneamente sin necesidad de objetivos de anclaje explícitos. Sin embargo, la ubicación específica y los mecanismos impulsores de esta emergencia permanecen prácticamente inexplorados. Para abordar este problema, este artículo introduce un marco de evaluación controlada que rastrea sistemáticamente cómo el anclaje de símbolos emerge en la computación interna mediante análisis mecanicistas y causales. Los hallazgos revelan que el anclaje se concentra en la computación de capas intermedias y se implementa a través de mecanismos de agregación, donde cabezas de atención agregan bases ambientales para respaldar la predicción de formas lingüísticas. Este fenómeno se replica en diálogos multimodales y diferentes arquitecturas (Transformers y modelos de espacio de estados), pero no aparece en LSTM unidireccionales.
El problema central que esta investigación aborda es: ¿Cómo emerge mecanicistamente el anclaje de símbolos en modelos de lenguaje? Esto incluye específicamente:
¿Cuándo y dónde emerge el anclaje de símbolos durante el entrenamiento?
El problema del anclaje de símbolos es uno de los problemas fundamentales en ciencia cognitiva e inteligencia artificial. Comprender cómo los modelos de lenguaje aprenden a establecer conexiones entre símbolos abstractos y la realidad es importante para:
Mejorar la confiabilidad e interpretabilidad del modelo
La investigación existente presenta principalmente las siguientes limitaciones:
Falta de análisis mecanicista: La mayoría de investigaciones se enfoca solo en análisis de correlación del desempeño final, sin explorar profundamente los mecanismos internos
Negligencia de dinámicas de entrenamiento: Falta de investigación sistemática sobre la trayectoria del desarrollo de capacidades de anclaje durante el entrenamiento
Definición ambigua: Equiparación del anclaje con correlación estadística de señales visuales-textuales, desviándose de la definición clásica de Harnad (1990) sobre enlaces causales
Este artículo estudia sistemáticamente los mecanismos de emergencia del anclaje de símbolos mediante la construcción de una plataforma de prueba minimizada, utilizando métodos de intervención causal y análisis mecanicista.
Construcción de un marco de evaluación controlada: Diseño de una plataforma de prueba con separación de tokens ambientales (⟨ENV⟩) y tokens lingüísticos (⟨LAN⟩), asegurando que las correspondencias deben adquirirse mediante aprendizaje
Descubrimiento de la implementación mecanicista del anclaje: Demostración de que el anclaje de símbolos se implementa a través de mecanismos de agregación en capas intermedias
Evidencia de universalidad entre arquitecturas: Observación de emergencia de anclaje en Transformers y modelos de espacio de estados, pero no en LSTM unidireccionales
Establecimiento de métodos de verificación causal: Verificación del papel crítico de cabezas de agregación en el anclaje de símbolos mediante experimentos de intervención de atención
Revelación de aprendizaje más allá de estadísticas de coocurrencia: Demostración de que las relaciones de anclaje aprendidas por el modelo no pueden explicarse completamente por estadísticas de coocurrencia superficial
Entrada: Secuencias que contienen tokens ambientales (⟨ENV⟩) y tokens lingüísticos (⟨LAN⟩)
Salida: Predicción del token lingüístico correspondiente dado el contexto ambiental
Restricciones: Los tokens ambientales y lingüísticos utilizan índices de vocabulario diferentes; el modelo debe aprender la correspondencia entre ellos
Fuente de tokens ambientales: Descripciones ambientales, capas de acción, anotaciones de capas situacionales
Fuente de tokens lingüísticos: Transcripciones de habla oral
Ejemplo:
Entrenamiento: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
Prueba: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [predicción: book⟨LAN⟩]
Identificación de cabezas de agregación: Cabezas de atención con al menos 30% de saliencia fluyendo desde tokens ambientales hacia la posición de predicción
Método de intervención: Puesta a cero de la salida de cabezas de atención identificadas, observación de cambios de desempeño
Selección de 100 sustantivos de alta frecuencia de la Escala de Comunicación MacArthur-Bates, con cada palabra teniendo frecuencia ≥100 en formas ⟨ENV⟩ y ⟨LAN⟩ en el corpus.
Se encontraron patrones similares de cabezas de atención de agregación en modelos VLM a gran escala como LLaVA-1.5-7B, demostrando la universalidad de los hallazgos.
El anclaje de símbolos puede emerger espontáneamente en modelos de lenguaje sin supervisión explícita
El mecanismo de agregación de capas intermedias es clave para implementar el anclaje, con cabezas de atención específicas responsables de la agregación de información
Dependencia de arquitectura: Transformers y SSM respaldan la emergencia de anclaje, pero LSTM no
Más allá de estadísticas superficiales: Las relaciones de anclaje aprendidas por el modelo poseen características semánticas profundas
Reexamen de las raíces filosóficas del anclaje de símbolos, proporcionando evidencia mecanicista de la transición de correlación a causalidad, desafiando la noción de que "los sistemas conexionistas carecen de estructura simbólica intrínseca".
Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.
Este artículo, mediante diseño experimental riguroso y análisis mecanicista profundo, proporciona contribuciones importantes para comprender los mecanismos de emergencia del anclaje de símbolos en modelos de lenguaje. Sus hallazgos no solo poseen valor teórico, sino que también proporcionan orientación práctica para construir sistemas de IA más confiables.