The Mechanistic Emergence of Symbol Grounding in Language Models
Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic
L'Emergenza Meccanicistica dell'Ancoraggio dei Simboli nei Modelli Linguistici
L'ancoraggio dei simboli (symbol grounding) descrive come i simboli (quali il vocabolario) acquisiscono significato attraverso il collegamento con esperienze sensomotorie del mondo reale. Ricerche recenti suggeriscono che nei modelli linguistici (visivi) addestrati su larga scala, la capacità di ancoraggio potrebbe emergere spontaneamente senza l'utilizzo di obiettivi di ancoraggio espliciti. Tuttavia, la localizzazione specifica e i meccanismi trainanti di questa emergenza rimangono sostanzialmente inesplorati. Per affrontare questa questione, il presente articolo introduce un framework di valutazione controllato che traccia sistematicamente come l'ancoraggio dei simboli emerga nel calcolo interno attraverso analisi meccanicistiche e causali. Lo studio rivela che l'ancoraggio si concentra nel calcolo dei livelli intermedi e si realizza attraverso un meccanismo di aggregazione, in cui le teste di attenzione aggregano le basi ambientali per supportare la previsione della forma linguistica. Questo fenomeno si replica nei dialoghi multimodali e in diverse architetture (Transformer e modelli dello spazio degli stati), ma non emerge negli LSTM unidirezionali.
La questione dell'ancoraggio dei simboli è uno dei problemi fondamentali della scienza cognitiva e dell'intelligenza artificiale. Comprendere come i modelli linguistici imparano a stabilire connessioni tra simboli astratti e la realtà è significativo per:
Migliorare l'affidabilità e l'interpretabilità dei modelli
La ricerca esistente presenta principalmente le seguenti limitazioni:
Mancanza di Analisi Meccanicistica: La maggior parte degli studi si concentra sull'analisi correlazionale delle prestazioni finali, senza esplorare approfonditamente i meccanismi interni
Trascuratezza della Dinamica di Addestramento: Assenza di ricerca sistematica sulla traiettoria dello sviluppo della capacità di ancoraggio durante l'addestramento
Definizione Ambigua: Equiparazione dell'ancoraggio alla correlazione statistica tra segnali visivi e testuali, allontanandosi dalla definizione classica di Harnad (1990) riguardante il collegamento causale
Il presente articolo, attraverso la costruzione di una piattaforma di test minimale e l'utilizzo di metodi di intervento causale e analisi meccanicistica, studia sistematicamente i meccanismi di emergenza dell'ancoraggio dei simboli.
Costruzione di un Framework di Valutazione Controllato: Progettazione di una piattaforma di test con separazione tra token ambientali (⟨ENV⟩) e token linguistici (⟨LAN⟩), assicurando che le corrispondenze debbano essere acquisite attraverso l'apprendimento
Scoperta dell'Implementazione Meccanicistica dell'Ancoraggio: Dimostrazione che l'ancoraggio dei simboli si realizza attraverso un meccanismo di aggregazione nei livelli intermedi
Evidenza di Universalità Tranarchitetturale: Osservazione dell'emergenza dell'ancoraggio in Transformer e modelli dello spazio degli stati, ma non negli LSTM unidirezionali
Stabilimento di Metodi di Verifica Causale: Verifica attraverso esperimenti di intervento sulle teste di attenzione del ruolo critico delle teste di aggregazione nell'ancoraggio dei simboli
Rivelazione di Apprendimento Oltre la Statistica di Co-occorrenza: Dimostrazione che le relazioni di ancoraggio apprese dal modello non possono essere completamente spiegate dalla statistica di co-occorrenza superficiale
Input: Sequenze contenenti token ambientali (⟨ENV⟩) e token linguistici (⟨LAN⟩)
Output: Previsione del token linguistico corrispondente dato il contesto ambientale
Vincoli: I token ambientali e i token linguistici utilizzano indici di vocabolario diversi; il modello deve apprendere le corrispondenze tra loro
Fonte dei Token Ambientali: Descrizioni ambientali, livello di azione, annotazioni del livello situazionale
Fonte dei Token Linguistici: Trascrizioni del linguaggio parlato
Esempio:
Addestramento: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [previsione: book⟨LAN⟩]
Identificazione delle Teste di Aggregazione: Teste di attenzione con almeno il 30% di salienza che fluisce dal token ambientale alla posizione di previsione
Metodo di Intervento: Azzeramento dell'output delle teste di attenzione identificate, osservazione dei cambiamenti di prestazione
Selezione di 100 nomi ad alta frequenza dalla scala di comunicazione MacArthur-Bates, con frequenza di ogni parola nelle forme ⟨ENV⟩ e ⟨LAN⟩ nel corpus ≥100.
Il guadagno di informazione di ancoraggio rispetto alla statistica di co-occorrenza mostra un valore R² che aumenta e poi diminuisce all'inizio dell'addestramento
Suggerisce che le relazioni di ancoraggio apprese dal modello vanno oltre la semplice co-occorrenza statistica
Pattern simili di teste di attenzione di aggregazione sono stati trovati anche in grandi VLM come LLaVA-1.5-7B, confermando l'universalità delle scoperte.
L'ancoraggio dei simboli può emergere spontaneamente nei modelli linguistici senza supervisione esplicita
Il meccanismo di aggregazione dei livelli intermedi è la chiave per realizzare l'ancoraggio, con teste di attenzione specifiche responsabili dell'aggregazione di informazioni
Dipendenza dall'Architettura: Transformer e SSM supportano l'emergenza dell'ancoraggio, ma gli LSTM no
Oltre la Statistica Superficiale: Le relazioni di ancoraggio apprese dal modello possiedono caratteristiche semantiche profonde
Riesame delle radici filosofiche dell'ancoraggio dei simboli, fornendo evidenza meccanicistica dal passaggio dalla correlazione alla causalità, sfidando il punto di vista che "i sistemi connessionisti non possiedono strutture simboliche intrinseche".
Forte Innovazione Metodologica: La progettazione sperimentale con separazione di token ambientali e linguistici è ingegnosa, garantendo la validità dell'inferenza causale
Profondità di Analisi Sufficiente: Analisi multilivello dal comportamento al meccanismo, fornendo una catena di evidenza completa
Verifica Tranarchitetturale: Verifica delle scoperte in più architetture di modelli, rafforzando l'universalità delle conclusioni
Verifica Causale Rigorosa: Fornitura di forti evidenze causali attraverso esperimenti di intervento
Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.
Questo articolo, attraverso una progettazione sperimentale rigorosa e un'analisi meccanicistica approfondita, fornisce contributi importanti per la comprensione dei meccanismi di emergenza dell'ancoraggio dei simboli nei modelli linguistici. Le scoperte non solo possiedono valore teorico, ma forniscono anche orientamenti pratici per la costruzione di sistemi di IA più affidabili.