2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.

Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.

academic

L'Emergenza Meccanicistica dell'Ancoraggio dei Simboli nei Modelli Linguistici

Informazioni Fondamentali

ID Articolo: 2510.13796
Titolo: The Mechanistic Emergence of Symbol Grounding in Language Models
Autori: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
Classificazione: cs.CL (Linguistica Computazionale), cs.CV (Visione Artificiale)
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.13796

Riassunto

L'ancoraggio dei simboli (symbol grounding) descrive come i simboli (quali il vocabolario) acquisiscono significato attraverso il collegamento con esperienze sensomotorie del mondo reale. Ricerche recenti suggeriscono che nei modelli linguistici (visivi) addestrati su larga scala, la capacità di ancoraggio potrebbe emergere spontaneamente senza l'utilizzo di obiettivi di ancoraggio espliciti. Tuttavia, la localizzazione specifica e i meccanismi trainanti di questa emergenza rimangono sostanzialmente inesplorati. Per affrontare questa questione, il presente articolo introduce un framework di valutazione controllato che traccia sistematicamente come l'ancoraggio dei simboli emerga nel calcolo interno attraverso analisi meccanicistiche e causali. Lo studio rivela che l'ancoraggio si concentra nel calcolo dei livelli intermedi e si realizza attraverso un meccanismo di aggregazione, in cui le teste di attenzione aggregano le basi ambientali per supportare la previsione della forma linguistica. Questo fenomeno si replica nei dialoghi multimodali e in diverse architetture (Transformer e modelli dello spazio degli stati), ma non emerge negli LSTM unidirezionali.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale che questa ricerca affronta è: Come emerge meccanicisticamente l'ancoraggio dei simboli nei modelli linguistici? Nello specifico:

Quando e dove emerge l'ancoraggio dei simboli durante il processo di addestramento?
Quale meccanismo guida questa emergenza?
Questo meccanismo possiede caratteristiche di universalità?

Importanza del Problema

La questione dell'ancoraggio dei simboli è uno dei problemi fondamentali della scienza cognitiva e dell'intelligenza artificiale. Comprendere come i modelli linguistici imparano a stabilire connessioni tra simboli astratti e la realtà è significativo per:

Migliorare l'affidabilità e l'interpretabilità dei modelli
Ridurre i fenomeni di allucinazione
Costruire sistemi di IA multimodale più efficaci

Limitazioni dei Metodi Esistenti

La ricerca esistente presenta principalmente le seguenti limitazioni:

Mancanza di Analisi Meccanicistica: La maggior parte degli studi si concentra sull'analisi correlazionale delle prestazioni finali, senza esplorare approfonditamente i meccanismi interni
Trascuratezza della Dinamica di Addestramento: Assenza di ricerca sistematica sulla traiettoria dello sviluppo della capacità di ancoraggio durante l'addestramento
Definizione Ambigua: Equiparazione dell'ancoraggio alla correlazione statistica tra segnali visivi e testuali, allontanandosi dalla definizione classica di Harnad (1990) riguardante il collegamento causale

Innovazioni della Ricerca

Il presente articolo, attraverso la costruzione di una piattaforma di test minimale e l'utilizzo di metodi di intervento causale e analisi meccanicistica, studia sistematicamente i meccanismi di emergenza dell'ancoraggio dei simboli.

Contributi Fondamentali

Costruzione di un Framework di Valutazione Controllato: Progettazione di una piattaforma di test con separazione tra token ambientali (⟨ENV⟩) e token linguistici (⟨LAN⟩), assicurando che le corrispondenze debbano essere acquisite attraverso l'apprendimento
Scoperta dell'Implementazione Meccanicistica dell'Ancoraggio: Dimostrazione che l'ancoraggio dei simboli si realizza attraverso un meccanismo di aggregazione nei livelli intermedi
Evidenza di Universalità Tranarchitetturale: Osservazione dell'emergenza dell'ancoraggio in Transformer e modelli dello spazio degli stati, ma non negli LSTM unidirezionali
Stabilimento di Metodi di Verifica Causale: Verifica attraverso esperimenti di intervento sulle teste di attenzione del ruolo critico delle teste di aggregazione nell'ancoraggio dei simboli
Rivelazione di Apprendimento Oltre la Statistica di Co-occorrenza: Dimostrazione che le relazioni di ancoraggio apprese dal modello non possono essere completamente spiegate dalla statistica di co-occorrenza superficiale

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Input: Sequenze contenenti token ambientali (⟨ENV⟩) e token linguistici (⟨LAN⟩) Output: Previsione del token linguistico corrispondente dato il contesto ambientale Vincoli: I token ambientali e i token linguistici utilizzano indici di vocabolario diversi; il modello deve apprendere le corrispondenze tra loro

Costruzione del Dataset

1. Linguaggio Orientato ai Bambini (CHILDES)

Fonte dei Token Ambientali: Descrizioni ambientali, livello di azione, annotazioni del livello situazionale
Fonte dei Token Linguistici: Trascrizioni del linguaggio parlato

Esempio:

Addestramento: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [previsione: book⟨LAN⟩]

2. Dialogo con Ancoraggio di Sottotitoli (Visual Dialog)

Token Ambientali: Sottotitoli di immagini MSCOCO
Token Linguistici: Coppie di domande e risposte multi-turno

3. Dialogo con Ancoraggio di Immagini

Token Ambientali: Embeddings di patch di immagini estratti tramite ViT DINOv2 congelato
Token Linguistici: Trascrizioni di dialoghi

Protocollo di Valutazione

Guadagno di Informazione di Ancoraggio (Grounding Information Gain)

Definito come la differenza di sorpresa tra condizioni di corrispondenza e non corrispondenza:

$G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]$

dove $s_\theta(w|c) = -\log P_\theta(w|c)$ è la misura di sorpresa.

Metodi di Analisi Meccanicistica

1. Analisi del Flusso di Salienza (Saliency Flow Analysis)

Calcolo della matrice di salienza per ogni livello: $I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|$

2. Sondaggio con Lente Sintonizzata (Tuned Lens Probing)

Addestramento di proiettori affini per mappare le attivazioni dei livelli intermedi nello spazio di previsione finale.

3. Esperimenti di Intervento Causale

Identificazione delle Teste di Aggregazione: Teste di attenzione con almeno il 30% di salienza che fluisce dal token ambientale alla posizione di previsione
Metodo di Intervento: Azzeramento dell'output delle teste di attenzione identificate, osservazione dei cambiamenti di prestazione

Configurazione Sperimentale

Architetture dei Modelli

Transformer: Modelli GPT-2 a 4, 12, 18 livelli
Modelli dello Spazio degli Stati: Modelli Mamba-2 a 4, 12 livelli
Modelli di Confronto: LSTM unidirezionale a 4 livelli
Modelli Multimodali: Modelli visivo-linguistici basati su DINOv2

Dettagli di Addestramento

Inizializzazione: Inizializzazione casuale (assicurando assenza di conoscenza pregressa)
Funzione Obiettivo: Modellazione linguistica causale standard
Esperimenti Ripetuti: 5 semi casuali
Checkpoint: Campionamento denso dei primi passi di addestramento

Selezione del Vocabolario

Selezione di 100 nomi ad alta frequenza dalla scala di comunicazione MacArthur-Bates, con frequenza di ogni parola nelle forme ⟨ENV⟩ e ⟨LAN⟩ nel corpus ≥100.

Risultati Sperimentali

Scoperte Principali

1. Evidenza a Livello Comportamentale

Transformer e Mamba-2: La sorpresa in condizioni di corrispondenza è significativamente inferiore rispetto alle condizioni di non corrispondenza
LSTM: Nessuna differenza significativa di sorpresa tra le due condizioni
Dialogo Visivo: Effetto di ancoraggio osservato sia nelle impostazioni di ancoraggio di sottotitoli che di immagini

2. Oltre la Statistica di Co-occorrenza

Il guadagno di informazione di ancoraggio rispetto alla statistica di co-occorrenza mostra un valore R² che aumenta e poi diminuisce all'inizio dell'addestramento
Suggerisce che le relazioni di ancoraggio apprese dal modello vanno oltre la semplice co-occorrenza statistica

3. Localizzazione Meccanicistica

Concentrazione nei Livelli Intermedi: L'effetto di ancoraggio appare principalmente nei livelli 7-9
Meccanismo di Aggregazione: Teste di attenzione specifiche realizzano l'aggregazione di informazioni dal token ambientale al token linguistico

Risultati della Verifica Causale

Checkpoint	Numero di Teste di Aggregazione	Livello Medio	Sorpresa di Intervento	Sorpresa di Controllo	Sorpresa Originale
5000	2.28	7.38	6.51***	6.39	6.38
10000	5.09	7.28	5.86***	5.29	5.30
20000	6.71	7.52	5.62***	4.76	4.77

***indica differenza significativa con p < 0.001

Generalizzazione Tranmodale

Pattern simili di teste di attenzione di aggregazione sono stati trovati anche in grandi VLM come LLaVA-1.5-7B, confermando l'universalità delle scoperte.

Lavori Correlati

Ricerca sull'Ancoraggio Linguistico

Lavori Iniziali: Focalizzazione sui meccanismi di apprendimento della mappatura vocabolario-simbolo
Ancoraggio Visivo: Dall'ancoraggio a livello di categoria di oggetti all'ancoraggio a livello di pixel
VLM Moderni: Ancoraggio a livello di regione e pixel sotto supervisione accoppiata su larga scala

Ricerca sulle Capacità Emergenti

Effetti di Scala: Controversie sulle capacità emergenti nei modelli di grandi dimensioni
Analisi dello Sviluppo: Ricerca sistematica sull'acquisizione di capacità durante l'addestramento del modello
Prospettiva Psicologica: Studi comparativi tra l'apprendimento linguistico delle macchine e degli esseri umani

Interpretabilità Meccanicistica

Analisi delle Teste di Attenzione: Scoperta di teste specializzate come teste di induzione e teste di recupero
Analisi dei Circuiti: Meccanismi interni per compiti come il richiamo di fatti e l'apprendimento in contesto
Meccanismi di Aggregazione: Meccanismi coordinati di raccolta e aggregazione di informazioni

Conclusioni e Discussione

Conclusioni Principali

L'ancoraggio dei simboli può emergere spontaneamente nei modelli linguistici senza supervisione esplicita
Il meccanismo di aggregazione dei livelli intermedi è la chiave per realizzare l'ancoraggio, con teste di attenzione specifiche responsabili dell'aggregazione di informazioni
Dipendenza dall'Architettura: Transformer e SSM supportano l'emergenza dell'ancoraggio, ma gli LSTM no
Oltre la Statistica Superficiale: Le relazioni di ancoraggio apprese dal modello possiedono caratteristiche semantiche profonde

Contributi Teorici

Riesame delle radici filosofiche dell'ancoraggio dei simboli, fornendo evidenza meccanicistica dal passaggio dalla correlazione alla causalità, sfidando il punto di vista che "i sistemi connessionisti non possiedono strutture simboliche intrinseche".

Valore di Applicazione Pratica

Rilevamento di Allucinazioni: Previsione dell'affidabilità del modello attraverso il monitoraggio dell'attività delle teste di aggregazione
Controllo dell'Attenzione: Fornitura di strategie di decodifica per mitigare le allucinazioni
Progettazione di Modelli: Guida per la costruzione di sistemi multimodali più affidabili

Limitazioni

Limitazioni di Scala: La rilevazione e l'intervento sistematici sulle teste di aggregazione nei grandi VLM rimangono sfidanti
Complessità Computazionale: L'aumento significativo del numero di token visivi ha aumentato la complessità dell'analisi
Generalizzabilità: Necessità di verificare l'universalità delle scoperte in più compiti e domini

Direzioni Future

Sviluppo di metodi di rilevamento automatico delle teste di aggregazione nei grandi VLM
Progettazione di schemi di verifica di intervento causale computazionalmente fattibili
Esplorazione del ruolo dei meccanismi di ancoraggio in altre capacità cognitive

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: La progettazione sperimentale con separazione di token ambientali e linguistici è ingegnosa, garantendo la validità dell'inferenza causale
Profondità di Analisi Sufficiente: Analisi multilivello dal comportamento al meccanismo, fornendo una catena di evidenza completa
Verifica Tranarchitetturale: Verifica delle scoperte in più architetture di modelli, rafforzando l'universalità delle conclusioni
Verifica Causale Rigorosa: Fornitura di forti evidenze causali attraverso esperimenti di intervento

Insufficienze

Intervallo di Vocabolario Limitato: Limitazione a 100 nomi potrebbe essere insufficiente per rappresentare fenomeni linguistici completi
Semplificazione del Compito: I compiti sperimentali sono relativamente semplici, con discrepanza rispetto alla comprensione linguistica reale
Verifica su Larga Scala Insufficiente: Verifica limitata su modelli veramente su larga scala

Valutazione dell'Impatto

Valore Accademico: Fornisce una prospettiva meccanicistica nuova per la ricerca sull'ancoraggio dei simboli
Valore Pratico: Fornisce percorsi tecnici concreti per migliorare l'affidabilità dei modelli
Riproducibilità: Fornisce dettagli di implementazione dettagliati e link al codice

Scenari Applicabili

Analisi di interpretabilità dei sistemi di IA multimodale
Rilevamento e mitigazione di allucinazioni nei modelli linguistici
Modellazione computazionale dei meccanismi di ancoraggio dei simboli nella scienza cognitiva
Ricerca sui meccanismi di apprendimento concettuale nell'IA educativa

Bibliografia

Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

Questo articolo, attraverso una progettazione sperimentale rigorosa e un'analisi meccanicistica approfondita, fornisce contributi importanti per la comprensione dei meccanismi di emergenza dell'ancoraggio dei simboli nei modelli linguistici. Le scoperte non solo possiedono valore teorico, ma forniscono anche orientamenti pratici per la costruzione di sistemi di IA più affidabili.