2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
academic

L'Emergenza Meccanicistica dell'Ancoraggio dei Simboli nei Modelli Linguistici

Informazioni Fondamentali

  • ID Articolo: 2510.13796
  • Titolo: The Mechanistic Emergence of Symbol Grounding in Language Models
  • Autori: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
  • Classificazione: cs.CL (Linguistica Computazionale), cs.CV (Visione Artificiale)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.13796

Riassunto

L'ancoraggio dei simboli (symbol grounding) descrive come i simboli (quali il vocabolario) acquisiscono significato attraverso il collegamento con esperienze sensomotorie del mondo reale. Ricerche recenti suggeriscono che nei modelli linguistici (visivi) addestrati su larga scala, la capacità di ancoraggio potrebbe emergere spontaneamente senza l'utilizzo di obiettivi di ancoraggio espliciti. Tuttavia, la localizzazione specifica e i meccanismi trainanti di questa emergenza rimangono sostanzialmente inesplorati. Per affrontare questa questione, il presente articolo introduce un framework di valutazione controllato che traccia sistematicamente come l'ancoraggio dei simboli emerga nel calcolo interno attraverso analisi meccanicistiche e causali. Lo studio rivela che l'ancoraggio si concentra nel calcolo dei livelli intermedi e si realizza attraverso un meccanismo di aggregazione, in cui le teste di attenzione aggregano le basi ambientali per supportare la previsione della forma linguistica. Questo fenomeno si replica nei dialoghi multimodali e in diverse architetture (Transformer e modelli dello spazio degli stati), ma non emerge negli LSTM unidirezionali.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale che questa ricerca affronta è: Come emerge meccanicisticamente l'ancoraggio dei simboli nei modelli linguistici? Nello specifico:

  1. Quando e dove emerge l'ancoraggio dei simboli durante il processo di addestramento?
  2. Quale meccanismo guida questa emergenza?
  3. Questo meccanismo possiede caratteristiche di universalità?

Importanza del Problema

La questione dell'ancoraggio dei simboli è uno dei problemi fondamentali della scienza cognitiva e dell'intelligenza artificiale. Comprendere come i modelli linguistici imparano a stabilire connessioni tra simboli astratti e la realtà è significativo per:

  • Migliorare l'affidabilità e l'interpretabilità dei modelli
  • Ridurre i fenomeni di allucinazione
  • Costruire sistemi di IA multimodale più efficaci

Limitazioni dei Metodi Esistenti

La ricerca esistente presenta principalmente le seguenti limitazioni:

  1. Mancanza di Analisi Meccanicistica: La maggior parte degli studi si concentra sull'analisi correlazionale delle prestazioni finali, senza esplorare approfonditamente i meccanismi interni
  2. Trascuratezza della Dinamica di Addestramento: Assenza di ricerca sistematica sulla traiettoria dello sviluppo della capacità di ancoraggio durante l'addestramento
  3. Definizione Ambigua: Equiparazione dell'ancoraggio alla correlazione statistica tra segnali visivi e testuali, allontanandosi dalla definizione classica di Harnad (1990) riguardante il collegamento causale

Innovazioni della Ricerca

Il presente articolo, attraverso la costruzione di una piattaforma di test minimale e l'utilizzo di metodi di intervento causale e analisi meccanicistica, studia sistematicamente i meccanismi di emergenza dell'ancoraggio dei simboli.

Contributi Fondamentali

  1. Costruzione di un Framework di Valutazione Controllato: Progettazione di una piattaforma di test con separazione tra token ambientali (⟨ENV⟩) e token linguistici (⟨LAN⟩), assicurando che le corrispondenze debbano essere acquisite attraverso l'apprendimento
  2. Scoperta dell'Implementazione Meccanicistica dell'Ancoraggio: Dimostrazione che l'ancoraggio dei simboli si realizza attraverso un meccanismo di aggregazione nei livelli intermedi
  3. Evidenza di Universalità Tranarchitetturale: Osservazione dell'emergenza dell'ancoraggio in Transformer e modelli dello spazio degli stati, ma non negli LSTM unidirezionali
  4. Stabilimento di Metodi di Verifica Causale: Verifica attraverso esperimenti di intervento sulle teste di attenzione del ruolo critico delle teste di aggregazione nell'ancoraggio dei simboli
  5. Rivelazione di Apprendimento Oltre la Statistica di Co-occorrenza: Dimostrazione che le relazioni di ancoraggio apprese dal modello non possono essere completamente spiegate dalla statistica di co-occorrenza superficiale

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Input: Sequenze contenenti token ambientali (⟨ENV⟩) e token linguistici (⟨LAN⟩) Output: Previsione del token linguistico corrispondente dato il contesto ambientale Vincoli: I token ambientali e i token linguistici utilizzano indici di vocabolario diversi; il modello deve apprendere le corrispondenze tra loro

Costruzione del Dataset

1. Linguaggio Orientato ai Bambini (CHILDES)

  • Fonte dei Token Ambientali: Descrizioni ambientali, livello di azione, annotazioni del livello situazionale
  • Fonte dei Token Linguistici: Trascrizioni del linguaggio parlato
  • Esempio:
    Addestramento: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
    Test: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [previsione: book⟨LAN⟩]
    

2. Dialogo con Ancoraggio di Sottotitoli (Visual Dialog)

  • Token Ambientali: Sottotitoli di immagini MSCOCO
  • Token Linguistici: Coppie di domande e risposte multi-turno

3. Dialogo con Ancoraggio di Immagini

  • Token Ambientali: Embeddings di patch di immagini estratti tramite ViT DINOv2 congelato
  • Token Linguistici: Trascrizioni di dialoghi

Protocollo di Valutazione

Guadagno di Informazione di Ancoraggio (Grounding Information Gain)

Definito come la differenza di sorpresa tra condizioni di corrispondenza e non corrispondenza:

Gθ(v)=1Nn=1N1Muv[sθ(vLANcn(uENV))sθ(vLANcn(vENV))]G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]

dove sθ(wc)=logPθ(wc)s_\theta(w|c) = -\log P_\theta(w|c) è la misura di sorpresa.

Metodi di Analisi Meccanicistica

1. Analisi del Flusso di Salienza (Saliency Flow Analysis)

Calcolo della matrice di salienza per ogni livello: I=hAh,LAh,I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|

2. Sondaggio con Lente Sintonizzata (Tuned Lens Probing)

Addestramento di proiettori affini per mappare le attivazioni dei livelli intermedi nello spazio di previsione finale.

3. Esperimenti di Intervento Causale

  • Identificazione delle Teste di Aggregazione: Teste di attenzione con almeno il 30% di salienza che fluisce dal token ambientale alla posizione di previsione
  • Metodo di Intervento: Azzeramento dell'output delle teste di attenzione identificate, osservazione dei cambiamenti di prestazione

Configurazione Sperimentale

Architetture dei Modelli

  • Transformer: Modelli GPT-2 a 4, 12, 18 livelli
  • Modelli dello Spazio degli Stati: Modelli Mamba-2 a 4, 12 livelli
  • Modelli di Confronto: LSTM unidirezionale a 4 livelli
  • Modelli Multimodali: Modelli visivo-linguistici basati su DINOv2

Dettagli di Addestramento

  • Inizializzazione: Inizializzazione casuale (assicurando assenza di conoscenza pregressa)
  • Funzione Obiettivo: Modellazione linguistica causale standard
  • Esperimenti Ripetuti: 5 semi casuali
  • Checkpoint: Campionamento denso dei primi passi di addestramento

Selezione del Vocabolario

Selezione di 100 nomi ad alta frequenza dalla scala di comunicazione MacArthur-Bates, con frequenza di ogni parola nelle forme ⟨ENV⟩ e ⟨LAN⟩ nel corpus ≥100.

Risultati Sperimentali

Scoperte Principali

1. Evidenza a Livello Comportamentale

  • Transformer e Mamba-2: La sorpresa in condizioni di corrispondenza è significativamente inferiore rispetto alle condizioni di non corrispondenza
  • LSTM: Nessuna differenza significativa di sorpresa tra le due condizioni
  • Dialogo Visivo: Effetto di ancoraggio osservato sia nelle impostazioni di ancoraggio di sottotitoli che di immagini

2. Oltre la Statistica di Co-occorrenza

  • Il guadagno di informazione di ancoraggio rispetto alla statistica di co-occorrenza mostra un valore R² che aumenta e poi diminuisce all'inizio dell'addestramento
  • Suggerisce che le relazioni di ancoraggio apprese dal modello vanno oltre la semplice co-occorrenza statistica

3. Localizzazione Meccanicistica

  • Concentrazione nei Livelli Intermedi: L'effetto di ancoraggio appare principalmente nei livelli 7-9
  • Meccanismo di Aggregazione: Teste di attenzione specifiche realizzano l'aggregazione di informazioni dal token ambientale al token linguistico

Risultati della Verifica Causale

CheckpointNumero di Teste di AggregazioneLivello MedioSorpresa di InterventoSorpresa di ControlloSorpresa Originale
50002.287.386.51***6.396.38
100005.097.285.86***5.295.30
200006.717.525.62***4.764.77

***indica differenza significativa con p < 0.001

Generalizzazione Tranmodale

Pattern simili di teste di attenzione di aggregazione sono stati trovati anche in grandi VLM come LLaVA-1.5-7B, confermando l'universalità delle scoperte.

Lavori Correlati

Ricerca sull'Ancoraggio Linguistico

  • Lavori Iniziali: Focalizzazione sui meccanismi di apprendimento della mappatura vocabolario-simbolo
  • Ancoraggio Visivo: Dall'ancoraggio a livello di categoria di oggetti all'ancoraggio a livello di pixel
  • VLM Moderni: Ancoraggio a livello di regione e pixel sotto supervisione accoppiata su larga scala

Ricerca sulle Capacità Emergenti

  • Effetti di Scala: Controversie sulle capacità emergenti nei modelli di grandi dimensioni
  • Analisi dello Sviluppo: Ricerca sistematica sull'acquisizione di capacità durante l'addestramento del modello
  • Prospettiva Psicologica: Studi comparativi tra l'apprendimento linguistico delle macchine e degli esseri umani

Interpretabilità Meccanicistica

  • Analisi delle Teste di Attenzione: Scoperta di teste specializzate come teste di induzione e teste di recupero
  • Analisi dei Circuiti: Meccanismi interni per compiti come il richiamo di fatti e l'apprendimento in contesto
  • Meccanismi di Aggregazione: Meccanismi coordinati di raccolta e aggregazione di informazioni

Conclusioni e Discussione

Conclusioni Principali

  1. L'ancoraggio dei simboli può emergere spontaneamente nei modelli linguistici senza supervisione esplicita
  2. Il meccanismo di aggregazione dei livelli intermedi è la chiave per realizzare l'ancoraggio, con teste di attenzione specifiche responsabili dell'aggregazione di informazioni
  3. Dipendenza dall'Architettura: Transformer e SSM supportano l'emergenza dell'ancoraggio, ma gli LSTM no
  4. Oltre la Statistica Superficiale: Le relazioni di ancoraggio apprese dal modello possiedono caratteristiche semantiche profonde

Contributi Teorici

Riesame delle radici filosofiche dell'ancoraggio dei simboli, fornendo evidenza meccanicistica dal passaggio dalla correlazione alla causalità, sfidando il punto di vista che "i sistemi connessionisti non possiedono strutture simboliche intrinseche".

Valore di Applicazione Pratica

  • Rilevamento di Allucinazioni: Previsione dell'affidabilità del modello attraverso il monitoraggio dell'attività delle teste di aggregazione
  • Controllo dell'Attenzione: Fornitura di strategie di decodifica per mitigare le allucinazioni
  • Progettazione di Modelli: Guida per la costruzione di sistemi multimodali più affidabili

Limitazioni

  1. Limitazioni di Scala: La rilevazione e l'intervento sistematici sulle teste di aggregazione nei grandi VLM rimangono sfidanti
  2. Complessità Computazionale: L'aumento significativo del numero di token visivi ha aumentato la complessità dell'analisi
  3. Generalizzabilità: Necessità di verificare l'universalità delle scoperte in più compiti e domini

Direzioni Future

  1. Sviluppo di metodi di rilevamento automatico delle teste di aggregazione nei grandi VLM
  2. Progettazione di schemi di verifica di intervento causale computazionalmente fattibili
  3. Esplorazione del ruolo dei meccanismi di ancoraggio in altre capacità cognitive

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Metodologica: La progettazione sperimentale con separazione di token ambientali e linguistici è ingegnosa, garantendo la validità dell'inferenza causale
  2. Profondità di Analisi Sufficiente: Analisi multilivello dal comportamento al meccanismo, fornendo una catena di evidenza completa
  3. Verifica Tranarchitetturale: Verifica delle scoperte in più architetture di modelli, rafforzando l'universalità delle conclusioni
  4. Verifica Causale Rigorosa: Fornitura di forti evidenze causali attraverso esperimenti di intervento

Insufficienze

  1. Intervallo di Vocabolario Limitato: Limitazione a 100 nomi potrebbe essere insufficiente per rappresentare fenomeni linguistici completi
  2. Semplificazione del Compito: I compiti sperimentali sono relativamente semplici, con discrepanza rispetto alla comprensione linguistica reale
  3. Verifica su Larga Scala Insufficiente: Verifica limitata su modelli veramente su larga scala

Valutazione dell'Impatto

  • Valore Accademico: Fornisce una prospettiva meccanicistica nuova per la ricerca sull'ancoraggio dei simboli
  • Valore Pratico: Fornisce percorsi tecnici concreti per migliorare l'affidabilità dei modelli
  • Riproducibilità: Fornisce dettagli di implementazione dettagliati e link al codice

Scenari Applicabili

  • Analisi di interpretabilità dei sistemi di IA multimodale
  • Rilevamento e mitigazione di allucinazioni nei modelli linguistici
  • Modellazione computazionale dei meccanismi di ancoraggio dei simboli nella scienza cognitiva
  • Ricerca sui meccanismi di apprendimento concettuale nell'IA educativa

Bibliografia

  • Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
  • Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
  • Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
  • Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

Questo articolo, attraverso una progettazione sperimentale rigorosa e un'analisi meccanicistica approfondita, fornisce contributi importanti per la comprensione dei meccanismi di emergenza dell'ancoraggio dei simboli nei modelli linguistici. Le scoperte non solo possiedono valore teorico, ma forniscono anche orientamenti pratici per la costruzione di sistemi di IA più affidabili.