The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
Rappresentazione nei modelli linguistici di grandi dimensioni
- ID Articolo: 2501.00885
- Titolo: Representation in large language models
- Autore: Cameron C. Yetman (University of Toronto)
- Classificazione: cs.CL cs.AI cs.LG
- Data di Pubblicazione: 1 gennaio 2025 (versione bozza)
- Link Articolo: https://arxiv.org/abs/2501.00885
Il straordinario successo dei modelli linguistici di grandi dimensioni (LLM) in vari compiti ha suscitato numerose teorizzazioni scientifiche e filosofiche volte a spiegarne il funzionamento. Tuttavia, i disaccordi su questioni teoriche fondamentali hanno generato un'impasse, con i sostenitori e i critici degli LLM che spesso mantengono visioni radicalmente diverse sul modo in cui questi sistemi operano. Superare l'impasse richiede il raggiungimento di un consenso su questioni fondamentali. Questo articolo si propone di affrontare una di queste questioni cruciali: il comportamento degli LLM è parzialmente guidato dall'elaborazione delle informazioni basata su rappresentazioni, simile a quella della cognizione biologica, oppure è completamente guidato da processi di memorizzazione e ricerca casuale in tabelle? Si tratta di una questione riguardante quale algoritmo implementino gli LLM, e la risposta ha implicazioni significative per questioni di livello superiore, come se questi sistemi possiedano credenze, intenzioni, concetti, conoscenza e comprensione. L'autore sostiene che il comportamento degli LLM è parzialmente guidato dall'elaborazione delle informazioni basata su rappresentazioni e descrive e difende una serie di tecniche pratiche per studiare queste rappresentazioni e sviluppare spiegazioni sulla loro base.
La questione centrale che questa ricerca affronta è: il comportamento dei modelli linguistici di grandi dimensioni è guidato dall'elaborazione delle informazioni basata su rappresentazioni, oppure dipende completamente dalla memorizzazione e dalla ricerca casuale in tabelle?
- Riconciliazione dei disaccordi teorici: Attualmente il campo della ricerca sugli LLM presenta significativi disaccordi teorici, con gli ottimisti che ritengono gli LLM possiedano capacità simili a quelle cognitive, e i pessimisti che li considerano semplici sistemi di corrispondenza di pattern complessi
- Fondamenti delle scienze cognitive: Questa questione si relaziona direttamente al fatto che gli LLM possano essere utilizzati come modelli cognitivi e se siano essi stessi sistemi cognitivi
- Base delle capacità di livello superiore: La risposta influenzerà il nostro giudizio su se gli LLM possiedano capacità cognitive di livello superiore come credenze, intenzioni, concetti, conoscenza e comprensione
- Abuso terminologico: Il termine "rappresentazione" nella pratica dell'apprendimento automatico è utilizzato in modo troppo ampio, perdendo valore teorico
- Limitazioni dell'orientamento comportamentale: Determinare l'esistenza di rappresentazioni basandosi unicamente sulle prestazioni comportamentali presenta un'incertezza fondamentale
- Mancanza di approccio sistematico: Manca un metodo sistematico per identificare e verificare le rappresentazioni negli LLM
L'autore ritiene che risolvere questa questione fondamentale sia cruciale per superare l'attuale impasse teorico e fornire una base solida per la teorizzazione futura degli LLM.
- Propone una caratterizzazione a quattro condizioni della rappresentazione: Fornisce una definizione sostanziale e operativa del concetto di "rappresentazione", includendo quattro condizioni: informazione (INFORMATION), sfruttabilità (EXPLOITABILITY), comportamento (BEHAVIOR) e ruolo (ROLE)
- Confuta l'interpretazione della tabella di ricerca: Attraverso l'analisi di casi come Othello-GPT e modelli dello spazio dei colori, dimostra che gli LLM non possono essere completamente spiegati da automi a stati finiti o tabelle di ricerca
- Stabilisce un quadro di interpretabilità meccanicistica: Descrive sistematicamente come utilizzare tecniche di probing e intervento per verificare l'esistenza di rappresentazioni
- Fornisce metodi di ricerca pratici: Offre strumenti tecnici concreti e orientamenti metodologici per lo studio delle rappresentazioni negli LLM
L'autore propone una definizione operativa della rappresentazione: un sistema S possiede una rappresentazione R di una caratteristica z se e solo se soddisfa le seguenti quattro condizioni:
REPRESENTATION
- INFORMATION: R contiene informazioni su z
- EXPLOITABILITY: Le informazioni su z contenute in R sono sfruttabili per S
- BEHAVIOR: S utilizza le informazioni su z contenute in R per produrre comportamento robusto correlato a z
- ROLE: R svolge un ruolo meccanicistico nel comportamento robusto correlato a z di S
- Condizione di Informazione (INFORMATION)
- Definita utilizzando informazione mutua: I(X,Y)=H(X)−H(X∣Y)
- La condizione è soddisfatta quando I(R,z)>0
- La relazione informativa può essere stabilita attraverso correlazione causale generativa o corrispondenza strutturale
- Condizione di Sfruttabilità (EXPLOITABILITY)
- S deve essere in grado di modulare il suo comportamento correlato a z in modo rilevante dal contenuto sulla base dell'attivazione di R
- Verificata attraverso test e interventi su R
- Condizione di Comportamento (BEHAVIOR)
- "Robusto" significa insensibile a piccole perturbazioni delle condizioni circostanti
- La rappresentazione abilita il comportamento robusto, ma deve essere incorporata nell'algoritmo appropriato
- Condizione di Ruolo (ROLE)
- R deve svolgere un ruolo causale nel meccanismo che guida il comportamento
- Evita il problema del panrappresentazionalismo
L'autore analizza il punto di vista che considera gli LLM come tabelle di ricerca:
- Prospettiva dell'automa a stati finiti: Gli LLM sono considerati automi a stati finiti che codificano tabelle di ricerca su larga scala
- Caratteristiche non produttive: I sistemi di tabella di ricerca sono caratteristicamente non produttivi — "possono solo restituire ciò che è già stato inserito"
- Prove di confutazione:
- Othello-GPT: Addestrato su dati con il 25% dell'albero di gioco mancante, raggiunge comunque un tasso di mosse legali del 99,98% su dataset completi
- Modello dello spazio dei colori: Prestazioni comparabili su coppie di codici colore ruotati rispetto ai dati originali (36% vs 34% di precisione Top-3)
Progettazione Sperimentale:
- Addestramento di un modello GPT su milioni di registrazioni di partite di Othello
- I record contengono solo sequenze di mosse, senza informazioni sulle regole del gioco o sugli attributi della scacchiera
- Gruppo di controllo: addestramento su dataset completo
- Gruppo sperimentale: addestramento su dataset distorto con il 25% dell'albero di gioco mancante
Risultati:
- Gruppo di controllo: tasso di successo di mosse legali del 99,99%
- Gruppo sperimentale: tasso di successo di mosse legali del 99,98%
- Scoperta chiave: il modello ha successo su configurazioni di scacchiera mai viste prima, indicando che non si tratta di una semplice tabella di ricerca
Progettazione Sperimentale:
- Utilizzo di GPT pre-addestrato per testare il ragionamento delle proprietà strutturali nei domini del colore e dello spazio
- Paradigma di apprendimento in contesto: 60 esempi di addestramento
- Gruppo di controllo: coppie di codici RGB e nomi di colori da una porzione limitata dello spettro
- Gruppo sperimentale: condizione "ruotata" con disposizione sistematica, mantenendo le relazioni strutturali invariate
Risultati:
- Gruppo di controllo: precisione Top-3 del 34%
- Gruppo ruotato: precisione Top-3 del 36%
- Scoperta chiave: prestazioni comparabili quando le relazioni strutturali sono mantenute ma gli accoppiamenti specifici sono completamente nuovi
- Utilizzo di piccoli MLP lineari come sonde
- Decodifica di informazioni specifiche dagli attivamenti dello strato nascosto della rete target
- Verifica delle condizioni INFORMATION e EXPLOITABILITY
- Patching di attivamento: modifica di valori di attivamento specifici per osservare i cambiamenti comportamentali
- Guida delle caratteristiche: fissaggio di caratteristiche specifiche a valori anomalamente alti/bassi
- Verifica delle condizioni BEHAVIOR e ROLE
Risultati di Verifica di Othello-GPT:
- Il probing lineare classifica con successo gli stati della scacchiera ("mio"/"tuo"/"vuoto")
- L'intervento di attivamento (capovolgimento dello stato dei pezzi) porta il modello a fare previsioni coerenti con la scacchiera modificata
Risultati di Verifica di Claude 3 Sonnet:
- Utilizzo di autoencoder sparsi per identificare caratteristiche interpretabili (come il Golden Gate Bridge, neuroscienze)
- Esperimento di guida delle caratteristiche: attivazione della caratteristica del Golden Gate Bridge 10 volte porta il modello a menzionare il ponte
- Tradizione delle scienze cognitive: Fondamenti teorici stabiliti da Fodor (1975), Sterelny (1991), Shea (2018) e altri
- Livelli computazionali: Basati sul quadro di analisi dei livelli algoritmici di Marr (1982)
- Apprendimento di rappresentazioni: Quadro di apprendimento di rappresentazioni di Bengio et al. (2014)
- Problema della generalizzazione terminologica: Problema di generalizzazione del concetto di "rappresentazione" indicato da Ramsey (2017)
- Analisi dei circuiti: Analisi dei percorsi computazionali di Elhage et al. (2021), Dunefsky et al. (2024)
- Astrazione causale: Metodo di allineamento del modello causale di Geiger et al. (2021)
- Interpretabilità meccanicistica: Tradizione di ricerca MI stabilita da Olah et al. (2018, 2020)
- Gli LLM possiedono rappresentazioni sostanziali: In alcuni casi, il comportamento degli LLM è guidato da rappresentazioni che soddisfano la definizione a quattro condizioni
- L'interpretazione della tabella di ricerca è insufficiente: La semplice memorizzazione e la ricerca in tabelle non possono spiegare la capacità di generalizzazione degli LLM
- I metodi di interpretabilità meccanicistica sono efficaci: Le tecniche di probing e intervento forniscono un percorso praticabile per lo studio delle rappresentazioni negli LLM
- Dipendenza dal contesto dell'applicazione delle condizioni: La valutazione della robustezza della rappresentazione dipende dal compito e dall'ambiente specifici
- Questione della determinazione del contenuto non risolta: Non affronta sistematicamente il problema di come sia determinato il contenuto della rappresentazione
- Capacità cognitive di livello superiore in sospeso: Non affronta direttamente se gli LLM possiedano credenze, conoscenza, comprensione e altre capacità
- Mappa sistematica delle rappresentazioni: Stabilire un resoconto sistematico di quando ci si aspetta che gli LLM si affidino a rappresentazioni rispetto ad altri meccanismi
- Teoria della determinazione del contenuto: Sviluppare un quadro teorico per la determinazione del contenuto delle rappresentazioni negli LLM
- Valutazione delle capacità cognitive: Valutare le capacità cognitive di livello superiore degli LLM sulla base dell'analisi delle rappresentazioni
- Contributo teorico notevole: Fornisce una definizione rigorosa della rappresentazione, colmando un importante vuoto teorico
- Innovazione metodologica: Combina organicamente la teoria della rappresentazione delle scienze cognitive con le tecniche di interpretabilità dell'apprendimento automatico
- Prove empiriche sufficienti: Supporta gli argomenti centrali attraverso molteplici studi di caso e verifiche tecniche
- Scrittura chiara e rigorosa: L'argomentazione è logicamente chiara e i dettagli tecnici sono descritti accuratamente
- Limitatezza dei casi: Basato principalmente su pochi casi, necessita di una verifica più ampia
- Standard di robustezza vago: La definizione di "comportamento robusto" rimane relativamente soggettiva
- Sfide di praticità: L'applicazione dei metodi proposti su LLM su larga scala affronta ancora sfide tecniche
- Impatto teorico: Fornisce una base teorica importante per la ricerca sulle capacità cognitive degli LLM
- Impatto metodologico: Promuove l'applicazione dell'interpretabilità meccanicistica nella ricerca sugli LLM
- Valore pratico: Fornisce nuovi strumenti per la ricerca sulla sicurezza dell'IA e sull'interpretabilità
- Valutazione delle capacità degli LLM: Valutare se uno specifico LLM possiede vere capacità cognitive
- Miglioramento del modello: Migliorare l'architettura e i metodi di addestramento del modello sulla base dell'analisi delle rappresentazioni
- Ricerca sulla sicurezza dell'IA: Comprendere i meccanismi interni degli LLM per migliorare la sicurezza del sistema
L'articolo cita una ricca letteratura interdisciplinare, che include principalmente:
- Letteratura fondamentale delle scienze cognitive: Fodor (1975), Marr (1982), Shea (2018)
- Interpretabilità dell'apprendimento automatico: Olah et al. (2018), Elhage et al. (2021)
- Ricerca critica sugli LLM: Bender & Koller (2020), Marcus & Davis (2020)
- Letteratura sui metodi tecnici: Li et al. (2023), Templeton et al. (2024)
Riepilogo: Questo articolo fornisce importanti contributi teorici e metodologici nel campo della ricerca sulla rappresentazione negli LLM. Attraverso un'analisi concettuale rigorosa, ricerca empirica e innovazione tecnica, offre una nuova prospettiva per la comprensione dei meccanismi interni degli LLM. Sebbene persistano alcune limitazioni, fornisce una base solida per la ricerca futura sulle capacità cognitive degli LLM.