2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy

Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.

academic

Le Informazioni di Posizione Emergono nei Transformer Causali Senza Codifiche Posizionali tramite la Similarità degli Embedding Adiacenti

Informazioni Fondamentali

ID Articolo: 2501.00073
Titolo: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Autori: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
Classificazione: cs.CL (Linguistica Computazionale), cs.LG (Machine Learning)
Data di Pubblicazione: 30 dicembre 2024
Link Articolo: https://arxiv.org/abs/2501.00073

Riassunto

Questo studio esamina come i Transformer con attenzione causale risolvono compiti che richiedono informazioni di posizione senza utilizzare codifiche posizionali. Gli autori propongono e verificano una nuova ipotesi: le informazioni di posizione possono essere archiviate attraverso la similarità tra i vettori di embedding adiacenti. La ricerca rivela che i vettori di embedding adiacenti sono più simili rispetto ai vettori più distanti, consentendo al Transformer di ricostruire le informazioni di posizione dei token. Questo modello si osserva sia nei modelli Transformer causali addestrati che in quelli con inizializzazione casuale.

Contesto di Ricerca e Motivazione

Definizione del Problema

La saggezza convenzionale sostiene che i Transformer richiedono codifiche posizionali esplicite per elaborare le informazioni di posizione dei token in una sequenza. Tuttavia, ricerche recenti (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) suggeriscono che i Transformer decoder-only con sola attenzione causale possono apprendere informazioni di posizione senza codifiche posizionali.

Motivazione della Ricerca

Lacuna Teorica: La ricerca esistente manca di una comprensione approfondita di come i Transformer causali archiviano le informazioni di posizione
Esplorazione dei Meccanismi: Chi et al. (2023) propone che le informazioni di posizione siano archiviate nella varianza degli embedding, ma questa spiegazione potrebbe essere insufficiente
Necessità di Nuove Prospettive: È necessaria una nuova prospettiva per comprendere i meccanismi di rappresentazione delle informazioni di posizione

Limitazioni dei Metodi Esistenti

I meccanismi di attenzione non causale presentano invarianza permutazionale rispetto all'ordine dei token di input, incapaci di elaborare informazioni di posizione
La teoria della varianza di Chi et al. mostra prestazioni insoddisfacenti in alcuni esperimenti, incapace di spiegare completamente i fenomeni osservati

Contributi Principali

Proposta dell'Ipotesi del Modello di Adiacenza: Scoperta che i vettori di embedding in posizioni adiacenti presentano una maggiore similarità del coseno, formando un "modello di adiacenza"
Analisi Teorica: Spiegazione matematica del motivo per cui il modello di adiacenza emerge nel primo strato di attenzione causale
Verifica Sperimentale Estesa: Validazione dell'esistenza del modello di adiacenza in molteplici compiti, configurazioni di modelli e schemi di inizializzazione
Metodo di Valutazione Quantitativa: Proposta del punteggio di probabilità di adiacenza (adjacency probability score) per quantificare l'intensità delle informazioni di posizione
Analisi Comparativa: Dimostrazione attraverso esperimenti di sondaggio che la similarità del coseno codifica le informazioni di posizione più efficacemente della varianza degli embedding

Dettagli Metodologici

Definizione del Compito

Studio di come i Transformer causali rappresentano e utilizzano le informazioni di posizione senza codifiche posizionali esplicite, con focus particolare sui modelli di similarità tra i vettori di embedding.

Concetti Fondamentali

Matrice di Auto-Similarità del Coseno

Per una sequenza di embedding di token di lunghezza n e dimensione d, X ∈ R^(n×d), la matrice di auto-similarità del coseno C è definita come:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

Modello di Adiacenza (Adjacency Pattern)

Il modello di adiacenza si riferisce alla caratteristica della matrice di auto-similarità del coseno in cui i valori vicino alla diagonale sono più elevati e i valori lontani dalla diagonale sono più bassi, indicando che i vettori di embedding in posizioni adiacenti sono più simili.

Punteggio di Probabilità di Adiacenza

Per quantificare l'intensità del modello di adiacenza, gli autori propongono il punteggio di probabilità di adiacenza:

Per la k-esima riga, il punteggio di probabilità di adiacenza a livello di riga è definito come:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

Il punteggio di probabilità di adiacenza dell'intera matrice è la media di tutte le righe.

Analisi Teorica

Effetto di Mediazione

Nel primo strato, l'embedding della posizione k è calcolato attraverso una combinazione lineare dei k-1 embedding precedenti:

Embedding della posizione k+t: Σ(i=1 to k+t) α_i * e_i
Embedding della posizione k+t+1: Σ(i=1 to k+t+1) β_i * e_i

Poiché le posizioni adiacenti condividono più embedding di input, la loro differenza di prodotto scalare è positiva:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

Questo spiega matematicamente l'emergenza del modello di adiacenza.

Configurazione Sperimentale

Dataset e Compiti

Gli autori hanno progettato quattro compiti sintetici che richiedono informazioni di posizione:

Compito di Addizione (Addition): Generare la risposta per "123+456=", lunghezza di input massima 9
Compito di Inversione (Reversal): Per "rev(1234)=" generare "4321", lunghezza di input massima 22
Compito di Indicizzazione (Indexing): Per "wherex(134504392,4)=" restituire la posizione della prima occorrenza "2", lunghezza di input massima 20
Compito di Ordinamento (Ordering): Dato una sequenza originale e una sequenza riordinata, restituire il nuovo ordine di indici, lunghezza di input massima 18

Configurazione del Modello

Modello di Base: NanoGPT a 6 strati, 10,6 milioni di parametri
Configurazioni Varianti: 6/12/24 strati, 192/384/768 dimensioni nascoste
Inizializzazione: N(0, 0.02) per default, test con diverse medie e varianze
Impostazioni di Addestramento: 20.000 campioni di addestramento e 20.000 campioni di test per compito, 5 semi casuali

Metriche di Valutazione

Punteggio di Probabilità di Adiacenza: Quantifica l'intensità del modello di adiacenza
Accuratezza del Compito: Prestazioni del modello su vari compiti
Esperimenti di Sondaggio: Utilizzo di MLP a 4 strati per sondare le informazioni di posizione, valutazione di NRMSE e Pearson-R

Risultati Sperimentali

Scoperte Principali

1. Ubiquità del Modello di Adiacenza

Nel livello di embedding dei token, il punteggio di probabilità di adiacenza è circa 0,5 (livello casuale)
Dopo il primo strato di attenzione causale, il punteggio sale a 0,8-1,0
Questo modello rimane stabile prima e dopo l'addestramento, in diversi compiti e configurazioni di modelli

2. Risultati dell'Analisi per Strato

Strato	Modello Inizializzato	Modello Addestrato
Embedding	0,48	0,54
Strato 1	0,98	0,89
Strato 2	0,99	0,97
Strato 3	0,99	0,98
Strato 6	0,99	0,82

3. Sensibilità degli Iperparametri

Effetto del Numero di Strati: Modelli con 6-24 strati mostrano tutti il modello di adiacenza
Effetto della Dimensione: Configurazioni con 192-768 dimensioni mantengono il modello
Effetto dell'Inizializzazione: Il modello rimane stabile con schemi di inizializzazione standard (σ ≤ 0,02)

Esperimenti di Ablazione

Test dello Schema di Inizializzazione

Test con diverse medie (μ ∈ {0,4,8}) e deviazioni standard (σ ∈ {0,002,0,02,0,2}):

Varianza piccola (σ ≤ 0,02): Modello di adiacenza stabile
Varianza grande (σ = 0,2): Modello scompare
Media grande ha effetto minore sul modello

Confronto con la Teoria della Varianza

Confronto attraverso esperimenti di sondaggio dell'efficacia della similarità del coseno e della varianza degli embedding come caratteristiche di posizione:

Tipo di Caratteristica	Pearson-R	NRMSE
Vettore di Embedding	0,71	0,20
Varianza di Embedding	0,49	0,23
Similarità del Coseno	0,93	0,11

Analisi di Casi

La Figura 1 mostra la visualizzazione della matrice di auto-similarità del coseno nel compito di inversione:

Modello inizializzato: Modello di diagonale chiaro che emerge dal primo strato
Modello addestrato: Primi strati mantengono un forte modello di adiacenza, strati successivi si indeboliscono gradualmente

Lavori Correlati

Ricerca sulle Codifiche Posizionali

Metodi Tradizionali: Codifiche di posizione assoluta, codifiche di posizione relativa
Scoperte Recenti: Haviv et al. (2022) dimostra per primo che i Transformer causali possono essere addestrati senza codifiche posizionali

Meccanismo di Attenzione Causale

Invarianza Permutazionale: Tsai et al. (2019) dimostra che l'attenzione non causale possiede invarianza permutazionale
Archiviazione di Informazioni di Posizione: Chi et al. (2023) propone l'ipotesi della varianza decrescente

Contributi di Questo Articolo

Rispetto alla teoria della varianza di Chi et al., l'ipotesi del modello di adiacenza di questo articolo:

Fornisce una spiegazione geometrica più intuitiva
Mostra prestazioni superiori negli esperimenti di sondaggio
È applicabile a configurazioni di modelli più ampie

Conclusioni e Discussione

Conclusioni Principali

Ubiquità del Modello di Adiacenza: I Transformer causali formano naturalmente un modello di adiacenza dopo il primo strato di attenzione
Codifica di Informazioni di Posizione: L'alta similarità degli embedding adiacenti fornisce la possibilità di ricostruire la posizione
Spiegazione del Meccanismo: L'effetto di mediazione spiega matematicamente il motivo dell'emergenza del modello
Valore Pratico: La similarità del coseno è più adatta della varianza degli embedding come caratteristica di posizione

Limitazioni

Limitazioni del Dataset: La verifica principale è su compiti sintetici; la generalizzabilità su dataset reali richiede ulteriori ricerche
Dipendenza dall'Architettura: Le conclusioni si basano su un'architettura Transformer specifica; l'applicabilità ad altre varianti è sconosciuta
Problema di Completezza: Né il modello di adiacenza né la varianza possono spiegare completamente il 100% delle prestazioni del compito

Direzioni Future

Validazione su Larga Scala: Verifica del modello di adiacenza in compiti reali di modellazione del linguaggio
Fusione dei Meccanismi: Esplorazione della combinazione del modello di adiacenza con altri meccanismi di codifica posizionale
Perfezionamento Teorico: Stabilimento di un quadro teorico più completo per la rappresentazione delle informazioni di posizione

Valutazione Approfondita

Punti di Forza

Prospettiva Innovativa: Comprensione delle informazioni di posizione da un angolo di similarità geometrica, fornendo nuove intuizioni teoriche
Verifica Rigorosa: Validazione completa dell'ipotesi attraverso molteplici compiti, configurazioni e metodi di analisi
Fondamento Matematico: Fornisce spiegazione teorica dell'emergenza del modello di adiacenza
Strumento Pratico: Il punteggio di probabilità di adiacenza fornisce un metodo efficace per quantificare le informazioni di posizione

Insufficienze

Limitazioni dei Compiti: I compiti sintetici potrebbero non riflettere completamente la complessità degli scenari di applicazione reali
Incompletezza del Meccanismo: Riconosce che la teoria esistente non può spiegare completamente le prestazioni del modello
Costo Computazionale: Il calcolo della matrice di auto-similarità del coseno potrebbe avere costi elevati su sequenze lunghe

Impatto

Contributo Teorico: Fornisce una nuova prospettiva per comprendere la rappresentazione di posizione nei Transformer
Guida Pratica: Fornisce supporto teorico per la progettazione di modelli senza codifiche posizionali
Ispirazione per la Ricerca: Apre una nuova direzione per l'analisi dei meccanismi interni dei Transformer da una prospettiva geometrica

Scenari Applicabili

Modelli Leggeri: Progettazione di modelli che riducono i parametri di codifica posizionale
Elaborazione di Sequenze Lunghe: Modellazione di sequenze che evita i vincoli delle codifiche posizionali
Analisi del Modello: Comprensione e debug delle rappresentazioni interne dei Transformer

Bibliografia

Questo articolo fa principalmente riferimento ai seguenti lavori importanti:

Haviv et al. (2022): Dimostra per primo la fattibilità dell'addestramento senza codifiche posizionali
Chi et al. (2023): Propone l'ipotesi della varianza decrescente per le informazioni di posizione
Tsai et al. (2019): Analizza le proprietà permutazionali del meccanismo di attenzione
Vaswani et al. (2017): Articolo originale su Transformer

Questa ricerca fornisce una nuova prospettiva importante per comprendere come i Transformer elaborano le informazioni di posizione. Sebbene presenti ancora insufficienze in termini di completezza, le sue intuizioni teoriche e i risultati sperimentali pongono una base solida per l'ulteriore sviluppo di questo campo.