Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic
Le Informazioni di Posizione Emergono nei Transformer Causali Senza Codifiche Posizionali tramite la Similarità degli Embedding Adiacenti
Questo studio esamina come i Transformer con attenzione causale risolvono compiti che richiedono informazioni di posizione senza utilizzare codifiche posizionali. Gli autori propongono e verificano una nuova ipotesi: le informazioni di posizione possono essere archiviate attraverso la similarità tra i vettori di embedding adiacenti. La ricerca rivela che i vettori di embedding adiacenti sono più simili rispetto ai vettori più distanti, consentendo al Transformer di ricostruire le informazioni di posizione dei token. Questo modello si osserva sia nei modelli Transformer causali addestrati che in quelli con inizializzazione casuale.
La saggezza convenzionale sostiene che i Transformer richiedono codifiche posizionali esplicite per elaborare le informazioni di posizione dei token in una sequenza. Tuttavia, ricerche recenti (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) suggeriscono che i Transformer decoder-only con sola attenzione causale possono apprendere informazioni di posizione senza codifiche posizionali.
Lacuna Teorica: La ricerca esistente manca di una comprensione approfondita di come i Transformer causali archiviano le informazioni di posizione
Esplorazione dei Meccanismi: Chi et al. (2023) propone che le informazioni di posizione siano archiviate nella varianza degli embedding, ma questa spiegazione potrebbe essere insufficiente
Necessità di Nuove Prospettive: È necessaria una nuova prospettiva per comprendere i meccanismi di rappresentazione delle informazioni di posizione
I meccanismi di attenzione non causale presentano invarianza permutazionale rispetto all'ordine dei token di input, incapaci di elaborare informazioni di posizione
La teoria della varianza di Chi et al. mostra prestazioni insoddisfacenti in alcuni esperimenti, incapace di spiegare completamente i fenomeni osservati
Proposta dell'Ipotesi del Modello di Adiacenza: Scoperta che i vettori di embedding in posizioni adiacenti presentano una maggiore similarità del coseno, formando un "modello di adiacenza"
Analisi Teorica: Spiegazione matematica del motivo per cui il modello di adiacenza emerge nel primo strato di attenzione causale
Verifica Sperimentale Estesa: Validazione dell'esistenza del modello di adiacenza in molteplici compiti, configurazioni di modelli e schemi di inizializzazione
Metodo di Valutazione Quantitativa: Proposta del punteggio di probabilità di adiacenza (adjacency probability score) per quantificare l'intensità delle informazioni di posizione
Analisi Comparativa: Dimostrazione attraverso esperimenti di sondaggio che la similarità del coseno codifica le informazioni di posizione più efficacemente della varianza degli embedding
Studio di come i Transformer causali rappresentano e utilizzano le informazioni di posizione senza codifiche posizionali esplicite, con focus particolare sui modelli di similarità tra i vettori di embedding.
Il modello di adiacenza si riferisce alla caratteristica della matrice di auto-similarità del coseno in cui i valori vicino alla diagonale sono più elevati e i valori lontani dalla diagonale sono più bassi, indicando che i vettori di embedding in posizioni adiacenti sono più simili.
Gli autori hanno progettato quattro compiti sintetici che richiedono informazioni di posizione:
Compito di Addizione (Addition): Generare la risposta per "123+456=", lunghezza di input massima 9
Compito di Inversione (Reversal): Per "rev(1234)=" generare "4321", lunghezza di input massima 22
Compito di Indicizzazione (Indexing): Per "wherex(134504392,4)=" restituire la posizione della prima occorrenza "2", lunghezza di input massima 20
Compito di Ordinamento (Ordering): Dato una sequenza originale e una sequenza riordinata, restituire il nuovo ordine di indici, lunghezza di input massima 18
Confronto attraverso esperimenti di sondaggio dell'efficacia della similarità del coseno e della varianza degli embedding come caratteristiche di posizione:
Questo articolo fa principalmente riferimento ai seguenti lavori importanti:
Haviv et al. (2022): Dimostra per primo la fattibilità dell'addestramento senza codifiche posizionali
Chi et al. (2023): Propone l'ipotesi della varianza decrescente per le informazioni di posizione
Tsai et al. (2019): Analizza le proprietà permutazionali del meccanismo di attenzione
Vaswani et al. (2017): Articolo originale su Transformer
Questa ricerca fornisce una nuova prospettiva importante per comprendere come i Transformer elaborano le informazioni di posizione. Sebbene presenti ancora insufficienze in termini di completezza, le sue intuizioni teoriche e i risultati sperimentali pongono una base solida per l'ulteriore sviluppo di questo campo.