2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy

Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.

academic

Positionsinformation entsteht in kausalen Transformern ohne Positionskodierungen durch Ähnlichkeit benachbarter Einbettungen

Grundinformationen

Paper-ID: 2501.00073
Titel: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Autoren: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
Klassifizierung: cs.CL (Computerlinguistik), cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 30. Dezember 2024
Paper-Link: https://arxiv.org/abs/2501.00073

Zusammenfassung

Diese Forschung untersucht, wie Transformer mit kausaler Aufmerksamkeit Aufgaben lösen können, die Positionsinformationen erfordern, ohne explizite Positionskodierungen zu verwenden. Die Autoren schlagen eine neue Hypothese vor und überprüfen diese: Positionsinformationen können durch die Ähnlichkeit zwischen benachbarten Einbettungsvektoren gespeichert werden. Die Forschung zeigt, dass benachbarte Einbettungsvektoren ähnlicher sind als weiter entfernte Vektoren, was dem Transformer ermöglicht, die Positionsinformationen von Tokens zu rekonstruieren. Dieses Muster wird sowohl in trainierten als auch in zufällig initialisierten kausalen Transformer-Modellen beobachtet.

Forschungshintergrund und Motivation

Problemdefinition

Die konventionelle Ansicht besagt, dass Transformer explizite Positionskodierungen benötigen, um Positionsinformationen von Tokens in Sequenzen zu verarbeiten. Jedoch deuten neuere Forschungen (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) darauf hin, dass reine Decoder-Transformer mit nur kausaler Aufmerksamkeit Positionsinformationen ohne Positionskodierungen erlernen können.

Forschungsmotivation

Theoretische Lücke: Bestehende Forschungen fehlt ein tiefes Verständnis dafür, wie kausale Transformer Positionsinformationen speichern
Mechanismusforschung: Chi et al. (2023) schlagen vor, dass Positionsinformationen in der Einbettungsvarianz gespeichert sind, aber diese Erklärung könnte unzureichend sein
Bedarf für neue Perspektiven: Es ist notwendig, die Darstellungsmechanismen von Positionsinformationen aus neuen Blickwinkeln zu verstehen

Einschränkungen bestehender Methoden

Nicht-kausale Aufmerksamkeitsmechanismen sind permutationsinvariant gegenüber der Anordnung von Input-Tokens und können Positionsinformationen nicht verarbeiten
Chi et al.s Varianztheorie zeigt in einigen Experimenten schlechte Leistung und kann die beobachteten Phänomene nicht vollständig erklären

Kernbeiträge

Nachbarschaftsmuster-Hypothese: Entdeckung, dass Einbettungsvektoren an benachbarten Positionen höhere Kosinus-Ähnlichkeit aufweisen und ein "Nachbarschaftsmuster" bilden
Theoretische Analyse: Mathematische Erklärung dafür, warum das Nachbarschaftsmuster in der ersten Schicht der kausalen Aufmerksamkeit auftritt
Umfassende experimentelle Validierung: Überprüfung des Nachbarschaftsmusters über mehrere Aufgaben, Modellkonfigurationen und Initialisierungsschemata hinweg
Quantifizierungsmethode: Einführung eines Nachbarschaftswahrscheinlichkeits-Scores zur Quantifizierung der Stärke von Positionsinformationen
Vergleichende Analyse: Nachweis durch Sondierungsexperimente, dass Kosinus-Ähnlichkeit Positionsinformationen effektiver kodiert als Einbettungsvarianz

Methodische Details

Aufgabendefinition

Untersuchung, wie kausale Transformer Positionsinformationen ohne explizite Positionskodierungen darstellen und nutzen, mit Fokus auf Ähnlichkeitsmuster zwischen Einbettungsvektoren.

Kernkonzepte

Selbst-Kosinus-Ähnlichkeitsmatrix

Für eine Sequenz von Token-Einbettungen X ∈ R^(n×d) mit Länge n und Dimension d ist die Selbst-Kosinus-Ähnlichkeitsmatrix C definiert als:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

Nachbarschaftsmuster (Adjacency Pattern)

Das Nachbarschaftsmuster bezieht sich auf die Eigenschaft der Selbst-Kosinus-Ähnlichkeitsmatrix, dass Werte in der Nähe der Diagonale höher sind und Werte weiter weg von der Diagonale niedriger sind, was anzeigt, dass Einbettungsvektoren an benachbarten Positionen ähnlicher sind.

Nachbarschaftswahrscheinlichkeits-Score

Um die Stärke des Nachbarschaftsmusters zu quantifizieren, führen die Autoren den Nachbarschaftswahrscheinlichkeits-Score ein:

Für Zeile k ist der zeilenweise Nachbarschaftswahrscheinlichkeits-Score definiert als:

P_Adjacency = P(C_ki < C_kj wenn i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

Der Nachbarschaftswahrscheinlichkeits-Score der gesamten Matrix ist der Durchschnittswert aller Zeilen.

Theoretische Analyse

Durchschnittseffekt

In der ersten Schicht wird die Einbettung an Position k durch eine Linearkombination der vorherigen k-1 Einbettungen berechnet:

Einbettung an Position k+t: Σ(i=1 bis k+t) α_i * e_i
Einbettung an Position k+t+1: Σ(i=1 bis k+t+1) β_i * e_i

Da benachbarte Positionen mehr Input-Einbettungen gemeinsam haben, ist ihre Punktproduktdifferenz positiv:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

Dies erklärt mathematisch das Auftreten des Nachbarschaftsmusters.

Experimentelles Setup

Datensätze und Aufgaben

Die Autoren entwerfen vier synthetische Aufgaben, die Positionsinformationen erfordern:

Additionsaufgabe (Addition): Generierung der Antwort auf "123+456=", maximale Eingabelänge 9
Umkehrungsaufgabe (Reversal): Für "rev(1234)=" Generierung von "4321", maximale Eingabelänge 22
Indexierungsaufgabe (Indexing): Für "wherex(134504392,4)=" Ausgabe des ersten Auftretens "2", maximale Eingabelänge 20
Sortierungsaufgabe (Ordering): Gegeben ursprüngliche Sequenz und neu angeordnete Sequenz, Ausgabe der neuen Indexreihenfolge, maximale Eingabelänge 18

Modellkonfiguration

Basismodell: 6-schichtiges NanoGPT mit 10,6 Millionen Parametern
Varianten-Konfiguration: 6/12/24 Schichten, 192/384/768 verborgene Dimensionen
Initialisierung: Standard N(0, 0.02), Test verschiedener Mittelwerte und Varianzen
Trainingseinstellungen: 20.000 Trainings- und 20.000 Testproben pro Aufgabe, 5 zufällige Seeds

Bewertungsmetriken

Nachbarschaftswahrscheinlichkeits-Score: Quantifizierung der Nachbarschaftsmuster-Stärke
Aufgabengenauigkeit: Modellleistung bei verschiedenen Aufgaben
Sondierungsexperimente: Verwendung eines 4-schichtigen MLP zur Sondierung von Positionsinformationen, Bewertung von NRMSE und Pearson-R

Experimentelle Ergebnisse

Hauptfunde

1. Universelle Existenz des Nachbarschaftsmusters

In der Token-Einbettungsschicht liegt der Nachbarschaftswahrscheinlichkeits-Score bei etwa 0,5 (Zufallsniveau)
Nach der ersten Schicht der kausalen Aufmerksamkeit springt der Score auf 0,8-1,0
Dieses Muster bleibt stabil vor und nach dem Training, über verschiedene Aufgaben und Modellkonfigurationen hinweg

2. Schicht-Analyse-Ergebnisse

Schicht	Initialisiertes Modell	Trainiertes Modell
Einbettungsschicht	0,48	0,54
Schicht 1	0,98	0,89
Schicht 2	0,99	0,97
Schicht 3	0,99	0,98
Schicht 6	0,99	0,82

3. Hyperparameter-Sensitivität

Schicht-Einfluss: Modelle mit 6-24 Schichten zeigen alle das Nachbarschaftsmuster
Dimensions-Einfluss: Konfigurationen mit 192-768 Dimensionen behalten das Muster bei
Initialisierungs-Einfluss: Das Muster ist stabil unter Standard-Initialisierungsschemata (σ ≤ 0,02)

Ablationsstudien

Initialisierungsschema-Test

Test verschiedener Mittelwerte (μ ∈ {0,4,8}) und Standardabweichungen (σ ∈ {0,002,0,02,0,2}):

Kleine Varianz (σ ≤ 0,02): Nachbarschaftsmuster stabil
Große Varianz (σ = 0,2): Muster verschwindet
Großer Mittelwert hat geringen Einfluss auf das Muster

Vergleich mit Varianztheorie

Vergleich von Kosinus-Ähnlichkeit und Einbettungsvarianz als Positionsmerkmale durch Sondierungsexperimente:

Merkmaltyp	Pearson-R	NRMSE
Einbettungsvektor	0,71	0,20
Einbettungsvarianz	0,49	0,23
Kosinus-Ähnlichkeit	0,93	0,11

Fallstudien

Abbildung 1 zeigt die Visualisierung der Selbst-Kosinus-Ähnlichkeitsmatrix in der Umkehrungsaufgabe:

Initialisiertes Modell: Klares diagonales Muster ab Schicht 1
Trainiertes Modell: Starkes Nachbarschaftsmuster in frühen Schichten, allmähliche Abschwächung in späteren Schichten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Universelles Nachbarschaftsmuster: Kausale Transformer bilden natürlicherweise nach der ersten Aufmerksamkeitsschicht ein Nachbarschaftsmuster
Positionsinformationskodierung: Hohe Ähnlichkeit benachbarter Einbettungen ermöglicht Positionsrekonstruktion
Mechanismuserklärung: Der Durchschnittseffekt erklärt mathematisch das Auftreten des Musters
Praktischer Wert: Kosinus-Ähnlichkeit eignet sich besser als Einbettungsvarianz als Positionsmerkmal

Einschränkungen

Datensatz-Einschränkung: Hauptsächlich auf synthetischen Aufgaben validiert, Generalisierbarkeit auf echte Datensätze erfordert weitere Forschung
Architektur-Abhängigkeit: Schlussfolgerungen basieren auf spezifischer Transformer-Architektur, Anwendbarkeit auf andere Varianten ist unbekannt
Vollständigkeitsproblem: Weder Nachbarschaftsmuster noch Varianz können 100% der Aufgabenleistung vollständig erklären

Zukünftige Richtungen

Großflächige Validierung: Validierung des Nachbarschaftsmusters bei echten Sprachmodellierungsaufgaben
Mechanismus-Fusion: Erforschung der Kombination von Nachbarschaftsmuster mit anderen Positionskodierungsmechanismen
Theoretische Verbesserung: Aufbau eines vollständigeren theoretischen Rahmens für Positionsinformationsdarstellung

Tiefgreifende Bewertung

Stärken

Innovative Perspektive: Verständnis von Positionsinformationen aus geometrischer Ähnlichkeitsperspektive bietet neue theoretische Einsichten
Rigorose Validierung: Umfassende Überprüfung der Hypothese über mehrere Aufgaben, Konfigurationen und Analysemethoden
Mathematische Grundlage: Bereitstellung theoretischer Erklärung für das Auftreten des Nachbarschaftsmusters
Praktisches Werkzeug: Nachbarschaftswahrscheinlichkeits-Score bietet effektive Methode zur Quantifizierung von Positionsinformationen

Mängel

Aufgaben-Einschränkung: Synthetische Aufgaben könnten die Komplexität echter Anwendungsszenarien nicht vollständig widerspiegeln
Unvollständiger Mechanismus: Bestätigung, dass bestehende Theorie Modellleistung nicht vollständig erklären kann
Rechenkomplexität: Berechnung der Selbst-Kosinus-Ähnlichkeitsmatrix könnte bei langen Sequenzen kostspielig sein

Einflussfähigkeit

Theoretischer Beitrag: Neue Perspektive zum Verständnis der Positionsdarstellung in Transformern
Praktische Anleitung: Theoretische Unterstützung für die Gestaltung von Modellen ohne Positionskodierung
Forschungsinspiration: Eröffnung neuer Richtung zur Analyse von Transformer-Innenmechanismen aus geometrischer Perspektive

Anwendungsszenarien

Leichtgewichtige Modelle: Modelldesign zur Reduzierung von Positionskodierungs-Parametern
Langsequenz-Verarbeitung: Sequenzmodellierung, die Positionskodierungs-Einschränkungen vermeidet
Modellanalyse: Verständnis und Debugging von Transformer-Innendarstellungen

Referenzen

Dieses Paper bezieht sich hauptsächlich auf folgende wichtige Arbeiten:

Haviv et al. (2022): Erstmaliger Nachweis der Machbarkeit des Trainings ohne Positionskodierung
Chi et al. (2023): Vorschlag der Varianz-Abnahmehypothese für Positionsinformationen
Tsai et al. (2019): Analyse der Permutationseigenschaften von Aufmerksamkeitsmechanismen
Vaswani et al. (2017): Originales Transformer-Paper

Diese Forschung bietet eine wichtige neue Perspektive zum Verständnis, wie Transformer Positionsinformationen verarbeiten. Obwohl sie in ihrer Vollständigkeit noch Mängel aufweist, legen ihre theoretischen Einsichten und experimentellen Erkenntnisse eine solide Grundlage für die weitere Entwicklung dieses Forschungsbereichs.