Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic
Positionsinformation entsteht in kausalen Transformern ohne Positionskodierungen durch Ähnlichkeit benachbarter Einbettungen
Diese Forschung untersucht, wie Transformer mit kausaler Aufmerksamkeit Aufgaben lösen können, die Positionsinformationen erfordern, ohne explizite Positionskodierungen zu verwenden. Die Autoren schlagen eine neue Hypothese vor und überprüfen diese: Positionsinformationen können durch die Ähnlichkeit zwischen benachbarten Einbettungsvektoren gespeichert werden. Die Forschung zeigt, dass benachbarte Einbettungsvektoren ähnlicher sind als weiter entfernte Vektoren, was dem Transformer ermöglicht, die Positionsinformationen von Tokens zu rekonstruieren. Dieses Muster wird sowohl in trainierten als auch in zufällig initialisierten kausalen Transformer-Modellen beobachtet.
Die konventionelle Ansicht besagt, dass Transformer explizite Positionskodierungen benötigen, um Positionsinformationen von Tokens in Sequenzen zu verarbeiten. Jedoch deuten neuere Forschungen (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) darauf hin, dass reine Decoder-Transformer mit nur kausaler Aufmerksamkeit Positionsinformationen ohne Positionskodierungen erlernen können.
Theoretische Lücke: Bestehende Forschungen fehlt ein tiefes Verständnis dafür, wie kausale Transformer Positionsinformationen speichern
Mechanismusforschung: Chi et al. (2023) schlagen vor, dass Positionsinformationen in der Einbettungsvarianz gespeichert sind, aber diese Erklärung könnte unzureichend sein
Bedarf für neue Perspektiven: Es ist notwendig, die Darstellungsmechanismen von Positionsinformationen aus neuen Blickwinkeln zu verstehen
Nicht-kausale Aufmerksamkeitsmechanismen sind permutationsinvariant gegenüber der Anordnung von Input-Tokens und können Positionsinformationen nicht verarbeiten
Chi et al.s Varianztheorie zeigt in einigen Experimenten schlechte Leistung und kann die beobachteten Phänomene nicht vollständig erklären
Nachbarschaftsmuster-Hypothese: Entdeckung, dass Einbettungsvektoren an benachbarten Positionen höhere Kosinus-Ähnlichkeit aufweisen und ein "Nachbarschaftsmuster" bilden
Theoretische Analyse: Mathematische Erklärung dafür, warum das Nachbarschaftsmuster in der ersten Schicht der kausalen Aufmerksamkeit auftritt
Umfassende experimentelle Validierung: Überprüfung des Nachbarschaftsmusters über mehrere Aufgaben, Modellkonfigurationen und Initialisierungsschemata hinweg
Quantifizierungsmethode: Einführung eines Nachbarschaftswahrscheinlichkeits-Scores zur Quantifizierung der Stärke von Positionsinformationen
Vergleichende Analyse: Nachweis durch Sondierungsexperimente, dass Kosinus-Ähnlichkeit Positionsinformationen effektiver kodiert als Einbettungsvarianz
Untersuchung, wie kausale Transformer Positionsinformationen ohne explizite Positionskodierungen darstellen und nutzen, mit Fokus auf Ähnlichkeitsmuster zwischen Einbettungsvektoren.
Das Nachbarschaftsmuster bezieht sich auf die Eigenschaft der Selbst-Kosinus-Ähnlichkeitsmatrix, dass Werte in der Nähe der Diagonale höher sind und Werte weiter weg von der Diagonale niedriger sind, was anzeigt, dass Einbettungsvektoren an benachbarten Positionen ähnlicher sind.
Dieses Paper bezieht sich hauptsächlich auf folgende wichtige Arbeiten:
Haviv et al. (2022): Erstmaliger Nachweis der Machbarkeit des Trainings ohne Positionskodierung
Chi et al. (2023): Vorschlag der Varianz-Abnahmehypothese für Positionsinformationen
Tsai et al. (2019): Analyse der Permutationseigenschaften von Aufmerksamkeitsmechanismen
Vaswani et al. (2017): Originales Transformer-Paper
Diese Forschung bietet eine wichtige neue Perspektive zum Verständnis, wie Transformer Positionsinformationen verarbeiten. Obwohl sie in ihrer Vollständigkeit noch Mängel aufweist, legen ihre theoretischen Einsichten und experimentellen Erkenntnisse eine solide Grundlage für die weitere Entwicklung dieses Forschungsbereichs.