Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic
La Información de Posición Emerge en Transformers Causales sin Codificaciones Posicionales mediante la Similitud de Incrustaciones Adyacentes
Este estudio investiga cómo los Transformers con atención causal resuelven tareas que requieren información de posición sin utilizar codificaciones posicionales. Los autores proponen y verifican una nueva hipótesis: la información de posición puede almacenarse mediante la similitud entre vectores de incrustación adyacentes. El estudio descubre que los vectores de incrustación adyacentes son más similares que los vectores distantes, lo que permite al Transformer reconstruir la información de posición de los tokens. Este patrón se observa tanto en modelos Transformer causales entrenados como en aquellos con inicialización aleatoria.
La sabiduría convencional sostiene que los Transformers requieren codificaciones posicionales explícitas para procesar la información de posición de los tokens en una secuencia. Sin embargo, investigaciones recientes (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) demuestran que los Transformers de solo decodificador con únicamente atención causal pueden aprender información de posición sin codificaciones posicionales.
Vacío Teórico: La investigación existente carece de una comprensión profunda de cómo los Transformers causales almacenan la información de posición
Exploración de Mecanismos: Chi et al. (2023) proponen que la información de posición se almacena en la varianza de las incrustaciones, pero esta explicación puede ser insuficiente
Necesidad de Nueva Perspectiva: Se requiere entender los mecanismos de representación de la información de posición desde nuevos ángulos
Propuesta de la Hipótesis del Patrón Adyacente: Descubrimiento de que los vectores de incrustación en posiciones adyacentes exhiben mayor similitud coseno, formando un "patrón adyacente"
Análisis Teórico: Explicación matemática de por qué el patrón adyacente emerge en la primera capa de atención causal
Verificación Experimental Extensiva: Validación de la existencia del patrón adyacente en múltiples tareas, configuraciones de modelos y esquemas de inicialización
Método de Evaluación Cuantitativa: Propuesta de la puntuación de probabilidad de adyacencia para cuantificar la intensidad de la información de posición
Análisis Comparativo: Demostración mediante experimentos de sondeo de que la similitud coseno codifica la información de posición de manera más efectiva que la varianza de incrustación
Investigación de cómo los Transformers causales representan y utilizan la información de posición sin codificaciones posicionales explícitas, enfocándose en los patrones de similitud entre vectores de incrustación.
El patrón adyacente se refiere a la característica de la matriz de similitud coseno automática donde los valores cerca de la diagonal son más altos y los valores alejados de la diagonal son más bajos, indicando que los vectores de incrustación en posiciones adyacentes son más similares.
Métodos Tradicionales: Codificaciones de posición absoluta, codificaciones de posición relativa
Descubrimientos Recientes: Haviv et al. (2022) demuestra por primera vez que los Transformers causales pueden entrenarse sin codificaciones posicionales
Limitación de Conjuntos de Datos: La verificación se realiza principalmente en tareas sintéticas, requiriéndose investigación adicional sobre la generalización a conjuntos de datos reales
Dependencia de Arquitectura: Las conclusiones se basan en una arquitectura Transformer específica, cuya aplicabilidad a otras variantes es desconocida
Problema de Completitud: Ni el patrón adyacente ni la varianza pueden explicar completamente el 100% del desempeño de la tarea
Este artículo hace referencia principalmente a los siguientes trabajos importantes:
Haviv et al. (2022): Demuestra por primera vez la viabilidad del entrenamiento sin codificaciones posicionales
Chi et al. (2023): Propone la hipótesis de varianza decreciente para información de posición
Tsai et al. (2019): Analiza las propiedades de permutación del mecanismo de atención
Vaswani et al. (2017): Artículo original de Transformer
Esta investigación proporciona una nueva perspectiva importante para entender cómo los Transformers procesan información de posición. Aunque aún presenta insuficiencias en completitud, sus perspectivas teóricas y hallazgos experimentales sientan una base sólida para el desarrollo futuro en este campo.