2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy

Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.

academic

La Información de Posición Emerge en Transformers Causales sin Codificaciones Posicionales mediante la Similitud de Incrustaciones Adyacentes

Información Básica

ID del Artículo: 2501.00073
Título: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
Autores: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
Clasificación: cs.CL (Lingüística Computacional), cs.LG (Aprendizaje Automático)
Fecha de Publicación: 30 de diciembre de 2024
Enlace del Artículo: https://arxiv.org/abs/2501.00073

Resumen

Este estudio investiga cómo los Transformers con atención causal resuelven tareas que requieren información de posición sin utilizar codificaciones posicionales. Los autores proponen y verifican una nueva hipótesis: la información de posición puede almacenarse mediante la similitud entre vectores de incrustación adyacentes. El estudio descubre que los vectores de incrustación adyacentes son más similares que los vectores distantes, lo que permite al Transformer reconstruir la información de posición de los tokens. Este patrón se observa tanto en modelos Transformer causales entrenados como en aquellos con inicialización aleatoria.

Antecedentes y Motivación de la Investigación

Definición del Problema

La sabiduría convencional sostiene que los Transformers requieren codificaciones posicionales explícitas para procesar la información de posición de los tokens en una secuencia. Sin embargo, investigaciones recientes (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) demuestran que los Transformers de solo decodificador con únicamente atención causal pueden aprender información de posición sin codificaciones posicionales.

Motivación de la Investigación

Vacío Teórico: La investigación existente carece de una comprensión profunda de cómo los Transformers causales almacenan la información de posición
Exploración de Mecanismos: Chi et al. (2023) proponen que la información de posición se almacena en la varianza de las incrustaciones, pero esta explicación puede ser insuficiente
Necesidad de Nueva Perspectiva: Se requiere entender los mecanismos de representación de la información de posición desde nuevos ángulos

Limitaciones de los Métodos Existentes

Los mecanismos de atención no causal son invariantes a la permutación de tokens de entrada, incapaces de procesar información de posición
La teoría de varianza de Chi et al. muestra un desempeño deficiente en ciertos experimentos, sin poder explicar completamente los fenómenos observados

Contribuciones Principales

Propuesta de la Hipótesis del Patrón Adyacente: Descubrimiento de que los vectores de incrustación en posiciones adyacentes exhiben mayor similitud coseno, formando un "patrón adyacente"
Análisis Teórico: Explicación matemática de por qué el patrón adyacente emerge en la primera capa de atención causal
Verificación Experimental Extensiva: Validación de la existencia del patrón adyacente en múltiples tareas, configuraciones de modelos y esquemas de inicialización
Método de Evaluación Cuantitativa: Propuesta de la puntuación de probabilidad de adyacencia para cuantificar la intensidad de la información de posición
Análisis Comparativo: Demostración mediante experimentos de sondeo de que la similitud coseno codifica la información de posición de manera más efectiva que la varianza de incrustación

Explicación Detallada del Método

Definición de la Tarea

Investigación de cómo los Transformers causales representan y utilizan la información de posición sin codificaciones posicionales explícitas, enfocándose en los patrones de similitud entre vectores de incrustación.

Conceptos Principales

Matriz de Similitud Coseno Automática

Para una secuencia de incrustaciones de tokens de longitud n y dimensión d, X ∈ R^(n×d), la matriz de similitud coseno automática C se define como:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

Patrón Adyacente

El patrón adyacente se refiere a la característica de la matriz de similitud coseno automática donde los valores cerca de la diagonal son más altos y los valores alejados de la diagonal son más bajos, indicando que los vectores de incrustación en posiciones adyacentes son más similares.

Puntuación de Probabilidad de Adyacencia

Para cuantificar la intensidad del patrón adyacente, los autores proponen la puntuación de probabilidad de adyacencia:

Para la fila k, la puntuación de probabilidad de adyacencia a nivel de fila se define como:

P_Adjacency = P(C_ki < C_kj si i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

La puntuación de probabilidad de adyacencia de toda la matriz es el promedio de todas las filas.

Análisis Teórico

Efecto de Promediación

En la primera capa, la incrustación en la posición k se calcula mediante una combinación lineal de las k-1 incrustaciones anteriores:

Incrustación en posición k+t: Σ(i=1 a k+t) α_i * e_i
Incrustación en posición k+t+1: Σ(i=1 a k+t+1) β_i * e_i

Dado que las posiciones adyacentes comparten más incrustaciones de entrada, la diferencia en su producto punto es positiva:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

Esto explica matemáticamente la aparición del patrón adyacente.

Configuración Experimental

Conjuntos de Datos y Tareas

Los autores diseñaron cuatro tareas sintéticas que requieren información de posición:

Tarea de Adición: Generar la respuesta para "123+456=", con longitud de entrada máxima de 9
Tarea de Inversión: Para "rev(1234)=" generar "4321", con longitud de entrada máxima de 22
Tarea de Indexación: Para "wherex(134504392,4)=" generar la posición de primera aparición "2", con longitud de entrada máxima de 20
Tarea de Ordenamiento: Dado una secuencia original y una secuencia reordenada, generar el nuevo orden de índices, con longitud de entrada máxima de 18

Configuración del Modelo

Modelo Base: NanoGPT de 6 capas, 10.6 millones de parámetros
Configuraciones Variantes: 6/12/24 capas, 192/384/768 dimensiones ocultas
Inicialización: N(0, 0.02) por defecto, pruebas con diferentes medias y varianzas
Configuración de Entrenamiento: 20,000 muestras de entrenamiento y 20,000 muestras de prueba por tarea, 5 semillas aleatorias

Métricas de Evaluación

Puntuación de Probabilidad de Adyacencia: Cuantificación de la intensidad del patrón adyacente
Precisión de la Tarea: Desempeño del modelo en cada tarea
Experimentos de Sondeo: Uso de MLP de 4 capas para sondear información de posición, evaluando NRMSE y Pearson-R

Resultados Experimentales

Hallazgos Principales

1. Presencia Universal del Patrón Adyacente

En la capa de incrustación de tokens, la puntuación de probabilidad de adyacencia es aproximadamente 0.5 (nivel aleatorio)
Después de la primera capa de atención causal, la puntuación salta a 0.8-1.0
Este patrón se mantiene estable antes y después del entrenamiento, en diferentes tareas y configuraciones de modelos

2. Resultados del Análisis por Capas

Capa	Modelo Inicializado	Modelo Entrenado
Incrustación	0.48	0.54
Capa 1	0.98	0.89
Capa 2	0.99	0.97
Capa 3	0.99	0.98
Capa 6	0.99	0.82

3. Sensibilidad a Hiperparámetros

Impacto del Número de Capas: Modelos de 6-24 capas muestran patrón adyacente
Impacto de la Dimensión: Configuraciones de 192-768 dimensiones mantienen el patrón
Impacto de la Inicialización: El patrón es estable bajo esquemas de inicialización estándar (σ ≤ 0.02)

Experimentos de Ablación

Pruebas de Esquemas de Inicialización

Se probaron diferentes medias (μ ∈ {0,4,8}) y desviaciones estándar (σ ∈ {0.002,0.02,0.2}):

Varianza pequeña (σ ≤ 0.02): Patrón adyacente estable
Varianza grande (σ = 0.2): Patrón desaparece
Media grande tiene impacto menor en el patrón

Comparación con Teoría de Varianza

Comparación mediante experimentos de sondeo de similitud coseno y varianza de incrustación como características de posición:

Tipo de Característica	Pearson-R	NRMSE
Vector de Incrustación	0.71	0.20
Varianza de Incrustación	0.49	0.23
Similitud Coseno	0.93	0.11

Análisis de Casos

La Figura 1 muestra la visualización de la matriz de similitud coseno automática en la tarea de inversión:

Modelo inicializado: Patrón diagonal claro desde la capa 1
Modelo entrenado: Primeras capas mantienen patrón adyacente fuerte, capas posteriores se debilitan gradualmente

Trabajo Relacionado

Investigación sobre Codificaciones Posicionales

Métodos Tradicionales: Codificaciones de posición absoluta, codificaciones de posición relativa
Descubrimientos Recientes: Haviv et al. (2022) demuestra por primera vez que los Transformers causales pueden entrenarse sin codificaciones posicionales

Mecanismos de Atención Causal

Invariancia a Permutaciones: Tsai et al. (2019) demuestra que la atención no causal es invariante a permutaciones
Almacenamiento de Información de Posición: Chi et al. (2023) propone la hipótesis de varianza decreciente

Contribución de Este Trabajo

En comparación con la teoría de varianza de Chi et al., la hipótesis del patrón adyacente de este artículo:

Proporciona una explicación geométrica más intuitiva
Muestra mejor desempeño en experimentos de sondeo
Es aplicable a configuraciones de modelos más amplias

Conclusiones y Discusión

Conclusiones Principales

Presencia Universal del Patrón Adyacente: Los Transformers causales forman naturalmente un patrón adyacente después de la primera capa de atención
Codificación de Información de Posición: La alta similitud de incrustaciones adyacentes proporciona la posibilidad de reconstrucción de posición
Explicación del Mecanismo: El efecto de promediación explica matemáticamente la aparición del patrón
Valor Práctico: La similitud coseno es más adecuada que la varianza de incrustación como característica de posición

Limitaciones

Limitación de Conjuntos de Datos: La verificación se realiza principalmente en tareas sintéticas, requiriéndose investigación adicional sobre la generalización a conjuntos de datos reales
Dependencia de Arquitectura: Las conclusiones se basan en una arquitectura Transformer específica, cuya aplicabilidad a otras variantes es desconocida
Problema de Completitud: Ni el patrón adyacente ni la varianza pueden explicar completamente el 100% del desempeño de la tarea

Direcciones Futuras

Validación a Gran Escala: Verificación del patrón adyacente en tareas reales de modelado de lenguaje
Fusión de Mecanismos: Exploración de la combinación del patrón adyacente con otros mecanismos de codificación posicional
Perfeccionamiento Teórico: Establecimiento de un marco teórico más completo para la representación de información de posición

Evaluación Profunda

Fortalezas

Perspectiva Innovadora: Comprensión de la información de posición desde el ángulo de similitud geométrica, proporcionando nuevas perspectivas teóricas
Verificación Rigurosa: Validación exhaustiva de la hipótesis mediante múltiples tareas, configuraciones y métodos de análisis
Fundamento Matemático: Proporciona explicación teórica de por qué emerge el patrón adyacente
Herramienta Práctica: La puntuación de probabilidad de adyacencia proporciona un método efectivo para cuantificar información de posición

Insuficiencias

Limitación de Tareas: Las tareas sintéticas pueden no reflejar completamente la complejidad de escenarios de aplicación real
Incompletitud del Mecanismo: Reconoce que la teoría existente no puede explicar completamente el desempeño del modelo
Costo Computacional: El cálculo de la matriz de similitud coseno automática puede tener alto costo en secuencias largas

Impacto

Contribución Teórica: Proporciona nueva perspectiva para entender la representación de posición en Transformers
Orientación Práctica: Proporciona apoyo teórico para el diseño de modelos sin codificaciones posicionales
Inspiración para Investigación: Abre nueva dirección para analizar mecanismos internos de Transformers desde perspectiva geométrica

Escenarios Aplicables

Modelos Ligeros: Diseño de modelos que reducen parámetros de codificación posicional
Procesamiento de Secuencias Largas: Modelado de secuencias que evita limitaciones de codificaciones posicionales
Análisis de Modelos: Comprensión y depuración de representaciones internas de Transformers

Referencias

Este artículo hace referencia principalmente a los siguientes trabajos importantes:

Haviv et al. (2022): Demuestra por primera vez la viabilidad del entrenamiento sin codificaciones posicionales
Chi et al. (2023): Propone la hipótesis de varianza decreciente para información de posición
Tsai et al. (2019): Analiza las propiedades de permutación del mecanismo de atención
Vaswani et al. (2017): Artículo original de Transformer

Esta investigación proporciona una nueva perspectiva importante para entender cómo los Transformers procesan información de posición. Aunque aún presenta insuficiencias en completitud, sus perspectivas teóricas y hallazgos experimentales sientan una base sólida para el desarrollo futuro en este campo.