2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic

La Información de Posición Emerge en Transformers Causales sin Codificaciones Posicionales mediante la Similitud de Incrustaciones Adyacentes

Información Básica

  • ID del Artículo: 2501.00073
  • Título: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
  • Autores: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
  • Clasificación: cs.CL (Lingüística Computacional), cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 30 de diciembre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2501.00073

Resumen

Este estudio investiga cómo los Transformers con atención causal resuelven tareas que requieren información de posición sin utilizar codificaciones posicionales. Los autores proponen y verifican una nueva hipótesis: la información de posición puede almacenarse mediante la similitud entre vectores de incrustación adyacentes. El estudio descubre que los vectores de incrustación adyacentes son más similares que los vectores distantes, lo que permite al Transformer reconstruir la información de posición de los tokens. Este patrón se observa tanto en modelos Transformer causales entrenados como en aquellos con inicialización aleatoria.

Antecedentes y Motivación de la Investigación

Definición del Problema

La sabiduría convencional sostiene que los Transformers requieren codificaciones posicionales explícitas para procesar la información de posición de los tokens en una secuencia. Sin embargo, investigaciones recientes (Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023) demuestran que los Transformers de solo decodificador con únicamente atención causal pueden aprender información de posición sin codificaciones posicionales.

Motivación de la Investigación

  1. Vacío Teórico: La investigación existente carece de una comprensión profunda de cómo los Transformers causales almacenan la información de posición
  2. Exploración de Mecanismos: Chi et al. (2023) proponen que la información de posición se almacena en la varianza de las incrustaciones, pero esta explicación puede ser insuficiente
  3. Necesidad de Nueva Perspectiva: Se requiere entender los mecanismos de representación de la información de posición desde nuevos ángulos

Limitaciones de los Métodos Existentes

  • Los mecanismos de atención no causal son invariantes a la permutación de tokens de entrada, incapaces de procesar información de posición
  • La teoría de varianza de Chi et al. muestra un desempeño deficiente en ciertos experimentos, sin poder explicar completamente los fenómenos observados

Contribuciones Principales

  1. Propuesta de la Hipótesis del Patrón Adyacente: Descubrimiento de que los vectores de incrustación en posiciones adyacentes exhiben mayor similitud coseno, formando un "patrón adyacente"
  2. Análisis Teórico: Explicación matemática de por qué el patrón adyacente emerge en la primera capa de atención causal
  3. Verificación Experimental Extensiva: Validación de la existencia del patrón adyacente en múltiples tareas, configuraciones de modelos y esquemas de inicialización
  4. Método de Evaluación Cuantitativa: Propuesta de la puntuación de probabilidad de adyacencia para cuantificar la intensidad de la información de posición
  5. Análisis Comparativo: Demostración mediante experimentos de sondeo de que la similitud coseno codifica la información de posición de manera más efectiva que la varianza de incrustación

Explicación Detallada del Método

Definición de la Tarea

Investigación de cómo los Transformers causales representan y utilizan la información de posición sin codificaciones posicionales explícitas, enfocándose en los patrones de similitud entre vectores de incrustación.

Conceptos Principales

Matriz de Similitud Coseno Automática

Para una secuencia de incrustaciones de tokens de longitud n y dimensión d, X ∈ R^(n×d), la matriz de similitud coseno automática C se define como:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

Patrón Adyacente

El patrón adyacente se refiere a la característica de la matriz de similitud coseno automática donde los valores cerca de la diagonal son más altos y los valores alejados de la diagonal son más bajos, indicando que los vectores de incrustación en posiciones adyacentes son más similares.

Puntuación de Probabilidad de Adyacencia

Para cuantificar la intensidad del patrón adyacente, los autores proponen la puntuación de probabilidad de adyacencia:

Para la fila k, la puntuación de probabilidad de adyacencia a nivel de fila se define como:

P_Adjacency = P(C_ki < C_kj si i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

La puntuación de probabilidad de adyacencia de toda la matriz es el promedio de todas las filas.

Análisis Teórico

Efecto de Promediación

En la primera capa, la incrustación en la posición k se calcula mediante una combinación lineal de las k-1 incrustaciones anteriores:

  • Incrustación en posición k+t: Σ(i=1 a k+t) α_i * e_i
  • Incrustación en posición k+t+1: Σ(i=1 a k+t+1) β_i * e_i

Dado que las posiciones adyacentes comparten más incrustaciones de entrada, la diferencia en su producto punto es positiva:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

Esto explica matemáticamente la aparición del patrón adyacente.

Configuración Experimental

Conjuntos de Datos y Tareas

Los autores diseñaron cuatro tareas sintéticas que requieren información de posición:

  1. Tarea de Adición: Generar la respuesta para "123+456=", con longitud de entrada máxima de 9
  2. Tarea de Inversión: Para "rev(1234)=" generar "4321", con longitud de entrada máxima de 22
  3. Tarea de Indexación: Para "wherex(134504392,4)=" generar la posición de primera aparición "2", con longitud de entrada máxima de 20
  4. Tarea de Ordenamiento: Dado una secuencia original y una secuencia reordenada, generar el nuevo orden de índices, con longitud de entrada máxima de 18

Configuración del Modelo

  • Modelo Base: NanoGPT de 6 capas, 10.6 millones de parámetros
  • Configuraciones Variantes: 6/12/24 capas, 192/384/768 dimensiones ocultas
  • Inicialización: N(0, 0.02) por defecto, pruebas con diferentes medias y varianzas
  • Configuración de Entrenamiento: 20,000 muestras de entrenamiento y 20,000 muestras de prueba por tarea, 5 semillas aleatorias

Métricas de Evaluación

  1. Puntuación de Probabilidad de Adyacencia: Cuantificación de la intensidad del patrón adyacente
  2. Precisión de la Tarea: Desempeño del modelo en cada tarea
  3. Experimentos de Sondeo: Uso de MLP de 4 capas para sondear información de posición, evaluando NRMSE y Pearson-R

Resultados Experimentales

Hallazgos Principales

1. Presencia Universal del Patrón Adyacente

  • En la capa de incrustación de tokens, la puntuación de probabilidad de adyacencia es aproximadamente 0.5 (nivel aleatorio)
  • Después de la primera capa de atención causal, la puntuación salta a 0.8-1.0
  • Este patrón se mantiene estable antes y después del entrenamiento, en diferentes tareas y configuraciones de modelos

2. Resultados del Análisis por Capas

CapaModelo InicializadoModelo Entrenado
Incrustación0.480.54
Capa 10.980.89
Capa 20.990.97
Capa 30.990.98
Capa 60.990.82

3. Sensibilidad a Hiperparámetros

  • Impacto del Número de Capas: Modelos de 6-24 capas muestran patrón adyacente
  • Impacto de la Dimensión: Configuraciones de 192-768 dimensiones mantienen el patrón
  • Impacto de la Inicialización: El patrón es estable bajo esquemas de inicialización estándar (σ ≤ 0.02)

Experimentos de Ablación

Pruebas de Esquemas de Inicialización

Se probaron diferentes medias (μ ∈ {0,4,8}) y desviaciones estándar (σ ∈ {0.002,0.02,0.2}):

  • Varianza pequeña (σ ≤ 0.02): Patrón adyacente estable
  • Varianza grande (σ = 0.2): Patrón desaparece
  • Media grande tiene impacto menor en el patrón

Comparación con Teoría de Varianza

Comparación mediante experimentos de sondeo de similitud coseno y varianza de incrustación como características de posición:

Tipo de CaracterísticaPearson-RNRMSE
Vector de Incrustación0.710.20
Varianza de Incrustación0.490.23
Similitud Coseno0.930.11

Análisis de Casos

La Figura 1 muestra la visualización de la matriz de similitud coseno automática en la tarea de inversión:

  • Modelo inicializado: Patrón diagonal claro desde la capa 1
  • Modelo entrenado: Primeras capas mantienen patrón adyacente fuerte, capas posteriores se debilitan gradualmente

Trabajo Relacionado

Investigación sobre Codificaciones Posicionales

  • Métodos Tradicionales: Codificaciones de posición absoluta, codificaciones de posición relativa
  • Descubrimientos Recientes: Haviv et al. (2022) demuestra por primera vez que los Transformers causales pueden entrenarse sin codificaciones posicionales

Mecanismos de Atención Causal

  • Invariancia a Permutaciones: Tsai et al. (2019) demuestra que la atención no causal es invariante a permutaciones
  • Almacenamiento de Información de Posición: Chi et al. (2023) propone la hipótesis de varianza decreciente

Contribución de Este Trabajo

En comparación con la teoría de varianza de Chi et al., la hipótesis del patrón adyacente de este artículo:

  1. Proporciona una explicación geométrica más intuitiva
  2. Muestra mejor desempeño en experimentos de sondeo
  3. Es aplicable a configuraciones de modelos más amplias

Conclusiones y Discusión

Conclusiones Principales

  1. Presencia Universal del Patrón Adyacente: Los Transformers causales forman naturalmente un patrón adyacente después de la primera capa de atención
  2. Codificación de Información de Posición: La alta similitud de incrustaciones adyacentes proporciona la posibilidad de reconstrucción de posición
  3. Explicación del Mecanismo: El efecto de promediación explica matemáticamente la aparición del patrón
  4. Valor Práctico: La similitud coseno es más adecuada que la varianza de incrustación como característica de posición

Limitaciones

  1. Limitación de Conjuntos de Datos: La verificación se realiza principalmente en tareas sintéticas, requiriéndose investigación adicional sobre la generalización a conjuntos de datos reales
  2. Dependencia de Arquitectura: Las conclusiones se basan en una arquitectura Transformer específica, cuya aplicabilidad a otras variantes es desconocida
  3. Problema de Completitud: Ni el patrón adyacente ni la varianza pueden explicar completamente el 100% del desempeño de la tarea

Direcciones Futuras

  1. Validación a Gran Escala: Verificación del patrón adyacente en tareas reales de modelado de lenguaje
  2. Fusión de Mecanismos: Exploración de la combinación del patrón adyacente con otros mecanismos de codificación posicional
  3. Perfeccionamiento Teórico: Establecimiento de un marco teórico más completo para la representación de información de posición

Evaluación Profunda

Fortalezas

  1. Perspectiva Innovadora: Comprensión de la información de posición desde el ángulo de similitud geométrica, proporcionando nuevas perspectivas teóricas
  2. Verificación Rigurosa: Validación exhaustiva de la hipótesis mediante múltiples tareas, configuraciones y métodos de análisis
  3. Fundamento Matemático: Proporciona explicación teórica de por qué emerge el patrón adyacente
  4. Herramienta Práctica: La puntuación de probabilidad de adyacencia proporciona un método efectivo para cuantificar información de posición

Insuficiencias

  1. Limitación de Tareas: Las tareas sintéticas pueden no reflejar completamente la complejidad de escenarios de aplicación real
  2. Incompletitud del Mecanismo: Reconoce que la teoría existente no puede explicar completamente el desempeño del modelo
  3. Costo Computacional: El cálculo de la matriz de similitud coseno automática puede tener alto costo en secuencias largas

Impacto

  1. Contribución Teórica: Proporciona nueva perspectiva para entender la representación de posición en Transformers
  2. Orientación Práctica: Proporciona apoyo teórico para el diseño de modelos sin codificaciones posicionales
  3. Inspiración para Investigación: Abre nueva dirección para analizar mecanismos internos de Transformers desde perspectiva geométrica

Escenarios Aplicables

  1. Modelos Ligeros: Diseño de modelos que reducen parámetros de codificación posicional
  2. Procesamiento de Secuencias Largas: Modelado de secuencias que evita limitaciones de codificaciones posicionales
  3. Análisis de Modelos: Comprensión y depuración de representaciones internas de Transformers

Referencias

Este artículo hace referencia principalmente a los siguientes trabajos importantes:

  • Haviv et al. (2022): Demuestra por primera vez la viabilidad del entrenamiento sin codificaciones posicionales
  • Chi et al. (2023): Propone la hipótesis de varianza decreciente para información de posición
  • Tsai et al. (2019): Analiza las propiedades de permutación del mecanismo de atención
  • Vaswani et al. (2017): Artículo original de Transformer

Esta investigación proporciona una nueva perspectiva importante para entender cómo los Transformers procesan información de posición. Aunque aún presenta insuficiencias en completitud, sus perspectivas teóricas y hallazgos experimentales sientan una base sólida para el desarrollo futuro en este campo.