2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic

Translution: Unificación de Autoatención y Convolución para Modelado Adaptativo y Relativo

Información Básica

  • ID del Artículo: 2510.10060
  • Título: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
  • Autores: Hehe Fan (Universidad de Zhejiang), Yi Yang (Universidad de Zhejiang), Mohan Kankanhalli (Universidad Nacional de Singapur), Fei Wu (Universidad de Zhejiang)
  • Clasificación: cs.LG cs.AI cs.CL cs.CV
  • Fecha de Publicación: 11 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10060v1

Resumen

Al modelar datos, los autores argumentan que intervienen dos aspectos clave: 1) identificar elementos relacionados con el elemento central (como el campo receptivo de convolución) o elemento de consulta (como la autoatención); 2) codificar efectivamente estas marcas. La autoatención puede identificar adaptativamente estos elementos, pero depende de incrustaciones de posición absoluta para el aprendizaje de representación de estructura. En contraste, la convolución codifica elementos de manera relativa, pero el tamaño de núcleo fijo limita su capacidad para seleccionar adaptativamente elementos relevantes. Este artículo propone la operación Translution, que unifica la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución. Sin embargo, esta integración resulta en un aumento significativo en el número de parámetros, superando los recursos computacionales disponibles actualmente. Por lo tanto, los autores proponen la variante ligera α-Translution. Los experimentos demuestran que Translution supera a la autoatención en tareas de visión por computadora y procesamiento del lenguaje natural.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central que enfrenta el aprendizaje profundo actual es cómo modelar datos de manera efectiva. Los autores descomponen el modelado de datos en dos aspectos clave:

  1. Identificación de Elementos Relevantes: Determinar qué elementos de datos están relacionados con el elemento que se está procesando actualmente
  2. Codificación Efectiva: Codificar estos elementos relevantes en representaciones efectivas

Limitaciones de Métodos Existentes

Limitaciones de Redes Neuronales Convolucionales:

  • Utilizan núcleos de tamaño fijo para definir campos receptivos locales
  • No pueden evitar incluir píxeles no relacionados, especialmente en bordes de objetos o áreas de fondo
  • Aunque pueden codificar estructura local de manera relativa, carecen de adaptabilidad

Limitaciones del Mecanismo de Autoatención:

  • Pueden identificar adaptativamente áreas relevantes sin restricciones de localidad predefinidas
  • Dependen de incrustaciones de posición absoluta para capturar información de estructura
  • Pueden tener dificultades para identificar cuando el mismo objeto se mueve a diferentes posiciones

Motivación de la Investigación

Con las extensiones directas de modelos como Transformer encontrando rendimientos decrecientes, los laboratorios de IA han notado que la velocidad de mejora en modelos de próxima generación es menor a la esperada. Bajo saturación de datos y limitaciones de leyes de escala actuales, el diseño de arquitecturas de redes neuronales innovadoras se vuelve crítico.

Contribuciones Principales

  1. Propone la Operación Translution: Unifica la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución
  2. Diseña la Variante Ligera α-Translution: Reduce significativamente el número de parámetros, haciendo el método viable bajo recursos computacionales actuales
  3. Unificación Teórica: Demuestra que la convolución y la autoatención pueden verse como casos especiales de Translution
  4. Validación Experimental: Verifica la efectividad del método en tareas de visión por computadora y procesamiento del lenguaje natural
  5. Implementación de Código Abierto: Proporciona implementación completa de código para uso de la comunidad

Explicación Detallada del Método

Definición de Tarea

Dado datos de entrada (parches de imagen o marcas de texto), el objetivo es aprender una operación que pueda:

  • Identificar adaptativamente elementos relacionados con el elemento de consulta
  • Codificar de manera relativa las relaciones estructurales de estos elementos
  • Generar representaciones de salida efectivas

Arquitectura del Modelo

Operación Translution

Translution adopta un enfoque de estilo convolucional, asignando diferentes matrices de parámetros para cada distancia y dirección:

Codificación de Consulta Relativa: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Codificación de Clave Relativa: kj,i = fj · W^k_{-δx,-δy}
Atención Relativa: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Codificación de Valor Relativa: vi,j = fj · W^v_{δx,δy}
Suma Ponderada: f'i = ∑αi,j × vi,j

Donde W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} son matrices de parámetros aprendibles correspondientes al desplazamiento (δx,δy).

Variante Ligera α-Translution

Dado que Translution requiere (2H-1)×(2W-1)×C×C' parámetros, α-Translution reduce parámetros disminuyendo dimensiones de entrada y salida:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

Donde C1 ≪ C, C2 ≪ C'.

Puntos de Innovación Técnica

1. Unificación Teórica

Los autores demuestran que la convolución y la autoatención son casos especiales de Translution:

  • Convolución: Los pesos de atención son 1 dentro del campo receptivo y 0 fuera
  • Autoatención: Utiliza parámetros W^q, W^k, W^v compartidos, ignorando codificación de dirección y distancia
  • Translution: Combina las ventajas de ambas

2. Codificación de Posición Relativa

A diferencia de métodos existentes (sesgo escalar o suma vectorial), Translution utiliza matrices basadas en desplazamiento para codificación relativa, capturando mejor información de dirección y distancia.

3. Implementación Optimizada en Memoria

Se diseña una implementación eficiente en memoria para α-Translution, reduciendo el uso de memoria máxima de N×N×C' a N×C'+N×N×C2.

Configuración Experimental

Conjuntos de Datos

Tareas de Visión por Computadora:

  • Dynamic MNIST: Conjunto de datos sintético con dígitos moviéndose en región de 84×84 píxeles
  • Static MNIST: Conjunto de datos de control con dígitos fijos en el centro de la imagen
  • ImageNet-1K: Conjunto de datos de clasificación de imágenes a gran escala con 1000 clases

Tareas de Procesamiento del Lenguaje Natural:

  • OpenWebText: 9 mil millones de marcas de entrenamiento, 4 millones de marcas de validación, vocabulario de 50K

Métricas de Evaluación

  • Clasificación de Imágenes: Precisión Top-1 y Top-5
  • Modelado del Lenguaje: Perplejidad

Métodos de Comparación

  • Autoatención estándar (línea base Transformer)
  • Variantes de codificación de posición relativa (Shaw et al., Swin Transformer, ConViT, RoFormer, etc.)
  • Variantes de codificación absoluta (para estudios de ablación)

Detalles de Implementación

  • Configuración de arquitectura: profundidad 6-12 capas, dimensión de incrustación 192-384, cabezas de atención 3-6
  • Dimensiones de compresión predeterminadas de α-Translution: C1 = C2 = 8
  • Tamaño de lote: 256 (ImageNet), 8 (OpenWebText)
  • Todo entrenamiento desde cero, sin preentrenamiento externo

Resultados Experimentales

Resultados Principales

Experimento Dynamic MNIST

MétodoParámetrosStatic→StaticDynamic→DynamicStatic→Dynamic
Autoatención2.7M98.48%92.64%18.18%
α-Translution4.6M98.48%97.31%34.90%
Translution116.2M98.60%97.35%36.40%

Hallazgos Clave: Translution muestra un desempeño significativamente mejor en escenarios de cambio de posición, demostrando las ventajas de la codificación relativa.

Experimento ImageNet-1K

Tomando ViT-A/56 como ejemplo:

MétodoParámetrosTop-1Top-5
Autoatención4.7M46.28%71.17%
α-Translution5.3M48.36%73.31%
Translution38.5M52.41%76.50%

Experimento de Modelado del Lenguaje Natural

MétodoParámetrosPerplejidad
Autoatención22.0M60.40
α-Translution23.7M57.97
Translution127.5M56.26

Estudios de Ablación

1. Impacto del Aumento de Parámetros vs Codificación Relativa

Los experimentos muestran que simplemente aumentar parámetros (codificación absoluta) no produce mejoras de desempeño, demostrando la efectividad del método de codificación relativa en sí.

2. Impacto de Dimensiones de Codificación Relativa

A medida que aumentan C1 y C2, el desempeño de α-Translution mejora, pero la cantidad de parámetros también aumenta, existiendo un equilibrio eficiencia-efectividad.

3. Comparación de Métodos de Codificación de Posición

MétodoParámetrosTop-1Top-5
Sin incrustación de posición4.69M42.49%67.39%
Incrustación de posición estándar4.69M46.28%71.17%
Swin Transformer4.69M46.36%71.31%
RoFormer4.69M46.65%71.51%
α-Translution5.33M48.36%73.31%
Translution38.53M52.41%76.50%

Hallazgos Experimentales

  1. Importancia de la Codificación Relativa: En escenarios de cambio de posición, la codificación relativa supera significativamente a la codificación absoluta
  2. Eficiencia de Parámetros: α-Translution logra mejoras de desempeño significativas con un aumento modesto de parámetros
  3. Efectividad Multimodal: El método es efectivo en tareas de visión y lenguaje
  4. Limitaciones de Memoria: Las limitaciones de memoria de GPU actual limitan experimentos a gran escala, requiriendo 2-3TB de memoria para evaluaciones más grandes

Trabajo Relacionado

Investigación de Codificación de Posición

Los autores clasifican el trabajo relacionado en tres categorías:

  1. Vectores de Posición Relativa: Shaw et al., BoTNet, HaloNet, etc.
  2. Escalares de Posición Relativa: Swin Transformer, CoAtNet, ConViT, etc.
  3. Incrustaciones de Posición Rotacional: RoFormer, etc.

Combinación de Convolución y Atención

  • Combinación a Nivel de Arquitectura: Conformer, CeiT, etc. utilizan convolución y atención en diferentes capas
  • Combinación a Nivel de Módulo: Translution unifica ambas a nivel de operación fundamental

Conclusiones y Discusión

Conclusiones Principales

  1. Translution unifica exitosamente la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución
  2. α-Translution proporciona un buen equilibrio entre eficiencia de parámetros y desempeño
  3. La codificación relativa supera significativamente a la codificación absoluta al manejar cambios de posición
  4. El método muestra mejoras en múltiples tareas y modalidades

Limitaciones

  1. Requisitos de Recursos Computacionales: Translution completo requiere gran cantidad de parámetros y memoria
  2. Limitaciones de Escala de Evaluación: Debido a limitaciones de recursos, la evaluación principal se realiza en arquitecturas de escala pequeña a media
  3. Optimización para Escenarios Específicos: Ciertas posiciones relativas podrían compartir parámetros, especialmente a distancias mayores

Direcciones Futuras

  1. Exploración de Variantes Optimizadas: Diseñar variantes de Translution más eficientes
  2. Extensión Multimodal: Extender a otras modalidades como 3D, video, moléculas, etc.
  3. Diseño de Arquitectura: Diseñar arquitecturas especializadas más efectivas para Translution
  4. Evaluación a Gran Escala: Validar en marcos y conjuntos de datos de mayor escala

Evaluación Profunda

Fortalezas

  1. Contribución Teórica: Proporciona una perspectiva unificada de convolución y autoatención, teóricamente elegante
  2. Valor Práctico: α-Translution proporciona mejoras de desempeño incluso bajo recursos limitados
  3. Experimentación Completa: Cubre múltiples tareas, conjuntos de datos y estudios de ablación
  4. Problema Claro: Identifica y resuelve claramente las limitaciones centrales de métodos existentes
  5. Contribución de Código Abierto: Proporciona implementación completa, promoviendo investigación comunitaria

Insuficiencias

  1. Requisitos de Recursos: Los requisitos computacionales del método completo pueden limitar aplicaciones prácticas
  2. Escala de Evaluación: Debido a limitaciones de recursos, falta evaluación de modelos a gran escala
  3. Análisis Teórico: Falta análisis teórico profundo sobre convergencia y características de optimización del método
  4. Equidad de Comparación: Las diferencias significativas en cantidad de parámetros con baselines pueden afectar la equidad de comparación

Impacto

  1. Valor Académico: Proporciona nuevas ideas para la combinación de mecanismos de atención y convolución
  2. Perspectiva Práctica: La practicidad de α-Translution sugiere potencial para adopción en aplicaciones reales
  3. Significado Inspirador: Puede inspirar más investigación sobre unificación de operaciones fundamentales

Escenarios Aplicables

  1. Tareas Sensibles a Posición: Particularmente adecuado para tareas que requieren manejar cambios de posición
  2. Datos Estructurados: Muestra buen desempeño en datos con estructura espacial o secuencial como imágenes y texto
  3. Entornos con Recursos Suficientes: Translution completo es adecuado para escenarios con recursos computacionales abundantes
  4. Exploración de Investigación: Proporciona nuevas direcciones para investigación de arquitecturas fundamentales

Referencias

El artículo cita trabajos importantes en el campo del aprendizaje profundo, incluyendo:

  • Artículo original de Transformer (Vaswani et al., 2017)
  • Vision Transformer (Dosovitskiy et al., 2021)
  • Trabajos relacionados con codificación de posición relativa (Shaw et al., 2018; Liu et al., 2021, etc.)
  • Trabajos clásicos de redes neuronales convolucionales (LeCun et al., 1998; He et al., 2016, etc.)

Evaluación General: Este es un artículo de alta calidad con contribuciones tanto teóricas como prácticas. Aunque presenta el problema de altos requisitos de recursos computacionales, la propuesta de la variante α-Translution equilibra bien el desempeño y la eficiencia. El artículo proporciona una nueva perspectiva sobre la unificación de operaciones fundamentales en aprendizaje profundo, con valor académico importante y significado práctico.