2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.

When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named Î±-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including Î±-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.

academic

Translution: Unificación de Autoatención y Convolución para Modelado Adaptativo y Relativo

Información Básica

ID del Artículo: 2510.10060
Título: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Autores: Hehe Fan (Universidad de Zhejiang), Yi Yang (Universidad de Zhejiang), Mohan Kankanhalli (Universidad Nacional de Singapur), Fei Wu (Universidad de Zhejiang)
Clasificación: cs.LG cs.AI cs.CL cs.CV
Fecha de Publicación: 11 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10060v1

Resumen

Al modelar datos, los autores argumentan que intervienen dos aspectos clave: 1) identificar elementos relacionados con el elemento central (como el campo receptivo de convolución) o elemento de consulta (como la autoatención); 2) codificar efectivamente estas marcas. La autoatención puede identificar adaptativamente estos elementos, pero depende de incrustaciones de posición absoluta para el aprendizaje de representación de estructura. En contraste, la convolución codifica elementos de manera relativa, pero el tamaño de núcleo fijo limita su capacidad para seleccionar adaptativamente elementos relevantes. Este artículo propone la operación Translution, que unifica la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución. Sin embargo, esta integración resulta en un aumento significativo en el número de parámetros, superando los recursos computacionales disponibles actualmente. Por lo tanto, los autores proponen la variante ligera α-Translution. Los experimentos demuestran que Translution supera a la autoatención en tareas de visión por computadora y procesamiento del lenguaje natural.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central que enfrenta el aprendizaje profundo actual es cómo modelar datos de manera efectiva. Los autores descomponen el modelado de datos en dos aspectos clave:

Identificación de Elementos Relevantes: Determinar qué elementos de datos están relacionados con el elemento que se está procesando actualmente
Codificación Efectiva: Codificar estos elementos relevantes en representaciones efectivas

Limitaciones de Métodos Existentes

Limitaciones de Redes Neuronales Convolucionales:

Utilizan núcleos de tamaño fijo para definir campos receptivos locales
No pueden evitar incluir píxeles no relacionados, especialmente en bordes de objetos o áreas de fondo
Aunque pueden codificar estructura local de manera relativa, carecen de adaptabilidad

Limitaciones del Mecanismo de Autoatención:

Pueden identificar adaptativamente áreas relevantes sin restricciones de localidad predefinidas
Dependen de incrustaciones de posición absoluta para capturar información de estructura
Pueden tener dificultades para identificar cuando el mismo objeto se mueve a diferentes posiciones

Motivación de la Investigación

Con las extensiones directas de modelos como Transformer encontrando rendimientos decrecientes, los laboratorios de IA han notado que la velocidad de mejora en modelos de próxima generación es menor a la esperada. Bajo saturación de datos y limitaciones de leyes de escala actuales, el diseño de arquitecturas de redes neuronales innovadoras se vuelve crítico.

Contribuciones Principales

Propone la Operación Translution: Unifica la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución
Diseña la Variante Ligera α-Translution: Reduce significativamente el número de parámetros, haciendo el método viable bajo recursos computacionales actuales
Unificación Teórica: Demuestra que la convolución y la autoatención pueden verse como casos especiales de Translution
Validación Experimental: Verifica la efectividad del método en tareas de visión por computadora y procesamiento del lenguaje natural
Implementación de Código Abierto: Proporciona implementación completa de código para uso de la comunidad

Explicación Detallada del Método

Definición de Tarea

Dado datos de entrada (parches de imagen o marcas de texto), el objetivo es aprender una operación que pueda:

Identificar adaptativamente elementos relacionados con el elemento de consulta
Codificar de manera relativa las relaciones estructurales de estos elementos
Generar representaciones de salida efectivas

Arquitectura del Modelo

Operación Translution

Translution adopta un enfoque de estilo convolucional, asignando diferentes matrices de parámetros para cada distancia y dirección:

Codificación de Consulta Relativa: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Codificación de Clave Relativa: kj,i = fj · W^k_{-δx,-δy}
Atención Relativa: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Codificación de Valor Relativa: vi,j = fj · W^v_{δx,δy}
Suma Ponderada: f'i = ∑αi,j × vi,j

Donde W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} son matrices de parámetros aprendibles correspondientes al desplazamiento (δx,δy).

Variante Ligera α-Translution

Dado que Translution requiere (2H-1)×(2W-1)×C×C' parámetros, α-Translution reduce parámetros disminuyendo dimensiones de entrada y salida:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

Donde C1 ≪ C, C2 ≪ C'.

Puntos de Innovación Técnica

1. Unificación Teórica

Los autores demuestran que la convolución y la autoatención son casos especiales de Translution:

Convolución: Los pesos de atención son 1 dentro del campo receptivo y 0 fuera
Autoatención: Utiliza parámetros W^q, W^k, W^v compartidos, ignorando codificación de dirección y distancia
Translution: Combina las ventajas de ambas

2. Codificación de Posición Relativa

A diferencia de métodos existentes (sesgo escalar o suma vectorial), Translution utiliza matrices basadas en desplazamiento para codificación relativa, capturando mejor información de dirección y distancia.

3. Implementación Optimizada en Memoria

Se diseña una implementación eficiente en memoria para α-Translution, reduciendo el uso de memoria máxima de N×N×C' a N×C'+N×N×C2.

Configuración Experimental

Conjuntos de Datos

Tareas de Visión por Computadora:

Dynamic MNIST: Conjunto de datos sintético con dígitos moviéndose en región de 84×84 píxeles
Static MNIST: Conjunto de datos de control con dígitos fijos en el centro de la imagen
ImageNet-1K: Conjunto de datos de clasificación de imágenes a gran escala con 1000 clases

Tareas de Procesamiento del Lenguaje Natural:

OpenWebText: 9 mil millones de marcas de entrenamiento, 4 millones de marcas de validación, vocabulario de 50K

Métricas de Evaluación

Clasificación de Imágenes: Precisión Top-1 y Top-5
Modelado del Lenguaje: Perplejidad

Métodos de Comparación

Autoatención estándar (línea base Transformer)
Variantes de codificación de posición relativa (Shaw et al., Swin Transformer, ConViT, RoFormer, etc.)
Variantes de codificación absoluta (para estudios de ablación)

Detalles de Implementación

Configuración de arquitectura: profundidad 6-12 capas, dimensión de incrustación 192-384, cabezas de atención 3-6
Dimensiones de compresión predeterminadas de α-Translution: C1 = C2 = 8
Tamaño de lote: 256 (ImageNet), 8 (OpenWebText)
Todo entrenamiento desde cero, sin preentrenamiento externo

Resultados Experimentales

Resultados Principales

Experimento Dynamic MNIST

Método	Parámetros	Static→Static	Dynamic→Dynamic	Static→Dynamic
Autoatención	2.7M	98.48%	92.64%	18.18%
α-Translution	4.6M	98.48%	97.31%	34.90%
Translution	116.2M	98.60%	97.35%	36.40%

Hallazgos Clave: Translution muestra un desempeño significativamente mejor en escenarios de cambio de posición, demostrando las ventajas de la codificación relativa.

Experimento ImageNet-1K

Tomando ViT-A/56 como ejemplo:

Método	Parámetros	Top-1	Top-5
Autoatención	4.7M	46.28%	71.17%
α-Translution	5.3M	48.36%	73.31%
Translution	38.5M	52.41%	76.50%

Experimento de Modelado del Lenguaje Natural

Método	Parámetros	Perplejidad
Autoatención	22.0M	60.40
α-Translution	23.7M	57.97
Translution	127.5M	56.26

Estudios de Ablación

1. Impacto del Aumento de Parámetros vs Codificación Relativa

Los experimentos muestran que simplemente aumentar parámetros (codificación absoluta) no produce mejoras de desempeño, demostrando la efectividad del método de codificación relativa en sí.

2. Impacto de Dimensiones de Codificación Relativa

A medida que aumentan C1 y C2, el desempeño de α-Translution mejora, pero la cantidad de parámetros también aumenta, existiendo un equilibrio eficiencia-efectividad.

3. Comparación de Métodos de Codificación de Posición

Método	Parámetros	Top-1	Top-5
Sin incrustación de posición	4.69M	42.49%	67.39%
Incrustación de posición estándar	4.69M	46.28%	71.17%
Swin Transformer	4.69M	46.36%	71.31%
RoFormer	4.69M	46.65%	71.51%
α-Translution	5.33M	48.36%	73.31%
Translution	38.53M	52.41%	76.50%

Hallazgos Experimentales

Importancia de la Codificación Relativa: En escenarios de cambio de posición, la codificación relativa supera significativamente a la codificación absoluta
Eficiencia de Parámetros: α-Translution logra mejoras de desempeño significativas con un aumento modesto de parámetros
Efectividad Multimodal: El método es efectivo en tareas de visión y lenguaje
Limitaciones de Memoria: Las limitaciones de memoria de GPU actual limitan experimentos a gran escala, requiriendo 2-3TB de memoria para evaluaciones más grandes

Trabajo Relacionado

Investigación de Codificación de Posición

Los autores clasifican el trabajo relacionado en tres categorías:

Vectores de Posición Relativa: Shaw et al., BoTNet, HaloNet, etc.
Escalares de Posición Relativa: Swin Transformer, CoAtNet, ConViT, etc.
Incrustaciones de Posición Rotacional: RoFormer, etc.

Combinación de Convolución y Atención

Combinación a Nivel de Arquitectura: Conformer, CeiT, etc. utilizan convolución y atención en diferentes capas
Combinación a Nivel de Módulo: Translution unifica ambas a nivel de operación fundamental

Conclusiones y Discusión

Conclusiones Principales

Translution unifica exitosamente la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución
α-Translution proporciona un buen equilibrio entre eficiencia de parámetros y desempeño
La codificación relativa supera significativamente a la codificación absoluta al manejar cambios de posición
El método muestra mejoras en múltiples tareas y modalidades

Limitaciones

Requisitos de Recursos Computacionales: Translution completo requiere gran cantidad de parámetros y memoria
Limitaciones de Escala de Evaluación: Debido a limitaciones de recursos, la evaluación principal se realiza en arquitecturas de escala pequeña a media
Optimización para Escenarios Específicos: Ciertas posiciones relativas podrían compartir parámetros, especialmente a distancias mayores

Direcciones Futuras

Exploración de Variantes Optimizadas: Diseñar variantes de Translution más eficientes
Extensión Multimodal: Extender a otras modalidades como 3D, video, moléculas, etc.
Diseño de Arquitectura: Diseñar arquitecturas especializadas más efectivas para Translution
Evaluación a Gran Escala: Validar en marcos y conjuntos de datos de mayor escala

Evaluación Profunda

Fortalezas

Contribución Teórica: Proporciona una perspectiva unificada de convolución y autoatención, teóricamente elegante
Valor Práctico: α-Translution proporciona mejoras de desempeño incluso bajo recursos limitados
Experimentación Completa: Cubre múltiples tareas, conjuntos de datos y estudios de ablación
Problema Claro: Identifica y resuelve claramente las limitaciones centrales de métodos existentes
Contribución de Código Abierto: Proporciona implementación completa, promoviendo investigación comunitaria

Insuficiencias

Requisitos de Recursos: Los requisitos computacionales del método completo pueden limitar aplicaciones prácticas
Escala de Evaluación: Debido a limitaciones de recursos, falta evaluación de modelos a gran escala
Análisis Teórico: Falta análisis teórico profundo sobre convergencia y características de optimización del método
Equidad de Comparación: Las diferencias significativas en cantidad de parámetros con baselines pueden afectar la equidad de comparación

Impacto

Valor Académico: Proporciona nuevas ideas para la combinación de mecanismos de atención y convolución
Perspectiva Práctica: La practicidad de α-Translution sugiere potencial para adopción en aplicaciones reales
Significado Inspirador: Puede inspirar más investigación sobre unificación de operaciones fundamentales

Escenarios Aplicables

Tareas Sensibles a Posición: Particularmente adecuado para tareas que requieren manejar cambios de posición
Datos Estructurados: Muestra buen desempeño en datos con estructura espacial o secuencial como imágenes y texto
Entornos con Recursos Suficientes: Translution completo es adecuado para escenarios con recursos computacionales abundantes
Exploración de Investigación: Proporciona nuevas direcciones para investigación de arquitecturas fundamentales

Referencias

El artículo cita trabajos importantes en el campo del aprendizaje profundo, incluyendo:

Artículo original de Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Trabajos relacionados con codificación de posición relativa (Shaw et al., 2018; Liu et al., 2021, etc.)
Trabajos clásicos de redes neuronales convolucionales (LeCun et al., 1998; He et al., 2016, etc.)

Evaluación General: Este es un artículo de alta calidad con contribuciones tanto teóricas como prácticas. Aunque presenta el problema de altos requisitos de recursos computacionales, la propuesta de la variante α-Translution equilibra bien el desempeño y la eficiencia. El artículo proporciona una nueva perspectiva sobre la unificación de operaciones fundamentales en aprendizaje profundo, con valor académico importante y significado práctico.