Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic
Translution: Unificación de Autoatención y Convolución para Modelado Adaptativo y Relativo
Título: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Autores: Hehe Fan (Universidad de Zhejiang), Yi Yang (Universidad de Zhejiang), Mohan Kankanhalli (Universidad Nacional de Singapur), Fei Wu (Universidad de Zhejiang)
Clasificación: cs.LG cs.AI cs.CL cs.CV
Fecha de Publicación: 11 de octubre de 2025 (preimpresión arXiv)
Al modelar datos, los autores argumentan que intervienen dos aspectos clave: 1) identificar elementos relacionados con el elemento central (como el campo receptivo de convolución) o elemento de consulta (como la autoatención); 2) codificar efectivamente estas marcas. La autoatención puede identificar adaptativamente estos elementos, pero depende de incrustaciones de posición absoluta para el aprendizaje de representación de estructura. En contraste, la convolución codifica elementos de manera relativa, pero el tamaño de núcleo fijo limita su capacidad para seleccionar adaptativamente elementos relevantes. Este artículo propone la operación Translution, que unifica la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución. Sin embargo, esta integración resulta en un aumento significativo en el número de parámetros, superando los recursos computacionales disponibles actualmente. Por lo tanto, los autores proponen la variante ligera α-Translution. Los experimentos demuestran que Translution supera a la autoatención en tareas de visión por computadora y procesamiento del lenguaje natural.
El desafío central que enfrenta el aprendizaje profundo actual es cómo modelar datos de manera efectiva. Los autores descomponen el modelado de datos en dos aspectos clave:
Identificación de Elementos Relevantes: Determinar qué elementos de datos están relacionados con el elemento que se está procesando actualmente
Codificación Efectiva: Codificar estos elementos relevantes en representaciones efectivas
Con las extensiones directas de modelos como Transformer encontrando rendimientos decrecientes, los laboratorios de IA han notado que la velocidad de mejora en modelos de próxima generación es menor a la esperada. Bajo saturación de datos y limitaciones de leyes de escala actuales, el diseño de arquitecturas de redes neuronales innovadoras se vuelve crítico.
Propone la Operación Translution: Unifica la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución
Diseña la Variante Ligera α-Translution: Reduce significativamente el número de parámetros, haciendo el método viable bajo recursos computacionales actuales
Unificación Teórica: Demuestra que la convolución y la autoatención pueden verse como casos especiales de Translution
Validación Experimental: Verifica la efectividad del método en tareas de visión por computadora y procesamiento del lenguaje natural
Implementación de Código Abierto: Proporciona implementación completa de código para uso de la comunidad
A diferencia de métodos existentes (sesgo escalar o suma vectorial), Translution utiliza matrices basadas en desplazamiento para codificación relativa, capturando mejor información de dirección y distancia.
Hallazgos Clave: Translution muestra un desempeño significativamente mejor en escenarios de cambio de posición, demostrando las ventajas de la codificación relativa.
Los experimentos muestran que simplemente aumentar parámetros (codificación absoluta) no produce mejoras de desempeño, demostrando la efectividad del método de codificación relativa en sí.
A medida que aumentan C1 y C2, el desempeño de α-Translution mejora, pero la cantidad de parámetros también aumenta, existiendo un equilibrio eficiencia-efectividad.
Importancia de la Codificación Relativa: En escenarios de cambio de posición, la codificación relativa supera significativamente a la codificación absoluta
Eficiencia de Parámetros: α-Translution logra mejoras de desempeño significativas con un aumento modesto de parámetros
Efectividad Multimodal: El método es efectivo en tareas de visión y lenguaje
Limitaciones de Memoria: Las limitaciones de memoria de GPU actual limitan experimentos a gran escala, requiriendo 2-3TB de memoria para evaluaciones más grandes
Translution unifica exitosamente la capacidad de identificación adaptativa de la autoatención y las ventajas de codificación relativa de la convolución
α-Translution proporciona un buen equilibrio entre eficiencia de parámetros y desempeño
La codificación relativa supera significativamente a la codificación absoluta al manejar cambios de posición
El método muestra mejoras en múltiples tareas y modalidades
El artículo cita trabajos importantes en el campo del aprendizaje profundo, incluyendo:
Artículo original de Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Trabajos relacionados con codificación de posición relativa (Shaw et al., 2018; Liu et al., 2021, etc.)
Trabajos clásicos de redes neuronales convolucionales (LeCun et al., 1998; He et al., 2016, etc.)
Evaluación General: Este es un artículo de alta calidad con contribuciones tanto teóricas como prácticas. Aunque presenta el problema de altos requisitos de recursos computacionales, la propuesta de la variante α-Translution equilibra bien el desempeño y la eficiencia. El artículo proporciona una nueva perspectiva sobre la unificación de operaciones fundamentales en aprendizaje profundo, con valor académico importante y significado práctico.