Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic
Translution : Unifier l'auto-attention et la convolution pour une modélisation adaptative et relative
Titre : Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Auteurs : Hehe Fan (Université Zhejiang), Yi Yang (Université Zhejiang), Mohan Kankanhalli (Université nationale de Singapour), Fei Wu (Université Zhejiang)
Classification : cs.LG cs.AI cs.CL cs.CV
Date de publication : 11 octobre 2025 (prépublication arXiv)
Selon les auteurs, la modélisation des données implique deux aspects clés : 1) identifier les éléments pertinents par rapport à un élément central (comme le champ réceptif de convolution) ou un élément de requête (comme l'auto-attention) ; 2) encoder efficacement ces jetons. L'auto-attention peut identifier ces éléments de manière adaptative, mais dépend des plongements de position absolue pour l'apprentissage de la représentation structurelle. En contraste, la convolution encode les éléments de manière relative, mais la taille de noyau fixe limite sa capacité à sélectionner de manière adaptative les éléments pertinents. Cet article propose l'opération Translution, qui unifie la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution. Cependant, cette intégration entraîne une augmentation significative du nombre de paramètres, dépassant les ressources informatiques actuelles de la plupart. Par conséquent, les auteurs proposent une variante légère α-Translution. Les expériences montrent que Translution surpasse l'auto-attention sur les tâches de vision par ordinateur et de traitement du langage naturel.
Le défi fondamental auquel fait face l'apprentissage profond actuel est de modéliser efficacement les données. Les auteurs décomposent la modélisation des données en deux aspects clés :
Identification des éléments pertinents : déterminer quels éléments de données sont pertinents par rapport à l'élément actuellement traité
Encodage efficace : encoder ces éléments pertinents en représentations efficaces
Avec les rendements décroissants des extensions directes de modèles comme Transformer, les laboratoires d'IA ont remarqué que la vitesse d'amélioration des modèles de prochaine génération est inférieure aux attentes. Face à la saturation des données et aux limitations des lois d'échelle actuelles, la conception d'architectures de réseaux de neurones innovantes devient cruciale.
Proposition de l'opération Translution : unifie la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution
Conception de la variante légère α-Translution : réduit significativement le nombre de paramètres, rendant la méthode viable avec les ressources informatiques actuelles
Unification théorique : prouve que la convolution et l'auto-attention peuvent être considérées comme des cas particuliers de Translution
Validation expérimentale : vérifie l'efficacité de la méthode sur les tâches de vision par ordinateur et de traitement du langage naturel
Implémentation open-source : fournit une implémentation de code complète pour la communauté
Contrairement aux méthodes existantes (biais scalaire ou addition vectorielle), Translution utilise des matrices basées sur le décalage pour l'encodage relatif, capable de mieux capturer les informations de direction et de distance.
Découvertes clés : Translution montre des performances significativement meilleures dans les scénarios de changement de position, prouvant les avantages de l'encodage relatif.
Les expériences montrent que l'augmentation simple des paramètres (encodage absolu) n'apporte pas d'amélioration de performance, prouvant l'efficacité de la méthode d'encodage relatif elle-même.
À mesure que C1 et C2 augmentent, les performances de α-Translution s'améliorent, mais le nombre de paramètres augmente également, créant un compromis efficacité-performance.
Importance de l'encodage relatif : dans les scénarios de changement de position, l'encodage relatif surpasse significativement l'encodage absolu
Efficacité des paramètres : α-Translution obtient des améliorations de performance significatives avec une augmentation modérée des paramètres
Efficacité multimodale : la méthode est efficace sur les tâches visuelles et linguistiques
Limitations de mémoire : les limitations actuelles de mémoire GPU limitent les expériences à grande échelle, nécessitant 2-3 To de mémoire pour des évaluations plus grandes
L'article cite les travaux importants du domaine de l'apprentissage profond, notamment :
Article original Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Travaux connexes sur l'encodage de position relative (Shaw et al., 2018 ; Liu et al., 2021, etc.)
Travaux classiques sur les réseaux de neurones convolutifs (LeCun et al., 1998 ; He et al., 2016, etc.)
Évaluation globale : Ceci est un article de haute qualité avec des contributions tant théoriques que pratiques. Bien qu'il existe un problème de besoins élevés en ressources informatiques, la proposition de la variante α-Translution équilibre bien la performance et l'efficacité. L'article fournit une nouvelle perspective sur l'unification des opérations fondamentales de l'apprentissage profond, possédant une valeur académique importante et une signification pratique.