2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.

When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named Î±-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including Î±-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.

academic

Translution : Unifier l'auto-attention et la convolution pour une modélisation adaptative et relative

Informations de base

ID de l'article : 2510.10060
Titre : Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Auteurs : Hehe Fan (Université Zhejiang), Yi Yang (Université Zhejiang), Mohan Kankanhalli (Université nationale de Singapour), Fei Wu (Université Zhejiang)
Classification : cs.LG cs.AI cs.CL cs.CV
Date de publication : 11 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10060v1

Résumé

Selon les auteurs, la modélisation des données implique deux aspects clés : 1) identifier les éléments pertinents par rapport à un élément central (comme le champ réceptif de convolution) ou un élément de requête (comme l'auto-attention) ; 2) encoder efficacement ces jetons. L'auto-attention peut identifier ces éléments de manière adaptative, mais dépend des plongements de position absolue pour l'apprentissage de la représentation structurelle. En contraste, la convolution encode les éléments de manière relative, mais la taille de noyau fixe limite sa capacité à sélectionner de manière adaptative les éléments pertinents. Cet article propose l'opération Translution, qui unifie la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution. Cependant, cette intégration entraîne une augmentation significative du nombre de paramètres, dépassant les ressources informatiques actuelles de la plupart. Par conséquent, les auteurs proposent une variante légère α-Translution. Les expériences montrent que Translution surpasse l'auto-attention sur les tâches de vision par ordinateur et de traitement du langage naturel.

Contexte de recherche et motivation

Définition du problème

Le défi fondamental auquel fait face l'apprentissage profond actuel est de modéliser efficacement les données. Les auteurs décomposent la modélisation des données en deux aspects clés :

Identification des éléments pertinents : déterminer quels éléments de données sont pertinents par rapport à l'élément actuellement traité
Encodage efficace : encoder ces éléments pertinents en représentations efficaces

Limitations des méthodes existantes

Limitations des réseaux de neurones convolutifs :

Utilisent des noyaux de taille fixe pour définir le champ réceptif local
Impossible d'éviter d'inclure des pixels non pertinents, particulièrement aux limites des objets ou dans les zones d'arrière-plan
Bien que capables d'encoder la structure locale de manière relative, manquent d'adaptabilité

Limitations du mécanisme d'auto-attention :

Capable d'identifier de manière adaptative les régions pertinentes, sans être limité par une localité prédéfinie
Dépend des plongements de position absolue pour capturer les informations structurelles
Peut avoir du mal à identifier les objets identiques lorsqu'ils se déplacent vers différentes positions

Motivation de la recherche

Avec les rendements décroissants des extensions directes de modèles comme Transformer, les laboratoires d'IA ont remarqué que la vitesse d'amélioration des modèles de prochaine génération est inférieure aux attentes. Face à la saturation des données et aux limitations des lois d'échelle actuelles, la conception d'architectures de réseaux de neurones innovantes devient cruciale.

Contributions principales

Proposition de l'opération Translution : unifie la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution
Conception de la variante légère α-Translution : réduit significativement le nombre de paramètres, rendant la méthode viable avec les ressources informatiques actuelles
Unification théorique : prouve que la convolution et l'auto-attention peuvent être considérées comme des cas particuliers de Translution
Validation expérimentale : vérifie l'efficacité de la méthode sur les tâches de vision par ordinateur et de traitement du langage naturel
Implémentation open-source : fournit une implémentation de code complète pour la communauté

Explication détaillée de la méthode

Définition de la tâche

Étant donné les données d'entrée (patchs d'image ou jetons de texte), l'objectif est d'apprendre une opération capable de :

Identifier de manière adaptative les éléments pertinents par rapport à l'élément de requête
Encoder de manière relative les relations structurelles de ces éléments
Générer des représentations de sortie efficaces

Architecture du modèle

Opération Translution

Translution adopte une approche de style convolutif, attribuant des matrices de paramètres différentes pour chaque distance et direction :

Encodage de requête relative : qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Encodage de clé relative : kj,i = fj · W^k_{-δx,-δy}
Attention relative : ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Encodage de valeur relative : vi,j = fj · W^v_{δx,δy}
Somme pondérée : f'i = ∑αi,j × vi,j

Où W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} sont les matrices de paramètres apprises correspondant au déplacement (δx,δy).

Variante légère α-Translution

Puisque Translution nécessite (2H-1)×(2W-1)×C×C' paramètres, α-Translution réduit les paramètres en diminuant les dimensions d'entrée et de sortie :

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

Où C1 ≪ C, C2 ≪ C'.

Points d'innovation technique

1. Unification théorique

Les auteurs prouvent que la convolution et l'auto-attention sont des cas particuliers de Translution :

Convolution : les poids d'attention sont 1 dans le champ réceptif, 0 à l'extérieur
Auto-attention : utilise les paramètres partagés W^q, W^k, W^v, ignorant l'encodage de direction et de distance
Translution : combine les avantages des deux

2. Encodage de position relative

Contrairement aux méthodes existantes (biais scalaire ou addition vectorielle), Translution utilise des matrices basées sur le décalage pour l'encodage relatif, capable de mieux capturer les informations de direction et de distance.

3. Implémentation optimisée en mémoire

Une implémentation efficace en mémoire pour α-Translution a été conçue, réduisant l'utilisation maximale de mémoire de N×N×C' à N×C'+N×N×C2.

Configuration expérimentale

Ensembles de données

Tâches de vision par ordinateur :

Dynamic MNIST : ensemble de données synthétiques avec des chiffres se déplaçant dans une région de 84×84 pixels
Static MNIST : ensemble de contrôle avec des chiffres fixes au centre de l'image
ImageNet-1K : grand ensemble de classification d'images avec 1000 classes

Tâches de traitement du langage naturel :

OpenWebText : 9 milliards de jetons d'entraînement, 4 millions de jetons de validation, vocabulaire de 50K

Métriques d'évaluation

Classification d'images : précision Top-1 et Top-5
Modélisation du langage : perplexité

Méthodes de comparaison

Auto-attention standard (baseline Transformer)
Variantes d'encodage de position relative (Shaw et al., Swin Transformer, ConViT, RoFormer, etc.)
Variantes d'encodage absolu (pour les études d'ablation)

Détails d'implémentation

Configuration d'architecture : profondeur 6-12 couches, dimension d'plongement 192-384, têtes d'attention 3-6
Dimensions de compression α-Translution par défaut : C1 = C2 = 8
Taille de lot : 256 (ImageNet), 8 (OpenWebText)
Tous les entraînements commencent à zéro, sans préentraînement externe

Résultats expérimentaux

Résultats principaux

Expérience Dynamic MNIST

Méthode	Paramètres	Static→Static	Dynamic→Dynamic	Static→Dynamic
Auto-attention	2.7M	98.48%	92.64%	18.18%
α-Translution	4.6M	98.48%	97.31%	34.90%
Translution	116.2M	98.60%	97.35%	36.40%

Découvertes clés : Translution montre des performances significativement meilleures dans les scénarios de changement de position, prouvant les avantages de l'encodage relatif.

Expérience ImageNet-1K

Exemple avec ViT-A/56 :

Méthode	Paramètres	Top-1	Top-5
Auto-attention	4.7M	46.28%	71.17%
α-Translution	5.3M	48.36%	73.31%
Translution	38.5M	52.41%	76.50%

Expérience de modélisation du langage naturel

Méthode	Paramètres	Perplexité
Auto-attention	22.0M	60.40
α-Translution	23.7M	57.97
Translution	127.5M	56.26

Études d'ablation

1. Impact de l'augmentation des paramètres vs encodage relatif

Les expériences montrent que l'augmentation simple des paramètres (encodage absolu) n'apporte pas d'amélioration de performance, prouvant l'efficacité de la méthode d'encodage relatif elle-même.

2. Impact de la dimension d'encodage relatif

À mesure que C1 et C2 augmentent, les performances de α-Translution s'améliorent, mais le nombre de paramètres augmente également, créant un compromis efficacité-performance.

3. Comparaison des méthodes d'encodage de position

Méthode	Paramètres	Top-1	Top-5
Sans plongement de position	4.69M	42.49%	67.39%
Plongement de position standard	4.69M	46.28%	71.17%
Swin Transformer	4.69M	46.36%	71.31%
RoFormer	4.69M	46.65%	71.51%
α-Translution	5.33M	48.36%	73.31%
Translution	38.53M	52.41%	76.50%

Découvertes expérimentales

Importance de l'encodage relatif : dans les scénarios de changement de position, l'encodage relatif surpasse significativement l'encodage absolu
Efficacité des paramètres : α-Translution obtient des améliorations de performance significatives avec une augmentation modérée des paramètres
Efficacité multimodale : la méthode est efficace sur les tâches visuelles et linguistiques
Limitations de mémoire : les limitations actuelles de mémoire GPU limitent les expériences à grande échelle, nécessitant 2-3 To de mémoire pour des évaluations plus grandes

Travaux connexes

Recherche sur l'encodage de position

Les auteurs classent les travaux connexes en trois catégories :

Vecteurs de position relative : Shaw et al., BoTNet, HaloNet, etc.
Scalaires de position relative : Swin Transformer, CoAtNet, ConViT, etc.
Plongements de position rotatifs : RoFormer, etc.

Combinaison de convolution et attention

Combinaison au niveau architecture : Conformer, CeiT, etc. utilisant convolution et attention dans différentes couches
Combinaison au niveau module : Translution unifie les deux au niveau de l'opération fondamentale

Conclusion et discussion

Conclusions principales

Translution unifie avec succès la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution
α-Translution offre un bon équilibre entre efficacité des paramètres et performance
L'encodage relatif surpasse significativement l'encodage absolu pour traiter les changements de position
La méthode montre des améliorations sur plusieurs tâches et modalités

Limitations

Besoins en ressources informatiques : Translution complet nécessite de nombreux paramètres et mémoire
Limitations d'échelle d'évaluation : en raison des limitations de ressources, principalement évalué sur des architectures petites et moyennes
Optimisation pour cas spécifiques : certaines positions relatives pourraient partager des paramètres, particulièrement à grandes distances

Directions futures

Exploration de variantes optimisées : concevoir des variantes Translution plus efficaces
Extension multimodale : étendre à d'autres modalités comme 3D, vidéo, molécules, etc.
Conception d'architecture : concevoir des architectures dédiées plus efficaces pour Translution
Évaluation à grande échelle : valider sur des cadres et ensembles de données plus grands

Évaluation approfondie

Avantages

Contribution théorique : fournit une perspective unifiée de la convolution et de l'auto-attention, théoriquement élégante
Valeur pratique : α-Translution apporte des améliorations de performance même dans les environnements à ressources limitées
Expériences complètes : couvre plusieurs tâches, ensembles de données et études d'ablation
Problème bien défini : identifie et résout clairement les limitations fondamentales des méthodes existantes
Contribution open-source : fournit une implémentation complète, favorisant la recherche communautaire

Insuffisances

Besoins en ressources : les besoins informatiques de la méthode complète peuvent limiter les applications pratiques
Échelle d'évaluation : manque d'évaluation de modèles à grande échelle en raison des limitations de ressources
Analyse théorique : manque d'analyse théorique approfondie sur la convergence et les propriétés d'optimisation de la méthode
Équité de comparaison : les différences de nombre de paramètres avec les baselines peuvent affecter l'équité de la comparaison

Impact

Valeur académique : fournit une nouvelle perspective pour la combinaison de mécanismes d'attention et de convolution
Perspectives pratiques : l'utilité pratique de α-Translution suggère son adoption potentielle dans les applications réelles
Signification inspirante : peut inspirer plus de recherches sur l'unification des opérations fondamentales

Scénarios applicables

Tâches sensibles à la position : particulièrement adaptées aux tâches nécessitant de traiter les changements de position
Données structurées : performances efficaces sur les données avec structure spatiale ou séquentielle comme les images et le texte
Environnements à ressources suffisantes : Translution complet convient aux scénarios avec ressources informatiques suffisantes
Exploration de recherche : fournit une nouvelle direction pour la recherche en architecture fondamentale

Références

L'article cite les travaux importants du domaine de l'apprentissage profond, notamment :

Article original Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Travaux connexes sur l'encodage de position relative (Shaw et al., 2018 ; Liu et al., 2021, etc.)
Travaux classiques sur les réseaux de neurones convolutifs (LeCun et al., 1998 ; He et al., 2016, etc.)

Évaluation globale : Ceci est un article de haute qualité avec des contributions tant théoriques que pratiques. Bien qu'il existe un problème de besoins élevés en ressources informatiques, la proposition de la variante α-Translution équilibre bien la performance et l'efficacité. L'article fournit une nouvelle perspective sur l'unification des opérations fondamentales de l'apprentissage profond, possédant une valeur académique importante et une signification pratique.