2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic

Translution : Unifier l'auto-attention et la convolution pour une modélisation adaptative et relative

Informations de base

  • ID de l'article : 2510.10060
  • Titre : Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
  • Auteurs : Hehe Fan (Université Zhejiang), Yi Yang (Université Zhejiang), Mohan Kankanhalli (Université nationale de Singapour), Fei Wu (Université Zhejiang)
  • Classification : cs.LG cs.AI cs.CL cs.CV
  • Date de publication : 11 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10060v1

Résumé

Selon les auteurs, la modélisation des données implique deux aspects clés : 1) identifier les éléments pertinents par rapport à un élément central (comme le champ réceptif de convolution) ou un élément de requête (comme l'auto-attention) ; 2) encoder efficacement ces jetons. L'auto-attention peut identifier ces éléments de manière adaptative, mais dépend des plongements de position absolue pour l'apprentissage de la représentation structurelle. En contraste, la convolution encode les éléments de manière relative, mais la taille de noyau fixe limite sa capacité à sélectionner de manière adaptative les éléments pertinents. Cet article propose l'opération Translution, qui unifie la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution. Cependant, cette intégration entraîne une augmentation significative du nombre de paramètres, dépassant les ressources informatiques actuelles de la plupart. Par conséquent, les auteurs proposent une variante légère α-Translution. Les expériences montrent que Translution surpasse l'auto-attention sur les tâches de vision par ordinateur et de traitement du langage naturel.

Contexte de recherche et motivation

Définition du problème

Le défi fondamental auquel fait face l'apprentissage profond actuel est de modéliser efficacement les données. Les auteurs décomposent la modélisation des données en deux aspects clés :

  1. Identification des éléments pertinents : déterminer quels éléments de données sont pertinents par rapport à l'élément actuellement traité
  2. Encodage efficace : encoder ces éléments pertinents en représentations efficaces

Limitations des méthodes existantes

Limitations des réseaux de neurones convolutifs :

  • Utilisent des noyaux de taille fixe pour définir le champ réceptif local
  • Impossible d'éviter d'inclure des pixels non pertinents, particulièrement aux limites des objets ou dans les zones d'arrière-plan
  • Bien que capables d'encoder la structure locale de manière relative, manquent d'adaptabilité

Limitations du mécanisme d'auto-attention :

  • Capable d'identifier de manière adaptative les régions pertinentes, sans être limité par une localité prédéfinie
  • Dépend des plongements de position absolue pour capturer les informations structurelles
  • Peut avoir du mal à identifier les objets identiques lorsqu'ils se déplacent vers différentes positions

Motivation de la recherche

Avec les rendements décroissants des extensions directes de modèles comme Transformer, les laboratoires d'IA ont remarqué que la vitesse d'amélioration des modèles de prochaine génération est inférieure aux attentes. Face à la saturation des données et aux limitations des lois d'échelle actuelles, la conception d'architectures de réseaux de neurones innovantes devient cruciale.

Contributions principales

  1. Proposition de l'opération Translution : unifie la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution
  2. Conception de la variante légère α-Translution : réduit significativement le nombre de paramètres, rendant la méthode viable avec les ressources informatiques actuelles
  3. Unification théorique : prouve que la convolution et l'auto-attention peuvent être considérées comme des cas particuliers de Translution
  4. Validation expérimentale : vérifie l'efficacité de la méthode sur les tâches de vision par ordinateur et de traitement du langage naturel
  5. Implémentation open-source : fournit une implémentation de code complète pour la communauté

Explication détaillée de la méthode

Définition de la tâche

Étant donné les données d'entrée (patchs d'image ou jetons de texte), l'objectif est d'apprendre une opération capable de :

  • Identifier de manière adaptative les éléments pertinents par rapport à l'élément de requête
  • Encoder de manière relative les relations structurelles de ces éléments
  • Générer des représentations de sortie efficaces

Architecture du modèle

Opération Translution

Translution adopte une approche de style convolutif, attribuant des matrices de paramètres différentes pour chaque distance et direction :

Encodage de requête relative : qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Encodage de clé relative : kj,i = fj · W^k_{-δx,-δy}
Attention relative : ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Encodage de valeur relative : vi,j = fj · W^v_{δx,δy}
Somme pondérée : f'i = ∑αi,j × vi,j

Où W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} sont les matrices de paramètres apprises correspondant au déplacement (δx,δy).

Variante légère α-Translution

Puisque Translution nécessite (2H-1)×(2W-1)×C×C' paramètres, α-Translution réduit les paramètres en diminuant les dimensions d'entrée et de sortie :

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

Où C1 ≪ C, C2 ≪ C'.

Points d'innovation technique

1. Unification théorique

Les auteurs prouvent que la convolution et l'auto-attention sont des cas particuliers de Translution :

  • Convolution : les poids d'attention sont 1 dans le champ réceptif, 0 à l'extérieur
  • Auto-attention : utilise les paramètres partagés W^q, W^k, W^v, ignorant l'encodage de direction et de distance
  • Translution : combine les avantages des deux

2. Encodage de position relative

Contrairement aux méthodes existantes (biais scalaire ou addition vectorielle), Translution utilise des matrices basées sur le décalage pour l'encodage relatif, capable de mieux capturer les informations de direction et de distance.

3. Implémentation optimisée en mémoire

Une implémentation efficace en mémoire pour α-Translution a été conçue, réduisant l'utilisation maximale de mémoire de N×N×C' à N×C'+N×N×C2.

Configuration expérimentale

Ensembles de données

Tâches de vision par ordinateur :

  • Dynamic MNIST : ensemble de données synthétiques avec des chiffres se déplaçant dans une région de 84×84 pixels
  • Static MNIST : ensemble de contrôle avec des chiffres fixes au centre de l'image
  • ImageNet-1K : grand ensemble de classification d'images avec 1000 classes

Tâches de traitement du langage naturel :

  • OpenWebText : 9 milliards de jetons d'entraînement, 4 millions de jetons de validation, vocabulaire de 50K

Métriques d'évaluation

  • Classification d'images : précision Top-1 et Top-5
  • Modélisation du langage : perplexité

Méthodes de comparaison

  • Auto-attention standard (baseline Transformer)
  • Variantes d'encodage de position relative (Shaw et al., Swin Transformer, ConViT, RoFormer, etc.)
  • Variantes d'encodage absolu (pour les études d'ablation)

Détails d'implémentation

  • Configuration d'architecture : profondeur 6-12 couches, dimension d'plongement 192-384, têtes d'attention 3-6
  • Dimensions de compression α-Translution par défaut : C1 = C2 = 8
  • Taille de lot : 256 (ImageNet), 8 (OpenWebText)
  • Tous les entraînements commencent à zéro, sans préentraînement externe

Résultats expérimentaux

Résultats principaux

Expérience Dynamic MNIST

MéthodeParamètresStatic→StaticDynamic→DynamicStatic→Dynamic
Auto-attention2.7M98.48%92.64%18.18%
α-Translution4.6M98.48%97.31%34.90%
Translution116.2M98.60%97.35%36.40%

Découvertes clés : Translution montre des performances significativement meilleures dans les scénarios de changement de position, prouvant les avantages de l'encodage relatif.

Expérience ImageNet-1K

Exemple avec ViT-A/56 :

MéthodeParamètresTop-1Top-5
Auto-attention4.7M46.28%71.17%
α-Translution5.3M48.36%73.31%
Translution38.5M52.41%76.50%

Expérience de modélisation du langage naturel

MéthodeParamètresPerplexité
Auto-attention22.0M60.40
α-Translution23.7M57.97
Translution127.5M56.26

Études d'ablation

1. Impact de l'augmentation des paramètres vs encodage relatif

Les expériences montrent que l'augmentation simple des paramètres (encodage absolu) n'apporte pas d'amélioration de performance, prouvant l'efficacité de la méthode d'encodage relatif elle-même.

2. Impact de la dimension d'encodage relatif

À mesure que C1 et C2 augmentent, les performances de α-Translution s'améliorent, mais le nombre de paramètres augmente également, créant un compromis efficacité-performance.

3. Comparaison des méthodes d'encodage de position

MéthodeParamètresTop-1Top-5
Sans plongement de position4.69M42.49%67.39%
Plongement de position standard4.69M46.28%71.17%
Swin Transformer4.69M46.36%71.31%
RoFormer4.69M46.65%71.51%
α-Translution5.33M48.36%73.31%
Translution38.53M52.41%76.50%

Découvertes expérimentales

  1. Importance de l'encodage relatif : dans les scénarios de changement de position, l'encodage relatif surpasse significativement l'encodage absolu
  2. Efficacité des paramètres : α-Translution obtient des améliorations de performance significatives avec une augmentation modérée des paramètres
  3. Efficacité multimodale : la méthode est efficace sur les tâches visuelles et linguistiques
  4. Limitations de mémoire : les limitations actuelles de mémoire GPU limitent les expériences à grande échelle, nécessitant 2-3 To de mémoire pour des évaluations plus grandes

Travaux connexes

Recherche sur l'encodage de position

Les auteurs classent les travaux connexes en trois catégories :

  1. Vecteurs de position relative : Shaw et al., BoTNet, HaloNet, etc.
  2. Scalaires de position relative : Swin Transformer, CoAtNet, ConViT, etc.
  3. Plongements de position rotatifs : RoFormer, etc.

Combinaison de convolution et attention

  • Combinaison au niveau architecture : Conformer, CeiT, etc. utilisant convolution et attention dans différentes couches
  • Combinaison au niveau module : Translution unifie les deux au niveau de l'opération fondamentale

Conclusion et discussion

Conclusions principales

  1. Translution unifie avec succès la capacité de reconnaissance adaptative de l'auto-attention et les avantages d'encodage relatif de la convolution
  2. α-Translution offre un bon équilibre entre efficacité des paramètres et performance
  3. L'encodage relatif surpasse significativement l'encodage absolu pour traiter les changements de position
  4. La méthode montre des améliorations sur plusieurs tâches et modalités

Limitations

  1. Besoins en ressources informatiques : Translution complet nécessite de nombreux paramètres et mémoire
  2. Limitations d'échelle d'évaluation : en raison des limitations de ressources, principalement évalué sur des architectures petites et moyennes
  3. Optimisation pour cas spécifiques : certaines positions relatives pourraient partager des paramètres, particulièrement à grandes distances

Directions futures

  1. Exploration de variantes optimisées : concevoir des variantes Translution plus efficaces
  2. Extension multimodale : étendre à d'autres modalités comme 3D, vidéo, molécules, etc.
  3. Conception d'architecture : concevoir des architectures dédiées plus efficaces pour Translution
  4. Évaluation à grande échelle : valider sur des cadres et ensembles de données plus grands

Évaluation approfondie

Avantages

  1. Contribution théorique : fournit une perspective unifiée de la convolution et de l'auto-attention, théoriquement élégante
  2. Valeur pratique : α-Translution apporte des améliorations de performance même dans les environnements à ressources limitées
  3. Expériences complètes : couvre plusieurs tâches, ensembles de données et études d'ablation
  4. Problème bien défini : identifie et résout clairement les limitations fondamentales des méthodes existantes
  5. Contribution open-source : fournit une implémentation complète, favorisant la recherche communautaire

Insuffisances

  1. Besoins en ressources : les besoins informatiques de la méthode complète peuvent limiter les applications pratiques
  2. Échelle d'évaluation : manque d'évaluation de modèles à grande échelle en raison des limitations de ressources
  3. Analyse théorique : manque d'analyse théorique approfondie sur la convergence et les propriétés d'optimisation de la méthode
  4. Équité de comparaison : les différences de nombre de paramètres avec les baselines peuvent affecter l'équité de la comparaison

Impact

  1. Valeur académique : fournit une nouvelle perspective pour la combinaison de mécanismes d'attention et de convolution
  2. Perspectives pratiques : l'utilité pratique de α-Translution suggère son adoption potentielle dans les applications réelles
  3. Signification inspirante : peut inspirer plus de recherches sur l'unification des opérations fondamentales

Scénarios applicables

  1. Tâches sensibles à la position : particulièrement adaptées aux tâches nécessitant de traiter les changements de position
  2. Données structurées : performances efficaces sur les données avec structure spatiale ou séquentielle comme les images et le texte
  3. Environnements à ressources suffisantes : Translution complet convient aux scénarios avec ressources informatiques suffisantes
  4. Exploration de recherche : fournit une nouvelle direction pour la recherche en architecture fondamentale

Références

L'article cite les travaux importants du domaine de l'apprentissage profond, notamment :

  • Article original Transformer (Vaswani et al., 2017)
  • Vision Transformer (Dosovitskiy et al., 2021)
  • Travaux connexes sur l'encodage de position relative (Shaw et al., 2018 ; Liu et al., 2021, etc.)
  • Travaux classiques sur les réseaux de neurones convolutifs (LeCun et al., 1998 ; He et al., 2016, etc.)

Évaluation globale : Ceci est un article de haute qualité avec des contributions tant théoriques que pratiques. Bien qu'il existe un problème de besoins élevés en ressources informatiques, la proposition de la variante α-Translution équilibre bien la performance et l'efficacité. L'article fournit une nouvelle perspective sur l'unification des opérations fondamentales de l'apprentissage profond, possédant une valeur académique importante et une signification pratique.