2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic

Translution: Unificazione dell'Auto-attenzione e della Convoluzione per la Modellazione Adattiva e Relativa

Informazioni Fondamentali

  • ID Articolo: 2510.10060
  • Titolo: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
  • Autori: Hehe Fan (Università di Zhejiang), Yi Yang (Università di Zhejiang), Mohan Kankanhalli (Università Nazionale di Singapore), Fei Wu (Università di Zhejiang)
  • Classificazione: cs.LG cs.AI cs.CL cs.CV
  • Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10060v1

Riassunto

Nel modellare i dati, gli autori sostengono che sono coinvolti due aspetti chiave: 1) identificare gli elementi correlati all'elemento centrale (come il campo ricettivo della convoluzione) o all'elemento di query (come l'auto-attenzione); 2) codificare efficacemente questi token. L'auto-attenzione può identificare adattivamente questi elementi, ma si affida agli embedding di posizione assoluta per l'apprendimento della rappresentazione strutturale. Al contrario, la convoluzione codifica gli elementi in modo relativo, ma la dimensione del kernel fissa limita la sua capacità di selezionare adattivamente elementi rilevanti. Questo articolo propone l'operazione Translution, che unifica la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione. Tuttavia, questa integrazione comporta un aumento significativo del numero di parametri, superando le risorse computazionali disponibili nella maggior parte dei casi. Pertanto, gli autori propongono la variante leggera α-Translution. Gli esperimenti dimostrano che Translution supera l'auto-attenzione sia nei compiti di visione artificiale che di elaborazione del linguaggio naturale.

Contesto di Ricerca e Motivazione

Definizione del Problema

La sfida fondamentale affrontata dal deep learning contemporaneo è come modellare efficacemente i dati. Gli autori scompongono la modellazione dei dati in due aspetti chiave:

  1. Identificazione degli Elementi Correlati: determinare quali elementi di dati sono correlati all'elemento attualmente elaborato
  2. Codifica Efficace: codificare questi elementi correlati in rappresentazioni efficaci

Limitazioni dei Metodi Esistenti

Limitazioni delle Reti Neurali Convoluzionali:

  • Utilizzano kernel di dimensione fissa per definire il campo ricettivo locale
  • Non possono evitare di includere pixel non correlati, in particolare ai confini degli oggetti o nelle aree di sfondo
  • Sebbene possano codificare la struttura locale in modo relativo, mancano di adattabilità

Limitazioni del Meccanismo di Auto-attenzione:

  • Possono identificare adattivamente le aree rilevanti, senza essere vincolate dalla località predefinita
  • Si affidano agli embedding di posizione assoluta per catturare le informazioni strutturali
  • Potrebbero avere difficoltà a riconoscere lo stesso oggetto quando si sposta in posizioni diverse

Motivazione della Ricerca

Con l'estensione diretta di modelli come Transformer che incontrano rendimenti decrescenti, i laboratori di IA hanno notato che il tasso di miglioramento dei modelli di prossima generazione è inferiore alle aspettative. In condizioni di saturazione dei dati e limitazioni delle leggi di scaling attuali, la progettazione di architetture di reti neurali innovative diventa cruciale.

Contributi Fondamentali

  1. Proposta dell'Operazione Translution: unifica la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione
  2. Progettazione della Variante Leggera α-Translution: riduce significativamente il numero di parametri, rendendo il metodo fattibile con le risorse computazionali attuali
  3. Unificazione Teorica: dimostra che la convoluzione e l'auto-attenzione possono essere considerate come casi speciali di Translution
  4. Verifica Sperimentale: convalida l'efficacia del metodo su compiti di visione artificiale e elaborazione del linguaggio naturale
  5. Implementazione Open Source: fornisce un'implementazione completa del codice per l'uso della comunità

Dettagli del Metodo

Definizione del Compito

Dato un input di dati (patch di immagine o token di testo), l'obiettivo è apprendere un'operazione che possa:

  • Identificare adattivamente gli elementi correlati all'elemento di query
  • Codificare in modo relativo le relazioni strutturali di questi elementi
  • Generare rappresentazioni di output efficaci

Architettura del Modello

Operazione Translution

Translution adotta un approccio di stile convoluzionale, assegnando diverse matrici di parametri per ogni distanza e direzione:

Codifica Query Relativa: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Codifica Chiave Relativa: kj,i = fj · W^k_{-δx,-δy}
Attenzione Relativa: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Codifica Valore Relativa: vi,j = fj · W^v_{δx,δy}
Somma Ponderata: f'i = ∑αi,j × vi,j

dove W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} sono matrici di parametri apprendibili corrispondenti allo spostamento (δx,δy).

Variante Leggera α-Translution

Poiché Translution richiede (2H-1)×(2W-1)×C×C' parametri, α-Translution riduce i parametri abbassando le dimensioni di input e output:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

dove C1 ≪ C, C2 ≪ C'.

Punti di Innovazione Tecnica

1. Unificazione Teorica

Gli autori dimostrano che la convoluzione e l'auto-attenzione sono casi speciali di Translution:

  • Convoluzione: i pesi di attenzione sono 1 all'interno del campo ricettivo, 0 all'esterno
  • Auto-attenzione: utilizza parametri W^q, W^k, W^v condivisi, ignorando la codifica di direzione e distanza
  • Translution: combina i vantaggi di entrambi

2. Codifica di Posizione Relativa

A differenza dei metodi esistenti (bias scalare o aggiunta vettoriale), Translution utilizza matrici basate su offset per la codifica relativa, in grado di catturare meglio le informazioni di direzione e distanza.

3. Implementazione Ottimizzata per la Memoria

Per α-Translution è stata progettata un'implementazione efficiente in memoria, riducendo l'utilizzo massimo di memoria da N×N×C' a N×C'+N×N×C2.

Configurazione Sperimentale

Dataset

Compiti di Visione Artificiale:

  • Dynamic MNIST: dataset sintetico con cifre che si muovono all'interno di un'area di 84×84 pixel
  • Static MNIST: dataset di controllo con cifre fisse al centro dell'immagine
  • ImageNet-1K: dataset di classificazione di immagini su larga scala con 1000 classi

Compiti di Elaborazione del Linguaggio Naturale:

  • OpenWebText: 9 miliardi di token di training, 4 milioni di token di validazione, vocabolario di 50K

Metriche di Valutazione

  • Classificazione di Immagini: accuratezza Top-1 e Top-5
  • Modellazione del Linguaggio: Perplessità (Perplexity)

Metodi di Confronto

  • Auto-attenzione standard (baseline Transformer)
  • Varianti di codifica di posizione relativa (Shaw et al., Swin Transformer, ConViT, RoFormer, ecc.)
  • Varianti di codifica assoluta (per studi di ablazione)

Dettagli di Implementazione

  • Configurazione dell'architettura: profondità 6-12 strati, dimensione di embedding 192-384, numero di teste di attenzione 3-6
  • Dimensioni di compressione predefinite per α-Translution: C1 = C2 = 8
  • Dimensione del batch: 256 (ImageNet), 8 (OpenWebText)
  • Tutto l'addestramento da zero, senza preaddestramento esterno

Risultati Sperimentali

Risultati Principali

Esperimento Dynamic MNIST

MetodoParametriStatic→StaticDynamic→DynamicStatic→Dynamic
Auto-attenzione2.7M98.48%92.64%18.18%
α-Translution4.6M98.48%97.31%34.90%
Translution116.2M98.60%97.35%36.40%

Scoperte Chiave: Translution mostra prestazioni significativamente migliori in scenari di variazione di posizione, dimostrando i vantaggi della codifica relativa.

Esperimento ImageNet-1K

Prendendo ViT-A/56 come esempio:

MetodoParametriTop-1Top-5
Auto-attenzione4.7M46.28%71.17%
α-Translution5.3M48.36%73.31%
Translution38.5M52.41%76.50%

Esperimento di Modellazione del Linguaggio Naturale

MetodoParametriPerplessità
Auto-attenzione22.0M60.40
α-Translution23.7M57.97
Translution127.5M56.26

Studi di Ablazione

1. Impatto dell'Aumento dei Parametri vs Codifica Relativa

Gli esperimenti dimostrano che il semplice aumento dei parametri (codifica assoluta) non porta a miglioramenti di prestazioni, provando l'efficacia del metodo di codifica relativa stesso.

2. Impatto della Dimensione di Codifica Relativa

Con l'aumento di C1 e C2, le prestazioni di α-Translution migliorano, ma aumenta anche il numero di parametri, creando un compromesso tra efficienza ed efficacia.

3. Confronto dei Metodi di Codifica di Posizione

MetodoParametriTop-1Top-5
Nessun embedding di posizione4.69M42.49%67.39%
Embedding di posizione standard4.69M46.28%71.17%
Swin Transformer4.69M46.36%71.31%
RoFormer4.69M46.65%71.51%
α-Translution5.33M48.36%73.31%
Translution38.53M52.41%76.50%

Scoperte Sperimentali

  1. Importanza della Codifica Relativa: in scenari di variazione di posizione, la codifica relativa supera significativamente la codifica assoluta
  2. Efficienza dei Parametri: α-Translution ottiene miglioramenti significativi di prestazioni con un aumento moderato dei parametri
  3. Validità Multimodale: il metodo è efficace sia su compiti di visione che di linguaggio
  4. Limitazioni di Memoria: i limiti di memoria GPU attuali limitano gli esperimenti su larga scala, richiedendo 2-3TB di memoria per valutazioni più ampie

Lavori Correlati

Ricerca sulla Codifica di Posizione

Gli autori classificano i lavori correlati in tre categorie:

  1. Vettori di Posizione Relativa: Shaw et al., BoTNet, HaloNet, ecc.
  2. Scalari di Posizione Relativa: Swin Transformer, CoAtNet, ConViT, ecc.
  3. Embedding di Posizione Rotazionale: RoFormer, ecc.

Combinazione di Convoluzione e Attenzione

  • Combinazione a Livello di Architettura: Conformer, CeiT, ecc. utilizzano convoluzione e attenzione in strati diversi
  • Combinazione a Livello di Modulo: Translution unifica i due a livello di operazione fondamentale

Conclusioni e Discussione

Conclusioni Principali

  1. Translution unifica con successo la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione
  2. α-Translution fornisce un buon equilibrio tra efficienza dei parametri e prestazioni
  3. La codifica relativa supera significativamente la codifica assoluta nel trattamento delle variazioni di posizione
  4. Il metodo mostra miglioramenti su più compiti e modalità

Limitazioni

  1. Requisiti di Risorse Computazionali: Translution completo richiede una grande quantità di parametri e memoria
  2. Limitazioni della Scala di Valutazione: a causa dei vincoli di risorse, la valutazione principale è su architetture di piccole e medie dimensioni
  3. Ottimizzazione per Scenari Specifici: alcune posizioni relative potrebbero condividere parametri, in particolare a distanze maggiori

Direzioni Future

  1. Esplorazione di Varianti Ottimizzate: progettazione di varianti Translution più efficienti
  2. Estensione Multimodale: estensione a 3D, video, molecole e altre modalità
  3. Progettazione di Architetture: progettazione di architetture dedicate più efficaci per Translution
  4. Valutazione su Larga Scala: convalida su framework e dataset di dimensioni maggiori

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico: fornisce una prospettiva unificata di convoluzione e auto-attenzione, teoricamente elegante
  2. Valore Pratico: α-Translution porta miglioramenti di prestazioni anche in condizioni di risorse limitate
  3. Esperimenti Completi: copre più compiti, dataset e studi di ablazione
  4. Problema Chiaro: identifica e affronta chiaramente le limitazioni fondamentali dei metodi esistenti
  5. Contributo Open Source: fornisce un'implementazione completa, promuovendo la ricerca della comunità

Carenze

  1. Requisiti di Risorse: i requisiti computazionali del metodo completo potrebbero limitare l'applicazione pratica
  2. Scala di Valutazione: a causa dei vincoli di risorse, mancano valutazioni su modelli su larga scala
  3. Analisi Teorica: manca un'analisi teorica approfondita sulle proprietà di convergenza e ottimizzazione del metodo
  4. Equità del Confronto: la differenza significativa nel numero di parametri rispetto ai baseline potrebbe influenzare l'equità del confronto

Impatto

  1. Valore Accademico: fornisce nuove prospettive sulla combinazione di meccanismi di attenzione e convoluzione
  2. Prospettive Pratiche: la praticità di α-Translution suggerisce potenziale adozione in applicazioni reali
  3. Significato Ispiratore: potrebbe ispirare ulteriori ricerche sull'unificazione di operazioni fondamentali

Scenari Applicabili

  1. Compiti Sensibili alla Posizione: particolarmente adatto per compiti che richiedono la gestione di variazioni di posizione
  2. Dati Strutturati: prestazioni efficaci su dati con struttura spaziale o sequenziale come immagini e testo
  3. Ambienti con Risorse Sufficienti: Translution completo è adatto per scenari con risorse computazionali abbondanti
  4. Esplorazione di Ricerca: fornisce nuove direzioni per la ricerca su architetture fondamentali

Bibliografia

L'articolo cita importanti lavori nel campo del deep learning, tra cui:

  • Articolo originale di Transformer (Vaswani et al., 2017)
  • Vision Transformer (Dosovitskiy et al., 2021)
  • Lavori correlati sulla codifica di posizione relativa (Shaw et al., 2018; Liu et al., 2021, ecc.)
  • Lavori classici su reti neurali convoluzionali (LeCun et al., 1998; He et al., 2016, ecc.)

Valutazione Complessiva: Questo è un articolo di alta qualità con contributi sia teorici che pratici. Sebbene presenti il problema dei requisiti computazionali elevati, la proposta della variante α-Translution bilancia bene le prestazioni e l'efficienza. L'articolo fornisce una nuova prospettiva sull'unificazione delle operazioni fondamentali del deep learning, con significativo valore accademico e pratico.