2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.

When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named Î±-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including Î±-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.

academic

Translution: Unificazione dell'Auto-attenzione e della Convoluzione per la Modellazione Adattiva e Relativa

Informazioni Fondamentali

ID Articolo: 2510.10060
Titolo: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Autori: Hehe Fan (Università di Zhejiang), Yi Yang (Università di Zhejiang), Mohan Kankanhalli (Università Nazionale di Singapore), Fei Wu (Università di Zhejiang)
Classificazione: cs.LG cs.AI cs.CL cs.CV
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10060v1

Riassunto

Nel modellare i dati, gli autori sostengono che sono coinvolti due aspetti chiave: 1) identificare gli elementi correlati all'elemento centrale (come il campo ricettivo della convoluzione) o all'elemento di query (come l'auto-attenzione); 2) codificare efficacemente questi token. L'auto-attenzione può identificare adattivamente questi elementi, ma si affida agli embedding di posizione assoluta per l'apprendimento della rappresentazione strutturale. Al contrario, la convoluzione codifica gli elementi in modo relativo, ma la dimensione del kernel fissa limita la sua capacità di selezionare adattivamente elementi rilevanti. Questo articolo propone l'operazione Translution, che unifica la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione. Tuttavia, questa integrazione comporta un aumento significativo del numero di parametri, superando le risorse computazionali disponibili nella maggior parte dei casi. Pertanto, gli autori propongono la variante leggera α-Translution. Gli esperimenti dimostrano che Translution supera l'auto-attenzione sia nei compiti di visione artificiale che di elaborazione del linguaggio naturale.

Contesto di Ricerca e Motivazione

Definizione del Problema

La sfida fondamentale affrontata dal deep learning contemporaneo è come modellare efficacemente i dati. Gli autori scompongono la modellazione dei dati in due aspetti chiave:

Identificazione degli Elementi Correlati: determinare quali elementi di dati sono correlati all'elemento attualmente elaborato
Codifica Efficace: codificare questi elementi correlati in rappresentazioni efficaci

Limitazioni dei Metodi Esistenti

Limitazioni delle Reti Neurali Convoluzionali:

Utilizzano kernel di dimensione fissa per definire il campo ricettivo locale
Non possono evitare di includere pixel non correlati, in particolare ai confini degli oggetti o nelle aree di sfondo
Sebbene possano codificare la struttura locale in modo relativo, mancano di adattabilità

Limitazioni del Meccanismo di Auto-attenzione:

Possono identificare adattivamente le aree rilevanti, senza essere vincolate dalla località predefinita
Si affidano agli embedding di posizione assoluta per catturare le informazioni strutturali
Potrebbero avere difficoltà a riconoscere lo stesso oggetto quando si sposta in posizioni diverse

Motivazione della Ricerca

Con l'estensione diretta di modelli come Transformer che incontrano rendimenti decrescenti, i laboratori di IA hanno notato che il tasso di miglioramento dei modelli di prossima generazione è inferiore alle aspettative. In condizioni di saturazione dei dati e limitazioni delle leggi di scaling attuali, la progettazione di architetture di reti neurali innovative diventa cruciale.

Contributi Fondamentali

Proposta dell'Operazione Translution: unifica la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione
Progettazione della Variante Leggera α-Translution: riduce significativamente il numero di parametri, rendendo il metodo fattibile con le risorse computazionali attuali
Unificazione Teorica: dimostra che la convoluzione e l'auto-attenzione possono essere considerate come casi speciali di Translution
Verifica Sperimentale: convalida l'efficacia del metodo su compiti di visione artificiale e elaborazione del linguaggio naturale
Implementazione Open Source: fornisce un'implementazione completa del codice per l'uso della comunità

Dettagli del Metodo

Definizione del Compito

Dato un input di dati (patch di immagine o token di testo), l'obiettivo è apprendere un'operazione che possa:

Identificare adattivamente gli elementi correlati all'elemento di query
Codificare in modo relativo le relazioni strutturali di questi elementi
Generare rappresentazioni di output efficaci

Architettura del Modello

Operazione Translution

Translution adotta un approccio di stile convoluzionale, assegnando diverse matrici di parametri per ogni distanza e direzione:

Codifica Query Relativa: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Codifica Chiave Relativa: kj,i = fj · W^k_{-δx,-δy}
Attenzione Relativa: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Codifica Valore Relativa: vi,j = fj · W^v_{δx,δy}
Somma Ponderata: f'i = ∑αi,j × vi,j

dove W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} sono matrici di parametri apprendibili corrispondenti allo spostamento (δx,δy).

Variante Leggera α-Translution

Poiché Translution richiede (2H-1)×(2W-1)×C×C' parametri, α-Translution riduce i parametri abbassando le dimensioni di input e output:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

dove C1 ≪ C, C2 ≪ C'.

Punti di Innovazione Tecnica

1. Unificazione Teorica

Gli autori dimostrano che la convoluzione e l'auto-attenzione sono casi speciali di Translution:

Convoluzione: i pesi di attenzione sono 1 all'interno del campo ricettivo, 0 all'esterno
Auto-attenzione: utilizza parametri W^q, W^k, W^v condivisi, ignorando la codifica di direzione e distanza
Translution: combina i vantaggi di entrambi

2. Codifica di Posizione Relativa

A differenza dei metodi esistenti (bias scalare o aggiunta vettoriale), Translution utilizza matrici basate su offset per la codifica relativa, in grado di catturare meglio le informazioni di direzione e distanza.

3. Implementazione Ottimizzata per la Memoria

Per α-Translution è stata progettata un'implementazione efficiente in memoria, riducendo l'utilizzo massimo di memoria da N×N×C' a N×C'+N×N×C2.

Configurazione Sperimentale

Dataset

Compiti di Visione Artificiale:

Dynamic MNIST: dataset sintetico con cifre che si muovono all'interno di un'area di 84×84 pixel
Static MNIST: dataset di controllo con cifre fisse al centro dell'immagine
ImageNet-1K: dataset di classificazione di immagini su larga scala con 1000 classi

Compiti di Elaborazione del Linguaggio Naturale:

OpenWebText: 9 miliardi di token di training, 4 milioni di token di validazione, vocabolario di 50K

Metriche di Valutazione

Classificazione di Immagini: accuratezza Top-1 e Top-5
Modellazione del Linguaggio: Perplessità (Perplexity)

Metodi di Confronto

Auto-attenzione standard (baseline Transformer)
Varianti di codifica di posizione relativa (Shaw et al., Swin Transformer, ConViT, RoFormer, ecc.)
Varianti di codifica assoluta (per studi di ablazione)

Dettagli di Implementazione

Configurazione dell'architettura: profondità 6-12 strati, dimensione di embedding 192-384, numero di teste di attenzione 3-6
Dimensioni di compressione predefinite per α-Translution: C1 = C2 = 8
Dimensione del batch: 256 (ImageNet), 8 (OpenWebText)
Tutto l'addestramento da zero, senza preaddestramento esterno

Risultati Sperimentali

Risultati Principali

Esperimento Dynamic MNIST

Metodo	Parametri	Static→Static	Dynamic→Dynamic	Static→Dynamic
Auto-attenzione	2.7M	98.48%	92.64%	18.18%
α-Translution	4.6M	98.48%	97.31%	34.90%
Translution	116.2M	98.60%	97.35%	36.40%

Scoperte Chiave: Translution mostra prestazioni significativamente migliori in scenari di variazione di posizione, dimostrando i vantaggi della codifica relativa.

Esperimento ImageNet-1K

Prendendo ViT-A/56 come esempio:

Metodo	Parametri	Top-1	Top-5
Auto-attenzione	4.7M	46.28%	71.17%
α-Translution	5.3M	48.36%	73.31%
Translution	38.5M	52.41%	76.50%

Esperimento di Modellazione del Linguaggio Naturale

Metodo	Parametri	Perplessità
Auto-attenzione	22.0M	60.40
α-Translution	23.7M	57.97
Translution	127.5M	56.26

Studi di Ablazione

1. Impatto dell'Aumento dei Parametri vs Codifica Relativa

Gli esperimenti dimostrano che il semplice aumento dei parametri (codifica assoluta) non porta a miglioramenti di prestazioni, provando l'efficacia del metodo di codifica relativa stesso.

2. Impatto della Dimensione di Codifica Relativa

Con l'aumento di C1 e C2, le prestazioni di α-Translution migliorano, ma aumenta anche il numero di parametri, creando un compromesso tra efficienza ed efficacia.

3. Confronto dei Metodi di Codifica di Posizione

Metodo	Parametri	Top-1	Top-5
Nessun embedding di posizione	4.69M	42.49%	67.39%
Embedding di posizione standard	4.69M	46.28%	71.17%
Swin Transformer	4.69M	46.36%	71.31%
RoFormer	4.69M	46.65%	71.51%
α-Translution	5.33M	48.36%	73.31%
Translution	38.53M	52.41%	76.50%

Scoperte Sperimentali

Importanza della Codifica Relativa: in scenari di variazione di posizione, la codifica relativa supera significativamente la codifica assoluta
Efficienza dei Parametri: α-Translution ottiene miglioramenti significativi di prestazioni con un aumento moderato dei parametri
Validità Multimodale: il metodo è efficace sia su compiti di visione che di linguaggio
Limitazioni di Memoria: i limiti di memoria GPU attuali limitano gli esperimenti su larga scala, richiedendo 2-3TB di memoria per valutazioni più ampie

Lavori Correlati

Ricerca sulla Codifica di Posizione

Gli autori classificano i lavori correlati in tre categorie:

Vettori di Posizione Relativa: Shaw et al., BoTNet, HaloNet, ecc.
Scalari di Posizione Relativa: Swin Transformer, CoAtNet, ConViT, ecc.
Embedding di Posizione Rotazionale: RoFormer, ecc.

Combinazione di Convoluzione e Attenzione

Combinazione a Livello di Architettura: Conformer, CeiT, ecc. utilizzano convoluzione e attenzione in strati diversi
Combinazione a Livello di Modulo: Translution unifica i due a livello di operazione fondamentale

Conclusioni e Discussione

Conclusioni Principali

Translution unifica con successo la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione
α-Translution fornisce un buon equilibrio tra efficienza dei parametri e prestazioni
La codifica relativa supera significativamente la codifica assoluta nel trattamento delle variazioni di posizione
Il metodo mostra miglioramenti su più compiti e modalità

Limitazioni

Requisiti di Risorse Computazionali: Translution completo richiede una grande quantità di parametri e memoria
Limitazioni della Scala di Valutazione: a causa dei vincoli di risorse, la valutazione principale è su architetture di piccole e medie dimensioni
Ottimizzazione per Scenari Specifici: alcune posizioni relative potrebbero condividere parametri, in particolare a distanze maggiori

Direzioni Future

Esplorazione di Varianti Ottimizzate: progettazione di varianti Translution più efficienti
Estensione Multimodale: estensione a 3D, video, molecole e altre modalità
Progettazione di Architetture: progettazione di architetture dedicate più efficaci per Translution
Valutazione su Larga Scala: convalida su framework e dataset di dimensioni maggiori

Valutazione Approfondita

Punti di Forza

Contributo Teorico: fornisce una prospettiva unificata di convoluzione e auto-attenzione, teoricamente elegante
Valore Pratico: α-Translution porta miglioramenti di prestazioni anche in condizioni di risorse limitate
Esperimenti Completi: copre più compiti, dataset e studi di ablazione
Problema Chiaro: identifica e affronta chiaramente le limitazioni fondamentali dei metodi esistenti
Contributo Open Source: fornisce un'implementazione completa, promuovendo la ricerca della comunità

Carenze

Requisiti di Risorse: i requisiti computazionali del metodo completo potrebbero limitare l'applicazione pratica
Scala di Valutazione: a causa dei vincoli di risorse, mancano valutazioni su modelli su larga scala
Analisi Teorica: manca un'analisi teorica approfondita sulle proprietà di convergenza e ottimizzazione del metodo
Equità del Confronto: la differenza significativa nel numero di parametri rispetto ai baseline potrebbe influenzare l'equità del confronto

Impatto

Valore Accademico: fornisce nuove prospettive sulla combinazione di meccanismi di attenzione e convoluzione
Prospettive Pratiche: la praticità di α-Translution suggerisce potenziale adozione in applicazioni reali
Significato Ispiratore: potrebbe ispirare ulteriori ricerche sull'unificazione di operazioni fondamentali

Scenari Applicabili

Compiti Sensibili alla Posizione: particolarmente adatto per compiti che richiedono la gestione di variazioni di posizione
Dati Strutturati: prestazioni efficaci su dati con struttura spaziale o sequenziale come immagini e testo
Ambienti con Risorse Sufficienti: Translution completo è adatto per scenari con risorse computazionali abbondanti
Esplorazione di Ricerca: fornisce nuove direzioni per la ricerca su architetture fondamentali

Bibliografia

L'articolo cita importanti lavori nel campo del deep learning, tra cui:

Articolo originale di Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Lavori correlati sulla codifica di posizione relativa (Shaw et al., 2018; Liu et al., 2021, ecc.)
Lavori classici su reti neurali convoluzionali (LeCun et al., 1998; He et al., 2016, ecc.)

Valutazione Complessiva: Questo è un articolo di alta qualità con contributi sia teorici che pratici. Sebbene presenti il problema dei requisiti computazionali elevati, la proposta della variante α-Translution bilancia bene le prestazioni e l'efficienza. L'articolo fornisce una nuova prospettiva sull'unificazione delle operazioni fondamentali del deep learning, con significativo valore accademico e pratico.