Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic
Translution: Unificazione dell'Auto-attenzione e della Convoluzione per la Modellazione Adattiva e Relativa
Titolo: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Autori: Hehe Fan (Università di Zhejiang), Yi Yang (Università di Zhejiang), Mohan Kankanhalli (Università Nazionale di Singapore), Fei Wu (Università di Zhejiang)
Classificazione: cs.LG cs.AI cs.CL cs.CV
Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
Nel modellare i dati, gli autori sostengono che sono coinvolti due aspetti chiave: 1) identificare gli elementi correlati all'elemento centrale (come il campo ricettivo della convoluzione) o all'elemento di query (come l'auto-attenzione); 2) codificare efficacemente questi token. L'auto-attenzione può identificare adattivamente questi elementi, ma si affida agli embedding di posizione assoluta per l'apprendimento della rappresentazione strutturale. Al contrario, la convoluzione codifica gli elementi in modo relativo, ma la dimensione del kernel fissa limita la sua capacità di selezionare adattivamente elementi rilevanti. Questo articolo propone l'operazione Translution, che unifica la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione. Tuttavia, questa integrazione comporta un aumento significativo del numero di parametri, superando le risorse computazionali disponibili nella maggior parte dei casi. Pertanto, gli autori propongono la variante leggera α-Translution. Gli esperimenti dimostrano che Translution supera l'auto-attenzione sia nei compiti di visione artificiale che di elaborazione del linguaggio naturale.
La sfida fondamentale affrontata dal deep learning contemporaneo è come modellare efficacemente i dati. Gli autori scompongono la modellazione dei dati in due aspetti chiave:
Identificazione degli Elementi Correlati: determinare quali elementi di dati sono correlati all'elemento attualmente elaborato
Codifica Efficace: codificare questi elementi correlati in rappresentazioni efficaci
Con l'estensione diretta di modelli come Transformer che incontrano rendimenti decrescenti, i laboratori di IA hanno notato che il tasso di miglioramento dei modelli di prossima generazione è inferiore alle aspettative. In condizioni di saturazione dei dati e limitazioni delle leggi di scaling attuali, la progettazione di architetture di reti neurali innovative diventa cruciale.
Proposta dell'Operazione Translution: unifica la capacità di riconoscimento adattivo dell'auto-attenzione e i vantaggi della codifica relativa della convoluzione
Progettazione della Variante Leggera α-Translution: riduce significativamente il numero di parametri, rendendo il metodo fattibile con le risorse computazionali attuali
Unificazione Teorica: dimostra che la convoluzione e l'auto-attenzione possono essere considerate come casi speciali di Translution
Verifica Sperimentale: convalida l'efficacia del metodo su compiti di visione artificiale e elaborazione del linguaggio naturale
Implementazione Open Source: fornisce un'implementazione completa del codice per l'uso della comunità
A differenza dei metodi esistenti (bias scalare o aggiunta vettoriale), Translution utilizza matrici basate su offset per la codifica relativa, in grado di catturare meglio le informazioni di direzione e distanza.
Scoperte Chiave: Translution mostra prestazioni significativamente migliori in scenari di variazione di posizione, dimostrando i vantaggi della codifica relativa.
Gli esperimenti dimostrano che il semplice aumento dei parametri (codifica assoluta) non porta a miglioramenti di prestazioni, provando l'efficacia del metodo di codifica relativa stesso.
Con l'aumento di C1 e C2, le prestazioni di α-Translution migliorano, ma aumenta anche il numero di parametri, creando un compromesso tra efficienza ed efficacia.
Importanza della Codifica Relativa: in scenari di variazione di posizione, la codifica relativa supera significativamente la codifica assoluta
Efficienza dei Parametri: α-Translution ottiene miglioramenti significativi di prestazioni con un aumento moderato dei parametri
Validità Multimodale: il metodo è efficace sia su compiti di visione che di linguaggio
Limitazioni di Memoria: i limiti di memoria GPU attuali limitano gli esperimenti su larga scala, richiedendo 2-3TB di memoria per valutazioni più ampie
L'articolo cita importanti lavori nel campo del deep learning, tra cui:
Articolo originale di Transformer (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Lavori correlati sulla codifica di posizione relativa (Shaw et al., 2018; Liu et al., 2021, ecc.)
Lavori classici su reti neurali convoluzionali (LeCun et al., 1998; He et al., 2016, ecc.)
Valutazione Complessiva: Questo è un articolo di alta qualità con contributi sia teorici che pratici. Sebbene presenti il problema dei requisiti computazionali elevati, la proposta della variante α-Translution bilancia bene le prestazioni e l'efficienza. L'articolo fornisce una nuova prospettiva sull'unificazione delle operazioni fondamentali del deep learning, con significativo valore accademico e pratico.