Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic
Translution: Vereinigung von Self-Attention und Faltung für adaptive und relative Modellierung
Titel: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Autoren: Hehe Fan (Zhejiang-Universität), Yi Yang (Zhejiang-Universität), Mohan Kankanhalli (Nationale Universität Singapur), Fei Wu (Zhejiang-Universität)
Klassifizierung: cs.LG cs.AI cs.CL cs.CV
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Die Autoren argumentieren, dass die Datenmodellierung zwei Schlüsselaspekte umfasst: 1) Identifikation von Elementen, die mit einem zentralen Element (wie dem Empfangsfeld einer Faltung) oder einem Abfrageelement (wie Self-Attention) verwandt sind; 2) effektive Kodierung dieser Token. Self-Attention kann diese Elemente adaptiv identifizieren, verlässt sich jedoch auf absolute Positionseinbettungen für das Strukturrepräsentationslernen. Im Gegensatz dazu kodiert Faltung Elemente auf relative Weise, aber die feste Kernelgröße begrenzt die Fähigkeit zur adaptiven Auswahl relevanter Elemente. Dieses Papier schlägt die Translution-Operation vor, die die adaptive Erkennungsfähigkeit von Self-Attention mit den relativen Kodierungsvorteilen der Faltung vereint. Diese Integration führt jedoch zu einem drastischen Anstieg der Parameterzahl, der die verfügbaren Rechenressourcen übersteigt. Daher schlagen die Autoren die leichte Variante α-Translution vor. Experimente zeigen, dass Translution Self-Attention bei Computer-Vision- und Natural-Language-Processing-Aufgaben übertrifft.
Die Kernherausforderung des modernen Deep Learning ist die effektive Modellierung von Daten. Die Autoren zerlegen die Datenmodellierung in zwei Schlüsselaspekte:
Identifikation relevanter Elemente: Bestimmung, welche Datenelemente mit dem aktuell verarbeiteten Element relevant sind
Effektive Kodierung: Kodierung dieser relevanten Elemente in effektive Repräsentationen
Mit der direkten Erweiterung von Modellen wie Transformers, die auf sinkende Erträge stoßen, bemerken KI-Labore, dass die Verbesserungsgeschwindigkeit der nächsten Generation von Modellen unter den Erwartungen liegt. Unter Datensättigung und den Grenzen der aktuellen Skalierungsgesetze wird die Gestaltung innovativer Netzwerkarchitekturen entscheidend.
Im Gegensatz zu bestehenden Methoden (skalare Verzerrung oder Vektoraddition) verwendet Translution Matrizen basierend auf Verschiebungen für relative Kodierung und kann Richtungs- und Distanzinformationen besser erfassen.
Experimente zeigen, dass einfache Parametererhöhung (absolute Kodierung) keine Leistungssteigerung bringt und beweisen die Wirksamkeit der relativen Kodierungsmethode selbst.
Mit zunehmenden C1 und C2 verbessert sich die α-Translution-Leistung, aber auch die Parameterzahl nimmt zu, was einen Effizienz-Effektivitäts-Kompromiss darstellt.
Das Papier zitiert wichtige Arbeiten im Deep-Learning-Bereich, einschließlich:
Originales Transformer-Papier (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Verwandte Arbeiten zur relativen Positionskodierung (Shaw et al., 2018; Liu et al., 2021 usw.)
Klassische Arbeiten zu Faltungsneuronalen Netzen (LeCun et al., 1998; He et al., 2016 usw.)
Gesamtbewertung: Dies ist ein hochqualitatives Papier mit Beiträgen in Theorie und Praxis. Obwohl es hohe Rechenressourcen-Anforderungen gibt, adressiert die Einführung der α-Translution-Variante gut die Balance zwischen Leistung und Effizienz. Das Papier bietet neue Perspektiven auf die Vereinigung grundlegender Deep-Learning-Operationen und hat bedeutenden akademischen Wert und praktische Relevanz.