2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.

When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named Î±-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including Î±-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.

academic

Translution: Vereinigung von Self-Attention und Faltung für adaptive und relative Modellierung

Grundinformationen

Papier-ID: 2510.10060
Titel: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
Autoren: Hehe Fan (Zhejiang-Universität), Yi Yang (Zhejiang-Universität), Mohan Kankanhalli (Nationale Universität Singapur), Fei Wu (Zhejiang-Universität)
Klassifizierung: cs.LG cs.AI cs.CL cs.CV
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Papier-Link: https://arxiv.org/abs/2510.10060v1

Zusammenfassung

Die Autoren argumentieren, dass die Datenmodellierung zwei Schlüsselaspekte umfasst: 1) Identifikation von Elementen, die mit einem zentralen Element (wie dem Empfangsfeld einer Faltung) oder einem Abfrageelement (wie Self-Attention) verwandt sind; 2) effektive Kodierung dieser Token. Self-Attention kann diese Elemente adaptiv identifizieren, verlässt sich jedoch auf absolute Positionseinbettungen für das Strukturrepräsentationslernen. Im Gegensatz dazu kodiert Faltung Elemente auf relative Weise, aber die feste Kernelgröße begrenzt die Fähigkeit zur adaptiven Auswahl relevanter Elemente. Dieses Papier schlägt die Translution-Operation vor, die die adaptive Erkennungsfähigkeit von Self-Attention mit den relativen Kodierungsvorteilen der Faltung vereint. Diese Integration führt jedoch zu einem drastischen Anstieg der Parameterzahl, der die verfügbaren Rechenressourcen übersteigt. Daher schlagen die Autoren die leichte Variante α-Translution vor. Experimente zeigen, dass Translution Self-Attention bei Computer-Vision- und Natural-Language-Processing-Aufgaben übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderung des modernen Deep Learning ist die effektive Modellierung von Daten. Die Autoren zerlegen die Datenmodellierung in zwei Schlüsselaspekte:

Identifikation relevanter Elemente: Bestimmung, welche Datenelemente mit dem aktuell verarbeiteten Element relevant sind
Effektive Kodierung: Kodierung dieser relevanten Elemente in effektive Repräsentationen

Einschränkungen bestehender Methoden

Einschränkungen von Faltungsneuronalen Netzen:

Verwendung von Kerneln fester Größe zur Definition lokaler Empfangsfelder
Kann nicht vermeiden, irrelevante Pixel einzubeziehen, besonders an Objektgrenzen oder Hintergundbereichen
Kann lokale Strukturen zwar relativ kodieren, mangelt es jedoch an Adaptivität

Einschränkungen von Self-Attention-Mechanismen:

Können relevante Bereiche adaptiv identifizieren, ohne durch vordefinierte Lokalität eingeschränkt zu sein
Verlassen sich auf absolute Positionseinbettungen zur Erfassung von Strukturinformationen
Können Schwierigkeiten haben, identische Objekte zu erkennen, wenn diese an verschiedene Positionen verschoben werden

Forschungsmotivation

Mit der direkten Erweiterung von Modellen wie Transformers, die auf sinkende Erträge stoßen, bemerken KI-Labore, dass die Verbesserungsgeschwindigkeit der nächsten Generation von Modellen unter den Erwartungen liegt. Unter Datensättigung und den Grenzen der aktuellen Skalierungsgesetze wird die Gestaltung innovativer Netzwerkarchitekturen entscheidend.

Kernbeiträge

Vorschlag der Translution-Operation: Vereinigt die adaptive Erkennungsfähigkeit von Self-Attention mit den relativen Kodierungsvorteilen der Faltung
Entwurf der leichten Variante α-Translution: Reduziert die Parameterzahl erheblich und macht die Methode unter aktuellen Rechenressourcen praktikabel
Theoretische Vereinigung: Beweist, dass Faltung und Self-Attention als Spezialfälle von Translution betrachtet werden können
Experimentelle Validierung: Validiert die Wirksamkeit der Methode bei Computer-Vision- und Natural-Language-Processing-Aufgaben
Open-Source-Implementierung: Stellt vollständige Code-Implementierung für die Community bereit

Methodische Details

Aufgabendefinition

Gegeben Eingabedaten (Bildblöcke oder Text-Token) besteht das Ziel darin, eine Operation zu erlernen, die:

Elemente, die mit einem Abfrageelement relevant sind, adaptiv identifiziert
Strukturbeziehungen dieser Elemente auf relative Weise kodiert
Effektive Ausgaberepräsentationen erzeugt

Modellarchitektur

Translution-Operation

Translution verfolgt einen faltungsähnlichen Ansatz und weist verschiedene Parametermatrizen für jeden Abstand und jede Richtung zu:

Relative Abfragekodierung: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Relative Schlüsselkodierung: kj,i = fj · W^k_{-δx,-δy}
Relative Aufmerksamkeit: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Relative Wertkodierung: vi,j = fj · W^v_{δx,δy}
Gewichtete Summation: f'i = ∑αi,j × vi,j

wobei W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} lernbare Parametermatrizen für die entsprechende Verschiebung (δx,δy) sind.

Leichte Variante α-Translution

Da Translution (2H-1)×(2W-1)×C×C' Parameter benötigt, reduziert α-Translution die Parameter durch Verringerung der Ein- und Ausgabedimensionen:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

wobei C1 ≪ C, C2 ≪ C'.

Technische Innovationen

1. Theoretische Vereinigung

Die Autoren beweisen, dass Faltung und Self-Attention Spezialfälle von Translution sind:

Faltung: Aufmerksamkeitsgewichte sind innerhalb des Empfangsfeldes 1 und außerhalb 0
Self-Attention: Verwendet gemeinsame W^q, W^k, W^v Parameter und ignoriert Richtungs- und Distanzkodierung
Translution: Kombiniert die Vorteile beider

2. Relative Positionskodierung

Im Gegensatz zu bestehenden Methoden (skalare Verzerrung oder Vektoraddition) verwendet Translution Matrizen basierend auf Verschiebungen für relative Kodierung und kann Richtungs- und Distanzinformationen besser erfassen.

3. Speicheroptimierte Implementierung

Eine speichereffiziente Implementierung für α-Translution wurde entworfen, die die Spitzenspeichernutzung von N×N×C' auf N×C'+N×N×C2 reduziert.

Experimentelle Einrichtung

Datensätze

Computer-Vision-Aufgaben:

Dynamic MNIST: Synthetischer Datensatz mit Ziffern, die sich in einem 84×84-Pixel-Bereich bewegen
Static MNIST: Kontroll-Datensatz mit Ziffern, die in der Bildmitte fixiert sind
ImageNet-1K: Großflächiger Bildklassifizierungsdatensatz mit 1000 Klassen

Natural-Language-Processing-Aufgaben:

OpenWebText: 9 Milliarden Trainings-Token, 4 Millionen Validierungs-Token, Vokabular 50K

Bewertungsmetriken

Bildklassifizierung: Top-1 und Top-5 Genauigkeit
Sprachmodellierung: Verwirrung (Perplexity)

Vergleichsmethoden

Standard Self-Attention (Transformer-Baseline)
Relative Positionskodierungs-Varianten (Shaw et al., Swin Transformer, ConViT, RoFormer usw.)
Absolute Kodierungs-Varianten (für Ablationsstudien)

Implementierungsdetails

Architektur-Konfiguration: Tiefe 6-12 Schichten, Einbettungsdimension 192-384, Aufmerksamkeitsköpfe 3-6
α-Translution Standard-Kompressionsdimension: C1 = C2 = 8
Batch-Größe: 256 (ImageNet), 8 (OpenWebText)
Alle Trainings von Grund auf, ohne externe Vortrainierung

Experimentelle Ergebnisse

Hauptergebnisse

Dynamic MNIST Experiment

Methode	Parameter	Static→Static	Dynamic→Dynamic	Static→Dynamic
Self-Attention	2,7M	98,48%	92,64%	18,18%
α-Translution	4,6M	98,48%	97,31%	34,90%
Translution	116,2M	98,60%	97,35%	36,40%

Schlüsselfunde: Translution zeigt in Positionsänderungsszenarien signifikant bessere Leistung und beweist die Vorteile der relativen Kodierung.

ImageNet-1K Experiment

Beispiel mit ViT-A/56:

Methode	Parameter	Top-1	Top-5
Self-Attention	4,7M	46,28%	71,17%
α-Translution	5,3M	48,36%	73,31%
Translution	38,5M	52,41%	76,50%

Natural-Language-Modellierungs-Experiment

Methode	Parameter	Verwirrung
Self-Attention	22,0M	60,40
α-Translution	23,7M	57,97
Translution	127,5M	56,26

Ablationsstudien

1. Parametererhöhung vs. Auswirkung der relativen Kodierung

Experimente zeigen, dass einfache Parametererhöhung (absolute Kodierung) keine Leistungssteigerung bringt und beweisen die Wirksamkeit der relativen Kodierungsmethode selbst.

2. Auswirkung der relativen Kodierungsdimension

Mit zunehmenden C1 und C2 verbessert sich die α-Translution-Leistung, aber auch die Parameterzahl nimmt zu, was einen Effizienz-Effektivitäts-Kompromiss darstellt.

3. Vergleich von Positionskodierungsmethoden

Methode	Parameter	Top-1	Top-5
Keine Positionseinbettung	4,69M	42,49%	67,39%
Standard-Positionseinbettung	4,69M	46,28%	71,17%
Swin Transformer	4,69M	46,36%	71,31%
RoFormer	4,69M	46,65%	71,51%
α-Translution	5,33M	48,36%	73,31%
Translution	38,53M	52,41%	76,50%

Experimentelle Erkenntnisse

Wichtigkeit der relativen Kodierung: In Positionsänderungsszenarien ist relative Kodierung der absoluten Kodierung deutlich überlegen
Parametereffizienz: α-Translution erreicht signifikante Leistungssteigerungen mit geringfügiger Parametererhöhung
Modaliätsübergreifende Wirksamkeit: Die Methode ist bei Sicht- und Sprachaufgaben wirksam
Speicherbegrenzung: Aktuelle GPU-Speicherbegrenzungen beschränken großflächige Experimente und erfordern 2-3 TB Speicher für größere Bewertungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Translution vereint erfolgreich die adaptive Erkennungsfähigkeit von Self-Attention mit den relativen Kodierungsvorteilen der Faltung
α-Translution bietet ein gutes Gleichgewicht zwischen Parametereffizienz und Leistung
Relative Kodierung ist bei der Behandlung von Positionsänderungen der absoluten Kodierung deutlich überlegen
Die Methode zeigt Verbesserungen bei mehreren Aufgaben und Modalitäten

Einschränkungen

Rechenressourcen-Anforderungen: Vollständiges Translution erfordert große Mengen an Parametern und Speicher
Bewertungsskala-Einschränkungen: Aufgrund von Ressourcenbeschränkungen hauptsächlich auf kleinen bis mittleren Architekturen bewertet
Szenariospezifische Optimierung: Bestimmte relative Positionen könnten Parameter teilen, besonders bei größeren Entfernungen

Zukünftige Richtungen

Erkundung optimierter Varianten: Entwurf effizienterer Translution-Varianten
Multimodale Erweiterung: Erweiterung auf 3D, Video, Moleküle und andere Modalitäten
Architektur-Design: Entwurf effektiverer spezialisierter Architekturen für Translution
Großflächige Bewertung: Validierung in größeren Rahmen und Datensätzen

Tiefgreifende Bewertung

Stärken

Theoretischer Beitrag: Bietet eine einheitliche Perspektive auf Faltung und Self-Attention, theoretisch elegant
Praktischer Wert: α-Translution bringt Leistungsverbesserungen auch unter ressourcenbeschränkten Bedingungen
Umfassende Experimente: Umfasst mehrere Aufgaben, Datensätze und Ablationsstudien
Klare Problemstellung: Identifiziert und adressiert klar die Kerneinschränkungen bestehender Methoden
Open-Source-Beitrag: Stellt vollständige Implementierung bereit und fördert Community-Forschung

Mängel

Ressourcen-Anforderungen: Die Rechenanforderungen der vollständigen Methode können praktische Anwendungen einschränken
Bewertungsskala: Aufgrund von Ressourcenbeschränkungen fehlt die Bewertung großflächiger Modelle
Theoretische Analyse: Mangelt es an tiefgreifender theoretischer Analyse von Konvergenz und Optimierungseigenschaften
Vergleichsfairness: Größere Parameterunterschiede mit Baselines können die Vergleichsfairness beeinflussen

Auswirkungen

Akademischer Wert: Bietet neue Perspektiven für die Kombination von Aufmerksamkeitsmechanismen und Faltung
Praktische Aussichten: Die Praktikabilität von α-Translution macht es wahrscheinlich, dass es in praktischen Anwendungen übernommen wird
Inspirationswert: Kann mehr Forschung zur Vereinigung grundlegender Operationen inspirieren

Anwendungsszenarien

Positionsempfindliche Aufgaben: Besonders geeignet für Aufgaben, die Positionsänderungen verarbeiten müssen
Strukturierte Daten: Gute Leistung bei Bildern, Text und anderen Daten mit räumlicher oder sequenzieller Struktur
Ressourcenreiche Umgebungen: Vollständiges Translution eignet sich für Szenarien mit ausreichenden Rechenressourcen
Forschungserkundung: Bietet neue Richtungen für grundlegende Architekturforschung

Referenzen

Das Papier zitiert wichtige Arbeiten im Deep-Learning-Bereich, einschließlich:

Originales Transformer-Papier (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
Verwandte Arbeiten zur relativen Positionskodierung (Shaw et al., 2018; Liu et al., 2021 usw.)
Klassische Arbeiten zu Faltungsneuronalen Netzen (LeCun et al., 1998; He et al., 2016 usw.)

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit Beiträgen in Theorie und Praxis. Obwohl es hohe Rechenressourcen-Anforderungen gibt, adressiert die Einführung der α-Translution-Variante gut die Balance zwischen Leistung und Effizienz. Das Papier bietet neue Perspektiven auf die Vereinigung grundlegender Deep-Learning-Operationen und hat bedeutenden akademischen Wert und praktische Relevanz.