2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.
When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named α-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including α-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
academic

Translution: Vereinigung von Self-Attention und Faltung für adaptive und relative Modellierung

Grundinformationen

  • Papier-ID: 2510.10060
  • Titel: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
  • Autoren: Hehe Fan (Zhejiang-Universität), Yi Yang (Zhejiang-Universität), Mohan Kankanhalli (Nationale Universität Singapur), Fei Wu (Zhejiang-Universität)
  • Klassifizierung: cs.LG cs.AI cs.CL cs.CV
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Papier-Link: https://arxiv.org/abs/2510.10060v1

Zusammenfassung

Die Autoren argumentieren, dass die Datenmodellierung zwei Schlüsselaspekte umfasst: 1) Identifikation von Elementen, die mit einem zentralen Element (wie dem Empfangsfeld einer Faltung) oder einem Abfrageelement (wie Self-Attention) verwandt sind; 2) effektive Kodierung dieser Token. Self-Attention kann diese Elemente adaptiv identifizieren, verlässt sich jedoch auf absolute Positionseinbettungen für das Strukturrepräsentationslernen. Im Gegensatz dazu kodiert Faltung Elemente auf relative Weise, aber die feste Kernelgröße begrenzt die Fähigkeit zur adaptiven Auswahl relevanter Elemente. Dieses Papier schlägt die Translution-Operation vor, die die adaptive Erkennungsfähigkeit von Self-Attention mit den relativen Kodierungsvorteilen der Faltung vereint. Diese Integration führt jedoch zu einem drastischen Anstieg der Parameterzahl, der die verfügbaren Rechenressourcen übersteigt. Daher schlagen die Autoren die leichte Variante α-Translution vor. Experimente zeigen, dass Translution Self-Attention bei Computer-Vision- und Natural-Language-Processing-Aufgaben übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderung des modernen Deep Learning ist die effektive Modellierung von Daten. Die Autoren zerlegen die Datenmodellierung in zwei Schlüsselaspekte:

  1. Identifikation relevanter Elemente: Bestimmung, welche Datenelemente mit dem aktuell verarbeiteten Element relevant sind
  2. Effektive Kodierung: Kodierung dieser relevanten Elemente in effektive Repräsentationen

Einschränkungen bestehender Methoden

Einschränkungen von Faltungsneuronalen Netzen:

  • Verwendung von Kerneln fester Größe zur Definition lokaler Empfangsfelder
  • Kann nicht vermeiden, irrelevante Pixel einzubeziehen, besonders an Objektgrenzen oder Hintergundbereichen
  • Kann lokale Strukturen zwar relativ kodieren, mangelt es jedoch an Adaptivität

Einschränkungen von Self-Attention-Mechanismen:

  • Können relevante Bereiche adaptiv identifizieren, ohne durch vordefinierte Lokalität eingeschränkt zu sein
  • Verlassen sich auf absolute Positionseinbettungen zur Erfassung von Strukturinformationen
  • Können Schwierigkeiten haben, identische Objekte zu erkennen, wenn diese an verschiedene Positionen verschoben werden

Forschungsmotivation

Mit der direkten Erweiterung von Modellen wie Transformers, die auf sinkende Erträge stoßen, bemerken KI-Labore, dass die Verbesserungsgeschwindigkeit der nächsten Generation von Modellen unter den Erwartungen liegt. Unter Datensättigung und den Grenzen der aktuellen Skalierungsgesetze wird die Gestaltung innovativer Netzwerkarchitekturen entscheidend.

Kernbeiträge

  1. Vorschlag der Translution-Operation: Vereinigt die adaptive Erkennungsfähigkeit von Self-Attention mit den relativen Kodierungsvorteilen der Faltung
  2. Entwurf der leichten Variante α-Translution: Reduziert die Parameterzahl erheblich und macht die Methode unter aktuellen Rechenressourcen praktikabel
  3. Theoretische Vereinigung: Beweist, dass Faltung und Self-Attention als Spezialfälle von Translution betrachtet werden können
  4. Experimentelle Validierung: Validiert die Wirksamkeit der Methode bei Computer-Vision- und Natural-Language-Processing-Aufgaben
  5. Open-Source-Implementierung: Stellt vollständige Code-Implementierung für die Community bereit

Methodische Details

Aufgabendefinition

Gegeben Eingabedaten (Bildblöcke oder Text-Token) besteht das Ziel darin, eine Operation zu erlernen, die:

  • Elemente, die mit einem Abfrageelement relevant sind, adaptiv identifiziert
  • Strukturbeziehungen dieser Elemente auf relative Weise kodiert
  • Effektive Ausgaberepräsentationen erzeugt

Modellarchitektur

Translution-Operation

Translution verfolgt einen faltungsähnlichen Ansatz und weist verschiedene Parametermatrizen für jeden Abstand und jede Richtung zu:

Relative Abfragekodierung: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
Relative Schlüsselkodierung: kj,i = fj · W^k_{-δx,-δy}
Relative Aufmerksamkeit: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
Relative Wertkodierung: vi,j = fj · W^v_{δx,δy}
Gewichtete Summation: f'i = ∑αi,j × vi,j

wobei W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} lernbare Parametermatrizen für die entsprechende Verschiebung (δx,δy) sind.

Leichte Variante α-Translution

Da Translution (2H-1)×(2W-1)×C×C' Parameter benötigt, reduziert α-Translution die Parameter durch Verringerung der Ein- und Ausgabedimensionen:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

wobei C1 ≪ C, C2 ≪ C'.

Technische Innovationen

1. Theoretische Vereinigung

Die Autoren beweisen, dass Faltung und Self-Attention Spezialfälle von Translution sind:

  • Faltung: Aufmerksamkeitsgewichte sind innerhalb des Empfangsfeldes 1 und außerhalb 0
  • Self-Attention: Verwendet gemeinsame W^q, W^k, W^v Parameter und ignoriert Richtungs- und Distanzkodierung
  • Translution: Kombiniert die Vorteile beider

2. Relative Positionskodierung

Im Gegensatz zu bestehenden Methoden (skalare Verzerrung oder Vektoraddition) verwendet Translution Matrizen basierend auf Verschiebungen für relative Kodierung und kann Richtungs- und Distanzinformationen besser erfassen.

3. Speicheroptimierte Implementierung

Eine speichereffiziente Implementierung für α-Translution wurde entworfen, die die Spitzenspeichernutzung von N×N×C' auf N×C'+N×N×C2 reduziert.

Experimentelle Einrichtung

Datensätze

Computer-Vision-Aufgaben:

  • Dynamic MNIST: Synthetischer Datensatz mit Ziffern, die sich in einem 84×84-Pixel-Bereich bewegen
  • Static MNIST: Kontroll-Datensatz mit Ziffern, die in der Bildmitte fixiert sind
  • ImageNet-1K: Großflächiger Bildklassifizierungsdatensatz mit 1000 Klassen

Natural-Language-Processing-Aufgaben:

  • OpenWebText: 9 Milliarden Trainings-Token, 4 Millionen Validierungs-Token, Vokabular 50K

Bewertungsmetriken

  • Bildklassifizierung: Top-1 und Top-5 Genauigkeit
  • Sprachmodellierung: Verwirrung (Perplexity)

Vergleichsmethoden

  • Standard Self-Attention (Transformer-Baseline)
  • Relative Positionskodierungs-Varianten (Shaw et al., Swin Transformer, ConViT, RoFormer usw.)
  • Absolute Kodierungs-Varianten (für Ablationsstudien)

Implementierungsdetails

  • Architektur-Konfiguration: Tiefe 6-12 Schichten, Einbettungsdimension 192-384, Aufmerksamkeitsköpfe 3-6
  • α-Translution Standard-Kompressionsdimension: C1 = C2 = 8
  • Batch-Größe: 256 (ImageNet), 8 (OpenWebText)
  • Alle Trainings von Grund auf, ohne externe Vortrainierung

Experimentelle Ergebnisse

Hauptergebnisse

Dynamic MNIST Experiment

MethodeParameterStatic→StaticDynamic→DynamicStatic→Dynamic
Self-Attention2,7M98,48%92,64%18,18%
α-Translution4,6M98,48%97,31%34,90%
Translution116,2M98,60%97,35%36,40%

Schlüsselfunde: Translution zeigt in Positionsänderungsszenarien signifikant bessere Leistung und beweist die Vorteile der relativen Kodierung.

ImageNet-1K Experiment

Beispiel mit ViT-A/56:

MethodeParameterTop-1Top-5
Self-Attention4,7M46,28%71,17%
α-Translution5,3M48,36%73,31%
Translution38,5M52,41%76,50%

Natural-Language-Modellierungs-Experiment

MethodeParameterVerwirrung
Self-Attention22,0M60,40
α-Translution23,7M57,97
Translution127,5M56,26

Ablationsstudien

1. Parametererhöhung vs. Auswirkung der relativen Kodierung

Experimente zeigen, dass einfache Parametererhöhung (absolute Kodierung) keine Leistungssteigerung bringt und beweisen die Wirksamkeit der relativen Kodierungsmethode selbst.

2. Auswirkung der relativen Kodierungsdimension

Mit zunehmenden C1 und C2 verbessert sich die α-Translution-Leistung, aber auch die Parameterzahl nimmt zu, was einen Effizienz-Effektivitäts-Kompromiss darstellt.

3. Vergleich von Positionskodierungsmethoden

MethodeParameterTop-1Top-5
Keine Positionseinbettung4,69M42,49%67,39%
Standard-Positionseinbettung4,69M46,28%71,17%
Swin Transformer4,69M46,36%71,31%
RoFormer4,69M46,65%71,51%
α-Translution5,33M48,36%73,31%
Translution38,53M52,41%76,50%

Experimentelle Erkenntnisse

  1. Wichtigkeit der relativen Kodierung: In Positionsänderungsszenarien ist relative Kodierung der absoluten Kodierung deutlich überlegen
  2. Parametereffizienz: α-Translution erreicht signifikante Leistungssteigerungen mit geringfügiger Parametererhöhung
  3. Modaliätsübergreifende Wirksamkeit: Die Methode ist bei Sicht- und Sprachaufgaben wirksam
  4. Speicherbegrenzung: Aktuelle GPU-Speicherbegrenzungen beschränken großflächige Experimente und erfordern 2-3 TB Speicher für größere Bewertungen

Verwandte Arbeiten

Positionskodierungsforschung

Die Autoren unterteilen verwandte Arbeiten in drei Kategorien:

  1. Relative Positionsvektoren: Shaw et al., BoTNet, HaloNet usw.
  2. Relative Positionsskalare: Swin Transformer, CoAtNet, ConViT usw.
  3. Rotationspositionseinbettungen: RoFormer usw.

Kombination von Faltung und Aufmerksamkeit

  • Architektur-Ebene-Kombination: Conformer, CeiT usw. verwenden Faltung und Aufmerksamkeit in verschiedenen Schichten
  • Modul-Ebene-Kombination: Translution vereint beide auf der Ebene der grundlegenden Operationen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Translution vereint erfolgreich die adaptive Erkennungsfähigkeit von Self-Attention mit den relativen Kodierungsvorteilen der Faltung
  2. α-Translution bietet ein gutes Gleichgewicht zwischen Parametereffizienz und Leistung
  3. Relative Kodierung ist bei der Behandlung von Positionsänderungen der absoluten Kodierung deutlich überlegen
  4. Die Methode zeigt Verbesserungen bei mehreren Aufgaben und Modalitäten

Einschränkungen

  1. Rechenressourcen-Anforderungen: Vollständiges Translution erfordert große Mengen an Parametern und Speicher
  2. Bewertungsskala-Einschränkungen: Aufgrund von Ressourcenbeschränkungen hauptsächlich auf kleinen bis mittleren Architekturen bewertet
  3. Szenariospezifische Optimierung: Bestimmte relative Positionen könnten Parameter teilen, besonders bei größeren Entfernungen

Zukünftige Richtungen

  1. Erkundung optimierter Varianten: Entwurf effizienterer Translution-Varianten
  2. Multimodale Erweiterung: Erweiterung auf 3D, Video, Moleküle und andere Modalitäten
  3. Architektur-Design: Entwurf effektiverer spezialisierter Architekturen für Translution
  4. Großflächige Bewertung: Validierung in größeren Rahmen und Datensätzen

Tiefgreifende Bewertung

Stärken

  1. Theoretischer Beitrag: Bietet eine einheitliche Perspektive auf Faltung und Self-Attention, theoretisch elegant
  2. Praktischer Wert: α-Translution bringt Leistungsverbesserungen auch unter ressourcenbeschränkten Bedingungen
  3. Umfassende Experimente: Umfasst mehrere Aufgaben, Datensätze und Ablationsstudien
  4. Klare Problemstellung: Identifiziert und adressiert klar die Kerneinschränkungen bestehender Methoden
  5. Open-Source-Beitrag: Stellt vollständige Implementierung bereit und fördert Community-Forschung

Mängel

  1. Ressourcen-Anforderungen: Die Rechenanforderungen der vollständigen Methode können praktische Anwendungen einschränken
  2. Bewertungsskala: Aufgrund von Ressourcenbeschränkungen fehlt die Bewertung großflächiger Modelle
  3. Theoretische Analyse: Mangelt es an tiefgreifender theoretischer Analyse von Konvergenz und Optimierungseigenschaften
  4. Vergleichsfairness: Größere Parameterunterschiede mit Baselines können die Vergleichsfairness beeinflussen

Auswirkungen

  1. Akademischer Wert: Bietet neue Perspektiven für die Kombination von Aufmerksamkeitsmechanismen und Faltung
  2. Praktische Aussichten: Die Praktikabilität von α-Translution macht es wahrscheinlich, dass es in praktischen Anwendungen übernommen wird
  3. Inspirationswert: Kann mehr Forschung zur Vereinigung grundlegender Operationen inspirieren

Anwendungsszenarien

  1. Positionsempfindliche Aufgaben: Besonders geeignet für Aufgaben, die Positionsänderungen verarbeiten müssen
  2. Strukturierte Daten: Gute Leistung bei Bildern, Text und anderen Daten mit räumlicher oder sequenzieller Struktur
  3. Ressourcenreiche Umgebungen: Vollständiges Translution eignet sich für Szenarien mit ausreichenden Rechenressourcen
  4. Forschungserkundung: Bietet neue Richtungen für grundlegende Architekturforschung

Referenzen

Das Papier zitiert wichtige Arbeiten im Deep-Learning-Bereich, einschließlich:

  • Originales Transformer-Papier (Vaswani et al., 2017)
  • Vision Transformer (Dosovitskiy et al., 2021)
  • Verwandte Arbeiten zur relativen Positionskodierung (Shaw et al., 2018; Liu et al., 2021 usw.)
  • Klassische Arbeiten zu Faltungsneuronalen Netzen (LeCun et al., 1998; He et al., 2016 usw.)

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit Beiträgen in Theorie und Praxis. Obwohl es hohe Rechenressourcen-Anforderungen gibt, adressiert die Einführung der α-Translution-Variante gut die Balance zwischen Leistung und Effizienz. Das Papier bietet neue Perspektiven auf die Vereinigung grundlegender Deep-Learning-Operationen und hat bedeutenden akademischen Wert und praktische Relevanz.