INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+: Transformationen mit niedriger Komplexität und Datenabhängigkeit für Videokodierung
Dieses Paper behandelt das Transformationsdesign-Problem in der Videokodierung und schlägt einen Framework mit niedriger Komplexität für datenabhängige Transformationen namens INT-DTT+ vor. Während traditionelle diskrete Trigonometrische Transformationen (wie DCT-2 und DST-7) ein Gleichgewicht zwischen Kodierungsleistung und Recheneffizienz erreichen, bieten datenabhängige Transformationen (wie KLT und graphbasierte separierbare Transformationen GBST) zwar bessere Energiekompression, ermangeln aber ausnutzbarer Symmetrien zur Komplexitätsreduktion. Das Paper konstruiert einen Framework basierend auf DTT+ (eine Familie von GBST, die durch Rang-Eins-Updates von DTT-Graphen erhalten wird), schlägt zunächst einen Graphenlern-Algorithmus zur gemeinsamen Schätzung von Rang-Eins-Updates für Zeilen- und Spaltengraphen vor, und nutzt dann die progressive Struktur von DTT+ zur Kernzerlegung in basis-DTT und strukturierte Cauchy-Matrizen. Durch die Nutzung von Ganzzahl-DTT mit niedriger Komplexität und sparsifizierter Cauchy-Matrizen wird INT-DTT+ als Ganzzahl-Approximation konstruiert. In Verifikationen unter dem modusabhängigen Transformationsszenario des VVC-Standards erreicht INT-DTT+ über 3% BD-Rate-Einsparungen gegenüber der VVC-MTS-Baseline mit einer Komplexität vergleichbar mit Ganzzahl-DCT-2.
Das Transformationsdesign in Videokodierungssystemen steht vor dem Dilemma "Leistung-Komplexität":
Einschränkungen traditioneller DTT: DCT-2, DST-7 und andere diskrete Trigonometrische Transformationen haben zwar schnelle Algorithmen, aber begrenzte Anpassungsfähigkeit an spezifische Signalstatistiken
Dilemma datenabhängiger Transformationen: KLT ist theoretisch optimal, ermangelt aber schneller Implementierung; separierbare KLT und GBST reduzieren zwar die Parametermenge, bieten aber immer noch keine ausnutzbaren Symmetrien zur Komplexitätsreduktion
Praktische Anwendungsengpässe: Bestehende gelernte Transformationen werden selten in praktischen Kodierern verwendet, da schnelle Algorithmen fehlen
Kodierungseffizienz-Verbesserung: Modusabhängige Transformationen (MDT) können die Energiekompression durch Ausnutzung statistischer Eigenschaften von Residuen für jeden Vorhersagemodus verbessern
Anforderungen der Industrie: Neue Kodierungsstandards wie VVC benötigen Verbesserungen der Kompressionsleistung bei gleichzeitiger Beibehaltung niedriger Komplexität
Brücke zwischen Theorie und Praxis: Es ist notwendig, ein Gleichgewicht zwischen theoretischem Optimum (KLT) und praktischer Machbarkeit (DTT) zu finden
sep-KLT: Erfordert Lernen von n² Parametern, hohe Rechenkomplexität (O(n²) Multiplikationen), keine schnellen Algorithmen
GBST: Obwohl Parameteranzahl begrenzt wird, um Robustheit zu verbessern, mangelt es immer noch an ausnutzbaren Strukturen
Direkte Quantisierungsmethoden: Direkte Quantisierung von Gleitkomma-Kernen zu Ganzzahlen kann Rechenkomplexität nicht reduzieren
Frühere Arbeiten der Autoren: Der FFT-Schnellalgorithmus von DTT+ ist nur bei großen Blockgrößen besser als naive Matrixmultiplikation und löst das Parameterlernproblem nicht
Gemeinsamer Graphenlern-Algorithmus: Schlägt eine Graphenlernmethode für DTT+ vor, die durch gemeinsame Schätzung von Rang-Eins-Update-Parametern (αr, βr, αc, βc, ir, ic) für Zeilen- und Spaltengraphen die Kovarianzstruktur des gesamten Blocks erfasst
INT-DTT+ Ganzzahl-Implementierungs-Framework:
Nutzt die progressive Zerlegungseigenschaft von DTT+ (basis-DTT + Cauchy-Matrix)
Entwirft Sparsifizierungsstrategie für Cauchy-Matrizen basierend auf Eigenwert-Verschachtelungseigenschaften
Konstruiert Ganzzahl-Approximation mit niedriger Komplexität, vergleichbar mit Ganzzahl-DCT-2
RDOT-Designmethode: Integriert DTT+ in den Rate-Distortion-Optimized-Transform (RDOT)-Framework, so dass gelernte Transformationen mit bestehenden VVC-MTS-Kernen komplementär sind
Gewichtungs-Clustering-Strategie: Schlägt k-means-basierte Parameterclustering-Methode vor, die Speicheranforderungen weiter reduziert (66%-94% Reduktion gegenüber sep-KLT)
Systemische Verifikation: Im Szenario von VVC-Standard-Intra-Vorhersage-Residuen werden über 3% BD-Rate-Einsparungen mit Komplexitätszuwachs erreicht, der nur einer Ganzzahl-DCT-2-Berechnung entspricht
Eingabe: Vorhersage-Residuenblock xi ∈ R^(n×n) (z.B. VVC-Intra-Vorhersage-Residuen) Ausgabe: Transformationskoeffizienten yi = T^⊤ xi Ziel: Entwurf der Transformationsmatrix T, so dass sie:
Sich an Signalstatistiken anpasst (Energiekompressionsleistung)
1. Initialisierung: Zufällige Aufteilung von Stichproben in nt Cluster
2. Iteration bis Konvergenz:
a. Für jeden Cluster Ij, löse φ_j* und berechne Transformation Tj
b. Aktualisiere Cluster-Zuordnung durch RDO (Gleichung 4)
3. Ausgabe: Gelernte Transformations-Menge {Tj}
Dieses Paper ist ein wichtiger Fortschritt im Bereich des Transformationsdesigns für Videokodierung und überbrückt erfolgreich die Kluft zwischen theoretischem Optimum (KLT) und praktischer Machbarkeit (DTT). Die Kernin novation liegt in der Nutzung der speziellen Struktur von Rang-Eins-Updates, um Datenadaptivität mit schnellen Algorithmen zu kombinieren – dies ist ein langfristig verfolgtes, aber bisher nicht erreichtes Ziel des Bereichs.
Hauptstärken umfassen theoretische Eleganz (vollständiger mathematischer Framework), ingenieur-technische Praktikabilität (Komplexität vergleichbar mit DCT) und experimentelle Vollständigkeit (mehrdimensionale Verifikation), was es zu einer äußerst vielversprechenden praktischen Technologie macht. Haupteinschränkungen liegen in der Tiefe und Breite der Bewertung, insbesondere bei Hardware-Implementierung und Generalisierungsfähigkeit über Szenarien.
Für Videokodierungs-Forscher bietet dieses Paper ein neues Paradigma für datenabhängiges Transformations-Design; für Industrie-Praktiker ist INT-DTT+ eine einsatzbare Lösung zur Verbesserung der Kodierungseffizienz; für theoretische Arbeiter kann das Rang-Eins-Update-Framework andere strukturierte Matrix-Probleme inspirieren.
Empfehlungsindex: 9/10 - Stark empfohlen für Forscher in Videokodierung, Graphensignalverarbeitung und numerischer linearer Algebra.