2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, Bajić
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic

Bitallokationsübertragung zur Verbesserung der Wahrnehmungsqualität der VVC-Intra-Codierung

Grundlegende Informationen

  • Paper-ID: 2510.10970
  • Titel: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
  • Autoren: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
  • Klassifizierung: eess.IV (Bild- und Videoverarbeitung)
  • Veröffentlichungszeitpunkt/Konferenz: Picture Coding Symposium 2025, Aachen, Deutschland
  • Paper-Link: https://arxiv.org/abs/2510.10970

Zusammenfassung

Moderne Bild- und Videokodierungsstandards (einschließlich H.266/VVC, AVS3 und AV1) verwenden hybride blockbasierte Kodierungsrahmen. Obwohl dieser Rahmen eine direkte Optimierung für Spitzensignal-Rausch-Verhältnis (PSNR) ermöglicht, ist die Optimierung von wahrnehmungsausgerichteten Metriken (wie Multi-Scale Structural Similarity MS-SSIM) schwierig. Um diese Herausforderung zu bewältigen, wird in diesem Artikel eine Methode mit niedriger Komplexität vorgestellt, die die Wahrnehmungsqualität der VVC-Intra-Codierung durch die Übertragung von Bitallokationswissen aus der End-to-End-Bildkompression verbessert. Der Artikel führt ein leichtgewichtiges Modell ein, das mit Wahrnehmungsverlust trainiert wird, um Quantisierungsschrittabbildungen zu generieren, die implizit die Wahrnehmungswichtigkeit auf Blockebene erfassen und eine effektive Ableitung von VVC-QP-Abbildungen ermöglichen. Experimente auf den Kodak- und CLIC-Datensätzen zeigen erhebliche Vorteile sowohl bei der Ausführungszeit als auch bei der Leistung von Wahrnehmungsmetriken, mit einer BD-Rate-Reduktion von MS-SSIM um über 11%.

Forschungshintergrund und Motivation

Kernproblem

Traditionelle blockbasierte Videokodierungsstandards (wie VVC) optimieren hauptsächlich MSE/PSNR in der Raten-Distortions-Optimierung (RDO), aber diese Metriken korrelieren schlecht mit der menschlichen visuellen Wahrnehmungsqualität. Wahrnehmungsausgerichtete Metriken (wie SSIM, MS-SSIM, LPIPS) sind aufgrund fehlender Additivität und Blockunabhängigkeit schwer in traditionellen blockbasierten RDO-Rahmen effektiv anzuwenden.

Bedeutung des Problems

  1. Unterschied zwischen Wahrnehmungsqualität und traditionellen Metriken: MSE/PSNR weichen erheblich von der menschlichen visuellen Wahrnehmung ab; die Optimierung dieser Metriken garantiert keine gute subjektive Qualität
  2. Anforderungen praktischer Anwendungen: Moderne Videoanwendungen stellen zunehmend höhere Anforderungen an Wahrnehmungsqualität und benötigen bessere Wahrnehmungsoptimierungsmethoden
  3. Herausforderungen der Rechenkomplexität: Die direkte Optimierung komplexer Wahrnehmungsmetriken in traditionellen Encodern ist rechnerisch zu aufwendig

Einschränkungen bestehender Methoden

  1. End-to-End-Kompression: Obwohl flexible Optimierung von Wahrnehmungsmetriken möglich ist, ist sie mit traditionellen Standards nicht kompatibel
  2. Traditionelle Wahrnehmungsoptimierungsmethoden: Methoden wie PerceptQPA zeigen begrenzte Effektivität
  3. Wissensextraktionsmethoden: Methoden wie Distillation erfordern zweimaliges Ausführen des Encoder-Netzwerks mit zu hoher Rechenkomplexität

Kernbeiträge

  1. Vorschlag eines Bitallokationsübertragungsschemas mit niedriger Komplexität: Übertragung von Wahrnehmungsbitallokationswissen aus End-to-End-Bildkompression in den VVC-Encoder durch ein leichtgewichtiges Quantisierungsschrittgenerierungsmodell
  2. Etablierung einer linearen Beziehung zwischen Quantisierungsschritt und Bitrate: Entdeckung einer linearen Beziehung zwischen Bitrate und dem Kehrwert des Quantisierungsschritts, was den QP-Abbildungsgenerierungsprozess vereinfacht
  3. Signifikante Reduktion der Rechenkomplexität: Im Vergleich zu bestehenden Extraktionsmethoden wird die QP-Abbildungsgenerierungszeit auf ein Zehntel oder weniger reduziert
  4. Signifikante Leistungsverbesserungen auf mehreren Datensätzen: BD-Rate-Reduktion von MS-SSIM um über 11%, während bessere PSNR-Leistung beibehalten wird

Methodische Details

Aufgabendefinition

Generierung einer für den VVC-Encoder geeigneten QP-Abbildung aus einem Eingabebild, so dass die Kodierungsergebnisse unter gleichen Bitrate-Beschränkungen bessere Leistung bei Wahrnehmungsmetriken (SSIM, MS-SSIM usw.) erreichen.

Modellarchitektur

Gesamtrahmen

Die Methode besteht aus zwei Hauptphasen:

  1. Trainingsphase: Training des Quantisierungsschrittgenerierungsmodells mit Wahrnehmungsverlust
  2. Inferenzphase: Generierung der Quantisierungsschrittabbildung und Umwandlung in die VVC-QP-Abbildung

Quantisierungsschrittgenerierungsmodell

  • Architekturdesign: Gestapelte Residualblöcke und Faltungsschichten mit Schrittweite 2
  • Ausgabeauflösung: Identisch mit latenter Merkmalsauflösung (ursprüngliches Bild um Faktor 16 heruntergesampelt)
  • Aktivierungsfunktion: Verwendung von Softplus zur Gewährleistung positiver Ausgabewerte:
    softplus(x) = ln(1 + e^x)
    

End-to-End-Bildkompressionsgrundlage

Basierend auf dem Mainstream-Hyperprior-Design, Optimierung des gemeinsamen Verlusts:

L = λD + R_main + R_hyper

wobei λ den Raten-Distortions-Kompromiss steuert, D die Verzerrung (MSE oder Wahrnehmungsmetrik) ist, und R_main und R_hyper jeweils die Bitraten für quantisierte latente Merkmale und Hyperprior darstellen.

Technische Innovationen

1. Abbildung von Quantisierungsschritt zu Bitrate

Durch Experimente wird eine lineare Beziehung zwischen Bitrate und dem Kehrwert des Quantisierungsschritts entdeckt:

r_k ≈ 1/QS_k

wobei r_k die Bitrate des Blocks k ist und QS_k der entsprechende Quantisierungsschritt.

2. QP-Adaptiver Algorithmus

Blockebene-QP-Berechnungsformel basierend auf dem R-λ-Modell:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. Wahrnehmungsverlustoptimierung

Training von drei Wahrnehmungsvarianten: 1-SSIM, 1-MS-SSIM und LPIPS, gemeinsame Verlustfunktion:

L = λ(αD_perc) + R_main + R_hyper

Experimentelle Einrichtung

Datensätze

  1. Trainingsdaten: LIU4K-Datensatz mit 607.714 zufällig zugeschnittenen 256×256-Patches aus 1.600 Originalbildern und deren 2×/4× bikubisch heruntergesampelten Versionen
  2. Testdaten:
    • Kodak-Bildsatz: 24 Bilder, ca. 0,35 MP
    • CLIC 2022 Validierungs-/Testbilder: über 2 MP

Bewertungsmetriken

  • Traditionelle Metriken: RGB PSNR
  • Wahrnehmungsmetriken: SSIM, MS-SSIM, LPIPS
  • Umfassende Bewertung: BD-Rate (Bjøntegaard Delta Rate)

Vergleichsmethoden

  1. VTM-23.0: VVC-Referenzsoftware-Baseline
  2. PerceptQPA: Hochpass-Filter-basierte QP-Adaptationsmethode
  3. Distillation: Wissensextraktionsmethode, erfordert zweimaliges Ausführen des Encoder-Netzwerks

Implementierungsdetails

  • QP-Einstellung: QP ∈ {37, 32, 27, 22} für Ratenausrichtung
  • Maximale QP-Verschiebung: Begrenzt auf 4 zur Verringerung von Blockeffekten
  • Trainingseinstellungen: Adam-Optimierer mit anfänglicher Lernrate 1e-4, Training über 5 Epochen
  • Hyperparameter: α jeweils auf 0,02 (SSIM), 0,08 (MS-SSIM), 0,04 (LPIPS) eingestellt

Experimentelle Ergebnisse

Hauptergebnisse

Kodak-Datensatz-Ergebnisse

MethodePSNRSSIMMS-SSIMLPIPS
PerceptQPA2,85-4,26-11,86-11,96
Distillation (MS-SSIM)2,52-5,83-12,74-13,30
Vorliegende Methode (MS-SSIM)0,98-6,19-11,88-10,96

CLIC-Datensatz-Ergebnisse

MethodePSNRSSIMMS-SSIMLPIPS
PerceptQPA3,20-2,42-9,91-11,51
Distillation (MS-SSIM)7,55-3,61-10,24-11,97
Vorliegende Methode (MS-SSIM)2,46-5,91-11,26-10,88

Ablationsstudien

Einfluss des Steigungsparameters

Anpassung der Steigung von 1,0 auf 1,2 ermöglicht aggressivere QP-Anpassung:

  • MS-SSIM-Optimierung: BD-Rate verbessert sich von -11,88% auf -12,47%
  • PSNR-Leistung nimmt jedoch leicht ab: von 0,98% auf 2,24%

Tatsächliche Bitrate vs. Näherungsmethode

Verwendung tatsächlicher Bitraten im Vergleich zur Kehrwert-Näherungsmethode:

  • Wahrnehmungsmetrik-Leistung leicht reduziert
  • PSNR-Leistung bleibt besser erhalten

Rechenkomplexitätsanalyse

  • GPU-Umgebung: QP-Abbildungsgenerierung benötigt nur ca. 20 ms (Kodak-Bild)
  • CPU-Umgebung: ca. 700 ms
  • Vergleich zu Distillation: Rechenkomplexität auf ein Zehntel oder weniger reduziert

Visuelle Qualitätsbewertung

Visuelle Bewertung bei QP 37 zeigt:

  • Strukturbereiche: Deutliche Verbesserung der Wahrnehmungsqualität
  • Hochstrukturierte Bereiche: Ähnliche Wahrnehmungsqualität bei niedrigeren Bitraten
  • Gesamteffekt ähnlich wie PerceptQPA und Distillation

Verwandte Arbeiten

Traditionelle Wahrnehmungsoptimierungsmethoden

  1. PerceptQPA: Hochpass-Filter-basierte QP-Anpassung unter Berücksichtigung menschlicher visueller Systemmerkmale
  2. JND-basierte Methoden: Nutzung gerade noch wahrnehmbarer Unterschiede für Bitallokation

End-to-End-Bildkompression

  1. Hyperprior-Architektur: Variationelles Bildkompressionsrahmen von Ballé et al.
  2. Wahrnehmungsoptimierung: End-to-End-Modelle, die direkt mit Wahrnehmungsverlust trainiert werden
  3. Blockstruktur: End-to-End-Modelle, die näher an traditionelle Kodierungsrahmen heranreichen

Wissensübertragungsmethoden

  1. Extraktionsmethoden: Extraktion von Bitallokationswissen aus End-to-End-Modellen
  2. Merkmalsübertragung: Nutzung von Zwischendarstellungen von Deep-Learning-Modellen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität: Erfolgreiche Übertragung von Wahrnehmungsbitallokationswissen aus End-to-End-Bildkompression in den VVC-Encoder
  2. Effizienz: Signifikante Reduktion der Rechenkomplexität macht die Methode praktisch anwendbar
  3. Universalität: Methode ist für verschiedene Wahrnehmungsmetriken (SSIM, MS-SSIM) wirksam

Einschränkungen

  1. Begrenzte LPIPS-Optimierungseffektivität: Die Optimierung tieferer Wahrnehmungsmetriken bleibt eine Herausforderung
  2. Nur Intra-Codierung: Noch nicht auf zeitliche Optimierung der Videokodierung erweitert
  3. Architekturunterschied: Unterschiede zwischen End-to-End-Modellen und traditionellen Encodern begrenzen die Wissensübertragungseffektivität

Zukünftige Richtungen

  1. Videokodierungserweiterung: Kombination zeitlicher Informationen für Wahrnehmungsoptimierung
  2. Aufgaben des maschinellen Sehens: Bitallokation für nachgelagerte Aufgaben (wie Objekterkennung)
  3. Architekturabstimmung: Verwendung von End-to-End-Modellen, die näher an traditionelle Kodierungsrahmen heranreichen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Vorschlag der linearen Beziehung zwischen Quantisierungsschritt und Bitrate vereinfacht den Übertragungsprozess
  2. Hoher praktischer Wert: Signifikante Reduktion der Rechenkomplexität macht die Methode praktisch anwendbar
  3. Umfassende Experimente: Ausreichende Validierung auf mehreren Datensätzen und Metriken
  4. Hervorragende Leistung: Signifikante Verbesserung von Wahrnehmungsmetriken bei Beibehaltung der PSNR-Leistung

Mängel

  1. Unzureichende theoretische Analyse: Fehlende theoretische Erklärung für die lineare Beziehung zwischen Quantisierungsschritt und Bitrate
  2. Begrenzte Anwendbarkeit: Hauptsächlich für SSIM und MS-SSIM geeignet, begrenzte Effektivität bei LPIPS
  3. Parametersensitivität: Hyperparameter wie Steigung erfordern manuelle Anpassung
  4. Verallgemeinerungsfähigkeit: Verallgemeinerungsfähigkeit auf verschiedene Bildtypen bedarf weiterer Validierung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für Wahrnehmungsoptimierung traditioneller Encoder
  2. Praktischer Wert: Niedrige Komplexität macht industrielle Anwendung möglich
  3. Reproduzierbarkeit: Klare Methodenbeschreibung und detaillierte experimentelle Einrichtung

Anwendungsszenarien

  1. Video-Streaming: Anwendungen, die Wahrnehmungsqualität unter begrenzter Bandbreite verbessern müssen
  2. Bildkompression: Bildspeicherung und -übertragung mit hohen Wahrnehmungsqualitätsanforderungen
  3. Echtzeitanwendungen: Szenarien mit begrenzten Rechenressourcen, aber Wahrnehmungsoptimierungsbedarf

Literaturverzeichnis

Das Papier zitiert 20 wichtige Referenzen, die Videokodierungsstandards, Wahrnehmungsqualitätsbewertung, End-to-End-Kompression und Wissensübertragung abdecken und eine solide theoretische Grundlage für die Forschung bieten.