2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, BajiÄ

Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.

academic

Bitallokationsübertragung zur Verbesserung der Wahrnehmungsqualität der VVC-Intra-Codierung

Grundlegende Informationen

Paper-ID: 2510.10970
Titel: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Autoren: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
Klassifizierung: eess.IV (Bild- und Videoverarbeitung)
Veröffentlichungszeitpunkt/Konferenz: Picture Coding Symposium 2025, Aachen, Deutschland
Paper-Link: https://arxiv.org/abs/2510.10970

Zusammenfassung

Moderne Bild- und Videokodierungsstandards (einschließlich H.266/VVC, AVS3 und AV1) verwenden hybride blockbasierte Kodierungsrahmen. Obwohl dieser Rahmen eine direkte Optimierung für Spitzensignal-Rausch-Verhältnis (PSNR) ermöglicht, ist die Optimierung von wahrnehmungsausgerichteten Metriken (wie Multi-Scale Structural Similarity MS-SSIM) schwierig. Um diese Herausforderung zu bewältigen, wird in diesem Artikel eine Methode mit niedriger Komplexität vorgestellt, die die Wahrnehmungsqualität der VVC-Intra-Codierung durch die Übertragung von Bitallokationswissen aus der End-to-End-Bildkompression verbessert. Der Artikel führt ein leichtgewichtiges Modell ein, das mit Wahrnehmungsverlust trainiert wird, um Quantisierungsschrittabbildungen zu generieren, die implizit die Wahrnehmungswichtigkeit auf Blockebene erfassen und eine effektive Ableitung von VVC-QP-Abbildungen ermöglichen. Experimente auf den Kodak- und CLIC-Datensätzen zeigen erhebliche Vorteile sowohl bei der Ausführungszeit als auch bei der Leistung von Wahrnehmungsmetriken, mit einer BD-Rate-Reduktion von MS-SSIM um über 11%.

Forschungshintergrund und Motivation

Kernproblem

Traditionelle blockbasierte Videokodierungsstandards (wie VVC) optimieren hauptsächlich MSE/PSNR in der Raten-Distortions-Optimierung (RDO), aber diese Metriken korrelieren schlecht mit der menschlichen visuellen Wahrnehmungsqualität. Wahrnehmungsausgerichtete Metriken (wie SSIM, MS-SSIM, LPIPS) sind aufgrund fehlender Additivität und Blockunabhängigkeit schwer in traditionellen blockbasierten RDO-Rahmen effektiv anzuwenden.

Bedeutung des Problems

Unterschied zwischen Wahrnehmungsqualität und traditionellen Metriken: MSE/PSNR weichen erheblich von der menschlichen visuellen Wahrnehmung ab; die Optimierung dieser Metriken garantiert keine gute subjektive Qualität
Anforderungen praktischer Anwendungen: Moderne Videoanwendungen stellen zunehmend höhere Anforderungen an Wahrnehmungsqualität und benötigen bessere Wahrnehmungsoptimierungsmethoden
Herausforderungen der Rechenkomplexität: Die direkte Optimierung komplexer Wahrnehmungsmetriken in traditionellen Encodern ist rechnerisch zu aufwendig

Einschränkungen bestehender Methoden

End-to-End-Kompression: Obwohl flexible Optimierung von Wahrnehmungsmetriken möglich ist, ist sie mit traditionellen Standards nicht kompatibel
Traditionelle Wahrnehmungsoptimierungsmethoden: Methoden wie PerceptQPA zeigen begrenzte Effektivität
Wissensextraktionsmethoden: Methoden wie Distillation erfordern zweimaliges Ausführen des Encoder-Netzwerks mit zu hoher Rechenkomplexität

Kernbeiträge

Vorschlag eines Bitallokationsübertragungsschemas mit niedriger Komplexität: Übertragung von Wahrnehmungsbitallokationswissen aus End-to-End-Bildkompression in den VVC-Encoder durch ein leichtgewichtiges Quantisierungsschrittgenerierungsmodell
Etablierung einer linearen Beziehung zwischen Quantisierungsschritt und Bitrate: Entdeckung einer linearen Beziehung zwischen Bitrate und dem Kehrwert des Quantisierungsschritts, was den QP-Abbildungsgenerierungsprozess vereinfacht
Signifikante Reduktion der Rechenkomplexität: Im Vergleich zu bestehenden Extraktionsmethoden wird die QP-Abbildungsgenerierungszeit auf ein Zehntel oder weniger reduziert
Signifikante Leistungsverbesserungen auf mehreren Datensätzen: BD-Rate-Reduktion von MS-SSIM um über 11%, während bessere PSNR-Leistung beibehalten wird

Methodische Details

Aufgabendefinition

Generierung einer für den VVC-Encoder geeigneten QP-Abbildung aus einem Eingabebild, so dass die Kodierungsergebnisse unter gleichen Bitrate-Beschränkungen bessere Leistung bei Wahrnehmungsmetriken (SSIM, MS-SSIM usw.) erreichen.

Modellarchitektur

Gesamtrahmen

Die Methode besteht aus zwei Hauptphasen:

Trainingsphase: Training des Quantisierungsschrittgenerierungsmodells mit Wahrnehmungsverlust
Inferenzphase: Generierung der Quantisierungsschrittabbildung und Umwandlung in die VVC-QP-Abbildung

Quantisierungsschrittgenerierungsmodell

Architekturdesign: Gestapelte Residualblöcke und Faltungsschichten mit Schrittweite 2
Ausgabeauflösung: Identisch mit latenter Merkmalsauflösung (ursprüngliches Bild um Faktor 16 heruntergesampelt)
Aktivierungsfunktion: Verwendung von Softplus zur Gewährleistung positiver Ausgabewerte:
```
softplus(x) = ln(1 + e^x)
```

End-to-End-Bildkompressionsgrundlage

Basierend auf dem Mainstream-Hyperprior-Design, Optimierung des gemeinsamen Verlusts:

L = λD + R_main + R_hyper

wobei λ den Raten-Distortions-Kompromiss steuert, D die Verzerrung (MSE oder Wahrnehmungsmetrik) ist, und R_main und R_hyper jeweils die Bitraten für quantisierte latente Merkmale und Hyperprior darstellen.

Technische Innovationen

1. Abbildung von Quantisierungsschritt zu Bitrate

Durch Experimente wird eine lineare Beziehung zwischen Bitrate und dem Kehrwert des Quantisierungsschritts entdeckt:

r_k ≈ 1/QS_k

wobei r_k die Bitrate des Blocks k ist und QS_k der entsprechende Quantisierungsschritt.

2. QP-Adaptiver Algorithmus

Blockebene-QP-Berechnungsformel basierend auf dem R-λ-Modell:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. Wahrnehmungsverlustoptimierung

Training von drei Wahrnehmungsvarianten: 1-SSIM, 1-MS-SSIM und LPIPS, gemeinsame Verlustfunktion:

L = λ(αD_perc) + R_main + R_hyper

Experimentelle Einrichtung

Datensätze

Trainingsdaten: LIU4K-Datensatz mit 607.714 zufällig zugeschnittenen 256×256-Patches aus 1.600 Originalbildern und deren 2×/4× bikubisch heruntergesampelten Versionen
Testdaten:
- Kodak-Bildsatz: 24 Bilder, ca. 0,35 MP
- CLIC 2022 Validierungs-/Testbilder: über 2 MP

Bewertungsmetriken

Traditionelle Metriken: RGB PSNR
Wahrnehmungsmetriken: SSIM, MS-SSIM, LPIPS
Umfassende Bewertung: BD-Rate (Bjøntegaard Delta Rate)

Vergleichsmethoden

VTM-23.0: VVC-Referenzsoftware-Baseline
PerceptQPA: Hochpass-Filter-basierte QP-Adaptationsmethode
Distillation: Wissensextraktionsmethode, erfordert zweimaliges Ausführen des Encoder-Netzwerks

Implementierungsdetails

QP-Einstellung: QP ∈ {37, 32, 27, 22} für Ratenausrichtung
Maximale QP-Verschiebung: Begrenzt auf 4 zur Verringerung von Blockeffekten
Trainingseinstellungen: Adam-Optimierer mit anfänglicher Lernrate 1e-4, Training über 5 Epochen
Hyperparameter: α jeweils auf 0,02 (SSIM), 0,08 (MS-SSIM), 0,04 (LPIPS) eingestellt

Experimentelle Ergebnisse

Hauptergebnisse

Kodak-Datensatz-Ergebnisse

Methode	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	2,85	-4,26	-11,86	-11,96
Distillation (MS-SSIM)	2,52	-5,83	-12,74	-13,30
Vorliegende Methode (MS-SSIM)	0,98	-6,19	-11,88	-10,96

CLIC-Datensatz-Ergebnisse

Methode	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	3,20	-2,42	-9,91	-11,51
Distillation (MS-SSIM)	7,55	-3,61	-10,24	-11,97
Vorliegende Methode (MS-SSIM)	2,46	-5,91	-11,26	-10,88

Ablationsstudien

Einfluss des Steigungsparameters

Anpassung der Steigung von 1,0 auf 1,2 ermöglicht aggressivere QP-Anpassung:

MS-SSIM-Optimierung: BD-Rate verbessert sich von -11,88% auf -12,47%
PSNR-Leistung nimmt jedoch leicht ab: von 0,98% auf 2,24%

Tatsächliche Bitrate vs. Näherungsmethode

Verwendung tatsächlicher Bitraten im Vergleich zur Kehrwert-Näherungsmethode:

Wahrnehmungsmetrik-Leistung leicht reduziert
PSNR-Leistung bleibt besser erhalten

Rechenkomplexitätsanalyse

GPU-Umgebung: QP-Abbildungsgenerierung benötigt nur ca. 20 ms (Kodak-Bild)
CPU-Umgebung: ca. 700 ms
Vergleich zu Distillation: Rechenkomplexität auf ein Zehntel oder weniger reduziert

Visuelle Qualitätsbewertung

Visuelle Bewertung bei QP 37 zeigt:

Strukturbereiche: Deutliche Verbesserung der Wahrnehmungsqualität
Hochstrukturierte Bereiche: Ähnliche Wahrnehmungsqualität bei niedrigeren Bitraten
Gesamteffekt ähnlich wie PerceptQPA und Distillation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektivität: Erfolgreiche Übertragung von Wahrnehmungsbitallokationswissen aus End-to-End-Bildkompression in den VVC-Encoder
Effizienz: Signifikante Reduktion der Rechenkomplexität macht die Methode praktisch anwendbar
Universalität: Methode ist für verschiedene Wahrnehmungsmetriken (SSIM, MS-SSIM) wirksam

Einschränkungen

Begrenzte LPIPS-Optimierungseffektivität: Die Optimierung tieferer Wahrnehmungsmetriken bleibt eine Herausforderung
Nur Intra-Codierung: Noch nicht auf zeitliche Optimierung der Videokodierung erweitert
Architekturunterschied: Unterschiede zwischen End-to-End-Modellen und traditionellen Encodern begrenzen die Wissensübertragungseffektivität

Zukünftige Richtungen

Videokodierungserweiterung: Kombination zeitlicher Informationen für Wahrnehmungsoptimierung
Aufgaben des maschinellen Sehens: Bitallokation für nachgelagerte Aufgaben (wie Objekterkennung)
Architekturabstimmung: Verwendung von End-to-End-Modellen, die näher an traditionelle Kodierungsrahmen heranreichen

Tiefgreifende Bewertung

Stärken

Starke Innovation: Vorschlag der linearen Beziehung zwischen Quantisierungsschritt und Bitrate vereinfacht den Übertragungsprozess
Hoher praktischer Wert: Signifikante Reduktion der Rechenkomplexität macht die Methode praktisch anwendbar
Umfassende Experimente: Ausreichende Validierung auf mehreren Datensätzen und Metriken
Hervorragende Leistung: Signifikante Verbesserung von Wahrnehmungsmetriken bei Beibehaltung der PSNR-Leistung

Mängel

Unzureichende theoretische Analyse: Fehlende theoretische Erklärung für die lineare Beziehung zwischen Quantisierungsschritt und Bitrate
Begrenzte Anwendbarkeit: Hauptsächlich für SSIM und MS-SSIM geeignet, begrenzte Effektivität bei LPIPS
Parametersensitivität: Hyperparameter wie Steigung erfordern manuelle Anpassung
Verallgemeinerungsfähigkeit: Verallgemeinerungsfähigkeit auf verschiedene Bildtypen bedarf weiterer Validierung

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für Wahrnehmungsoptimierung traditioneller Encoder
Praktischer Wert: Niedrige Komplexität macht industrielle Anwendung möglich
Reproduzierbarkeit: Klare Methodenbeschreibung und detaillierte experimentelle Einrichtung

Anwendungsszenarien

Video-Streaming: Anwendungen, die Wahrnehmungsqualität unter begrenzter Bandbreite verbessern müssen
Bildkompression: Bildspeicherung und -übertragung mit hohen Wahrnehmungsqualitätsanforderungen
Echtzeitanwendungen: Szenarien mit begrenzten Rechenressourcen, aber Wahrnehmungsoptimierungsbedarf

Literaturverzeichnis

Das Papier zitiert 20 wichtige Referenzen, die Videokodierungsstandards, Wahrnehmungsqualitätsbewertung, End-to-End-Kompression und Wissensübertragung abdecken und eine solide theoretische Grundlage für die Forschung bieten.