Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Yang, BajiÄ
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic
Bitallokationsübertragung zur Verbesserung der Wahrnehmungsqualität der VVC-Intra-Codierung
Moderne Bild- und Videokodierungsstandards (einschließlich H.266/VVC, AVS3 und AV1) verwenden hybride blockbasierte Kodierungsrahmen. Obwohl dieser Rahmen eine direkte Optimierung für Spitzensignal-Rausch-Verhältnis (PSNR) ermöglicht, ist die Optimierung von wahrnehmungsausgerichteten Metriken (wie Multi-Scale Structural Similarity MS-SSIM) schwierig. Um diese Herausforderung zu bewältigen, wird in diesem Artikel eine Methode mit niedriger Komplexität vorgestellt, die die Wahrnehmungsqualität der VVC-Intra-Codierung durch die Übertragung von Bitallokationswissen aus der End-to-End-Bildkompression verbessert. Der Artikel führt ein leichtgewichtiges Modell ein, das mit Wahrnehmungsverlust trainiert wird, um Quantisierungsschrittabbildungen zu generieren, die implizit die Wahrnehmungswichtigkeit auf Blockebene erfassen und eine effektive Ableitung von VVC-QP-Abbildungen ermöglichen. Experimente auf den Kodak- und CLIC-Datensätzen zeigen erhebliche Vorteile sowohl bei der Ausführungszeit als auch bei der Leistung von Wahrnehmungsmetriken, mit einer BD-Rate-Reduktion von MS-SSIM um über 11%.
Traditionelle blockbasierte Videokodierungsstandards (wie VVC) optimieren hauptsächlich MSE/PSNR in der Raten-Distortions-Optimierung (RDO), aber diese Metriken korrelieren schlecht mit der menschlichen visuellen Wahrnehmungsqualität. Wahrnehmungsausgerichtete Metriken (wie SSIM, MS-SSIM, LPIPS) sind aufgrund fehlender Additivität und Blockunabhängigkeit schwer in traditionellen blockbasierten RDO-Rahmen effektiv anzuwenden.
Unterschied zwischen Wahrnehmungsqualität und traditionellen Metriken: MSE/PSNR weichen erheblich von der menschlichen visuellen Wahrnehmung ab; die Optimierung dieser Metriken garantiert keine gute subjektive Qualität
Anforderungen praktischer Anwendungen: Moderne Videoanwendungen stellen zunehmend höhere Anforderungen an Wahrnehmungsqualität und benötigen bessere Wahrnehmungsoptimierungsmethoden
Herausforderungen der Rechenkomplexität: Die direkte Optimierung komplexer Wahrnehmungsmetriken in traditionellen Encodern ist rechnerisch zu aufwendig
Vorschlag eines Bitallokationsübertragungsschemas mit niedriger Komplexität: Übertragung von Wahrnehmungsbitallokationswissen aus End-to-End-Bildkompression in den VVC-Encoder durch ein leichtgewichtiges Quantisierungsschrittgenerierungsmodell
Etablierung einer linearen Beziehung zwischen Quantisierungsschritt und Bitrate: Entdeckung einer linearen Beziehung zwischen Bitrate und dem Kehrwert des Quantisierungsschritts, was den QP-Abbildungsgenerierungsprozess vereinfacht
Signifikante Reduktion der Rechenkomplexität: Im Vergleich zu bestehenden Extraktionsmethoden wird die QP-Abbildungsgenerierungszeit auf ein Zehntel oder weniger reduziert
Signifikante Leistungsverbesserungen auf mehreren Datensätzen: BD-Rate-Reduktion von MS-SSIM um über 11%, während bessere PSNR-Leistung beibehalten wird
Generierung einer für den VVC-Encoder geeigneten QP-Abbildung aus einem Eingabebild, so dass die Kodierungsergebnisse unter gleichen Bitrate-Beschränkungen bessere Leistung bei Wahrnehmungsmetriken (SSIM, MS-SSIM usw.) erreichen.
Basierend auf dem Mainstream-Hyperprior-Design, Optimierung des gemeinsamen Verlusts:
L = λD + R_main + R_hyper
wobei λ den Raten-Distortions-Kompromiss steuert, D die Verzerrung (MSE oder Wahrnehmungsmetrik) ist, und R_main und R_hyper jeweils die Bitraten für quantisierte latente Merkmale und Hyperprior darstellen.
Trainingsdaten: LIU4K-Datensatz mit 607.714 zufällig zugeschnittenen 256×256-Patches aus 1.600 Originalbildern und deren 2×/4× bikubisch heruntergesampelten Versionen
Das Papier zitiert 20 wichtige Referenzen, die Videokodierungsstandards, Wahrnehmungsqualitätsbewertung, End-to-End-Kompression und Wissensübertragung abdecken und eine solide theoretische Grundlage für die Forschung bieten.