Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Yang, BajiÄ
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic
نقل تخصيص البتات لتحسين الجودة الإدراكية لترميز VVC داخل الإطار
تعتمد معايير الترميز الحديثة للصور والفيديو (بما في ذلك H.266/VVC و AVS3 و AV1 وغيرها) على إطار عمل ترميز هجين قائم على الكتل. بينما يسهل هذا الإطار التحسين المباشر لنسبة الإشارة إلى الضوضاء (PSNR)، إلا أنه يواجه صعوبات في تحسين مقاييس التوافق الإدراكي مثل التشابه الهيكلي متعدد الأنماط (MS-SSIM). لمعالجة هذا التحدي، تقترح هذه الورقة طريقة منخفضة التعقيد لتحسين الجودة الإدراكية لترميز VVC داخل الإطار من خلال نقل معرفة تخصيص البتات من الضغط الشامل للصور. تقدم الورقة نموذجاً خفيفاً مدرباً باستخدام خسارة إدراكية لتوليد خريطة خطوات التكميم، التي تلتقط ضمنياً الأهمية الإدراكية على مستوى الكتلة، مما يتيح اشتقاق خريطة QP لـ VVC بفعالية. تظهر التجارب على مجموعات بيانات Kodak و CLIC مزايا كبيرة من حيث وقت التنفيذ وأداء المقاييس الإدراكية، مع تقليل BD-rate لـ MS-SSIM بأكثر من 11%.
تركز معايير ترميز الفيديو التقليدية القائمة على الكتل (مثل VVC) على تحسين MSE/PSNR في تحسين معدل التشويه (RDO)، لكن هذه المقاييس لها ارتباط ضعيف بجودة الإدراك البصري البشري. بينما يصعب تطبيق المقاييس المتوافقة إدراكياً (مثل SSIM و MS-SSIM و LPIPS) بفعالية في إطار عمل RDO التقليدي على مستوى الكتلة بسبب افتقارها للإضافية واستقلالية الكتلة.
اقتراح مخطط نقل تخصيص البتات منخفض التعقيد: من خلال نموذج توليد خطوات التكميم الخفيف، نقل معرفة تخصيص البتات الإدراكية من الضغط الشامل للصور إلى جهاز ترميز VVC
إنشاء علاقة خطية بين خطوات التكميم ومعدل البتات: اكتشاف أن معدل البتات يرتبط خطياً بمعكوس خطوات التكميم، مما يبسط عملية توليد خريطة QP
تقليل كبير في التعقيد الحسابي: مقارنة بطرق التقطير الموجودة، يتم تقليل وقت توليد خريطة QP إلى عُشر أو أقل
تحقيق تحسينات أداء كبيرة على مجموعات بيانات متعددة: تقليل BD-rate لـ MS-SSIM بأكثر من 11%، مع الحفاظ على أداء PSNR أفضل
بالنظر إلى صورة إدخال، توليد خريطة QP قابلة للتطبيق لجهاز ترميز VVC، بحيث تحت قيود معدل البتات نفسه، تحقق نتائج الترميز أداءً أفضل على المقاييس الإدراكية (SSIM و MS-SSIM وغيرها).
بناءً على تصميم فرط الأولويات السائد، تحسين الخسارة المشتركة:
L = λD + R_main + R_hyper
حيث يتحكم λ في توازن معدل التشويه، D هو التشويه (MSE أو مقياس إدراكي)، و R_main و R_hyper يتوافقان مع معدل البتات للميزات الكامنة المكممة وفرط الأولويات على التوالي.
بيانات التدريب: مجموعة بيانات LIU4K، تحتوي على 607,714 رقعة بحجم 256×256 تم اقتطاعها عشوائياً من 1,600 صورة أصلية وإصداراتها المأخوذة بعينات ثنائية التكعيب 2× و 4×
تستشهد الورقة بـ 20 مرجعاً مهماً، تغطي معايير ترميز الفيديو وتقييم الجودة الإدراكية والضغط الشامل ونقل المعرفة والمجالات ذات الصلة الأخرى، مما يوفر أساساً نظرياً قوياً للبحث.