Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Yang, BajiÄ
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic
VVC इंट्रा कोडिंग के संवेदनशील गुणवत्ता संवर्धन के लिए बिट आवंटन स्थानांतरण
मुख्यधारा की छवि और वीडियो कोडिंग मानकों (H.266/VVC, AVS3 और AV1 सहित नवीनतम कोडेक्स) ब्लॉक-आधारित हाइब्रिड कोडिंग ढांचे का उपयोग करते हैं। यद्यपि यह ढांचा शिखर सिग्नल-से-शोर अनुपात (PSNR) के लिए सीधे अनुकूलन की सुविधा देता है, लेकिन संवेदनशील संरेखित मेट्रिक्स (जैसे बहु-स्केल संरचनात्मक समानता MS-SSIM) को अनुकूलित करने में कठिनाई होती है। इस चुनौती का समाधान करने के लिए, यह पेपर एक निम्न-जटिलता विधि प्रस्तावित करता है जो अंत-से-अंत छवि संपीड़न से बिट आवंटन ज्ञान स्थानांतरित करके VVC फ्रेम इंट्रा कोडिंग की संवेदनशील गुणवत्ता को बढ़ाता है। लेख संवेदनशील हानि के साथ प्रशिक्षित एक हल्के मॉडल का परिचय देता है जो परिमाणीकरण चरण मानचित्र उत्पन्न करता है, जो निहित रूप से ब्लॉक-स्तरीय संवेदनशील महत्व को कैप्चर करता है, जिससे VVC के QP मानचित्र को प्रभावी ढंग से प्राप्त किया जा सकता है। Kodak और CLIC डेटासेट पर प्रयोग निष्पादन समय और संवेदनशील मेट्रिक्स प्रदर्शन दोनों में महत्वपूर्ण लाभ दर्शाते हैं, MS-SSIM के BD-दर में 11% से अधिक की कमी।
पारंपरिक ब्लॉक-आधारित वीडियो कोडिंग मानकों (जैसे VVC) दर-विरूपण अनुकूलन (RDO) में मुख्य रूप से MSE/PSNR के लिए अनुकूलन करते हैं, लेकिन ये मेट्रिक्स मानव दृश्य संवेदनशील गुणवत्ता से कमजोर रूप से संबंधित हैं। संवेदनशील-संरेखित मेट्रिक्स (जैसे SSIM, MS-SSIM, LPIPS) योगात्मकता और ब्लॉक स्वतंत्रता की कमी के कारण पारंपरिक ब्लॉक-स्तरीय RDO ढांचे में प्रभावी ढंग से लागू करना कठिन है।
संवेदनशील गुणवत्ता और पारंपरिक मेट्रिक्स में अंतर: MSE/PSNR और मानव दृश्य संवेदनशीलता के बीच महत्वपूर्ण अंतर है, इन मेट्रिक्स को अनुकूलित करना अच्छी व्यक्तिपरक गुणवत्ता की गारंटी नहीं देता है
व्यावहारिक अनुप्रयोग की आवश्यकता: आधुनिक वीडियो अनुप्रयोग संवेदनशील गुणवत्ता के लिए बढ़ती मांग करते हैं, बेहतर संवेदनशील अनुकूलन विधियों की आवश्यकता है
कम्प्यूटेशनल जटिलता चुनौती: पारंपरिक कोडेक में जटिल संवेदनशील मेट्रिक्स को सीधे अनुकूलित करने की कम्प्यूटेशनल लागत बहुत अधिक है
निम्न-जटिलता बिट आवंटन स्थानांतरण योजना प्रस्तावित की: हल्के परिमाणीकरण चरण उत्पादन मॉडल के माध्यम से, अंत-से-अंत छवि संपीड़न के संवेदनशील बिट आवंटन ज्ञान को VVC कोडेक में स्थानांतरित किया
परिमाणीकरण चरण और बिट दर के बीच रैखिक संबंध स्थापित किया: बिट दर और परिमाणीकरण चरण के व्युत्क्रम के बीच रैखिक संबंध की खोज की, QP मानचित्र उत्पादन प्रक्रिया को सरल बनाया
कम्प्यूटेशनल जटिलता में उल्लेखनीय कमी: मौजूदा आसवन विधियों की तुलना में, QP मानचित्र उत्पादन समय दसवें हिस्से से कम हो गया
कई डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त किया: MS-SSIM का BD-दर 11% से अधिक कम हुआ, साथ ही बेहतर PSNR प्रदर्शन बनाए रखा
दिए गए इनपुट छवि को देखते हुए, VVC कोडेक के लिए उपयुक्त QP मानचित्र उत्पन्न करें, जिससे समान बिट दर बाधा के तहत, कोडित परिणाम संवेदनशील मेट्रिक्स (SSIM, MS-SSIM आदि) पर बेहतर प्रदर्शन प्राप्त करें।
मुख्यधारा के हाइपरप्रायर डिजाइन के आधार पर, संयुक्त हानि को अनुकूलित करें:
L = λD + R_main + R_hyper
जहां λ दर-विरूपण व्यापार को नियंत्रित करता है, D विरूपण (MSE या संवेदनशील मेट्रिक्स) है, R_main और R_hyper क्रमशः परिमाणीकृत अव्यक्त विशेषताओं और हाइपरप्रायर के बिट दर के अनुरूप हैं।
प्रशिक्षण डेटा: LIU4K डेटासेट, जिसमें 1,600 मूल छवियों और उनके 2×/4× द्विघात डाउनसैंपल संस्करणों से यादृच्छिक रूप से काटे गए 607,714 256×256 पैच शामिल हैं
पेपर ने 20 महत्वपूर्ण संदर्भों का हवाला दिया है, जिसमें वीडियो कोडिंग मानकों, संवेदनशील गुणवत्ता मूल्यांकन, अंत-से-अंत संपीड़न और ज्ञान स्थानांतरण जैसे संबंधित क्षेत्रों के मूल कार्य शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।