2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, BajiÄ

Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.

academic

VVC इंट्रा कोडिंग के संवेदनशील गुणवत्ता संवर्धन के लिए बिट आवंटन स्थानांतरण

मूल जानकारी

पेपर ID: 2510.10970
शीर्षक: VVC इंट्रा कोडिंग के संवेदनशील गुणवत्ता संवर्धन के लिए बिट आवंटन स्थानांतरण
लेखक: रुन्यु यांग, इवान वी. बाजिक (साइमन फ्रेजर विश्वविद्यालय)
वर्गीकरण: eess.IV (छवि और वीडियो प्रसंस्करण)
प्रकाशन समय/सम्मेलन: चित्र कोडिंग संगोष्ठी 2025, आचेन, जर्मनी
पेपर लिंक: https://arxiv.org/abs/2510.10970

सारांश

मुख्यधारा की छवि और वीडियो कोडिंग मानकों (H.266/VVC, AVS3 और AV1 सहित नवीनतम कोडेक्स) ब्लॉक-आधारित हाइब्रिड कोडिंग ढांचे का उपयोग करते हैं। यद्यपि यह ढांचा शिखर सिग्नल-से-शोर अनुपात (PSNR) के लिए सीधे अनुकूलन की सुविधा देता है, लेकिन संवेदनशील संरेखित मेट्रिक्स (जैसे बहु-स्केल संरचनात्मक समानता MS-SSIM) को अनुकूलित करने में कठिनाई होती है। इस चुनौती का समाधान करने के लिए, यह पेपर एक निम्न-जटिलता विधि प्रस्तावित करता है जो अंत-से-अंत छवि संपीड़न से बिट आवंटन ज्ञान स्थानांतरित करके VVC फ्रेम इंट्रा कोडिंग की संवेदनशील गुणवत्ता को बढ़ाता है। लेख संवेदनशील हानि के साथ प्रशिक्षित एक हल्के मॉडल का परिचय देता है जो परिमाणीकरण चरण मानचित्र उत्पन्न करता है, जो निहित रूप से ब्लॉक-स्तरीय संवेदनशील महत्व को कैप्चर करता है, जिससे VVC के QP मानचित्र को प्रभावी ढंग से प्राप्त किया जा सकता है। Kodak और CLIC डेटासेट पर प्रयोग निष्पादन समय और संवेदनशील मेट्रिक्स प्रदर्शन दोनों में महत्वपूर्ण लाभ दर्शाते हैं, MS-SSIM के BD-दर में 11% से अधिक की कमी।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

पारंपरिक ब्लॉक-आधारित वीडियो कोडिंग मानकों (जैसे VVC) दर-विरूपण अनुकूलन (RDO) में मुख्य रूप से MSE/PSNR के लिए अनुकूलन करते हैं, लेकिन ये मेट्रिक्स मानव दृश्य संवेदनशील गुणवत्ता से कमजोर रूप से संबंधित हैं। संवेदनशील-संरेखित मेट्रिक्स (जैसे SSIM, MS-SSIM, LPIPS) योगात्मकता और ब्लॉक स्वतंत्रता की कमी के कारण पारंपरिक ब्लॉक-स्तरीय RDO ढांचे में प्रभावी ढंग से लागू करना कठिन है।

समस्या की महत्ता

संवेदनशील गुणवत्ता और पारंपरिक मेट्रिक्स में अंतर: MSE/PSNR और मानव दृश्य संवेदनशीलता के बीच महत्वपूर्ण अंतर है, इन मेट्रिक्स को अनुकूलित करना अच्छी व्यक्तिपरक गुणवत्ता की गारंटी नहीं देता है
व्यावहारिक अनुप्रयोग की आवश्यकता: आधुनिक वीडियो अनुप्रयोग संवेदनशील गुणवत्ता के लिए बढ़ती मांग करते हैं, बेहतर संवेदनशील अनुकूलन विधियों की आवश्यकता है
कम्प्यूटेशनल जटिलता चुनौती: पारंपरिक कोडेक में जटिल संवेदनशील मेट्रिक्स को सीधे अनुकूलित करने की कम्प्यूटेशनल लागत बहुत अधिक है

मौजूदा विधियों की सीमाएं

अंत-से-अंत संपीड़न: यद्यपि संवेदनशील मेट्रिक्स को लचीले ढंग से अनुकूलित कर सकता है, लेकिन पारंपरिक मानकों के साथ असंगत है
पारंपरिक संवेदनशील अनुकूलन विधियां: जैसे PerceptQPA विधियां सीमित प्रभाव देती हैं
ज्ञान आसवन विधियां: जैसे आसवन विधि को कोडेक नेटवर्क को दो बार चलाने की आवश्यकता है, कम्प्यूटेशनल जटिलता बहुत अधिक है

मूल योगदान

निम्न-जटिलता बिट आवंटन स्थानांतरण योजना प्रस्तावित की: हल्के परिमाणीकरण चरण उत्पादन मॉडल के माध्यम से, अंत-से-अंत छवि संपीड़न के संवेदनशील बिट आवंटन ज्ञान को VVC कोडेक में स्थानांतरित किया
परिमाणीकरण चरण और बिट दर के बीच रैखिक संबंध स्थापित किया: बिट दर और परिमाणीकरण चरण के व्युत्क्रम के बीच रैखिक संबंध की खोज की, QP मानचित्र उत्पादन प्रक्रिया को सरल बनाया
कम्प्यूटेशनल जटिलता में उल्लेखनीय कमी: मौजूदा आसवन विधियों की तुलना में, QP मानचित्र उत्पादन समय दसवें हिस्से से कम हो गया
कई डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त किया: MS-SSIM का BD-दर 11% से अधिक कम हुआ, साथ ही बेहतर PSNR प्रदर्शन बनाए रखा

विधि विवरण

कार्य परिभाषा

दिए गए इनपुट छवि को देखते हुए, VVC कोडेक के लिए उपयुक्त QP मानचित्र उत्पन्न करें, जिससे समान बिट दर बाधा के तहत, कोडित परिणाम संवेदनशील मेट्रिक्स (SSIM, MS-SSIM आदि) पर बेहतर प्रदर्शन प्राप्त करें।

मॉडल आर्किटेक्चर

समग्र ढांचा

विधि में दो मुख्य चरण शामिल हैं:

प्रशिक्षण चरण: संवेदनशील हानि के साथ परिमाणीकरण चरण उत्पादन मॉडल को प्रशिक्षित करना
अनुमान चरण: परिमाणीकरण चरण मानचित्र उत्पन्न करना और VVC के QP मानचित्र में परिवर्तित करना

परिमाणीकरण चरण उत्पादन मॉडल

आर्किटेक्चर डिजाइन: स्टैक्ड अवशिष्ट ब्लॉक और 2 की स्ट्राइड के साथ कनवल्शन परत का उपयोग
आउटपुट रिज़ॉल्यूशन: अव्यक्त विशेषताओं के समान (मूल छवि 16 गुना डाउनसैंपल)
सक्रियण फ़ंक्शन: आउटपुट को सकारात्मक सुनिश्चित करने के लिए softplus का उपयोग:
```
softplus(x) = ln(1 + e^x)
```

अंत-से-अंत छवि संपीड़न आधार

मुख्यधारा के हाइपरप्रायर डिजाइन के आधार पर, संयुक्त हानि को अनुकूलित करें:

L = λD + R_main + R_hyper

जहां λ दर-विरूपण व्यापार को नियंत्रित करता है, D विरूपण (MSE या संवेदनशील मेट्रिक्स) है, R_main और R_hyper क्रमशः परिमाणीकृत अव्यक्त विशेषताओं और हाइपरप्रायर के बिट दर के अनुरूप हैं।

तकनीकी नवाचार बिंदु

1. परिमाणीकरण चरण से बिट दर मानचित्रण

प्रयोग के माध्यम से बिट दर और परिमाणीकरण चरण व्युत्क्रम के बीच रैखिक संबंध की खोज:

r_k ≈ 1/QS_k

जहां r_k ब्लॉक k की बिट दर है, QS_k संबंधित परिमाणीकरण चरण है।

2. QP अनुकूली एल्गोरिथ्म

R-λ मॉडल के आधार पर, ब्लॉक-स्तरीय QP गणना सूत्र:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. संवेदनशील हानि अनुकूलन

तीन संवेदनशील वेरिएंट को प्रशिक्षित करें: 1-SSIM, 1-MS-SSIM और LPIPS, संयुक्त हानि फ़ंक्शन:

L = λ(αD_perc) + R_main + R_hyper

प्रयोगात्मक सेटअप

डेटासेट

प्रशिक्षण डेटा: LIU4K डेटासेट, जिसमें 1,600 मूल छवियों और उनके 2×/4× द्विघात डाउनसैंपल संस्करणों से यादृच्छिक रूप से काटे गए 607,714 256×256 पैच शामिल हैं
परीक्षण डेटा:
- Kodak छवि सेट: 24 छवियां, लगभग 0.35MP
- CLIC 2022 सत्यापन/परीक्षण छवियां: 2MP से अधिक

मूल्यांकन मेट्रिक्स

पारंपरिक मेट्रिक्स: RGB PSNR
संवेदनशील मेट्रिक्स: SSIM, MS-SSIM, LPIPS
व्यापक मूल्यांकन: BD-दर (Bjøntegaard डेल्टा दर)

तुलना विधियां

VTM-23.0: VVC संदर्भ सॉफ्टवेयर आधारभूत
PerceptQPA: उच्च-पास फ़िल्टर आधारित QP अनुकूली विधि
आसवन: ज्ञान आसवन विधि, कोडेक नेटवर्क को दो बार चलाने की आवश्यकता है

कार्यान्वयन विवरण

QP सेटिंग: QP ∈ {37, 32, 27, 22} दर संरेखण के लिए
अधिकतम QP ऑफसेट: ब्लॉक प्रभाव को कम करने के लिए 4 तक सीमित
प्रशिक्षण सेटिंग: Adam ऑप्टिमाइज़र का उपयोग, प्रारंभिक सीखने की दर 1e-4, 5 epoch के लिए प्रशिक्षण
हाइपरपैरामीटर: α क्रमशः 0.02 (SSIM), 0.08 (MS-SSIM), 0.04 (LPIPS) पर सेट

प्रयोगात्मक परिणाम

मुख्य परिणाम

Kodak डेटासेट परिणाम

विधि	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	2.85	-4.26	-11.86	-11.96
आसवन (MS-SSIM)	2.52	-5.83	-12.74	-13.30
यह विधि (MS-SSIM)	0.98	-6.19	-11.88	-10.96

CLIC डेटासेट परिणाम

विधि	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	3.20	-2.42	-9.91	-11.51
आसवन (MS-SSIM)	7.55	-3.61	-10.24	-11.97
यह विधि (MS-SSIM)	2.46	-5.91	-11.26	-10.88

विलोपन प्रयोग

ढलान पैरामीटर प्रभाव

ढलान को 1.0 से 1.2 तक समायोजित करना, अधिक आक्रामक QP अनुकूलन प्राप्त कर सकता है:

MS-SSIM अनुकूलन: BD-दर -11.88% से -12.47% तक सुधार
लेकिन PSNR प्रदर्शन में कमी: 0.98% से 2.24% तक

वास्तविक बिट दर बनाम अनुमानित विधि

वास्तविक बिट दर का उपयोग व्युत्क्रम अनुमानित विधि की तुलना में:

संवेदनशील मेट्रिक्स प्रदर्शन में मामूली कमी
लेकिन PSNR प्रदर्शन बेहतर रहता है

कम्प्यूटेशनल जटिलता विश्लेषण

GPU वातावरण: QP मानचित्र उत्पादन केवल लगभग 20ms की आवश्यकता है (Kodak छवि)
CPU वातावरण: लगभग 700ms
आसवन की तुलना में: समय जटिलता दसवें हिस्से से कम हो गई

दृश्य गुणवत्ता मूल्यांकन

QP 37 के तहत दृश्य मूल्यांकन दिखाता है:

संरचना क्षेत्र: संवेदनशील गुणवत्ता में स्पष्ट सुधार
उच्च बनावट क्षेत्र: कम बिट दर पर समान संवेदनशील गुणवत्ता उत्पन्न करते हैं
समग्र प्रभाव PerceptQPA और आसवन के समान है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता: अंत-से-अंत छवि संपीड़न के संवेदनशील बिट आवंटन ज्ञान को VVC कोडेक में सफलतापूर्वक स्थानांतरित किया
दक्षता: कम्प्यूटेशनल जटिलता में महत्वपूर्ण कमी, विधि को व्यावहारिक बनाया
सार्वभौमिकता: विधि विभिन्न संवेदनशील मेट्रिक्स (SSIM, MS-SSIM) के लिए प्रभावी है

सीमाएं

LPIPS अनुकूलन प्रभाव सीमित: गहन संवेदनशील मेट्रिक्स का अनुकूलन अभी भी चुनौतीपूर्ण है
केवल फ्रेम इंट्रा कोडिंग तक सीमित: अभी तक वीडियो कोडिंग के समय-क्षेत्र अनुकूलन तक विस्तारित नहीं हुआ
आर्किटेक्चर अंतर: अंत-से-अंत मॉडल और पारंपरिक कोडेक के आर्किटेक्चर अंतर ज्ञान स्थानांतरण प्रभाव को सीमित करते हैं

भविष्य की दिशाएं

वीडियो कोडिंग विस्तार: समय-क्षेत्र जानकारी को शामिल करके संवेदनशील अनुकूलन
मशीन दृष्टि कार्य: डाउनस्ट्रीम कार्यों (जैसे वस्तु पहचान) के लिए बिट आवंटन
आर्किटेक्चर संरेखण: पारंपरिक कोडिंग ढांचे के करीब अंत-से-अंत मॉडल का उपयोग

गहन मूल्यांकन

लाभ

मजबूत नवाचार: परिमाणीकरण चरण और बिट दर के बीच रैखिक संबंध प्रस्तावित किया, स्थानांतरण प्रक्रिया को सरल बनाया
उच्च व्यावहारिक मूल्य: कम्प्यूटेशनल जटिलता में काफी कमी, विधि को वास्तविक अनुप्रयोग क्षमता प्रदान करती है
व्यापक प्रयोग: कई डेटासेट और मेट्रिक्स पर पर्याप्त सत्यापन
उत्कृष्ट प्रदर्शन: PSNR प्रदर्शन बनाए रखते हुए संवेदनशील मेट्रिक्स में महत्वपूर्ण सुधार

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: परिमाणीकरण चरण-बिट दर रैखिक संबंध के लिए सैद्धांतिक व्याख्या की कमी
सीमित लागू सीमा: मुख्य रूप से SSIM और MS-SSIM पर लागू, LPIPS पर प्रभाव सीमित
पैरामीटर संवेदनशीलता: ढलान जैसे हाइपरपैरामीटर को मैनुअल समायोजन की आवश्यकता है
सामान्यीकरण क्षमता: विभिन्न प्रकार की छवियों पर सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: पारंपरिक कोडेक के संवेदनशील अनुकूलन के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: निम्न-जटिलता विशेषता औद्योगिक अनुप्रयोग क्षमता प्रदान करती है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, प्रयोगात्मक सेटअप विस्तृत है

लागू परिदृश्य

वीडियो स्ट्रीमिंग: सीमित बैंडविड्थ के तहत संवेदनशील गुणवत्ता में सुधार की आवश्यकता वाले अनुप्रयोग
छवि संपीड़न: संवेदनशील गुणवत्ता के लिए उच्च आवश्यकता वाली छवि भंडारण और संचरण
वास्तविक समय अनुप्रयोग: कम्प्यूटेशनल संसाधन सीमित लेकिन संवेदनशील अनुकूलन की आवश्यकता वाले परिदृश्य

संदर्भ

पेपर ने 20 महत्वपूर्ण संदर्भों का हवाला दिया है, जिसमें वीडियो कोडिंग मानकों, संवेदनशील गुणवत्ता मूल्यांकन, अंत-से-अंत संपीड़न और ज्ञान स्थानांतरण जैसे संबंधित क्षेत्रों के मूल कार्य शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।