2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, BajiÄ

Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.

academic

نقل تخصيص البتات لتحسين الجودة الإدراكية لترميز VVC داخل الإطار

المعلومات الأساسية

معرّف الورقة: 2510.10970
العنوان: نقل تخصيص البتات لتحسين الجودة الإدراكية لترميز VVC داخل الإطار
المؤلفون: Runyu Yang, Ivan V. Bajić (جامعة سايمون فريزر)
التصنيف: eess.IV (معالجة الصور والفيديو)
وقت النشر/المؤتمر: ندوة ترميز الصور 2025، آخن، ألمانيا
رابط الورقة: https://arxiv.org/abs/2510.10970

الملخص

تعتمد معايير الترميز الحديثة للصور والفيديو (بما في ذلك H.266/VVC و AVS3 و AV1 وغيرها) على إطار عمل ترميز هجين قائم على الكتل. بينما يسهل هذا الإطار التحسين المباشر لنسبة الإشارة إلى الضوضاء (PSNR)، إلا أنه يواجه صعوبات في تحسين مقاييس التوافق الإدراكي مثل التشابه الهيكلي متعدد الأنماط (MS-SSIM). لمعالجة هذا التحدي، تقترح هذه الورقة طريقة منخفضة التعقيد لتحسين الجودة الإدراكية لترميز VVC داخل الإطار من خلال نقل معرفة تخصيص البتات من الضغط الشامل للصور. تقدم الورقة نموذجاً خفيفاً مدرباً باستخدام خسارة إدراكية لتوليد خريطة خطوات التكميم، التي تلتقط ضمنياً الأهمية الإدراكية على مستوى الكتلة، مما يتيح اشتقاق خريطة QP لـ VVC بفعالية. تظهر التجارب على مجموعات بيانات Kodak و CLIC مزايا كبيرة من حيث وقت التنفيذ وأداء المقاييس الإدراكية، مع تقليل BD-rate لـ MS-SSIM بأكثر من 11%.

خلفية البحث والدافع

المشكلة الأساسية

تركز معايير ترميز الفيديو التقليدية القائمة على الكتل (مثل VVC) على تحسين MSE/PSNR في تحسين معدل التشويه (RDO)، لكن هذه المقاييس لها ارتباط ضعيف بجودة الإدراك البصري البشري. بينما يصعب تطبيق المقاييس المتوافقة إدراكياً (مثل SSIM و MS-SSIM و LPIPS) بفعالية في إطار عمل RDO التقليدي على مستوى الكتلة بسبب افتقارها للإضافية واستقلالية الكتلة.

أهمية المشكلة

الفرق بين الجودة الإدراكية والمقاييس التقليدية: يوجد فجوة كبيرة بين MSE/PSNR والإدراك البصري البشري، وتحسين هذه المقاييس لا يضمن جودة ذاتية جيدة
احتياجات التطبيقات العملية: تتطلب تطبيقات الفيديو الحديثة جودة إدراكية أعلى، مما يستدعي طرقاً أفضل للتحسين الإدراكي
تحديات التعقيد الحسابي: التحسين المباشر للمقاييس الإدراكية المعقدة في أجهزة الترميز التقليدية يتطلب تكاليف حسابية عالية جداً

قيود الطرق الموجودة

الضغط الشامل: بينما يمكنه تحسين المقاييس الإدراكية بمرونة، إلا أنه غير متوافق مع المعايير التقليدية
طرق التحسين الإدراكي التقليدية: مثل PerceptQPA لها تأثير محدود
طرق تقطير المعرفة: مثل طريقة Distillation تتطلب تشغيل شبكة الترميز مرتين، مما يؤدي إلى تعقيد حسابي مرتفع جداً

المساهمات الأساسية

اقتراح مخطط نقل تخصيص البتات منخفض التعقيد: من خلال نموذج توليد خطوات التكميم الخفيف، نقل معرفة تخصيص البتات الإدراكية من الضغط الشامل للصور إلى جهاز ترميز VVC
إنشاء علاقة خطية بين خطوات التكميم ومعدل البتات: اكتشاف أن معدل البتات يرتبط خطياً بمعكوس خطوات التكميم، مما يبسط عملية توليد خريطة QP
تقليل كبير في التعقيد الحسابي: مقارنة بطرق التقطير الموجودة، يتم تقليل وقت توليد خريطة QP إلى عُشر أو أقل
تحقيق تحسينات أداء كبيرة على مجموعات بيانات متعددة: تقليل BD-rate لـ MS-SSIM بأكثر من 11%، مع الحفاظ على أداء PSNR أفضل

شرح الطريقة

تعريف المهمة

بالنظر إلى صورة إدخال، توليد خريطة QP قابلة للتطبيق لجهاز ترميز VVC، بحيث تحت قيود معدل البتات نفسه، تحقق نتائج الترميز أداءً أفضل على المقاييس الإدراكية (SSIM و MS-SSIM وغيرها).

معمارية النموذج

الإطار العام

تتضمن الطريقة مرحلتين رئيسيتين:

مرحلة التدريب: تدريب نموذج توليد خطوات التكميم باستخدام خسارة إدراكية
مرحلة الاستدلال: توليد خريطة خطوات التكميم وتحويلها إلى خريطة QP لـ VVC

نموذج توليد خطوات التكميم

تصميم المعمارية: استخدام كتل بقايا مكدسة وطبقات التفاف بخطوة 2
دقة الإخراج: نفس دقة الميزات الكامنة (الصورة الأصلية مع تقليل العينات 16 مرة)
دالة التفعيل: استخدام softplus لضمان أن الإخراج موجب:
```
softplus(x) = ln(1 + e^x)
```

أساس الضغط الشامل للصور

بناءً على تصميم فرط الأولويات السائد، تحسين الخسارة المشتركة:

L = λD + R_main + R_hyper

حيث يتحكم λ في توازن معدل التشويه، D هو التشويه (MSE أو مقياس إدراكي)، و R_main و R_hyper يتوافقان مع معدل البتات للميزات الكامنة المكممة وفرط الأولويات على التوالي.

نقاط الابتكار التقني

1. تعيين خطوات التكميم إلى معدل البتات

من خلال التجارب، تم اكتشاف علاقة خطية بين معدل البتات ومعكوس خطوات التكميم:

r_k ≈ 1/QS_k

حيث r_k هو معدل البتات للكتلة k، و QS_k هي خطوات التكميم المقابلة.

2. خوارزمية التكيف QP

بناءً على نموذج R-λ، صيغة حساب QP على مستوى الكتلة هي:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. تحسين الخسارة الإدراكية

تدريب ثلاث متغيرات إدراكية: 1-SSIM و 1-MS-SSIM و LPIPS، دالة الخسارة المشتركة هي:

L = λ(αD_perc) + R_main + R_hyper

إعداد التجارب

مجموعات البيانات

بيانات التدريب: مجموعة بيانات LIU4K، تحتوي على 607,714 رقعة بحجم 256×256 تم اقتطاعها عشوائياً من 1,600 صورة أصلية وإصداراتها المأخوذة بعينات ثنائية التكعيب 2× و 4×
بيانات الاختبار:
- مجموعة صور Kodak: 24 صورة، حوالي 0.35 ميجابكسل
- صور التحقق/الاختبار CLIC 2022: أكثر من 2 ميجابكسل

مقاييس التقييم

المقاييس التقليدية: PSNR RGB
المقاييس الإدراكية: SSIM و MS-SSIM و LPIPS
التقييم الشامل: BD-rate (معدل دلتا Bjøntegaard)

طرق المقارنة

VTM-23.0: خط الأساس لبرنامج مرجع VVC
PerceptQPA: طريقة التكيف QP القائمة على التصفية عالية التمرير
Distillation: طريقة تقطير المعرفة، تتطلب تشغيل شبكة الترميز مرتين

تفاصيل التنفيذ

إعدادات QP: QP ∈ {37, 32, 27, 22} لمحاذاة المعدل
أقصى إزاحة QP: محدودة بـ 4 لتقليل تأثيرات الكتل
إعدادات التدريب: استخدام محسّن Adam، معدل التعلم الأولي 1e-4، التدريب لـ 5 حقب
المعاملات الفائقة: α مضبوطة على 0.02 (SSIM) و 0.08 (MS-SSIM) و 0.04 (LPIPS)

نتائج التجارب

النتائج الرئيسية

نتائج مجموعة بيانات Kodak

الطريقة	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	2.85	-4.26	-11.86	-11.96
Distillation (MS-SSIM)	2.52	-5.83	-12.74	-13.30
الطريقة المقترحة (MS-SSIM)	0.98	-6.19	-11.88	-10.96

نتائج مجموعة بيانات CLIC

الطريقة	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	3.20	-2.42	-9.91	-11.51
Distillation (MS-SSIM)	7.55	-3.61	-10.24	-11.97
الطريقة المقترحة (MS-SSIM)	2.46	-5.91	-11.26	-10.88

التجارب الاستئصالية

تأثير معامل الميل

ضبط الميل من 1.0 إلى 1.2، يمكن تحقيق تكيف QP أكثر عدوانية:

تحسين MS-SSIM: تحسن BD-rate من -11.88% إلى -12.47%
لكن أداء PSNR تنخفض قليلاً: من 0.98% إلى 2.24%

معدل البتات الفعلي مقابل الطريقة التقريبية

استخدام معدل البتات الفعلي مقارنة بطريقة التقريب بالمعكوس:

انخفاض طفيف في أداء المقاييس الإدراكية
لكن PSNR يحافظ على أداء أفضل

تحليل التعقيد الحسابي

بيئة GPU: توليد خريطة QP يتطلب فقط حوالي 20 ميلي ثانية (صورة Kodak)
بيئة CPU: حوالي 700 ميلي ثانية
مقارنة بـ Distillation: تقليل التعقيد الزمني إلى عُشر أو أقل

تقييم الجودة البصرية

التقييم البصري عند QP 37 يظهر:

مناطق الهيكل: تحسن واضح في الجودة الإدراكية
مناطق النسيج العالي: إنتاج جودة إدراكية مماثلة عند معدلات بتات أقل
التأثير الكلي مشابه لـ PerceptQPA و Distillation

الأعمال ذات الصلة

طرق التحسين الإدراكي التقليدية

PerceptQPA: التكيف QP القائم على التصفية عالية التمرير، مع الأخذ في الاعتبار خصائص النظام البصري البشري
الطرق القائمة على JND: استخدام الفرق المدرك بالكاد لتخصيص البتات

الضغط الشامل للصور

معمارية فرط الأولويات: إطار عمل الضغط الاحتمالي للصور المقترح من قبل Ballé وآخرين
التحسين الإدراكي: نماذج شاملة مدربة مباشرة باستخدام خسارة إدراكية
البنية على مستوى الكتلة: نماذج شاملة أقرب إلى إطار العمل التقليدي للترميز

طرق نقل المعرفة

طرق التقطير: استخراج معرفة تخصيص البتات من النماذج الشاملة
نقل الميزات: استخدام التمثيلات الوسيطة لنماذج التعلم العميق

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الفعالية: نقل ناجح لمعرفة تخصيص البتات الإدراكية من الضغط الشامل للصور إلى جهاز ترميز VVC
الكفاءة: تقليل كبير في التعقيد الحسابي، مما يجعل الطريقة عملية
العمومية: الطريقة فعالة لمقاييس إدراكية مختلفة (SSIM و MS-SSIM)

القيود

تأثير تحسين LPIPS محدود: لا تزال تحديات في تحسين مقاييس الإدراك العميقة
مقتصرة على ترميز داخل الإطار: لم يتم توسيعها بعد لتحسين الترميز الزمني للفيديو
اختلافات المعمارية: الفروقات بين المعمارية بين النماذج الشاملة وأجهزة الترميز التقليدية تحد من تأثير نقل المعرفة

الاتجاهات المستقبلية

توسيع ترميز الفيديو: دمج المعلومات الزمنية للتحسين الإدراكي
مهام الرؤية الآلية: تخصيص البتات للمهام اللاحقة (مثل كشف الأجسام)
محاذاة المعمارية: استخدام نماذج شاملة أقرب إلى إطار العمل التقليدي للترميز

التقييم المتعمق

المزايا

ابتكار قوي: اقتراح علاقة خطية بين خطوات التكميم ومعدل البتات، مما يبسط عملية النقل
قيمة عملية عالية: تقليل كبير في التعقيد الحسابي، مما يجعل الطريقة ذات إمكانية تطبيق صناعي
تجارب شاملة: التحقق الكافي على مجموعات بيانات ومقاييس متعددة
أداء ممتازة: تحسين كبير في المقاييس الإدراكية مع الحفاظ على أداء PSNR

أوجه القصور

تحليل نظري غير كافٍ: نقص في التفسير النظري للعلاقة الخطية بين خطوات التكميم ومعدل البتات
نطاق التطبيق محدود: ينطبق بشكل أساسي على SSIM و MS-SSIM، مع تأثير محدود على LPIPS
حساسية المعاملات: تتطلب معاملات مثل الميل ضبطاً يدوياً
القدرة على التعميم: تحتاج قدرة التعميم على أنواع صور مختلفة إلى التحقق الإضافي

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لتحسين الإدراك في أجهزة الترميز التقليدية
القيمة العملية: الخصائص منخفضة التعقيد تجعلها ذات إمكانية تطبيق صناعي
قابلية إعادة الإنتاج: وصف الطريقة واضح، وإعدادات التجارب مفصلة

السيناريوهات المطبقة

بث الفيديو: تطبيقات تتطلب تحسين الجودة الإدراكية تحت قيود النطاق الترددي المحدود
ضغط الصور: تطبيقات تتطلب جودة إدراكية عالية في التخزين والنقل
التطبيقات في الوقت الفعلي: سيناريوهات محدودة الموارد الحسابية لكن تتطلب تحسيناً إدراكياً

المراجع

تستشهد الورقة بـ 20 مرجعاً مهماً، تغطي معايير ترميز الفيديو وتقييم الجودة الإدراكية والضغط الشامل ونقل المعرفة والمجالات ذات الصلة الأخرى، مما يوفر أساساً نظرياً قوياً للبحث.