INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+: تحويلات منخفضة التعقيد المعتمدة على البيانات لترميز الفيديو
تقدم هذه الورقة إطار عمل تحويل منخفض التعقيد معتمد على البيانات يُسمى INT-DTT+ لمعالجة مشكلة تصميم التحويلات في ترميز الفيديو. بينما توازن التحويلات الثلاثية المنفصلة التقليدية (مثل DCT-2 و DST-7) بين أداء الترميز والكفاءة الحسابية، فإن التحويلات المعتمدة على البيانات (مثل KLT والتحويلات القابلة للفصل المستندة إلى الرسم البياني GBST) توفر ضغط طاقة أفضل لكنها تفتقر إلى التماثل القابل للاستفادة لتقليل التعقيد الحسابي. يبني الإطار على DTT+ (عائلة GBST التي تم الحصول عليها من خلال تحديث الرتبة الأولى لرسم بياني DTT)، ويقترح أولاً خوارزمية تعلم رسم بياني لتقدير مشترك لتحديثات الرتبة الأولى للصفوف والأعمدة، ثم يستفيد من البنية التدريجية لـ DTT+ لتحليل النواة إلى DTT أساسي ومصفوفة Cauchy منظمة. من خلال استخدام DTT صحيح منخفض التعقيد ومصفوفة Cauchy متفرقة، تم بناء التقريب الصحيح INT-DTT+. عند التحقق في سيناريو التحويل المعتمد على الوضع في معيار VVC، يحقق INT-DTT+ توفيراً في BD-rate يزيد عن 3% مقارنة بخط الأساس VVC MTS، مع تعقيد مماثل للـ DCT-2 الصحيح.
يواجه تصميم التحويلات في أنظمة ترميز الفيديو معضلة "الأداء-التعقيد":
قيود التحويلات الثلاثية التقليدية: بينما تتمتع DCT-2 و DST-7 بخوارزميات سريعة، فإن قدرتها على التكيف مع الخصائص الإحصائية للإشارة المحددة محدودة
معضلة التحويلات المعتمدة على البيانات: KLT نظرياً الأمثل لكن يفتقر إلى التنفيذ السريع؛ KLT القابل للفصل و GBST يقللان من عدد المعاملات لكن لا يزالان يفتقران إلى التماثل الذي يمكن استخدامه لتقليل الحسابات
اختناق التطبيق العملي: التحويلات المتعلمة الموجودة نادراً ما تُستخدم في أجهزة الترميز/فك الترميز الفعلية بسبب افتقارها إلى خوارزميات سريعة
خوارزمية تعلم الرسم البياني المشترك: اقتراح طريقة تعلم رسم بياني لـ DTT+ من خلال تقدير مشترك لمعاملات تحديث الرتبة الأولى للرسوم البيانية للصفوف والأعمدة (αr, βr, αc, βc, ir, ic)، لالتقاط بنية التغاير للكتلة بأكملها
إطار تنفيذ INT-DTT+ الصحيح:
الاستفادة من خاصية التحليل التدريجي لـ DTT+ (DTT أساسي + مصفوفة Cauchy)
تصميم استراتيجية تفريق مصفوفة Cauchy بناءً على خاصية التشابك للقيم الذاتية
بناء تقريب صحيح منخفض التعقيد، مع تعقيد مماثل للـ DCT-2 الصحيح
طريقة تصميم RDOT: دمج DTT+ في إطار عمل التحويل المُحسّن لنسبة التشويه (RDOT)، مما يجعل التحويل المتعلم مكملاً للنوى MTS الموجودة في VVC
استراتيجية تجميع الأوزان: اقتراح طريقة تجميع المعاملات القائمة على k-means، مما يقلل من متطلبات التخزين بشكل أكبر (تقليل 66%-94% مقارنة بـ sep-KLT)
التحقق المنهجي: تحقيق توفير BD-rate بنسبة 3%+ في سيناريو بقايا التنبؤ داخل الإطار في معيار VVC، مع زيادة التعقيد تعادل فقط حساب DCT-2 صحيح واحد
1. التهيئة: تقسيم عشوائي للعينات إلى nt مجموعة
2. التكرار حتى التقارب:
أ. لكل مجموعة Ij، حل φ_j* وحساب التحويل Tj
ب. تحديث تعيين المجموعة من خلال RDO (المعادلة 4)
3. الإخراج: مجموعة التحويلات المتعلمة {Tj}
الإدخال: كتلة الصورة xi، مصفوفات صحيحة K'_dq و F'_q
1. حساب معاملات DTT الأساسية: yi = U^⊤xi
2. ضرب مصفوفة قطرية: zi = K'_dq yi
3. ضرب مصفوفة متفرقة: qi = zi + F'_q zi
الإخراج: معاملات INT-DTT+ qi
تحليل التعقيد:
الخطوة 1: بافتراض أنها محسوبة بالفعل في RDO (بدون تكلفة إضافية)
أوضاع التنبؤ بين الإطارات: التوسع إلى بقايا التعويض الحركي
التقييم الذي يدرك الأجهزة: اختبار وقت التشغيل الفعلي واستهلاك الطاقة
أجهزة ترميز أخرى: معايير AV1 و EVC وغيرها
التوسعات المحتملة:
4. تحديثات ذات رتبة أعلى: تحديثات الرتبة الثانية أو الأعلى
5. التوسع غير القابل للفصل: الحفاظ على التحويلات غير القابلة للفصل منخفضة التعقيد
6. التعلم من النهاية إلى النهاية: التحسين المشترك مع أجهزة الترميز العصبية
7. التحسين الإدراكي: دمج مقاييس جودة الإدراك
هذه الورقة تمثل تقدماً مهماً في مجال تصميم التحويلات لترميز الفيديو، حيث تنجح في سد الفجوة بين الأمثل نظرياً (KLT) والممكن عملياً (DTT). الابتكار الأساسي يكمن في الاستفادة من البنية الخاصة لتحديث الرتبة الأولى، لدمج التكيف مع البيانات والخوارزميات السريعة، وهو هدف طويل الأمد في هذا المجال لم يتحقق من قبل.
المميزات الرئيسية تشمل الأناقة النظرية (إطار عمل رياضي كامل)، والجدوى الهندسية (تعقيد مماثل لـ DCT)، واكتمال التجارب (تحقق متعدد الأبعاد)، مما يجعلها تقنية واعدة جداً للتطبيق العملي. القيود الرئيسية تكمن في أن عمق وعرض التقييم لا يزال قابلاً للتحسين، خاصة في التنفيذ الأجهزة وقابلية التعميم عبر السيناريوهات.
بالنسبة لباحثي ترميز الفيديو، توفر هذه الورقة نموذجاً جديداً لتصميم التحويلات المعتمدة على البيانات؛ بالنسبة للممارسين الصناعيين، INT-DTT+ هو حل قابل للنشر لتحسين كفاءة الترميز؛ بالنسبة للباحثين النظريين، إطار عمل تحديث الرتبة الأولى قد يلهم البحث في مشاكل المصفوفات المنظمة الأخرى.
مؤشر التوصية: 9/10 - توصية قوية لباحثي ترميز الفيديو ومعالجة إشارات الرسم البياني والجبر الخطي العددي.