INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+: वीडियो कोडिंग के लिए कम-जटिलता डेटा-निर्भर रूपांतरण
यह पेपर वीडियो कोडिंग में रूपांतरण डिजाइन समस्या के लिए एक कम-जटिलता डेटा-निर्भर रूपांतरण ढांचा INT-DTT+ प्रस्तावित करता है। पारंपरिक असतत त्रिकोणमितीय रूपांतरण (जैसे DCT-2 और DST-7) कोडिंग प्रदर्शन और कम्प्यूटेशनल दक्षता के बीच संतुलन प्राप्त करते हैं, लेकिन डेटा-निर्भर रूपांतरण (जैसे KLT और ग्राफ-आधारित अलग करने योग्य रूपांतरण GBST) बेहतर ऊर्जा संपीड़न प्रदान करते हैं, फिर भी कम्प्यूटेशनल जटिलता को कम करने के लिए उपयोग करने योग्य समरूपता की कमी है। यह पेपर DTT+ पर आधारित है (एक DTT ग्राफ के रैंक-वन अपडेट के माध्यम से प्राप्त GBST परिवार), पहले पंक्ति और स्तंभ ग्राफ रैंक-वन अपडेट के संयुक्त अनुमान के लिए एक ग्राफ सीखने का एल्गोरिदम प्रस्तावित करता है, फिर DTT+ की प्रगतिशील संरचना का उपयोग करके कर्नल को आधार DTT और संरचित Cauchy मैट्रिक्स में विघटित करता है। कम-जटिलता पूर्णांक DTT और विरल Cauchy मैट्रिक्स का उपयोग करके, INT-DTT+ पूर्णांक सन्निकटन का निर्माण किया गया है। VVC मानक के मोड-निर्भर रूपांतरण परिदृश्य में सत्यापित, INT-DTT+ VVC MTS आधारभूत की तुलना में 3% से अधिक BD-rate बचत प्राप्त करता है, जटिलता पूर्णांक DCT-2 के समान है।
वीडियो कोडिंग प्रणाली में रूपांतरण डिजाइन "प्रदर्शन-जटिलता" दुविधा का सामना करता है:
पारंपरिक DTT की सीमाएं: DCT-2, DST-7 जैसे असतत त्रिकोणमितीय रूपांतरण तेजी से एल्गोरिदम हैं, लेकिन विशिष्ट संकेत सांख्यिकीय विशेषताओं के अनुकूलन में सीमित हैं
डेटा-निर्भर रूपांतरण की दुविधा: KLT सैद्धांतिक रूप से इष्टतम है लेकिन तेजी से कार्यान्वयन की कमी है; अलग करने योग्य KLT और GBST पैरामीटर को कम करते हैं, लेकिन अभी भी गणना को कम करने के लिए समरूपता की कमी है
व्यावहारिक अनुप्रयोग की बाधा: मौजूदा सीखे गए रूपांतरण तेजी से एल्गोरिदम की कमी के कारण वास्तविक एनकोडर/डिकोडर में दुर्लभ हैं
कोडिंग दक्षता में सुधार: मोड-निर्भर रूपांतरण (MDT) प्रत्येक भविष्यवाणी मोड अवशेष की सांख्यिकीय विशेषताओं का उपयोग करके ऊर्जा संपीड़न में सुधार कर सकते हैं
औद्योगिक अनुप्रयोग की आवश्यकता: VVC जैसे नई पीढ़ी के एनकोडर को कम जटिलता बनाए रखते हुए संपीड़न प्रदर्शन में सुधार की आवश्यकता है
सिद्धांत और अभ्यास का पुल: सैद्धांतिक रूप से इष्टतम (KLT) और व्यावहारिक रूप से व्यवहार्य (DTT) के बीच संतुलन खोजने की आवश्यकता है
sep-KLT: n² पैरामीटर सीखने की आवश्यकता है, कम्प्यूटेशनल जटिलता अधिक है (O(n²) गुणन), कोई तेजी से एल्गोरिदम नहीं
GBST: हालांकि पैरामीटर संख्या को सीमित करता है और मजबूती में सुधार करता है, फिर भी उपयोग करने योग्य संरचना की कमी है
प्रत्यक्ष परिमाणीकरण विधि: फ्लोटिंग-पॉइंट कर्नल को सीधे पूर्णांक में परिमाणित करना कम्प्यूटेशनल जटिलता को कम नहीं कर सकता
लेखकों का पूर्व कार्य: DTT+ का FFT तेजी से एल्गोरिदम केवल बड़े ब्लॉक आकार पर भोली मैट्रिक्स गुणन से बेहतर है, और पैरामीटर सीखने की समस्या को हल नहीं करता है
संयुक्त ग्राफ सीखने का एल्गोरिदम: DTT+ के लिए ग्राफ सीखने की विधि प्रस्तावित करता है, पंक्ति और स्तंभ ग्राफ के रैंक-वन अपडेट पैरामीटर (αr, βr, αc, βc, ir, ic) के संयुक्त अनुमान के माध्यम से, पूरे ब्लॉक के सहप्रसरण संरचना को पकड़ता है
INT-DTT+ पूर्णांक कार्यान्वयन ढांचा:
DTT+ की प्रगतिशील विघटन विशेषता का उपयोग (आधार DTT + Cauchy मैट्रिक्स)
eigenvalue interleaving गुण के आधार पर Cauchy मैट्रिक्स विरलीकरण रणनीति डिजाइन करता है
कम-जटिलता पूर्णांक सन्निकटन का निर्माण करता है, जटिलता पूर्णांक DCT-2 के समान है
RDOT डिजाइन विधि: DTT+ को दर-विरूपण अनुकूलित रूपांतरण (RDOT) ढांचे में एकीकृत करता है, जिससे सीखे गए रूपांतरण VVC के मौजूदा MTS कर्नल के पूरक हों
वजन क्लस्टरिंग रणनीति: k-means पर आधारित पैरामीटर क्लस्टरिंग विधि प्रस्तावित करता है, भंडारण आवश्यकता को और कम करता है (sep-KLT की तुलना में 66%-94% कमी)
व्यवस्थित सत्यापन: VVC मानक के फ्रेम-इंट्रा भविष्यवाणी अवशेष परिदृश्य में, 3%+ BD-rate बचत प्राप्त करता है, जटिलता वृद्धि केवल एक पूर्णांक DCT-2 गणना के बराबर है
इनपुट: भविष्यवाणी अवशेष ब्लॉक xi ∈ R^(n×n) (जैसे VVC फ्रेम-इंट्रा भविष्यवाणी अवशेष) आउटपुट: रूपांतरण गुणांक yi = T^⊤ xi उद्देश्य: रूपांतरण मैट्रिक्स T डिजाइन करता है, जो:
संकेत सांख्यिकीय विशेषताओं के अनुकूल हो (ऊर्जा संपीड़न प्रदर्शन)
कम कम्प्यूटेशनल जटिलता हो (पूर्णांक संचालन, विरल संरचना)
1. आरंभीकरण: नमूनों को यादृच्छिक रूप से nt क्लस्टर में विभाजित करता है
2. अभिसरण तक पुनरावृत्ति:
a. प्रत्येक क्लस्टर Ij के लिए, φ_j* को हल करता है और रूपांतरण Tj की गणना करता है
b. RDO के माध्यम से क्लस्टर असाइनमेंट अपडेट करता है (समीकरण 4)
3. आउटपुट: सीखे गए रूपांतरण सेट {Tj}
इनपुट: छवि ब्लॉक xi, पूर्णांक मैट्रिक्स K'_dq और F'_q
1. आधार DTT गुणांक की गणना करता है: yi = U^⊤xi
2. विकर्ण मैट्रिक्स गुणन: zi = K'_dq yi
3. विरल मैट्रिक्स गुणन: qi = zi + F'_q zi
आउटपुट: INT-DTT+ गुणांक qi
जटिलता विश्लेषण:
चरण 1: मान लीजिए RDO में पहले से गणना की गई है (कोई अतिरिक्त ओवरहेड नहीं)
चरण 2: n गुणन (विकर्ण मैट्रिक्स)
चरण 3: F'_q की विरलता पर निर्भर करता है, आमतौर पर ≤n²/2 संचालन
फ्रेम-इंटर भविष्यवाणी मोड: गति-मुआवजे अवशेष तक विस्तार
हार्डवेयर-जागरूक मूल्यांकन: वास्तविक रनटाइम और ऊर्जा खपत परीक्षण
अन्य एनकोडर: AV1, EVC आदि मानक
संभावित विस्तार:
4. उच्च-क्रम अपडेट: रैंक-दो या उच्च-रैंक अपडेट
5. गैर-अलग करने योग्य विस्तार: कम-जटिलता बनाए रखते हुए गैर-अलग करने योग्य रूपांतरण
6. अंत-से-अंत सीखना: तंत्रिका नेटवर्क एनकोडर के साथ संयुक्त अनुकूलन
7. संवेदनशील अनुकूलन: संवेदनशील गुणवत्ता माप को एकीकृत करता है
यह पेपर वीडियो कोडिंग रूपांतरण डिजाइन क्षेत्र में महत्वपूर्ण प्रगति है, सफलतापूर्वक सैद्धांतिक रूप से इष्टतम (KLT) और व्यावहारिक रूप से व्यवहार्य (DTT) के बीच की खाई को पाटता है। मुख्य नवाचार रैंक-वन अपडेट की विशेष संरचना का उपयोग करके, डेटा अनुकूलन को तेजी से एल्गोरिदम के साथ जोड़ता है, यह इस क्षेत्र का दीर्घकालीन लक्ष्य है लेकिन अभी तक प्राप्त नहीं हुआ।
मुख्य लाभ में सैद्धांतिक सुंदरता (पूर्ण गणितीय ढांचा), इंजीनियरिंग व्यावहारिकता (DCT के समान जटिलता), प्रायोगिक पूर्णता (बहु-आयामी सत्यापन) शामिल हैं, जिससे यह अत्यधिक संभावनाशील व्यावहारिक तकनीक बन जाती है। मुख्य सीमाएं मूल्यांकन की गहराई और व्यापकता में सुधार की गुंजाइश है, विशेष रूप से हार्डवेयर कार्यान्वयन और क्रॉस-परिदृश्य सामान्यीकरण क्षमता।
वीडियो कोडिंग शोधकर्ताओं के लिए, यह पेपर डेटा-निर्भर रूपांतरण डिजाइन के लिए नया प्रतिमान प्रदान करता है; औद्योगिक चिकित्सकों के लिए, INT-DTT+ कोडिंग दक्षता में सुधार के लिए तैनाती योग्य समाधान है; सैद्धांतिक कार्यकर्ताओं के लिए, रैंक-वन अपडेट ढांचा अन्य संरचित मैट्रिक्स समस्याओं के अनुसंधान को प्रेरित कर सकता है।
अनुशंसा सूचकांक: 9/10 - वीडियो कोडिंग, ग्राफ संकेत प्रसंस्करण और संख्यात्मक रैखिक बीजगणित क्षेत्र के शोधकर्ताओं को दृढ़ता से अनुशंसित।