INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+: ভিডিও কোডিং এর জন্য কম-জটিলতার ডেটা-নির্ভর রূপান্তর
এই পেপারটি ভিডিও কোডিং এ রূপান্তর ডিজাইনের সমস্যার সমাধানের জন্য একটি কম-জটিলতার ডেটা-নির্ভর রূপান্তর কাঠামো INT-DTT+ প্রস্তাব করে। ঐতিহ্যবাহী বিচ্ছিন্ন ত্রিকোণমিতিক রূপান্তর (যেমন DCT-2 এবং DST-7) কোডিং কর্মক্ষমতা এবং গণনামূলক দক্ষতার মধ্যে ভারসাম্য অর্জন করে, কিন্তু ডেটা-নির্ভর রূপান্তর (যেমন KLT এবং গ্রাফ-ভিত্তিক বিচ্ছেদযোগ্য রূপান্তর GBST) আরও ভাল শক্তি সংকোচন প্রদান করলেও, গণনামূলক জটিলতা হ্রাস করার জন্য ব্যবহারযোগ্য প্রতিসাম্য অভাব করে। এই পেপারটি DTT+ (DTT গ্রাফের র্যাঙ্ক-ওয়ান আপডেটের মাধ্যমে প্রাপ্ত GBST পরিবার) এর উপর ভিত্তি করে একটি কাঠামো তৈরি করে, প্রথমে সারি এবং স্তম্ভ গ্রাফ র্যাঙ্ক-ওয়ান আপডেটের যৌথ অনুমানের জন্য একটি গ্রাফ শেখার অ্যালগরিদম প্রস্তাব করে, তারপর DTT+ এর ক্রমবর্ধমান কাঠামো ব্যবহার করে মূল বিষয়টিকে মৌলিক DTT এবং কাঠামোগত Cauchy ম্যাট্রিক্সে বিভক্ত করে। কম-জটিলতার পূর্ণসংখ্যা DTT এবং বিরল Cauchy ম্যাট্রিক্স ব্যবহার করে, INT-DTT+ পূর্ণসংখ্যা অনুমান তৈরি করা হয়েছে। VVC মান এর মোড-নির্ভর রূপান্তর পরিস্থিতিতে যাচাই করা হয়েছে, INT-DTT+ VVC MTS ভিত্তিরেখার তুলনায় ৩% এর বেশি BD-rate সঞ্চয় অর্জন করে, জটিলতা পূর্ণসংখ্যা DCT-2 এর সমতুল্য।
ঐতিহ্যবাহী DTT এর সীমাবদ্ধতা: DCT-2, DST-7 ইত্যাদি বিচ্ছিন্ন ত্রিকোণমিতিক রূপান্তরের দ্রুত অ্যালগরিদম রয়েছে, কিন্তু নির্দিষ্ট সংকেত পরিসংখ্যানগত বৈশিষ্ট্যের সাথে অভিযোজনযোগ্যতা সীমিত
ডেটা-নির্ভর রূপান্তরের দ্বিধা: KLT তাত্ত্বিকভাবে সর্বোত্তম কিন্তু দ্রুত বাস্তবায়ন অভাব করে; বিচ্ছেদযোগ্য KLT এবং GBST প্যারামিটার পরিমাণ হ্রাস করলেও, গণনা হ্রাস করার জন্য ব্যবহারযোগ্য প্রতিসাম্য এখনও নেই
ব্যবহারিক প্রয়োগ বাধা: বর্তমান শেখার রূপান্তর দ্রুত অ্যালগরিদম অভাবের কারণে বাস্তব এনকোডার/ডিকোডারে বিরল
sep-KLT: n² প্যারামিটার শিখতে হবে, গণনামূলক জটিলতা উচ্চ (O(n²) গুণন), কোন দ্রুত অ্যালগরিদম নেই
GBST: যদিও প্যারামিটার সংখ্যা সীমাবদ্ধ করে শক্তিশালীতা উন্নত করে, তবুও ব্যবহারযোগ্য কাঠামো অভাব করে
সরাসরি পরিমাণীকরণ পদ্ধতি: ফ্লোটিং-পয়েন্ট মূল সরাসরি পূর্ণসংখ্যায় পরিমাণ করা গণনামূলক জটিলতা হ্রাস করতে পারে না
লেখকদের পূর্ববর্তী কাজ: DTT+ এর FFT দ্রুত অ্যালগরিদম শুধুমাত্র বড় ব্লক আকারে নিষ্পাপ ম্যাট্রিক্স গুণনের চেয়ে ভাল, এবং প্যারামিটার শেখার সমস্যা সমাধান করে না
যৌথ গ্রাফ শেখার অ্যালগরিদম: DTT+ এর জন্য গ্রাফ শেখার পদ্ধতি প্রস্তাব করে, সারি এবং স্তম্ভ গ্রাফের র্যাঙ্ক-ওয়ান আপডেট প্যারামিটার (αr, βr, αc, βc, ir, ic) যৌথভাবে অনুমান করে, সম্পূর্ণ ব্লকের সহভেদ কাঠামো ক্যাপচার করে
INT-DTT+ পূর্ণসংখ্যা বাস্তবায়ন কাঠামো:
DTT+ এর ক্রমবর্ধমান বিয়োজন বৈশিষ্ট্য ব্যবহার করে (মৌলিক DTT + Cauchy ম্যাট্রিক্স)
বৈশিষ্ট্যমান মূল্য ইন্টারলেসিং বৈশিষ্ট্যের উপর ভিত্তি করে Cauchy ম্যাট্রিক্স বিরলতা কৌশল ডিজাইন করে
কম-জটিলতার পূর্ণসংখ্যা অনুমান তৈরি করে, জটিলতা পূর্ণসংখ্যা DCT-2 এর সাথে তুলনীয়
RDOT ডিজাইন পদ্ধতি: DTT+ কে হার-বিকৃতি অপ্টিমাইজড রূপান্তর (RDOT) কাঠামোতে একীভূত করে, শেখা রূপান্তরকে VVC এর বিদ্যমান MTS মূলের সাথে পরিপূরক করে
ওজন ক্লাস্টারিং কৌশল: k-means এর উপর ভিত্তি করে প্যারামিটার ক্লাস্টারিং পদ্ধতি প্রস্তাব করে, আরও স্টোরেজ প্রয়োজনীয়তা হ্রাস করে (sep-KLT এর তুলনায় ৬৬%-৯৪% হ্রাস)
সিস্টেম যাচাইকরণ: VVC মান এর ফ্রেম-ইন্টারনাল পূর্বাভাস অবশিষ্টাংশ পরিস্থিতিতে, ৩%+ BD-rate সঞ্চয় অর্জন করে, জটিলতা বৃদ্ধি শুধুমাত্র একটি পূর্ণসংখ্যা DCT-2 গণনার সমতুল্য
1. প্রাথমিকীকরণ: নমুনাগুলি nt ক্লাস্টারে র্যান্ডমলি বিভক্ত করা
2. সংমিশ্রণ পর্যন্ত পুনরাবৃত্তি:
a. প্রতিটি ক্লাস্টার Ij এর জন্য, φ_j* সমাধান করা এবং রূপান্তর Tj গণনা করা
b. RDO এর মাধ্যমে ক্লাস্টার বরাদ্দ আপডেট করা
3. আউটপুট: শেখা রূপান্তর সেট {Tj}
এই পেপারটি ভিডিও কোডিং রূপান্তর ডিজাইন ক্ষেত্রে একটি গুরুত্বপূর্ণ অগ্রগতি, সফলভাবে তাত্ত্বিক সর্বোত্তম (KLT) এবং ব্যবহারিক সম্ভাব্য (DTT) এর মধ্যে ব্যবধান পূরণ করে। মূল উদ্ভাবন র্যাঙ্ক-ওয়ান আপডেটের বিশেষ কাঠামো ব্যবহার করে, ডেটা অভিযোজনযোগ্যতা এবং দ্রুত অ্যালগরিদম সংমিশ্রণ করে, এটি ক্ষেত্রের দীর্ঘমেয়াদী লক্ষ্য কিন্তু অর্জিত নয়।
প্রধান সুবিধা তাত্ত্বিক কমনীয়তা (সম্পূর্ণ গাণিতিক কাঠামো), প্রকৌশল ব্যবহারিকতা (DCT এর সাথে সমতুল্য জটিলতা), পরীক্ষামূলক সম্পূর্ণতা (বহু-মাত্রিক যাচাইকরণ) অন্তর্ভুক্ত করে, এটিকে অত্যন্ত প্রতিশ্রুতিশীল ব্যবহারিক প্রযুক্তি করে তোলে। প্রধান সীমাবদ্ধতা মূল্যায়নের গভীরতা এবং বিস্তৃতিতে উন্নতির জায়গা রয়েছে, বিশেষত হার্ডওয়্যার বাস্তবায়ন এবং ক্রস-দৃশ্য সাধারণীকরণ ক্ষমতায়।
সুপারিশ সূচক: 9/10 - ভিডিও কোডিং, গ্রাফ সংকেত প্রক্রিয়াকরণ এবং সংখ্যাগত রৈখিক বীজগণিত ক্ষেত্রের গবেষকদের জন্য দৃঢ়ভাবে সুপারিশ করা হয়।