A Novel Block-Alternating Iterative Algorithm for Retrieving Top-$k$ Elements from Factorized Tensors
Xiao, Zeng
Tensors, especially higher-order tensors, are typically represented in low-rank formats to preserve the main information of the high-dimensional data while saving memory space. In practice, only a small fraction elements in high-dimensional data are of interest, such as the $k$ largest or smallest elements. Thus, retrieving the $k$ largest/smallest elements from a low-rank tensor is a fundamental and important task in a wide variety of applications. In this paper, we first model the top-$k$ elements retrieval problem to a continuous constrained optimization problem. To address the equivalent optimization problem, we develop a block-alternating iterative algorithm that decomposes the original problem into a sequence of small-scale subproblems. Leveraging the separable summation structure of the objective function, a heuristic algorithm is proposed to solve these subproblems in an alternating manner. Numerical experiments with tensors from synthetic and real-world applications demonstrate that the proposed algorithm outperforms existing methods in terms of accuracy and stability.
academic
ফ্যাক্টরাইজড টেনসর থেকে শীর্ষ-k উপাদান পুনরুদ্ধারের জন্য একটি উপন্যাস ব্লক-বিকল্পিত পুনরাবৃত্তিমূলক অ্যালগরিদম
উচ্চ-ক্রম টেনসরগুলি সাধারণত কম-র্যাঙ্ক ফর্ম্যাটে প্রতিনিধিত্ব করা হয়, যা স্মৃতি সাশ্রয় করার সময় উচ্চ-মাত্রিক ডেটার প্রধান তথ্য সংরক্ষণ করে। ব্যবহারিক প্রয়োগে, প্রায়শই ডেটার একটি ছোট অংশ, যেমন সর্বাধিক বা সর্বনিম্ন k উপাদানগুলিতে মনোযোগ দেওয়া হয়। এই পেপারটি কম-র্যাঙ্ক টেনসর থেকে শীর্ষ-k উপাদান পুনরুদ্ধারের এই মৌলিক সমস্যার সমাধান করে, প্রথমে এটিকে একটি ক্রমাগত সীমাবদ্ধ অপ্টিমাইজেশন সমস্যা হিসাবে মডেল করে, তারপর একটি ব্লক-বিকল্পিত পুনরাবৃত্তিমূলক অ্যালগরিদম বিকাশ করে যা মূল সমস্যাটিকে ছোট-স্কেল সাব-সমস্যায় বিভক্ত করে। উদ্দেশ্য ফাংশনের বিভাজনযোগ্য যোগফল কাঠামো ব্যবহার করে, একটি হিউরিস্টিক অ্যালগরিদম প্রস্তাব করা হয় যা এই সাব-সমস্যাগুলি বিকল্পভাবে সমাধান করে। সিন্থেটিক ডেটা এবং বাস্তব প্রয়োগ টেনসরে সংখ্যাসূচক পরীক্ষা-নিরীক্ষা দেখায় যে অ্যালগরিদমটি নির্ভুলতা এবং স্থিতিশীলতার ক্ষেত্রে বিদ্যমান পদ্ধতিগুলির চেয়ে উন্নত।
ফ্যাক্টরাইজড টেনসর (factorized tensor) থেকে দক্ষতার সাথে এবং নির্ভুলভাবে শীর্ষ-k সর্বাধিক বা সর্বনিম্ন উপাদান এবং তাদের অবস্থান পুনরুদ্ধার করা। এখানে ফ্যাক্টরাইজড টেনসর হল CP, Tucker, TT ইত্যাদি কম-র্যাঙ্ক বিয়োজন ফর্ম্যাটে প্রতিনিধিত্ব করা উচ্চ-মাত্রিক ডেটা।
সুপারিশ সিস্টেম: সর্বাধিক k উপাদানগুলি সবচেয়ে অর্থপূর্ণ ব্যক্তিগতকৃত সুপারিশের সাথে সামঞ্জস্যপূর্ণ
কোয়ান্টাম সিমুলেশন: কোয়ান্টাম অবস্থাগুলি সাধারণত স্মৃতি ব্যবহার হ্রাস করার জন্য টেনসর বিয়োজনে প্রতিনিধিত্ব করা হয়, সর্বাধিক সম্ভাবনা অনুমান ফ্যাক্টরাইজড টেনসরে সর্বাধিক প্রশস্ততা উপাদান পুনরুদ্ধারের সমতুল্য
বৈজ্ঞানিক কম্পিউটিং: সিমুলেশন ডেটা, হাইপারস্পেক্ট্রাল ইমেজ, ভিডিও ইত্যাদি উচ্চ-মাত্রিক ডেটার মূল তথ্য নিষ্কাশন
অপ্টিমাইজেশন সমস্যা: অনেক ব্যবহারিক কাজ শীর্ষ-k উপাদান পুনরুদ্ধার সমস্যা হিসাবে মডেল করা যায়
নির্ভুলতা নমুনা আকার এবং গুণমানের উপর অত্যন্ত নির্ভরশীল
ফ্যাক্টরাইজড টেনসরের অন্তর্নিহিত কাঠামো দ্বারা প্রভাবিত, কর্মক্ষমতা অস্থির
শুধুমাত্র k>1 এর জন্য উপযুক্ত, সর্বনিম্ন উপাদান পুনরুদ্ধারে সরাসরি প্রসারিত হতে পারে না
ক্রমাগত অপ্টিমাইজেশন পদ্ধতি:
শক্তি পুনরাবৃত্তি/বিপরীত পুনরাবৃত্তি: হ্যাডামার্ড পণ্য টেনসর র্যাঙ্ক দ্রুত বৃদ্ধি ঘটায়, পুনঃসংকোচন অপারেশন প্রয়োজন, সঞ্চিত ত্রুটি অবস্থান ব্যর্থতার দিকে পরিচালিত করতে পারে
প্রজেক্টেড গ্রেডিয়েন্ট ডিসেন্ট (PGD): হাইপারপ্যারামিটার (যেমন ধাপের আকার) নির্বাচনের প্রতি অত্যন্ত সংবেদনশীল, বিভিন্ন কাজে অস্থির কর্মক্ষমতা
বিদ্যমান অ্যালগরিদম k>1 এর ক্ষেত্রে সরাসরি প্রয়োগ করা যায় না
প্রতিসম বৈশিষ্ট্যমূল্য মডেলের উপর ভিত্তি করে (Espig et al. 2013, 2020), লেখক পর্যবেক্ষণ করেছেন যে বৈশিষ্ট্য ভেক্টরের সাথে সম্পর্কিত টেনসরগুলি র্যাঙ্ক-ওয়ান কাঠামো রাখে, যা নতুন সমতুল্য ক্রমাগত সীমাবদ্ধ অপ্টিমাইজেশন পুনর্নির্মাণ এবং ব্লক-বিকল্পিত পুনরাবৃত্তিমূলক অ্যালগরিদম ডিজাইন করতে প্রেরণা দেয়।
১. মডেলিং অবদান: বৈশিষ্ট্য ভেক্টর সম্পর্কিত টেনসরের র্যাঙ্ক-ওয়ান কাঠামোর উপর ভিত্তি করে, শীর্ষ-k উপাদান পুনরুদ্ধার সমস্যাকে ক্রমাগত সীমাবদ্ধ অপ্টিমাইজেশন সমস্যা হিসাবে মডেল করা (উপপাদ্য ১)
२. অ্যালগরিদম অবদান: সমতুল্য অপ্টিমাইজেশন সমস্যা সমাধানের জন্য নতুন ব্লক-বিকল্পিত পুনরাবৃত্তিমূলক অ্যালগরিদম প্রস্তাব করা, উদ্দেশ্য ফাংশনের বিভাজনযোগ্য যোগফল কাঠামো ব্যবহার করে হিউরিস্টিক পদ্ধতি ডিজাইন করা
३. প্রয়োগ অবদান: কোয়ান্টাম সার্কিট সিমুলেশনের পরিমাপ পর্যায়ে অ্যালগরিদম প্রয়োগ করা, সংখ্যাসূচক ফলাফল বিদ্যমান অ্যালগরিদমের চেয়ে উন্নত দেখায়
४. কর্মক্ষমতা সুবিধা:
সর্বজনীনতা: সর্বাধিক/সর্বনিম্ন k উপাদান এবং তাদের অবস্থান পুনরুদ্ধার করতে পারে
স্থিতিশীলতা: বিভিন্ন বিতরণের ফ্যাক্টরাইজড টেনসরে নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত
ইনপুট: d-ক্রম CP টেনসর A∈Rn1×n2×⋯×nd, যা এভাবে প্রকাশ করা হয়:
A:=∑r=1RU1(:,r)∘U2(:,r)∘⋯∘Ud(:,r)
যেখানে ∘ টেনসর বাহ্যিক পণ্য নির্দেশ করে, {Up∈Rnp×R:p=1,…,d} CP ফ্যাক্টর, R হল CP র্যাঙ্ক।
আউটপুট: k সর্বাধিক (বা সর্বনিম্ন) উপাদানের মান এবং সংশ্লিষ্ট বহু-মাত্রিক সূচক অবস্থান।
লক্ষ্য: সম্পূর্ণ টেনসর পুনরুদ্ধার ছাড়াই, ফ্যাক্টরাইজড প্রতিনিধিত্ব থেকে সরাসরি দক্ষতার সাথে পুনরুদ্ধার করা।
শীর্ষ-k পুনরুদ্ধার সমস্যাকে প্রতিসম বৈশিষ্ট্যমূল্য সমস্যায় রূপান্তরিত করা। মূল পর্যবেক্ষণ: কর্ণ ম্যাট্রিক্স A (টেনসরের সমস্ত উপাদান দ্বারা গঠিত) এর বৈশিষ্ট্য ভেক্টরগুলি র্যাঙ্ক-ওয়ান কাঠামো রাখে।
অপ্টিমাইজেশন সমস্যা ২.৫ (মূল মডেলিং):
maxXp∈Rnp×k∑j=1k∑r=1R∏p=1d⟨Xp(:,j),Up(:,r)∗Xp(:,j)⟩
সীমাবদ্ধতা:
∥Xp(:,j)∥2=1 সমস্ত p=1,…,d;j=1,…,k এর জন্য
∏p=1d⟨Xp(:,i),Xp(:,j)⟩={1,0,i=ji=j
যেখানে ∗ হ্যাডামার্ড পণ্য নির্দেশ করে, ⟨⋅,⋅⟩ অভ্যন্তরীণ পণ্য নির্দেশ করে।
স্কেল বিশ্লেষণ: সমস্যার স্কেল ∑p=1dnpk, উদ্দেশ্য ফাংশন গণনা শুধুমাত্র np-মাত্রিক ভেক্টরের হ্যাডামার্ড পণ্য জড়িত, সম্পূর্ণ টেনসর পুনরুদ্ধার এড়ায়।
মূল ধারণা: অ-রৈখিক গাউস-সিডেল পুনরাবৃত্তি দ্বারা অনুপ্রাণিত, প্রতিটি পদক্ষেপে শুধুমাত্র s লক্ষ্য ভেরিয়েবল {Xp1,…,Xps} আপডেট করা, বড়-স্কেল সমস্যাকে ছোট-স্কেল সাব-সমস্যায় বিয়োজন করা।
মূল পর্যবেক্ষণ: উদ্দেশ্য ফাংশন বিভাজনযোগ্য যোগফল কাঠামো রাখে:
f1(Xp1(:,1),…,Xps(:,1))+⋯+fk(Xp1(:,k),…,Xps(:,k))
সমাধান কৌশল: ক্রম 1→2→⋯→k অনুযায়ী সমাধান নির্ধারণ করা, স্থানীয় সর্বোত্তমতা সন্তুষ্ট করা।
j=1 এর জন্য:
(Xp1∗(:,1),…,Xps∗(:,1))=argmaxf1s-ক্রম CP টেনসর ∑r=1Rαr,1tUp1(:,r)∘⋯∘Ups(:,r) এর সর্বাধিক উপাদান পুনরুদ্ধারের সমতুল্য।
j>1 এর জন্য: সীমাবদ্ধতা βr,i,jt∏q∈{p1,…,ps}⟨Xq(:,i),Xq(:,j)⟩=0 (সমস্ত i<j এর জন্য) সন্তুষ্ট করা প্রয়োজন।
দুটি ক্ষেত্র:
१. যদি βr,i,jt=0: সীমাবদ্ধতা অকার্যকর, সরাসরি সর্বাধিক উপাদান পুনরুদ্ধার করা
२. অন্যথায়: অর্থোগোনালিটি শর্ত সন্তুষ্ট করে এমন সর্বাধিক উপাদান খুঁজে বের করা
१. র্যাঙ্ক-ওয়ান কাঠামো ব্যবহার: প্রথমবার স্পষ্টভাবে বৈশিষ্ট্য ভেক্টর সম্পর্কিত টেনসরের র্যাঙ্ক-ওয়ান কাঠামো ব্যবহার করে অপ্টিমাইজেশন সমস্যা সরল করা, উচ্চ-মাত্রিক টেনসর সরাসরি পরিচালনা এড়ানো
२. ব্লক বিয়োজন কৌশল: ব্লক প্যারামিটার s দ্বারা সাব-সমস্যা স্কেল এবং অনুসন্ধান স্থান আকার নিয়ন্ত্রণ করা, দক্ষতা এবং নির্ভুলতার মধ্যে ভারসাম্য রাখা
३. বিভাজনযোগ্য যোগফল ব্যবহার: উদ্দেশ্য ফাংশনের বিভাজনযোগ্যতা চতুরভাবে ব্যবহার করা, k সমাধানের যৌথ অপ্টিমাইজেশনকে ক্রমিক অপ্টিমাইজেশনে রূপান্তরিত করা
४. সীমাবদ্ধতা পরিচালনা: βr,i,jt সহগের মাধ্যমে দক্ষতার সাথে সীমাবদ্ধতা কার্যকারিতা নির্ধারণ করা, সূচকীয় জটিলতা এড়ানো
५. সর্বজনীনতা ডিজাইন:
সর্বাধিক/সর্বনিম্ন উপাদান পুনরুদ্ধার শুধুমাত্র অপ্টিমাইজেশন দিক পরিবর্তন প্রয়োজন
জটিল টেনসরের বাস্তব/কল্পিত অংশ পুনরুদ্ধার সমর্থন করে
Tucker, TT ইত্যাদি অন্যান্য টেনসর ফর্ম্যাটে প্রয়োগ করা যায়
পেপারটি স্পষ্টভাবে প্রস্তাবিত দিকনির্দেশনা:
१. আরও ব্যবহারিক পরিস্থিতিতে প্রয়োগ: সুপারিশ সিস্টেম, নেটওয়ার্ক পরিমাপ, গণনামূলক জীববিজ্ঞান
२. বিদ্যমান সর্বাধিক/সর্বনিম্ম উপাদান পুনরুদ্ধার পদ্ধতির সাথে একীকরণ (মন্তব্য ३)
३. স্ব-অভিযোজিত ব্লক প্যারামিটার s সেটিং কৌশল (মন্তব্য २)
সবচেয়ে উপযুক্ত পরিস্থিতি:
१. মধ্য-স্কেল CP টেনসর (d≤10, np≤1000, R≤100)
२. তুলনামূলকভাবে সমান ডেটা বিতরণ (যেমন U(0,1))
३. উচ্চ নির্ভুলতা এবং স্থিতিশীলতা প্রয়োজন এমন প্রয়োগ
४. কোয়ান্টাম সার্কিট সিমুলেশন এর পরিমাপ পর্যায়
५. ছোট k মান (k≤10) এর পুনরুদ্ধার কাজ
অনুপযুক্ত পরিস্থিতি:
१. অতি-বড়-স্কেল টেনসর (মেমরি সীমাবদ্ধতা)
२. চরম ডেটা বিতরণ (যেমন অত্যন্ত অসম)
३. উচ্চ রিয়েল-টাইম প্রয়োজনীয়তা এমন প্রয়োগ (সাব-সমস্যা সমাধান ধীর)
४. বড় k মান (টেনসর উপাদান মোট সংখ্যার কাছাকাছি)
সুপারিশকৃত কৌশল:
প্রথমে s=2,K=1 দিয়ে চেষ্টা করুন
নির্ভুলতা অপর্যাপ্ত হলে, K ५ এ বৃদ্ধি করুন
মেমরি অনুমতি দিলে, s=३ চেষ্টা করতে পারেন
স্থিতিস্থাপকতা উন্নত করতে স্যাম্পলিং পদ্ধতির সাথে একত্রিত ব্যবহার করুন
१. Espig et al. (२०१३, २०२०): প্রতিসম বৈশিষ্ট্যমূল্য মডেলের ভিত্তি কাজ
२. Lu et al. (२०१७): স্টার স্যাম্পলিং পদ্ধতি
३. Sidiropoulos et al. (२०२३): MinCPD প্রজেক্টেড গ্রেডিয়েন্ট ডিসেন্ট পদ্ধতি
४. Oseledets (२०११): টেনসর চেইন (TT) বিয়োজন
५. Kolda & Bader (२००९): টেনসর বিয়োজন সমীক্ষা
६. Ma & Yang (२०२२): কোয়ান্টাম সিমুলেশনে কম-র্যাঙ্ক অনুমান
সামগ্রিক মূল্যায়ন: এটি একটি দৃঢ় সংখ্যাসূচক বিশ্লেষণ পেপার, টেনসর শীর্ষ-k পুনরুদ্ধারের এই গুরুত্বপূর্ণ সমস্যার জন্য উদ্ভাবনী মডেলিং এবং অ্যালগরিদম প্রস্তাব করে। পরীক্ষামূলক যাচাইকরণ ব্যাপক, ব্যবহারিক মূল্য উচ্চ। প্রধান অপূর্ণতা তাত্ত্বিক বিশ্লেষণ অনুপস্থিত এবং গণনা দক্ষতা মূল্যায়ন অপূর্ণ। টেনসর কম্পিউটিং এবং কোয়ান্টাম সিমুলেশন ক্ষেত্রের গবেষকদের এবং প্রকৌশলীদের জন্য, এটি একটি মনোযোগ দেওয়ার যোগ্য কাজ। লেখকদের পরবর্তী পর্যায়ে তাত্ত্বিক বিশ্লেষণ পরিপূরক, কোড প্রকাশ এবং আরও বড়-স্কেল সমস্যায় আরও যাচাইকরণ করার পরামর্শ দেওয়া হয়।