2025-11-21T23:25:16.078828

Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Fan, Yang, Kankanhalli et al.

When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named Î±-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including Î±-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.

academic

Translution: স্ব-মনোযোগ এবং কনভোলিউশনকে অভিযোজিত এবং আপেক্ষিক মডেলিংয়ের জন্য একীভূত করা

মৌলিক তথ্য

পেপার আইডি: 2510.10060
শিরোনাম: Translution: স্ব-মনোযোগ এবং কনভোলিউশনকে অভিযোজিত এবং আপেক্ষিক মডেলিংয়ের জন্য একীভূত করা
লেখক: Hehe Fan (জেজিয়াং বিশ্ববিদ্যালয়), Yi Yang (জেজিয়াং বিশ্ববিদ্যালয়), Mohan Kankanhalli (সিঙ্গাপুর জাতীয় বিশ্ববিদ্যালয়), Fei Wu (জেজিয়াং বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.LG cs.AI cs.CL cs.CV
প্রকাশনার সময়: ২০২৫ সালের ১১ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2510.10060v1

সারসংক্ষেপ

ডেটা মডেলিংয়ের ক্ষেত্রে, লেখকরা দুটি মূল দিক চিহ্নিত করেছেন: ১) কেন্দ্রীয় উপাদানের সাথে সম্পর্কিত উপাদানগুলি সনাক্ত করা (যেমন কনভোলিউশন রিসেপ্টিভ ফিল্ড) বা প্রশ্ন উপাদানগুলি (যেমন স্ব-মনোযোগ); ২) এই টোকেনগুলি কার্যকরভাবে এনকোড করা। স্ব-মনোযোগ এই উপাদানগুলি অভিযোজিতভাবে সনাক্ত করতে পারে, কিন্তু কাঠামোগত প্রতিনিধিত্ব শেখার জন্য পরম অবস্থান এম্বেডিংয়ের উপর নির্ভর করে। বিপরীতে, কনভোলিউশন উপাদানগুলি আপেক্ষিক পদ্ধতিতে এনকোড করে, কিন্তু নির্দিষ্ট কার্নেল আকার সম্পর্কিত উপাদানগুলি অভিযোজিতভাবে নির্বাচন করার ক্ষমতা সীমিত করে। এই পেপারটি Translution অপারেশন প্রস্তাব করে, যা স্ব-মনোযোগের অভিযোজিত স্বীকৃতি ক্ষমতা এবং কনভোলিউশনের আপেক্ষিক এনকোডিং সুবিধাগুলিকে একীভূত করে। তবে, এই একীকরণ পরামিতি সংখ্যা উল্লেখযোগ্যভাবে বৃদ্ধি করে, যা বর্তমান বেশিরভাগ গণনা সংস্থান অতিক্রম করে। অতএব, লেখকরা একটি হালকা ওজনের বৈকল্পিক α-Translution প্রস্তাব করেছেন। পরীক্ষাগুলি দেখায় যে Translution কম্পিউটার ভিশন এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজগুলিতে স্ব-মনোযোগকে ছাড়িয়ে যায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বর্তমান গভীর শেখার মুখোমুখি মূল চ্যালেঞ্জ হল ডেটা কার্যকরভাবে কীভাবে মডেল করা যায়। লেখকরা ডেটা মডেলিংকে দুটি মূল দিকে বিভক্ত করেছেন:

সম্পর্কিত উপাদান সনাক্তকরণ: নির্ধারণ করা যে কোন ডেটা উপাদানগুলি বর্তমানে প্রক্রিয়াকৃত উপাদানের সাথে সম্পর্কিত
কার্যকর এনকোডিং: এই সম্পর্কিত উপাদানগুলিকে কার্যকর প্রতিনিধিত্বে এনকোড করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

কনভোলিউশনাল নিউরাল নেটওয়ার্কের সীমাবদ্ধতা:

স্থানীয় রিসেপ্টিভ ফিল্ড সংজ্ঞায়িত করতে নির্দিষ্ট আকারের কার্নেল ব্যবহার করে
বিশেষত বস্তুর সীমানা বা পটভূমি অঞ্চলে অপ্রাসঙ্গিক পিক্সেল অন্তর্ভুক্ত করা এড়াতে পারে না
যদিও স্থানীয় কাঠামো আপেক্ষিকভাবে এনকোড করতে পারে, তবে অভিযোজনযোগ্যতার অভাব রয়েছে

স্ব-মনোযোগ প্রক্রিয়ার সীমাবদ্ধতা:

সম্পর্কিত অঞ্চলগুলি অভিযোজিতভাবে সনাক্ত করতে পারে, পূর্বনির্ধারিত স্থানীয়তা দ্বারা সীমাবদ্ধ নয়
কাঠামোগত তথ্য ক্যাপচার করতে পরম অবস্থান এম্বেডিংয়ের উপর নির্ভর করে
যখন একই বস্তু বিভিন্ন অবস্থানে চলে যায়, তখন সনাক্ত করতে অসুবিধা হতে পারে

গবেষণা প্রেরণা

Transformer এবং অন্যান্য মডেলের সরাসরি সম্প্রসারণ হ্রাসমান রিটার্নের সম্মুখীন হওয়ার সাথে সাথে, AI ল্যাবরেটরিগুলি লক্ষ্য করেছে যে পরবর্তী প্রজন্মের মডেলের উন্নতির গতি প্রত্যাশিত থেকে কম। ডেটা স্যাচুরেশন এবং বর্তমান স্কেলিং আইন সীমাবদ্ধতার অধীনে, উদ্ভাবনী নিউরাল নেটওয়ার্ক আর্কিটেকচার ডিজাইন করা অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে।

মূল অবদান

Translution অপারেশন প্রস্তাব: স্ব-মনোযোগের অভিযোজিত স্বীকৃতি ক্ষমতা এবং কনভোলিউশনের আপেক্ষিক এনকোডিং সুবিধাগুলিকে একীভূত করে
α-Translution হালকা ওজনের বৈকল্পিক ডিজাইন: পরামিতি সংখ্যা উল্লেখযোগ্যভাবে হ্রাস করে, বর্তমান গণনা সংস্থানের অধীনে পদ্ধতিটি সম্ভব করে তোলে
তাত্ত্বিক একীকরণ: প্রমাণ করে যে কনভোলিউশন এবং স্ব-মনোযোগ Translution এর বিশেষ ক্ষেত্র হিসাবে বিবেচনা করা যেতে পারে
পরীক্ষামূলক যাচাইকরণ: কম্পিউটার ভিশন এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজগুলিতে পদ্ধতির কার্যকারিতা যাচাই করে
ওপেন সোর্স বাস্তবায়ন: সম্প্রদায়ের ব্যবহারের জন্য সম্পূর্ণ কোড বাস্তবায়ন প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট ডেটা (ইমেজ প্যাচ বা পাঠ্য টোকেন) দেওয়া হলে, লক্ষ্য হল একটি অপারেশন শিখা যা:

প্রশ্ন উপাদানের সাথে সম্পর্কিত উপাদানগুলি অভিযোজিতভাবে সনাক্ত করতে পারে
এই উপাদানগুলির কাঠামোগত সম্পর্ক আপেক্ষিক পদ্ধতিতে এনকোড করতে পারে
কার্যকর আউটপুট প্রতিনিধিত্ব তৈরি করতে পারে

মডেল আর্কিটেকচার

Translution অপারেশন

Translution একটি কনভোলিউশন-শৈলী পদ্ধতি গ্রহণ করে, প্রতিটি দূরত্ব এবং দিকের জন্য বিভিন্ন পরামিতি ম্যাট্রিক্স নির্ধারণ করে:

আপেক্ষিক প্রশ্ন এনকোডিং: qi,j = fi · W^q_{δx,δy}, δx = xi - xj, δy = yi - yj
আপেক্ষিক কী এনকোডিং: kj,i = fj · W^k_{-δx,-δy}
আপেক্ষিক মনোযোগ: ai,j = (qi,j · k^T_{j,i})/√C', αi,j = e^{ai,j}/∑e^{ai,n}
আপেক্ষিক মূল্য এনকোডিং: vi,j = fj · W^v_{δx,δy}
ওজনযুক্ত যোগফল: f'i = ∑αi,j × vi,j

যেখানে W^q_{δx,δy}, W^k_{δx,δy}, W^v_{δx,δy} ∈ R^{C×C'} সংশ্লিষ্ট স্থানচ্যুতি (δx,δy) এর শেখার যোগ্য পরামিতি ম্যাট্রিক্স।

α-Translution হালকা ওজনের বৈকল্পিক

Translution এর জন্য (2H-1)×(2W-1)×C×C' পরামিতি প্রয়োজন হওয়ায়, α-Translution ইনপুট এবং আউটপুট মাত্রা হ্রাস করে পরামিতি কমায়:

W^q_{δx,δy} ⇒ W^q_1 · W^q_{δx,δy}
W^k_{δx,δy} ⇒ W^k_1 · W^k_{δx,δy}
W^v_{δx,δy} ⇒ W^v_1 · W^v_{δx,δy} · W^v_2

যেখানে C1 ≪ C, C2 ≪ C'।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

১. তাত্ত্বিক একীকরণ

লেখকরা প্রমাণ করেছেন যে কনভোলিউশন এবং স্ব-মনোযোগ Translution এর বিশেষ ক্ষেত্র:

কনভোলিউশন: মনোযোগের ওজন রিসেপ্টিভ ফিল্ডের মধ্যে ১, বাইরে ০
স্ব-মনোযোগ: ভাগ করা W^q, W^k, W^v পরামিতি ব্যবহার করে, দিক এবং দূরত্ব এনকোডিং উপেক্ষা করে
Translution: উভয়ের সুবিধা একত্রিত করে

২. আপেক্ষিক অবস্থান এনকোডিং

বিদ্যমান পদ্ধতি (স্কেলার পক্ষপাত বা ভেক্টর সংযোজন) থেকে ভিন্ন, Translution স্থানচ্যুতি-ভিত্তিক ম্যাট্রিক্স ব্যবহার করে আপেক্ষিক এনকোডিং করে, যা দিক এবং দূরত্ব তথ্য আরও ভালভাবে ক্যাপচার করতে পারে।

৩. মেমরি-অপ্টিমাইজড বাস্তবায়ন

α-Translution এর জন্য মেমরি-দক্ষ বাস্তবায়ন ডিজাইন করা হয়েছে, শিখর মেমরি ব্যবহার N×N×C' থেকে N×C'+N×N×C2 এ হ্রাস করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

কম্পিউটার ভিশন কাজ:

Dynamic MNIST: ৮৪×৮৪ পিক্সেল অঞ্চলের মধ্যে সংখ্যা চলমান সিন্থেটিক ডেটাসেট
Static MNIST: ইমেজের কেন্দ্রে সংখ্যা স্থির নিয়ন্ত্রণ ডেটাসেট
ImageNet-1K: ১০০০ ক্লাস সহ বড় আকারের ইমেজ শ্রেণীবিভাগ ডেটাসেট

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজ:

OpenWebText: ৯০ বিলিয়ন প্রশিক্ষণ টোকেন, ৪ মিলিয়ন যাচাইকরণ টোকেন, ৫০K শব্দভাণ্ডার

মূল্যায়ন মেট্রিক্স

ইমেজ শ্রেণীবিভাগ: শীর্ষ-১ এবং শীর্ষ-৫ নির্ভুলতা
ভাষা মডেলিং: বিভ্রান্তি (Perplexity)

তুলনামূলক পদ্ধতি

মান স্ব-মনোযোগ (Transformer বেসলাইন)
আপেক্ষিক অবস্থান এনকোডিং বৈকল্পিক (Shaw et al., Swin Transformer, ConViT, RoFormer ইত্যাদি)
পরম এনকোডিং বৈকল্পিক (অ্যাবলেশন গবেষণার জন্য)

বাস্তবায়ন বিবরণ

আর্কিটেকচার কনফিগারেশন: গভীরতা ৬-১২ স্তর, এম্বেডিং মাত্রা ১৯২-৩৮৪, মনোযোগ মাথা ৩-৬
α-Translution ডিফল্ট সংকোচন মাত্রা: C1 = C2 = 8
ব্যাচ আকার: ২৫৬ (ImageNet), ৮ (OpenWebText)
সমস্ত প্রশিক্ষণ শূন্য থেকে শুরু, কোন বাহ্যিক প্রাক-প্রশিক্ষণ নেই

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

Dynamic MNIST পরীক্ষা

পদ্ধতি	পরামিতি	Static→Static	Dynamic→Dynamic	Static→Dynamic
স্ব-মনোযোগ	2.7M	98.48%	92.64%	18.18%
α-Translution	4.6M	98.48%	97.31%	34.90%
Translution	116.2M	98.60%	97.35%	36.40%

মূল আবিষ্কার: Translution অবস্থান পরিবর্তন পরিস্থিতিতে উল্লেখযোগ্যভাবে ভাল পারফরম্যান্স করে, আপেক্ষিক এনকোডিংয়ের সুবিধা প্রমাণ করে।

ImageNet-1K পরীক্ষা

ViT-A/56 উদাহরণ হিসাবে:

পদ্ধতি	পরামিতি	শীর্ষ-১	শীর্ষ-৫
স্ব-মনোযোগ	4.7M	46.28%	71.17%
α-Translution	5.3M	48.36%	73.31%
Translution	38.5M	52.41%	76.50%

প্রাকৃতিক ভাষা মডেলিং পরীক্ষা

পদ্ধতি	পরামিতি	বিভ্রান্তি
স্ব-মনোযোগ	22.0M	60.40
α-Translution	23.7M	57.97
Translution	127.5M	56.26

অ্যাবলেশন পরীক্ষা

১. পরামিতি বৃদ্ধি বনাম আপেক্ষিক এনকোডিংয়ের প্রভাব

পরীক্ষা দেখায় যে সাধারণ পরামিতি বৃদ্ধি (পরম এনকোডিং) কর্মক্ষমতা উন্নতি আনে না, আপেক্ষিক এনকোডিং পদ্ধতির নিজস্ব কার্যকারিতা প্রমাণ করে।

২. আপেক্ষিক এনকোডিং মাত্রার প্রভাব

C1 এবং C2 বৃদ্ধির সাথে সাথে, α-Translution কর্মক্ষমতা উন্নত হয়, কিন্তু পরামিতি সংখ্যাও বৃদ্ধি পায়, দক্ষতা-প্রভাব ট্রেড-অফ বিদ্যমান।

३. অবস্থান এনকোডিং পদ্ধতি তুলনা

পদ্ধতি	পরামিতি	শীর্ষ-১	শীর্ষ-৫
কোন অবস্থান এম্বেডিং	4.69M	42.49%	67.39%
মান অবস্থান এম্বেডিং	4.69M	46.28%	71.17%
Swin Transformer	4.69M	46.36%	71.31%
RoFormer	4.69M	46.65%	71.51%
α-Translution	5.33M	48.36%	73.31%
Translution	38.53M	52.41%	76.50%

পরীক্ষামূলক আবিষ্কার

আপেক্ষিক এনকোডিংয়ের গুরুত্ব: অবস্থান পরিবর্তন পরিস্থিতিতে, আপেক্ষিক এনকোডিং পরম এনকোডিংয়ের চেয়ে উল্লেখযোগ্যভাবে ভাল
পরামিতি দক্ষতা: α-Translution অপেক্ষাকৃত ছোট পরামিতি বৃদ্ধির সাথে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করেছে
ক্রস-মোডালিটি কার্যকারিতা: পদ্ধতি ভিশন এবং ভাষা কাজ উভয়েই কার্যকর
মেমরি সীমাবদ্ধতা: বর্তমান GPU মেমরি বড় আকারের পরীক্ষা সীমিত করে, আরও বড় আকারের মূল্যায়নের জন্য ২-৩TB মেমরি প্রয়োজন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

Translution সফলভাবে স্ব-মনোযোগের অভিযোজিত স্বীকৃতি ক্ষমতা এবং কনভোলিউশনের আপেক্ষিক এনকোডিং সুবিধাগুলিকে একীভূত করেছে
α-Translution পরামিতি দক্ষতা এবং কর্মক্ষমতার মধ্যে ভাল ভারসাম্য প্রদান করে
আপেক্ষিক এনকোডিং অবস্থান পরিবর্তন পরিচালনায় পরম এনকোডিংয়ের চেয়ে উল্লেখযোগ্যভাবে ভাল
পদ্ধতি একাধিক কাজ এবং মোডালিটিতে উন্নতি প্রদর্শন করে

সীমাবদ্ধতা

গণনা সংস্থান প্রয়োজনীয়তা: সম্পূর্ণ Translution বিপুল পরামিতি এবং মেমরি প্রয়োজন
মূল্যায়ন স্কেল সীমাবদ্ধতা: সংস্থান সীমাবদ্ধতার কারণে, প্রধানত ছোট-মাঝারি আকারের আর্কিটেকচারে মূল্যায়ন করা হয়েছে
নির্দিষ্ট পরিস্থিতি অপ্টিমাইজেশন: কিছু আপেক্ষিক অবস্থান পরামিতি ভাগ করা যেতে পারে, বিশেষত দূরবর্তী দূরত্বে

ভবিষ্যত দিকনির্দেশনা

অপ্টিমাইজড বৈকল্পিক অন্বেষণ: আরও দক্ষ Translution বৈকল্পিক ডিজাইন করা
মাল্টি-মোডালিটি সম্প্রসারণ: ৩D, ভিডিও, অণু এবং অন্যান্য মোডালিটিতে সম্প্রসারণ করা
আর্কিটেকচার ডিজাইন: Translution এর জন্য আরও কার্যকর বিশেষায়িত আর্কিটেকচার ডিজাইন করা
বড় আকারের মূল্যায়ন: বৃহত্তর আকারের ফ্রেমওয়ার্ক এবং ডেটাসেটে যাচাই করা

গভীর মূল্যায়ন

সুবিধা

তাত্ত্বিক অবদান: কনভোলিউশন এবং স্ব-মনোযোগের একীভূত দৃষ্টিভঙ্গি প্রদান করে, তাত্ত্বিকভাবে মার্জিত
ব্যবহারিক মূল্য: α-Translution সংস্থান-সীমিত পরিস্থিতিতেও কর্মক্ষমতা উন্নতি আনে
পর্যাপ্ত পরীক্ষা: একাধিক কাজ, ডেটাসেট এবং অ্যাবলেশন গবেষণা অন্তর্ভুক্ত করে
স্পষ্ট সমস্যা: স্পষ্টভাবে বিদ্যমান পদ্ধতির মূল সীমাবদ্ধতা চিহ্নিত এবং সমাধান করে
ওপেন সোর্স অবদান: সম্পূর্ণ বাস্তবায়ন প্রদান করে, সম্প্রদায় গবেষণা প্রচার করে

অপূর্ণতা

সংস্থান প্রয়োজনীয়তা: সম্পূর্ণ পদ্ধতির গণনা চাহিদা ব্যবহারিক প্রয়োগ সীমিত করতে পারে
মূল্যায়ন স্কেল: সংস্থান সীমাবদ্ধতার কারণে, বড় আকারের মডেলের মূল্যায়ন অনুপস্থিত
তাত্ত্বিক বিশ্লেষণ: পদ্ধতির অভিসরণ এবং অপ্টিমাইজেশন বৈশিষ্ট্যের গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত
তুলনা ন্যায্যতা: বেসলাইনের সাথে পরামিতি পরিমাণ পার্থক্য তুলনার ন্যায্যতা প্রভাবিত করতে পারে

প্রভাব

একাডেমিক মূল্য: মনোযোগ প্রক্রিয়া এবং কনভোলিউশনের সমন্বয়ের জন্য নতুন চিন্তাভাবনা প্রদান করে
ব্যবহারিক সম্ভাবনা: α-Translution এর ব্যবহারিকতা এটি বাস্তব প্রয়োগে গ্রহণের জন্য প্রতিশ্রুতিশীল করে তোলে
অনুপ্রেরণামূলক তাৎপর্য: মৌলিক অপারেশন একীকরণ সম্পর্কে আরও গবেষণা অনুপ্রাণিত করতে পারে

প্রযোজ্য পরিস্থিতি

অবস্থান-সংবেদনশীল কাজ: বিশেষত অবস্থান পরিবর্তন পরিচালনার প্রয়োজন এমন কাজের জন্য উপযুক্ত
কাঠামোগত ডেটা: ইমেজ, পাঠ্য ইত্যাদি স্থানিক বা ক্রমিক কাঠামো সহ ডেটায় ভাল ফলাফল
পর্যাপ্ত সংস্থান পরিবেশ: সম্পূর্ণ Translution পর্যাপ্ত গণনা সংস্থান সহ পরিস্থিতির জন্য উপযুক্ত
গবেষণা অন্বেষণ: মৌলিক আর্কিটেকচার গবেষণার জন্য নতুন দিকনির্দেশনা প্রদান করে

তথ্যসূত্র

পেপারটি গভীর শেখার ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Transformer মূল পেপার (Vaswani et al., 2017)
Vision Transformer (Dosovitskiy et al., 2021)
আপেক্ষিক অবস্থান এনকোডিং সম্পর্কিত কাজ (Shaw et al., 2018; Liu et al., 2021 ইত্যাদি)
কনভোলিউশনাল নিউরাল নেটওয়ার্ক ক্লাসিক কাজ (LeCun et al., 1998; He et al., 2016 ইত্যাদি)

সামগ্রিক মূল্যায়ন: এটি তাত্ত্বিক এবং ব্যবহারিক উভয় ক্ষেত্রে অবদান রাখে এমন একটি উচ্চ-মানের পেপার। যদিও গণনা সংস্থানের চাহিদা বেশি থাকে, তবে α-Translution বৈকল্পিকের প্রস্তাব কর্মক্ষমতা এবং দক্ষতার মধ্যে ভারসাম্য ভালভাবে বজায় রাখে। পেপারটি গভীর শেখার মৌলিক অপারেশনের একীকরণের জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে, উল্লেখযোগ্য একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রয়েছে।