2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic

কার্যকারণ ট্রান্সফর্মারে অবস্থান তথ্য নিকটবর্তী এমবেডিংয়ের সাদৃশ্যের মাধ্যমে উদ্ভূত হয় অবস্থান এনকোডিং ছাড়াই

মৌলিক তথ্য

  • পেপার আইডি: 2501.00073
  • শিরোনাম: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
  • লেখক: চুনশেং জুও (জন হপকিন্স বিশ্ববিদ্যালয়), পাভেল গেরজয় (হাওয়াই বিশ্ববিদ্যালয় মানোয়া), মাইকেল গেরজয় (টরন্টো বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান), cs.LG (মেশিন লার্নিং)
  • প্রকাশনার সময়: ২০২৪ সালের ৩০ ডিসেম্বর
  • পেপার লিংক: https://arxiv.org/abs/2501.00073

সারসংক্ষেপ

এই গবেষণা অনুসন্ধান করে যে কার্যকারণ মনোযোগ সহ ট্রান্সফর্মার কীভাবে অবস্থান এনকোডিং ব্যবহার না করে অবস্থান তথ্যের প্রয়োজনীয় কাজগুলি সমাধান করে। লেখকরা একটি নতুন অনুমান প্রস্তাব এবং যাচাই করেন: অবস্থান তথ্য নিকটবর্তী এমবেডিং ভেক্টরগুলির মধ্যে সাদৃশ্যের মাধ্যমে সংরক্ষণ করা যায়। গবেষণা দেখায় যে নিকটবর্তী এমবেডিং ভেক্টরগুলি দূরবর্তী এমবেডিং ভেক্টরগুলির চেয়ে বেশি সমান, যা ট্রান্সফর্মারকে টোকেনের অবস্থান তথ্য পুনর্নির্মাণ করতে সক্ষম করে। এই প্যাটার্নটি প্রশিক্ষণের পরে এবং র্যান্ডমভাবে আরম্ভ করা কার্যকারণ ট্রান্সফর্মার মডেলে উভয়ই পর্যবেক্ষণ করা যায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

প্রথাগত ধারণা অনুযায়ী ট্রান্সফর্মারের ক্রমানুসারে টোকেনের অবস্থান তথ্য পরিচালনা করার জন্য স্পষ্ট অবস্থান এনকোডিং প্রয়োজন, কিন্তু সাম্প্রতিক গবেষণা (হাভিভ এট আল. ২০২২; কাজেমনেজাদ এট আল. ২০২৪; চি এট আল. ২০২৩) দেখায় যে শুধুমাত্র কার্যকারণ মনোযোগ সহ ডিকোডার-অনলি ট্রান্সফর্মার অবস্থান এনকোডিং ছাড়াই অবস্থান তথ্য শিখতে পারে।

গবেষণা প্রেরণা

১. তাত্ত্বিক শূন্যতা: বর্তমান গবেষণা কার্যকারণ ট্রান্সফর্মার কীভাবে অবস্থান তথ্য সংরক্ষণ করে তার গভীর বোঝার অভাব রাখে २. প্রক্রিয়া অনুসন্ধান: চি এট আল. (২०२३) অবস্থান তথ্য এমবেডিং বৈচিত্র্যে সংরক্ষিত হয় বলে প্রস্তাব করেন, কিন্তু এই ব্যাখ্যা সম্পূর্ণ নাও হতে পারে ३. নতুন দৃষ্টিভঙ্গির প্রয়োজন: অবস্থান তথ্যের প্রতিনিধিত্ব প্রক্রিয়া বোঝার জন্য নতুন কোণ থেকে প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • অ-কার্যকারণ মনোযোগ প্রক্রিয়া ইনপুট টোকেনের বিন্যাসের প্রতি পারমিউটেশন অপরিবর্তনীয়, অবস্থান তথ্য পরিচালনা করতে পারে না
  • চি এট আলের বৈচিত্র্য তত্ত্ব কিছু পরীক্ষায় দুর্বলভাবে কাজ করে, পর্যবেক্ষিত ঘটনা সম্পূর্ণভাবে ব্যাখ্যা করতে পারে না

মূল অবদান

१. নিকটবর্তী প্যাটার্ন অনুমান প্রস্তাব: নিকটবর্তী অবস্থানের এমবেডিং ভেক্টরগুলি উচ্চতর কোসাইন সাদৃশ্য রাখে, "নিকটবর্তী প্যাটার্ন" গঠন করে এটি আবিষ্কার করে २. তাত্ত্বিক বিশ্লেষণ: কার্যকারণ মনোযোগের প্রথম স্তরে নিকটবর্তী প্যাটার্ন উপস্থিত হওয়ার কারণ গাণিতিকভাবে ব্যাখ্যা করে ३. ব্যাপক পরীক্ষা যাচাইকরণ: একাধিক কাজ, মডেল কনফিগারেশন এবং আরম্ভ স্কিমের অধীনে নিকটবর্তী প্যাটার্নের উপস্থিতি যাচাই করে ४. পরিমাণগত মূল্যায়ন পদ্ধতি: নিকটবর্তী সম্ভাবনা স্কোর (adjacency probability score) প্রস্তাব করে অবস্থান তথ্যের শক্তি পরিমাপ করতে ५. তুলনামূলক বিশ্লেষণ: অনুসন্ধান পরীক্ষার মাধ্যমে প্রমাণ করে যে কোসাইন সাদৃশ্য এমবেডিং বৈচিত্র্যের চেয়ে অবস্থান তথ্য আরও কার্যকরভাবে এনকোড করে

পদ্ধতি বিবরণ

কাজের সংজ্ঞা

কার্যকারণ ট্রান্সফর্মার স্পষ্ট অবস্থান এনকোডিং ছাড়াই কীভাবে অবস্থান তথ্য প্রতিনিধিত্ব এবং ব্যবহার করে তা অনুসন্ধান করে, এমবেডিং ভেক্টরগুলির মধ্যে সাদৃশ্য প্যাটার্নে ফোকাস করে।

মূল ধারণা

স্ব-কোসাইন সাদৃশ্য ম্যাট্রিক্স

দৈর্ঘ্য n, মাত্রা d সহ টোকেন এমবেডিং ক্রম X ∈ R^(n×d) এর জন্য, স্ব-কোসাইন সাদৃশ্য ম্যাট্রিক্স C সংজ্ঞায়িত করা হয়:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

নিকটবর্তী প্যাটার্ন (Adjacency Pattern)

নিকটবর্তী প্যাটার্ন স্ব-কোসাইন সাদৃশ্য ম্যাট্রিক্সের বৈশিষ্ট্য নির্দেশ করে যেখানে কর্ণ লাইনের কাছাকাছি মান উচ্চতর, কর্ণ লাইন থেকে দূরে মান নিম্নতর, যা নিকটবর্তী অবস্থানের এমবেডিং ভেক্টরগুলি আরও সমান তা নির্দেশ করে।

নিকটবর্তী সম্ভাবনা স্কোর

নিকটবর্তী প্যাটার্নের শক্তি পরিমাপ করতে, লেখকরা নিকটবর্তী সম্ভাবনা স্কোর প্রস্তাব করেন:

k-তম সারির জন্য, সারি-স্তরের নিকটবর্তী সম্ভাবনা স্কোর সংজ্ঞায়িত করা হয়:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

সম্পূর্ণ ম্যাট্রিক্সের নিকটবর্তী সম্ভাবনা স্কোর সমস্ত সারির গড়।

তাত্ত্বিক বিশ্লেষণ

গড়করণ প্রভাব

প্রথম স্তরে, অবস্থান k এর এমবেডিং পূর্ববর্তী k-1 এমবেডিংয়ের রৈখিক সমন্বয়ের মাধ্যমে গণনা করা হয়:

  • অবস্থান k+t এর এমবেডিং: Σ(i=1 থেকে k+t) α_i * e_i
  • অবস্থান k+t+1 এর এমবেডিং: Σ(i=1 থেকে k+t+1) β_i * e_i

যেহেতু নিকটবর্তী অবস্থান আরও বেশি ইনপুট এমবেডিং ভাগ করে, তাদের ডট পণ্যের পার্থক্য ইতিবাচক:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

এটি গাণিতিকভাবে নিকটবর্তী প্যাটার্নের উপস্থিতি ব্যাখ্যা করে।

পরীক্ষা সেটআপ

ডেটাসেট এবং কাজ

লেখকরা অবস্থান তথ্যের প্রয়োজনীয় চারটি সিন্থেটিক কাজ ডিজাইন করেছেন:

१. যোগ কাজ (Addition): "123+456=" এর উত্তর তৈরি করে, সর্বাধিক ইনপুট দৈর্ঘ্য ৯ २. বিপরীত কাজ (Reversal): "rev(1234)=" এর জন্য "4321" তৈরি করে, সর্বাধিক ইনপুট দৈর্ঘ্য ২२ ३. সূচক কাজ (Indexing): "wherex(134504392,4)=" এর জন্য প্রথম উপস্থিতি অবস্থান "2" আউটপুট করে, সর্বাধিক ইনপুট দৈর্ঘ্য २० ४. সাজানো কাজ (Ordering): মূল ক্রম এবং পুনর্বিন্যাসিত ক্রম দেওয়া, নতুন সূচক ক্রম আউটপুট করে, সর্বাধিক ইনপুট দৈর্ঘ্য १८

মডেল কনফিগারেশন

  • ভিত্তি মডেল: ६-স্তর NanoGPT, १०.६० মিলিয়ন প্যারামিটার
  • বৈকল্পিক কনফিগারেশন: ६/१२/२४ স্তর, १९२/३८४/७६८ লুকানো মাত্রা
  • আরম্ভ: ডিফল্ট N(0, 0.02), বিভিন্ন মান এবং মান বিচ্যুতি পরীক্ষা করে
  • প্রশিক্ষণ সেটিং: প্রতিটি কাজে २०००० প্রশিক্ষণ নমুনা এবং २०००० পরীক্ষা নমুনা, ५ টি র্যান্ডম বীজ

মূল্যায়ন মেট্রিক্স

१. নিকটবর্তী সম্ভাবনা স্কোর: নিকটবর্তী প্যাটার্ন শক্তি পরিমাপ করে २. কাজ নির্ভুলতা: বিভিন্ন কাজে মডেলের কর্মক্ষমতা ३. অনুসন্ধান পরীক্ষা: ४-স্তর MLP ব্যবহার করে অবস্থান তথ্য অনুসন্ধান করে, NRMSE এবং Pearson-R মূল্যায়ন করে

পরীক্ষা ফলাফল

প্রধান আবিষ্কার

१. নিকটবর্তী প্যাটার্নের সর্বজনীন উপস্থিতি

  • টোকেন এমবেডিং স্তরে, নিকটবর্তী সম্ভাবনা স্কোর প্রায় ०.५ (র্যান্ডম স্তর)
  • প্রথম কার্যকারণ মনোযোগ স্তরের পরে, স্কোর ०.८-१.० এ লাফিয়ে যায়
  • এই প্যাটার্ন প্রশিক্ষণের আগে এবং পরে, বিভিন্ন কাজ এবং মডেল কনফিগারেশনে স্থিতিশীল থাকে

२. স্তর-স্তরের বিশ্লেষণ ফলাফল

স্তরআরম্ভ করা মডেলপ্রশিক্ষিত মডেল
এমবেডিং স্তর०.४८०.५४
প্রথম স্তর०.९८०.८९
দ্বিতীয় স্তর०.९९०.९७
তৃতীয় স্তর०.९९०.९८
ষষ্ঠ স্তর०.९९०.८२

३. হাইপারপ্যারামিটার সংবেদনশীলতা

  • স্তর প্রভাব: ६-२४ স্তর মডেল সবই নিকটবর্তী প্যাটার্ন প্রদর্শন করে
  • মাত্রা প্রভাব: १९२-७६८ মাত্রা কনফিগারেশন সবই প্যাটার্ন বজায় রাখে
  • আরম্ভ প্রভাব: মান আরম্ভ স্কিম (σ ≤ ०.०२) এর অধীনে প্যাটার্ন স্থিতিশীল

বিলোপন পরীক্ষা

আরম্ভ স্কিম পরীক্ষা

বিভিন্ন মান (μ ∈ {0,4,8}) এবং মান বিচ্যুতি (σ ∈ {०.००२,०.०२,०.२}) পরীক্ষা করা হয়েছে:

  • ছোট মান বিচ্যুতি (σ ≤ ०.०२): নিকটবর্তী প্যাটার্ন স্থিতিশীল
  • বড় মান বিচ্যুতি (σ = ०.२): প্যাটার্ন অদৃশ্য হয়
  • বড় মান প্যাটার্নে কম প্রভাব ফেলে

বৈচিত্র্য তত্ত্বের সাথে তুলনা

অনুসন্ধান পরীক্ষার মাধ্যমে কোসাইন সাদৃশ্য এবং এমবেডিং বৈচিত্র্যকে অবস্থান বৈশিষ্ট্য হিসাবে তুলনা করে:

বৈশিষ্ট্য ধরনPearson-RNRMSE
এমবেডিং ভেক্টর०.७१०.२०
এমবেডিং বৈচিত্র্য०.४९०.२३
কোসাইন সাদৃশ্য०.९३०.११

কেস বিশ্লেষণ

চিত্র १ বিপরীত কাজে স্ব-কোসাইন সাদৃশ্য ম্যাট্রিক্সের ভিজ্যুয়ালাইজেশন প্রদর্শন করে:

  • আরম্ভ করা মডেল: প্রথম স্তর থেকে স্পষ্ট কর্ণ লাইন প্যাটার্ন উপস্থিত হয়
  • প্রশিক্ষিত মডেল: প্রথম কয়েকটি স্তর শক্তিশালী নিকটবর্তী প্যাটার্ন বজায় রাখে, পরবর্তী স্তরগুলি ধীরে ধীরে দুর্বল হয়

সম্পর্কিত কাজ

অবস্থান এনকোডিং গবেষণা

  • ঐতিহ্যবাহী পদ্ধতি: পরম অবস্থান এনকোডিং, আপেক্ষিক অবস্থান এনকোডিং
  • সর্বশেষ আবিষ্কার: হাভিভ এট আল. (२०२२) প্রথম প্রমাণ করে যে কার্যকারণ ট্রান্সফর্মার অবস্থান এনকোডিং ছাড়াই প্রশিক্ষণ করতে পারে

কার্যকারণ মনোযোগ প্রক্রিয়া

  • পারমিউটেশন অপরিবর্তনীয়তা: ত্সাই এট আল. (२०१९) প্রমাণ করে যে অ-কার্যকারণ মনোযোগ পারমিউটেশন অপরিবর্তনীয়
  • অবস্থান তথ্য সংরক্ষণ: চি এট আল. (२०२३) বৈচিত্র্য হ্রাস অনুমান প্রস্তাব করে

এই পেপারের অবদান

চি এট আলের বৈচিত্র্য তত্ত্যের তুলনায়, এই পেপারের নিকটবর্তী প্যাটার্ন অনুমান: १. আরও স্বজ্ঞাত জ্যামিতিক ব্যাখ্যা প্রদান করে २. অনুসন্ধান পরীক্ষায় উন্নত কর্মক্ষমতা প্রদর্শন করে ३. আরও বিস্তৃত মডেল কনফিগারেশনে প্রযোজ্য

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. নিকটবর্তী প্যাটার্ন সর্বজনীনভাবে উপস্থিত: কার্যকারণ ট্রান্সফর্মার স্বাভাবিকভাবে দ্বিতীয় মনোযোগ স্তরে নিকটবর্তী প্যাটার্ন গঠন করে २. অবস্থান তথ্য এনকোডিং: নিকটবর্তী এমবেডিংয়ের উচ্চ সাদৃশ্য অবস্থান পুনর্নির্মাণের সম্ভাবনা প্রদান করে ३. প্রক্রিয়া ব্যাখ্যা: গড়করণ প্রভাব গাণিতিকভাবে প্যাটার্ন উপস্থিতির কারণ ব্যাখ্যা করে ४. ব্যবহারিক মূল্য: কোসাইন সাদৃশ্য এমবেডিং বৈচিত্র্যের চেয়ে অবস্থান বৈশিষ্ট্য হিসাবে আরও উপযুক্ত

সীমাবদ্ধতা

१. ডেটাসেট সীমাবদ্ধতা: প্রধানত সিন্থেটিক কাজে যাচাইকৃত, বাস্তব ডেটাসেটের সাধারণীকরণ আরও গবেষণার প্রয়োজন २. স্থাপত্য নির্ভরতা: উপসংহার নির্দিষ্ট ট্রান্সফর্মার স্থাপত্যের উপর ভিত্তি করে, অন্যান্য বৈকল্পিকের প্রযোজ্যতা অজানা ३. সম্পূর্ণতা সমস্যা: নিকটবর্তী প্যাটার্ন এবং বৈচিত্র্য উভয়ই ১০০% কাজের কর্মক্ষমতা সম্পূর্ণভাবে ব্যাখ্যা করতে পারে না

ভবিষ্যত দিকনির্দেশনা

१. বড় আকারের যাচাইকরণ: বাস্তব ভাষা মডেলিং কাজে নিকটবর্তী প্যাটার্ন যাচাই করে २. প্রক্রিয়া সংমিশ্রণ: নিকটবর্তী প্যাটার্ন এবং অন্যান্য অবস্থান এনকোডিং প্রক্রিয়ার সমন্বয় অনুসন্ধান করে ३. তত্ত্ব উন্নতি: অবস্থান তথ্য প্রতিনিধিত্বের আরও সম্পূর্ণ তাত্ত্বিক কাঠামো প্রতিষ্ঠা করে

গভীর মূল্যায়ন

সুবিধা

१. উদ্ভাবনী দৃষ্টিভঙ্গি: জ্যামিতিক সাদৃশ্যের কোণ থেকে অবস্থান তথ্য বোঝে, নতুন তাত্ত্বিক অন্তর্দৃষ্টি প্রদান করে २. কঠোর যাচাইকরণ: একাধিক কাজ, একাধিক কনফিগারেশন, একাধিক বিশ্লেষণ পদ্ধতির মাধ্যমে ব্যাপকভাবে অনুমান যাচাই করে ३. গাণিতিক ভিত্তি: নিকটবর্তী প্যাটার্ন উপস্থিতির তাত্ত্বিক ব্যাখ্যা প্রদান করে ४. ব্যবহারিক সরঞ্জাম: নিকটবর্তী সম্ভাবনা স্কোর অবস্থান তথ্য পরিমাপের জন্য কার্যকর পদ্ধতি প্রদান করে

অপূর্ণতা

१. কাজের সীমাবদ্ধতা: সিন্থেটিক কাজ বাস্তব প্রয়োগ পরিস্থিতির জটিলতা সম্পূর্ণভাবে প্রতিফলিত নাও করতে পারে २. প্রক্রিয়া অসম্পূর্ণতা: বর্তমান তত্ত্ব মডেল কর্মক্ষমতা সম্পূর্ণভাবে ব্যাখ্যা করতে পারে না স্বীকার করে ३. গণনা খরচ: স্ব-কোসাইন সাদৃশ্য ম্যাট্রিক্স গণনা দীর্ঘ ক্রমে খরচ বেশি হতে পারে

প্রভাব

१. তাত্ত্বিক অবদান: ট্রান্সফর্মার অবস্থান প্রতিনিধিত্ব বোঝার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে २. ব্যবহারিক নির্দেশনা: অবস্থান এনকোডিং ছাড়াই মডেল ডিজাইনের জন্য তাত্ত্বিক সমর্থন প্রদান করে ३. গবেষণা অনুপ্রেরণা: জ্যামিতিক কোণ থেকে ট্রান্সফর্মার অভ্যন্তরীণ প্রক্রিয়া বিশ্লেষণের নতুন দিক খোলে

প্রযোজ্য পরিস্থিতি

१. হালকা মডেল: অবস্থান এনকোডিং প্যারামিটার হ্রাস করা মডেল ডিজাইন २. দীর্ঘ ক্রম প্রক্রিয়াকরণ: অবস্থান এনকোডিং সীমাবদ্ধতা এড়ানো ক্রম মডেলিং ३. মডেল বিশ্লেষণ: ট্রান্সফর্মার অভ্যন্তরীণ প্রতিনিধিত্ব বোঝা এবং ডিবাগ করা

রেফারেন্স

এই পেপার প্রধানত নিম্নলিখিত গুরুত্বপূর্ণ কাজ উল্লেখ করে:

  • হাভিভ এট আল. (२०२२): প্রথম অবস্থান এনকোডিং ছাড়াই প্রশিক্ষণের সম্ভাব্যতা প্রমাণ করে
  • চি এট আল. (२०२३): বৈচিত্র্য হ্রাসের অবস্থান তথ্য অনুমান প্রস্তাব করে
  • ত্সাই এট আল. (२०१९): মনোযোগ প্রক্রিয়ার পারমিউটেশন বৈশিষ্ট্য বিশ্লেষণ করে
  • ভাসওয়ানি এট আল. (२०१७): ট্রান্সফর্মার মূল পেপার

এই গবেষণা ট্রান্সফর্মার কীভাবে অবস্থান তথ্য পরিচালনা করে তা বোঝার জন্য গুরুত্বপূর্ণ নতুন দৃষ্টিভঙ্গি প্রদান করে, যদিও সম্পূর্ণতায় এখনও অপূর্ণতা রয়েছে, কিন্তু এর তাত্ত্বিক অন্তর্দৃষ্টি এবং পরীক্ষা আবিষ্কার এই ক্ষেত্রের আরও উন্নয়নের জন্য দৃঢ় ভিত্তি স্থাপন করে।