2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.

Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.

academic

ভাষা মডেলে অপারেটর অগ্রাধিকারের সুপ্ত কাঠামো ব্যাখ্যা করা

মৌলিক তথ্য

পেপার আইডি: 2510.13908
শিরোনাম: ভাষা মডেলে অপারেটর অগ্রাধিকারের সুপ্ত কাঠামো ব্যাখ্যা করা
লেখক: ধারুনিশ যুগেশ্বরদীনু, হর্ষিল নুকালা, কোল ব্লন্ডিন, সিন ও'ব্রায়েন, বাসু শর্মা, কেভিন ঝু
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
প্রকাশনার সময়/সম্মেলন: COLM 2025
পেপার লিঙ্ক: https://arxiv.org/abs/2510.13908

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) গুলি যুক্তিসঙ্গত ক্ষমতায় উৎকর্ষতা প্রদর্শন করে, কিন্তু গাণিতিক কাজে এখনও অসুবিধা রয়েছে। পূর্ববর্তী গবেষণা প্রধানত আউটপুট বা প্রম্পট কৌশলের উপর দৃষ্টি নিবদ্ধ করেছে, যখন মডেল গাণিতিক গণনা সম্পাদনের অভ্যন্তরীণ কাঠামো উপেক্ষা করেছে। এই গবেষণা ওপেন-সোর্স নির্দেশনা-সুর-সামঞ্জস্যপূর্ণ LLaMA 3.2-3B মডেলের মাধ্যমে অন্বেষণ করে যে LLM গুলি তাদের অভ্যন্তরীণ প্রতিনিধিত্বে অপারেটর অগ্রাধিকার এনকোড করে কিনা। গবেষণা তিনটি অপারেন্ড এবং দুটি অপারেটর সহ গাণিতিক অভিব্যক্তি ডেটাসেট তৈরি করেছে, যা অপারেশনের ক্রম এবং বন্ধনী অবস্থান পরিবর্তন করে। এই ডেটাসেট ব্যবহার করে মধ্যবর্তী ফলাফল মডেলের অবশিষ্ট প্রবাহে প্রদর্শিত হয় কিনা তা ট্র্যাক করা হয়েছে, এবং লজিট লেন্স, রৈখিক শ্রেণীবিভাগ প্রোব এবং UMAP জ্যামিতিক ভিজ্যুয়ালাইজেশনের মতো ব্যাখ্যাযোগ্যতা কৌশল প্রয়োগ করা হয়েছে। ফলাফল দেখায় যে মধ্যবর্তী গণনা অবশিষ্ট প্রবাহে বিদ্যমান, বিশেষত MLP ব্লকের পরে। গবেষণা আরও আবিষ্কার করেছে যে মডেল মনোযোগ স্তরের পরে অপারেটর এম্বেডিংয়ে রৈখিকভাবে অগ্রাধিকার তথ্য এনকোড করে। পেপারটি আংশিক এম্বেডিং বিনিময় কৌশল প্রবর্তন করেছে, অপারেটরদের মধ্যে উচ্চ-প্রভাবশালী এম্বেডিং মাত্রা বিনিময় করে অপারেটর অগ্রাধিকার পরিবর্তন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল: বৃহৎ ভাষা মডেল গাণিতিক অভিব্যক্তি প্রক্রিয়া করার সময় তাদের অভ্যন্তরীণ প্রতিনিধিত্বে অপারেটর অগ্রাধিকার নিয়ম এনকোড করে কিনা এবং কীভাবে করে। নির্দিষ্টভাবে, যখন মডেল "1 + 1 × 2" এর মতো অভিব্যক্তির মুখোমুখি হয়, তখন এটি গাণিতিক অগ্রাধিকার নিয়ম অনুযায়ী প্রথমে গুণ গণনা করে নাকি সহজভাবে বাম থেকে ডান ক্রমে প্রক্রিয়া করে?

গুরুত্ব

তাত্ত্বিক তাৎপর্য: LLM গুলির অভ্যন্তরীণ গাণিতিক যুক্তি প্রক্রিয়া বোঝা মেশিন লার্নিং ব্যাখ্যাযোগ্যতা গবেষণার জন্য গুরুত্বপূর্ণ মূল্য রাখে
ব্যবহারিক মূল্য: গাণিতিক যুক্তি কাজে মডেলের কর্মক্ষমতা উন্নত করা, বিশেষত ছোট আকারের মডেলের জন্য
পদ্ধতিগত অবদান: স্নায়ুজাল নেটওয়ার্কের অভ্যন্তরীণ প্রতিনিধিত্ব বিশ্লেষণের জন্য নতুন প্রযুক্তিগত মাধ্যম প্রদান করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বেশিরভাগ গবেষণা প্রাকৃতিক ভাষা প্রম্পট এবং চূড়ান্ত আউটপুট ফলাফলের উপর দৃষ্টি নিবদ্ধ করে
অপারেটর অগ্রাধিকার প্রক্রিয়াকরণ এবং মধ্যবর্তী গণনা পদক্ষেপের গভীর বিশ্লেষণের অভাব
মডেল অভ্যন্তরীণ গাণিতিক গণনা কাঠামোর বোঝাপড়ার অভাব

গবেষণা প্রেরণা

যান্ত্রিক ব্যাখ্যাযোগ্যতা পদ্ধতির মাধ্যমে, LLM গুলি কীভাবে অভ্যন্তরীণভাবে গাণিতিক অভিব্যক্তি প্রক্রিয়া করে তা গভীরভাবে অন্বেষণ করা, বিশেষত অপারেশনের ক্রম প্রক্রিয়াকরণ প্রক্রিয়ার উপর দৃষ্টি নিবদ্ধ করা।

মূল অবদান

সিস্টেমেটিক গাণিতিক অভিব্যক্তি ডেটাসেট তৈরি করা: তিন-অপারেন্ড, দ্বি-অপারেটর অভিব্যক্তি সহ, বাক্যগত এবং শব্দার্থগত অগ্রাধিকার পদ্ধতিগতভাবে পরীক্ষা করা
মধ্যবর্তী গণনার অস্তিত্বের প্রমাণ আবিষ্কার করা: লজিট লেন্স প্রযুক্তির মাধ্যমে মডেল গভীর নেটওয়ার্কে মধ্যবর্তী গণনা সম্পাদন করে তা আবিষ্কার করা
অপারেটর অগ্রাধিকারের রৈখিক এনকোডিং প্রকাশ করা: মডেল মনোযোগ স্তরের পরে রৈখিকভাবে অপারেটর অগ্রাধিকার তথ্য এনকোড করে তা প্রমাণ করা
আংশিক এম্বেডিং বিনিময় কৌশল প্রস্তাব করা: উচ্চ-প্রভাবশালী এম্বেডিং মাত্রা বিনিময় করে অপারেটর অগ্রাধিকার পরিবর্তন করার একটি নতুন পদ্ধতি
জ্যামিতিক ভিজ্যুয়ালাইজেশন বিশ্লেষণ প্রদান করা: UMAP এর মাধ্যমে অপারেটর প্রতিনিধিত্বের সংগঠন কাঠামো প্রদর্শন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: তিনটি অপারেন্ড এবং দুটি অপারেটর সহ গাণিতিক অভিব্যক্তি, যেমন "a o1 b o2 c" আউটপুট: অভিব্যক্তির প্রতি মডেলের গণনা ফলাফল সীমাবদ্ধতা:

অপারেন্ড a, b, c ∈ {1, 2, ..., 9}
অপারেটর জোড়া (o1, o2) মিশ্র অগ্রাধিকার সেট থেকে: {(+, *), (-, *), (+, /), (-, /)}
সমস্ত গণনা ফলাফল ধনাত্মক পূর্ণসংখ্যা

ডেটাসেট নির্মাণ

প্রতিটি অপারেন্ড এবং অপারেটর সমন্বয়ের জন্য, ছয়টি কাঠামোগত বৈকল্পিক তৈরি করা হয়:

বাম বন্ধনী: (a o1 b) o2 c
ডান বন্ধনী: a o1 (b o2 c)
উল্টানো বাম বন্ধনী: (a o2 b) o1 c
উল্টানো ডান বন্ধনী: a o2 (b o1 c)
কোন বন্ধনী নেই (প্রাকৃতিক ক্রম): a o1 b o2 c
কোন বন্ধনী নেই (উল্টানো): a o2 b o1 c

মোট 8547টি প্রম্পট তৈরি করা হয়েছে, যার মধ্যে মডেল 4401টি সঠিকভাবে উত্তর দিতে পারে।

মূল প্রযুক্তিগত পদ্ধতি

1. লজিট লেন্স বিশ্লেষণ

উদ্দেশ্য: অবশিষ্ট প্রবাহে মধ্যবর্তী গণনা প্রদর্শিত হয় কিনা তা ট্র্যাক করা
পদ্ধতি: প্রতিটি স্তরের অবশিষ্ট প্রবাহকে unembedding ম্যাট্রিক্সের মাধ্যমে শব্দভাণ্ডারে প্রজেক্ট করে লজিট পেতে
বিশ্লেষণ: শীর্ষ-10 টোকেনে প্রত্যাশিত মধ্যবর্তী ফলাফল অন্তর্ভুক্ত আছে কিনা তা পরীক্ষা করা

2. রৈখিক প্রোব কৌশল

মধ্যবর্তী গণনা প্রোব: মডেল সক্রিয়করণ থেকে সরাসরি মধ্যবর্তী মূল্য পূর্বাভাস দিতে রৈখিক প্রোব প্রশিক্ষণ দেওয়া
অগ্রাধিকার প্রোব: অপারেটরের গণনা ক্রম (প্রথম বা দ্বিতীয় গণনা করা হয়) পূর্বাভাস দিতে লজিস্টিক রিগ্রেশন শ্রেণীবিভাগকারী ব্যবহার করা

3. আংশিক এম্বেডিং বিনিময়

অ্যালগরিদম প্রবাহ:

প্রভাবশালী মাত্রা চিহ্নিত করা: "+" এবং "*" অপারেটর লুকানো প্রতিনিধিত্বের প্রতিটি মাত্রা পৃথকভাবে বিনিময় করা
বিঘ্ন প্রভাব পরিমাপ করা: যদি বিনিময় মডেল পূর্বাভাসকে সঠিক উত্তর (যেমন 23) থেকে ভুল উত্তরে (যেমন 35) পরিবর্তন করে, তবে সেই মাত্রা অগ্রাধিকার তথ্য এনকোড করে
ক্রমাঙ্কন এবং নির্বাচন: প্রভাব অনুযায়ী মাত্রা ক্রমাঙ্কন করা, পূর্বাভাস পরিবর্তনের জন্য প্রয়োজনীয় ন্যূনতম মাত্রা উপসেট নির্ধারণ করা

4. UMAP জ্যামিতিক ভিজ্যুয়ালাইজেশন

অপারেটর টোকেনের সক্রিয়করণ ভেক্টরকে নিম্ন-মাত্রিক স্থানে প্রজেক্ট করা
লেবেল ফরম্যাট: [অবস্থান][অপারেটর]অগ্রাধিকার, যেমন "1m2" মানে গুণ চিহ্ন অভিব্যক্তিতে অবস্থান 1 কিন্তু গণনা অগ্রাধিকার 2

পরীক্ষামূলক সেটআপ

মডেল নির্বাচন

ওপেন-সোর্স নির্দেশনা-সুর-সামঞ্জস্যপূর্ণ LLaMA 3.2-3B মডেল ব্যবহার করা হয়েছে, যা 28-স্তর ট্রান্সফর্মার কাঠামো রয়েছে।

ডেটাসেট পরিসংখ্যান

মোট প্রম্পট: 8547টি
মডেল সঠিক উত্তর: 4401টি (51.5%)
শুধুমাত্র মডেল সঠিকভাবে পূর্বাভাস দিতে পারে এমন নমুনা বিশ্লেষণের জন্য ব্যবহার করা হয়েছে

মূল্যায়ন মেট্রিক্স

মধ্যবর্তী গণনা সনাক্তকরণ হার: মধ্যবর্তী ফলাফল শীর্ষ লজিটে প্রদর্শিত হওয়ার অনুপাত
রৈখিক প্রোব নির্ভুলতা: R² স্কোর এবং শ্রেণীবিভাগ নির্ভুলতা
অগ্রাধিকার বিনিময় সাফল্যের হার: মডেল পূর্বাভাস সফলভাবে পরিবর্তন করা কেসের অনুপাত

পরীক্ষামূলক ফলাফল

প্রধান আবিষ্কার

1. মধ্যবর্তী গণনার অস্তিত্ব

সনাক্তকরণ হার: 4401টি প্রম্পটে, 2799 বার (63.6%) শীর্ষ লজিটে মধ্যবর্তী গণনা সনাক্ত করা হয়েছে
উপস্থিতির স্তর: প্রধানত 16-27 স্তরে, শিখর 18-19 স্তরে
মূল উপাদান: MLP ব্লক মধ্যবর্তী লজিট প্রবর্তনের মূল উপাদান, মনোযোগ ব্লক নয়

2. রৈখিক এনকোডিং প্রমাণ

রৈখিক প্রোব 0 স্তরের পরেই উচ্চ নির্ভুলতার সাথে মধ্যবর্তী গণনা পূর্বাভাস দিতে পারে (উচ্চ R² স্কোর)
অগ্রাধিকার শ্রেণীবিভাগ প্রোব পরীক্ষা সেটে 100% নির্ভুলতা অর্জন করে
মনোযোগ প্রক্রিয়া উল্লেখযোগ্যভাবে অপারেটর অগ্রাধিকারের রৈখিক ডিকোডযোগ্যতা বৃদ্ধি করে

3. আংশিক এম্বেডিং বিনিময় ফলাফল

একাধিক উদাহরণে নির্দিষ্ট মাত্রা বিনিময় করে মডেলের সর্বোচ্চ লজিট পূর্বাভাস সফলভাবে পরিবর্তন করা হয়েছে
অপারেটর অগ্রাধিকার তথ্য নির্দিষ্ট এম্বেডিং মাত্রায় বিরল স্থানীয়করণ প্রমাণ করা হয়েছে

4. জ্যামিতিক কাঠামো বিশ্লেষণ

UMAP ভিজ্যুয়ালাইজেশন দেখায়:

মনোযোগের আগে এবং পরে অপারেটর এম্বেডিং স্পষ্ট বিভাজন ঘটে
একই অবস্থান এবং অগ্রাধিকারের অপারেটর একসাথে সমষ্টিগত হয়
মনোযোগ প্রক্রিয়া অপারেটর অগ্রাধিকার তথ্য এনকোড করে

পরিমাণগত ফলাফল

মেট্রিক	মূল্য
মধ্যবর্তী গণনা সনাক্তকরণ হার	63.6% (2799/4401)
অগ্রাধিকার প্রোব নির্ভুলতা	100%
প্রধান সনাক্তকরণ স্তর পরিসীমা	16-27 স্তর
সনাক্তকরণ শিখর স্তর	18-19 স্তর

উপসংহার এবং আলোচনা

প্রধান উপসংহার

মধ্যবর্তী গণনা সত্যিই বিদ্যমান: LLaMA 3.2-3B মডেল অভ্যন্তরীণভাবে মধ্যবর্তী গণনা সম্পাদন করে, এই তথ্য গভীর নেটওয়ার্কে রৈখিকভাবে ডিকোডযোগ্য হয়ে ওঠে
অগ্রাধিকার রৈখিক এনকোডিং: অপারেটর অগ্রাধিকার তথ্য মনোযোগ স্তরের পরে নির্দিষ্ট এম্বেডিং মাত্রায় রৈখিকভাবে এনকোড করা হয়
MLP এর মূল ভূমিকা: MLP ব্লক মনোযোগ ব্লক নয় মধ্যবর্তী গণনা ফলাফল উৎপাদনের জন্য দায়ী
জ্যামিতিক সংগঠন কাঠামো: মডেল অপারেটরের অবস্থান এবং গণনা অগ্রাধিকার অনুযায়ী অপারেটর প্রতিনিধিত্ব সংগঠিত করে

সীমাবদ্ধতা

মডেল আকার সীমাবদ্ধতা: পরীক্ষা শুধুমাত্র 3B প্যারামিটার LLaMA মডেলে পরিচালিত হয়েছে, ফলাফল বৃহত্তর মডেলের জন্য প্রযোজ্য নাও হতে পারে
কাজের জটিলতা: শুধুমাত্র তিন-অপারেন্ড, দ্বি-অপারেটর সহজ অভিব্যক্তি বিবেচনা করা হয়েছে
অপারেটর প্রকার: শুধুমাত্র মৌলিক চার-অপারেশন জড়িত, আরও জটিল গাণিতিক অপারেশন অন্তর্ভুক্ত নয়
সাফল্যের হার সীমাবদ্ধতা: মডেল শুধুমাত্র প্রায় 51.5% গাণিতিক প্রশ্নের সঠিক উত্তর দিতে পারে

ভবিষ্যত দিকনির্দেশনা

বৃহত্তর ভাষা মডেলে সম্প্রসারণ
আরও জটিল গাণিতিক অভিব্যক্তি এবং অপারেশন প্রকার গবেষণা করা
অন্যান্য গাণিতিক ধারণার অভ্যন্তরীণ প্রতিনিধিত্ব অন্বেষণ করা (যেমন ফাংশন, সমীকরণ)
এই আবিষ্কারের উপর ভিত্তি করে মডেল উন্নতি পদ্ধতি বিকাশ করা

গভীর মূল্যায়ন

শক্তি

পদ্ধতি উদ্ভাবনী: আংশিক এম্বেডিং বিনিময় একটি নতুন এবং কার্যকর হস্তক্ষেপ প্রযুক্তি
পরীক্ষামূলক ব্যাপকতা: একাধিক ব্যাখ্যাযোগ্যতা প্রযুক্তি সমন্বয় (লজিট লেন্স, রৈখিক প্রোব, UMAP, হস্তক্ষেপ পরীক্ষা)
আবিষ্কারের গুরুত্ব: প্রথমবারের মতো LLM গুলিতে অপারেটর অগ্রাধিকারের এনকোডিং প্রক্রিয়া পদ্ধতিগতভাবে প্রমাণ করা
প্রযুক্তিগত কঠোরতা: পরীক্ষা ডিজাইন যুক্তিসঙ্গত, শুধুমাত্র মডেল সঠিকভাবে উত্তর দিতে পারে এমন নমুনা বিশ্লেষণের জন্য ব্যবহার করা হয়েছে

অপূর্ণতা

স্কেল সীমাবদ্ধতা: পরীক্ষা শুধুমাত্র 3B প্যারামিটার মডেলে সীমাবদ্ধ, সাধারণীকরণযোগ্যতা যাচাই করা প্রয়োজন
কাজ সরলীকরণ: গাণিতিক অভিব্যক্তি তুলনামূলকভাবে সহজ, বাস্তব প্রয়োগে জটিলতা পর্যাপ্তভাবে বিবেচনা করা হয়নি
তাত্ত্বিক গভীরতা: এই প্রক্রিয়াগুলি কেন উপস্থিত হয় তার তাত্ত্বিক ব্যাখ্যার অভাব
ব্যবহারিকতা: যদিও গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করে, এই আবিষ্কারগুলি কীভাবে ব্যবহার করে মডেল কর্মক্ষমতা উন্নত করতে হয় তা এখনও স্পষ্ট নয়

প্রভাব

একাডেমিক মূল্য: LLM গুলির গাণিতিক যুক্তির যান্ত্রিক বোঝাপড়ার জন্য গুরুত্বপূর্ণ অবদান
পদ্ধতিগত তাৎপর্য: আংশিক এম্বেডিং বিনিময় প্রযুক্তি অন্যান্য কাজের বিশ্লেষণে প্রয়োগ করা যায়
ব্যবহারিক সম্ভাবনা: ছোট-স্কেল মডেলের গাণিতিক ক্ষমতা উন্নত করার জন্য নির্দেশনা প্রদান করা
পুনরুৎপাদনযোগ্যতা: ওপেন-সোর্স মডেল ব্যবহার করা, পরীক্ষা তুলনামূলকভাবে সহজে পুনরুৎপাদনযোগ্য

প্রযোজ্য পরিস্থিতি

মডেল বিশ্লেষণ: অন্যান্য ভাষা মডেলের অভ্যন্তরীণ প্রক্রিয়া বিশ্লেষণের জন্য প্রযোজ্য
শিক্ষামূলক প্রয়োগ: AI কীভাবে গাণিতিক ধারণা প্রক্রিয়া করে তা বুঝতে সাহায্য করা
মডেল উন্নতি: আরও ভাল গাণিতিক যুক্তি মডেল বিকাশের জন্য নির্দেশনা প্রদান করা
ব্যাখ্যাযোগ্যতা গবেষণা: অন্যান্য জ্ঞানীয় কাজের যান্ত্রিক বিশ্লেষণের জন্য পদ্ধতি রেফারেন্স প্রদান করা

রেফারেন্স

এই পেপারটি যান্ত্রিক ব্যাখ্যাযোগ্যতা, গাণিতিক যুক্তি এবং স্নায়ুজাল নেটওয়ার্ক বিশ্লেষণ ক্ষেত্রের গুরুত্বপূর্ণ সাহিত্য উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

নস্টালজেব্রাইস্ট (2020) - লজিট লেন্স প্রযুক্তি
অ্যালেইন এবং বেনজিও (2018) - রৈখিক প্রোব পদ্ধতি
ঝাং এট আল. (2024) - LLM গুলির গাণিতিক যুক্তির অভ্যন্তরীণ কাঠামো
স্টলফো এট আল. (2023) - কার্যকর মধ্যস্থতা বিশ্লেষণ কাঠামো
ম্যাকইনেস এট আল. (2020) - UMAP মাত্রা হ্রাস প্রযুক্তি

এই গবেষণা বৃহৎ ভাষা মডেলের অভ্যন্তরীণ গাণিতিক যুক্তি প্রক্রিয়া বোঝার জন্য গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করে, বিশেষত অপারেটর অগ্রাধিকার প্রক্রিয়াকরণের ক্ষেত্রে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর পদ্ধতি উদ্ভাবন এবং আবিষ্কারের গুরুত্ব এটিকে যান্ত্রিক ব্যাখ্যাযোগ্যতা ক্ষেত্রের একটি মূল্যবান অবদান করে তোলে।