2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.

Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.

academic

ভাষা মডেলে প্রতীক ভিত্তিকরণের যান্ত্রিক উদ্ভব

মৌলিক তথ্য

পেপার আইডি: 2510.13796
শিরোনাম: The Mechanistic Emergence of Symbol Grounding in Language Models
লেখক: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
শ্রেণীবিভাগ: cs.CL (গণনামূলক ভাষাবিজ্ঞান), cs.CV (কম্পিউটার দৃষ্টিভঙ্গি)
প্রকাশনার সময়: ২০২৫ সালের ১৫ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.13796

সারসংক্ষেপ

প্রতীক ভিত্তিকরণ (Symbol grounding) বর্ণনা করে যে কীভাবে প্রতীক (যেমন শব্দভাণ্ডার) বাস্তব বিশ্বের সংবেদনশীল-মোটর অভিজ্ঞতার সাথে সংযোগ স্থাপনের মাধ্যমে অর্থ অর্জন করে। সাম্প্রতিক গবেষণা দেখায় যে বৃহৎ-স্কেল প্রশিক্ষিত (দৃশ্যমান) ভাষা মডেলে, ভিত্তিকরণ ক্ষমতা স্পষ্ট ভিত্তিকরণ লক্ষ্য ছাড়াই স্বতঃস্ফূর্তভাবে উদ্ভূত হতে পারে। তবে এই উদ্ভবের নির্দিষ্ট অবস্থান এবং চালিকা প্রক্রিয়া মূলত অন্বেষণ করা হয়নি। এই সমস্যার সমাধানের জন্য, এই পেপারটি একটি নিয়ন্ত্রিত মূল্যায়ন কাঠামো প্রবর্তন করে যা যান্ত্রিক এবং কার্যকারণ বিশ্লেষণের মাধ্যমে প্রতীক ভিত্তিকরণ অভ্যন্তরীণ গণনায় কীভাবে উদ্ভূত হয় তা পদ্ধতিগতভাবে ট্র্যাক করে। গবেষণা দেখায় যে ভিত্তিকরণ মধ্য-স্তরের গণনায় কেন্দ্রীভূত এবং সমন্বয় প্রক্রিয়ার মাধ্যমে বাস্তবায়িত হয়, যেখানে মনোযোগ শিরোনাম ভাষা ফর্ম পূর্বাভাসকে সমর্থন করার জন্য পরিবেশগত ভিত্তি সমন্বয় করে। এই ঘটনা বহুমোডাল সংলাপ এবং বিভিন্ন আর্কিটেকচারে (ট্রান্সফর্মার এবং অবস্থা-স্থান মডেল) পুনরুৎপাদিত হয়, কিন্তু একমুখী LSTM-এ উপস্থিত নয়।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই গবেষণা যে মূল সমস্যার সমাধান করতে চায় তা হল: প্রতীক ভিত্তিকরণ ভাষা মডেলে যান্ত্রিকভাবে কীভাবে উদ্ভূত হয়? বিশেষভাবে এতে অন্তর্ভুক্ত:

প্রশিক্ষণ প্রক্রিয়ায় প্রতীক ভিত্তিকরণ কখন এবং কোথায় উদ্ভূত হয়?
এই উদ্ভবকে কী প্রক্রিয়া চালিত করে?
এই প্রক্রিয়া কি সর্বজনীন?

সমস্যার গুরুত্ব

প্রতীক ভিত্তিকরণ সমস্যা জ্ঞানীয় বিজ্ঞান এবং কৃত্রিম বুদ্ধিমত্তার মৌলিক সমস্যাগুলির মধ্যে একটি। ভাষা মডেল কীভাবে বিমূর্ত প্রতীকগুলিকে বাস্তব বিশ্বের সাথে সংযুক্ত করতে শিখে তা বোঝা গুরুত্বপূর্ণ:

মডেলের নির্ভরযোগ্যতা এবং ব্যাখ্যাযোগ্যতা উন্নত করতে
হ্যালুসিনেশন ঘটনা হ্রাস করতে
আরও ভাল বহুমোডাল AI সিস্টেম তৈরি করতে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান গবেষণা প্রধানত নিম্নলিখিত সীমাবদ্ধতা রয়েছে:

যান্ত্রিক বিশ্লেষণের অভাব: বেশিরভাগ গবেষণা চূড়ান্ত কর্মক্ষমতার সম্পর্ক বিশ্লেষণে মনোনিবেশ করে, অভ্যন্তরীণ প্রক্রিয়া গভীরভাবে অন্বেষণ করে না
প্রশিক্ষণ গতিশীলতা উপেক্ষা: প্রশিক্ষণ প্রক্রিয়ায় ভিত্তিকরণ ক্ষমতা বিকাশের গতিপথের পদ্ধতিগত গবেষণার অভাব
সংজ্ঞা অস্পষ্টতা: ভিত্তিকরণকে দৃশ্যমান-পাঠ্য সংকেতের পরিসংখ্যানগত সম্পর্কের সাথে সমান করা, Harnad (1990) এর কার্যকারণ সংযোগের ক্লাসিক সংজ্ঞা থেকে বিচ্যুত

গবেষণার উদ্ভাবনী দিক

এই পেপারটি একটি ন্যূনতম পরীক্ষার প্ল্যাটফর্ম তৈরি করে, কার্যকারণ হস্তক্ষেপ এবং যান্ত্রিক বিশ্লেষণ পদ্ধতি ব্যবহার করে, প্রতীক ভিত্তিকরণের উদ্ভব প্রক্রিয়া পদ্ধতিগতভাবে অধ্যয়ন করে।

মূল অবদান

নিয়ন্ত্রিত মূল্যায়ন কাঠামো তৈরি: পরিবেশ টোকেন (⟨ENV⟩) এবং ভাষা টোকেন (⟨LAN⟩) পৃথক করা একটি পরীক্ষার প্ল্যাটফর্ম ডিজাইন করেছে, নিশ্চিত করে যে সংশ্লিষ্টতা অবশ্যই শেখার মাধ্যমে অর্জিত হতে হবে
ভিত্তিকরণের যান্ত্রিক বাস্তবায়ন আবিষ্কার: প্রমাণ করে যে প্রতীক ভিত্তিকরণ মধ্য-স্তরের সমন্বয় প্রক্রিয়ার মাধ্যমে বাস্তবায়িত হয়
ক্রস-আর্কিটেকচার সর্বজনীনতার প্রমাণ প্রদান: ট্রান্সফর্মার এবং অবস্থা-স্থান মডেলে ভিত্তিকরণ উদ্ভব পর্যবেক্ষণ করা হয়েছে, কিন্তু একমুখী LSTM-এ নয়
কার্যকারণ যাচাইকরণ পদ্ধতি প্রতিষ্ঠা: মনোযোগ শিরোনাম হস্তক্ষেপ পরীক্ষার মাধ্যমে প্রতীক ভিত্তিকরণে সমন্বয় শিরোনামের গুরুত্বপূর্ণ ভূমিকা যাচাই করা হয়েছে
সহ-উপস্থিতি পরিসংখ্যানের বাইরে শেখা প্রকাশ: প্রমাণ করে যে মডেল যা ভিত্তিকরণ সম্পর্ক শিখেছে তা সম্পূর্ণভাবে পৃষ্ঠ সহ-উপস্থিতি পরিসংখ্যান দ্বারা ব্যাখ্যা করা যায় না

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

ইনপুট: পরিবেশ টোকেন (⟨ENV⟩) এবং ভাষা টোকেন (⟨LAN⟩) সম্বলিত ক্রম আউটপুট: প্রদত্ত পরিবেশ প্রসঙ্গে সংশ্লিষ্ট ভাষা টোকেন পূর্বাভাস সীমাবদ্ধতা: পরিবেশ টোকেন এবং ভাষা টোকেন বিভিন্ন শব্দভাণ্ডার সূচক ব্যবহার করে, মডেল অবশ্যই তাদের মধ্যে সংশ্লিষ্টতা শিখতে হবে

ডেটাসেট নির্মাণ

১. শিশু-নির্দেশিত বক্তৃতা (CHILDES)

পরিবেশ টোকেনের উৎস: পরিবেশ বর্ণনা, ক্রিয়া স্তর, পরিস্থিতি স্তর টীকা
ভাষা টোকেনের উৎস: মৌখিক কথোপকথন প্রতিলিপি

উদাহরণ:

প্রশিক্ষণ: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
পরীক্ষা: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [পূর্বাভাস: book⟨LAN⟩]

২. সাবটাইটেল ভিত্তিকরণ সংলাপ (Visual Dialog)

পরিবেশ টোকেন: MSCOCO চিত্র সাবটাইটেল
ভাষা টোকেন: বহু-পর্যায়ের প্রশ্নোত্তর সংলাপ

৩. চিত্র ভিত্তিকরণ সংলাপ

পরিবেশ টোকেন: হিমায়িত DINOv2 ViT দ্বারা নিষ্কাশিত চিত্র প্যাচ এম্বেডিং
ভাষা টোকেন: সংলাপ প্রতিলিপি

মূল্যায়ন প্রোটোকল

ভিত্তিকরণ তথ্য লাভ (Grounding Information Gain)

মিলিত এবং অমিলিত শর্তের অবাক করার পার্থক্য হিসাবে সংজ্ঞায়িত:

$G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]$

যেখানে $s_\theta(w|c) = -\log P_\theta(w|c)$ অবাক করা।

যান্ত্রিক বিশ্লেষণ পদ্ধতি

১. সালিয়েন্সি প্রবাহ বিশ্লেষণ (Saliency Flow Analysis)

প্রতিটি স্তরের সালিয়েন্সি ম্যাট্রিক্স গণনা করুন: $I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|$

২. টিউন করা লেন্স প্রোবিং (Tuned Lens Probing)

মধ্য-স্তরের সক্রিয়করণকে চূড়ান্ত পূর্বাভাস স্থানে ম্যাপ করার জন্য অ্যাফাইন প্রজেক্টর প্রশিক্ষণ দিন।

৩. কার্যকারণ হস্তক্ষেপ পরীক্ষা

সমন্বয় শিরোনাম সনাক্তকরণ: কমপক্ষে ৩০% সালিয়েন্সি পরিবেশ টোকেন থেকে পূর্বাভাস অবস্থানে প্রবাহিত মনোযোগ শিরোনাম
হস্তক্ষেপ পদ্ধতি: সনাক্ত করা মনোযোগ শিরোনাম আউটপুট শূন্যে সেট করুন, কর্মক্ষমতা পরিবর্তন পর্যবেক্ষণ করুন

পরীক্ষামূলক সেটআপ

মডেল আর্কিটেকচার

ট্রান্সফর্মার: ৪-স্তর, ১২-স্তর, ১৮-স্তর GPT-2 শৈলী মডেল
অবস্থা-স্থান মডেল: ৪-স্তর, ১২-স্তর Mamba-2 মডেল
তুলনামূলক মডেল: ৪-স্তর একমুখী LSTM
বহুমোডাল মডেল: DINOv2-ভিত্তিক দৃশ্যমান-ভাষা মডেল

প্রশিক্ষণ বিবরণ

আরম্ভীকরণ: র্যান্ডম আরম্ভীকরণ (কোনো পূর্ব জ্ঞান নিশ্চিত করতে)
উদ্দেশ্য ফাংশন: মান কার্যকারণ ভাষা মডেলিং
পুনরাবৃত্তি পরীক্ষা: ৫টি র্যান্ডম বীজ
চেকপয়েন্ট: প্রাথমিক প্রশিক্ষণ পদক্ষেপ ঘনভাবে নমুনা

শব্দভাণ্ডার নির্বাচন

MacArthur-Bates যোগাযোগ উন্নয়ন স্কেল থেকে ১০০টি উচ্চ-ফ্রিকোয়েন্সি বিশেষ্য নির্বাচন করুন, প্রতিটি শব্দ কর্পাসে ⟨ENV⟩ এবং ⟨LAN⟩ ফর্মের ফ্রিকোয়েন্সি ≥১০০।

পরীক্ষামূলক ফলাফল

প্রধান আবিষ্কার

১. আচরণগত স্তরের প্রমাণ

ট্রান্সফর্মার এবং Mamba-2: মিলিত শর্তে অবাক করা অমিলিত শর্তের চেয়ে উল্লেখযোগ্যভাবে কম
LSTM: দুটি শর্তে অবাক করা কোনো উল্লেখযোগ্য পার্থক্য নেই
দৃশ্যমান সংলাপ: সাবটাইটেল এবং চিত্র ভিত্তিকরণ সেটিংসে ভিত্তিকরণ প্রভাব পর্যবেক্ষণ করা হয়েছে

২. সহ-উপস্থিতি পরিসংখ্যানের বাইরে

ভিত্তিকরণ তথ্য লাভ এবং সহ-উপস্থিতি পরিসংখ্যানের R² মান প্রশিক্ষণের প্রাথমিকে বৃদ্ধি পায় তারপর হ্রাস পায়
নির্দেশ করে যে মডেল যা ভিত্তিকরণ সম্পর্ক শিখেছে তা সাধারণ পরিসংখ্যানগত সহ-উপস্থিতি অতিক্রম করে

৩. যান্ত্রিক স্থানীয়করণ

মধ্য-স্তর কেন্দ্রীকরণ: ভিত্তিকরণ প্রভাব প্রধানত ৭-৯ স্তরে প্রদর্শিত হয়
সমন্বয় প্রক্রিয়া: নির্দিষ্ট মনোযোগ শিরোনাম পরিবেশ টোকেন থেকে ভাষা টোকেনে তথ্য সমন্বয় বাস্তবায়ন করে

কার্যকারণ যাচাইকরণ ফলাফল

চেকপয়েন্ট	সমন্বয় শিরোনাম সংখ্যা	গড় স্তর	হস্তক্ষেপ অবাক করা	নিয়ন্ত্রণ অবাক করা	মূল অবাক করা
৫০০০	২.২৮	৭.৩৮	৬.৫১***	৬.৩৯	৬.৩৮
১০০০০	৫.০৯	৭.২৮	৫.৮৬***	৫.২৯	৫.৩০
২০০००	৬.৭১	৭.৫२	৫.৬२***	৪.৭६	४.७७

***p < ০.০০१ এর উল্লেখযোগ্যতা নির্দেশ করে

ক্রস-মোডাল সাধারণীকরণ

LLaVA-1.5-7B এর মতো বৃহৎ-স্কেল VLM-এ একই ধরনের সমন্বয় মনোযোগ শিরোনাম প্যাটার্ন পাওয়া গেছে, আবিষ্কারের সর্বজনীনতা প্রমাণ করে।

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

১. প্রতীক ভিত্তিকরণ ভাষা মডেলে স্বতঃস্ফূর্তভাবে উদ্ভূত হতে পারে, স্পষ্ট তত্ত্বাবধান ছাড়াই २. মধ্য-স্তর সমন্বয় প্রক্রিয়া ভিত্তিকরণ বাস্তবায়নের চাবিকাঠি, নির্দিষ্ট মনোযোগ শিরোনাম তথ্য সমন্বয়ের জন্য দায়বদ্ধ ३. আর্কিটেকচার নির্ভরতা: ট্রান্সফর্মার এবং SSM ভিত্তিকরণ উদ্ভব সমর্থন করে, কিন্তু LSTM সমর্থন করে না ४. পৃষ্ঠ পরিসংখ্যান অতিক্রম করা: মডেল যা ভিত্তিকরণ সম্পর্ক শিখেছে তা গভীর শব্দার্থগত বৈশিষ্ট্য রয়েছে

তাত্ত্বিক অবদান

প্রতীক ভিত্তিকরণের দার্শনিক শিকড় পুনর্বিবেচনা করে, সম্পর্ক থেকে কার্যকারণে যান্ত্রিক প্রমাণ প্রদান করে, "সংযোগবাদী সিস্টেমের কোনো অন্তর্নিহিত প্রতীক কাঠামো নেই" এই দৃষ্টিভঙ্গিকে চ্যালেঞ্জ করে।

ব্যবহারিক প্রয়োগ মূল্য

হ্যালুসিনেশন সনাক্তকরণ: সমন্বয় শিরোনাম কার্যকলাপ পর্যবেক্ষণের মাধ্যমে মডেল নির্ভরযোগ্যতা পূর্বাভাস
মনোযোগ নিয়ন্ত্রণ: হ্যালুসিনেশন হ্রাসের জন্য ডিকোডিং-সময় কৌশল প্রদান
মডেল ডিজাইন: আরও নির্ভরযোগ্য বহুমোডাল সিস্টেম তৈরিতে নির্দেশনা প্রদান

সীমাবদ্ধতা

१. স্কেল সীমাবদ্ধতা: বৃহৎ-স্কেল VLM-এ সমন্বয় শিরোনামের পদ্ধতিগত সনাক্তকরণ এবং হস্তক্ষেপ এখনও চ্যালেঞ্জিং २. গণনামূলক জটিলতা: দৃশ্যমান টোকেন সংখ্যা উল্লেখযোগ্যভাবে বিশ্লেষণ জটিলতা বৃদ্ধি করে ३. সাধারণীকরণ: আরও বেশি কাজ এবং ডোমেনে আবিষ্কারের সর্বজনীনতা যাচাই করা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. বৃহৎ-স্কেল VLM-এ সমন্বয় শিরোনামের স্বয়ংক্রিয় সনাক্তকরণ পদ্ধতি বিকাশ করুন २. গণনা সম্ভাব্য কার্যকারণ হস্তক্ষেপ যাচাইকরণ স্কিম ডিজাইন করুন ३. অন্যান্য জ্ঞানীয় ক্ষমতায় ভিত্তিকরণ প্রক্রিয়ার ভূমিকা অন্বেষণ করুন

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবন শক্তিশালী: পরিবেশ-ভাষা টোকেন পৃথকীকরণ পরীক্ষামূলক ডিজাইন চতুর, কার্যকারণ অনুমানের বৈধতা নিশ্চিত করে २. বিশ্লেষণ গভীরতা পর্যাপ্ত: আচরণ থেকে প্রক্রিয়া পর্যন্ত বহু-স্তরীয় বিশ্লেষণ, সম্পূর্ণ প্রমাণ শৃঙ্খল প্রদান করে ३. ক্রস-আর্কিটেকচার যাচাইকরণ: একাধিক মডেল আর্কিটেকচারে আবিষ্কার যাচাই করে, সিদ্ধান্তের সর্বজনীনতা বৃদ্ধি করে ४. কার্যকারণ যাচাইকরণ কঠোর: হস্তক্ষেপ পরীক্ষার মাধ্যমে শক্তিশালী কার্যকারণ প্রমাণ প্রদান করে

অপূর্ণতা

१. শব্দভাণ্ডার পরিসীমা সীমিত: মাত্র ১০০টি বিশেষ্যে সীমাবদ্ধ, সম্পূর্ণ ভাষা ঘটনা প্রতিনিধিত্ব করতে অপর্যাপ্ত হতে পারে २. কাজ সরলীকরণ: পরীক্ষামূলক কাজ তুলনামূলকভাবে সহজ, প্রকৃত ভাষা বোঝার সাথে পার্থক্য রয়েছে ३. বৃহৎ-স্কেল যাচাইকরণ অপর্যাপ্ত: সত্যিকারের বৃহৎ-স্কেল মডেলে যাচাইকরণ সীমিত

প্রভাব মূল্যায়ন

একাডেমিক মূল্য: প্রতীক ভিত্তিকরণ গবেষণায় নতুন যান্ত্রিক দৃষ্টিভঙ্গি প্রদান করে
ব্যবহারিক মূল্য: মডেল নির্ভরযোগ্যতা উন্নত করার জন্য নির্দিষ্ট প্রযুক্তিগত পথ প্রদান করে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং কোড লিঙ্ক প্রদান করে

প্রযোজ্য দৃশ্যকল্প

বহুমোডাল AI সিস্টেমের ব্যাখ্যাযোগ্যতা বিশ্লেষণ
ভাষা মডেল হ্যালুসিনেশন সনাক্তকরণ এবং প্রশমন
জ্ঞানীয় বিজ্ঞানে প্রতীক ভিত্তিকরণ প্রক্রিয়ার গণনামূলক মডেলিং
শিক্ষা AI-তে ধারণা শেখার প্রক্রিয়া গবেষণা

তথ্যসূত্র

Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

এই পেপারটি কঠোর পরীক্ষামূলক ডিজাইন এবং গভীর যান্ত্রিক বিশ্লেষণের মাধ্যমে ভাষা মডেলে প্রতীক ভিত্তিকরণের উদ্ভব প্রক্রিয়া বোঝার জন্য গুরুত্বপূর্ণ অবদান প্রদান করে। এর আবিষ্কার শুধুমাত্র তাত্ত্বিক মূল্য নয়, আরও নির্ভরযোগ্য AI সিস্টেম তৈরিতে ব্যবহারিক নির্দেশনাও প্রদান করে।