The Mechanistic Emergence of Symbol Grounding in Language Models
Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
प्रतीक आधारीकरण (Symbol grounding) वर्णन करता है कि कैसे प्रतीक (जैसे शब्दावली) वास्तविक दुनिया के संवेदी-गतिशील अनुभवों से जुड़कर अर्थ प्राप्त करते हैं। हाल के शोध से पता चलता है कि बड़े पैमाने पर प्रशिक्षित (दृश्य) भाषा मॉडल में, आधारीकरण क्षमता स्वतः उद्भूत हो सकती है, बिना स्पष्ट आधारीकरण लक्ष्यों के उपयोग के। हालांकि, इस उद्भव का विशिष्ट स्थान और संचालन तंत्र अभी तक मूलतः अन्वेषित रहे हैं। इस समस्या को हल करने के लिए, यह पेपर एक नियंत्रित मूल्यांकन ढांचा प्रस्तुत करता है जो यांत्रिक और कारणात्मक विश्लेषण के माध्यम से व्यवस्थित रूप से ट्रैक करता है कि प्रतीक आधारीकरण आंतरिक संगणना में कैसे उत्पन्न होता है। अनुसंधान से पता चलता है कि आधारीकरण मध्य-स्तरीय संगणना में केंद्रित है और एकत्रीकरण तंत्र के माध्यम से प्राप्त होता है, जहां ध्यान सिर भाषाई रूप की भविष्यवाणी का समर्थन करने के लिए पर्यावरणीय आधार को एकत्रित करते हैं। यह घटना बहु-मोडल संवाद और विभिन्न आर्किटेक्चर (ट्रांसफॉर्मर और स्टेट स्पेस मॉडल) में दोहराई जाती है, लेकिन एकदिशात्मक LSTM में नहीं दिखाई देती।
प्रतीक आधारीकरण समस्या संज्ञानात्मक विज्ञान और कृत्रिम बुद्धिमत्ता की मौलिक समस्याओं में से एक है। यह समझना कि भाषा मॉडल अमूर्त प्रतीकों को वास्तविक दुनिया से कैसे जोड़ना सीखते हैं, महत्वपूर्ण है:
मॉडल की विश्वसनीयता और व्याख्यात्मकता में सुधार के लिए
मौजूदा अनुसंधान मुख्य रूप से निम्नलिखित सीमाओं से ग्रस्त है:
यांत्रिक विश्लेषण की कमी: अधिकांश अनुसंधान केवल अंतिम प्रदर्शन के सहसंबंध विश्लेषण पर ध्यान केंद्रित करते हैं, आंतरिक तंत्र की गहन खोज नहीं करते
प्रशिक्षण गतिशीलता की उपेक्षा: प्रशिक्षण प्रक्रिया के दौरान आधारीकरण क्षमता के विकास पथ का व्यवस्थित अध्ययन नहीं
परिभाषा अस्पष्टता: आधारीकरण को दृश्य-पाठ संकेतों के सांख्यिकीय सहसंबंध के समान मानना, Harnad (1990) की कारणात्मक लिंकेज की शास्त्रीय परिभाषा से विचलित होना
यह पेपर न्यूनतम परीक्षण मंच का निर्माण करके, कारणात्मक हस्तक्षेप और यांत्रिक विश्लेषण विधियों का उपयोग करके, प्रतीक आधारीकरण के उद्भव तंत्र का व्यवस्थित रूप से अध्ययन करता है।
नियंत्रित मूल्यांकन ढांचा का निर्माण: पर्यावरण टोकन (⟨ENV⟩) और भाषा टोकन (⟨LAN⟩) के अलगाव के साथ परीक्षण मंच डिजाइन किया, यह सुनिश्चित करते हुए कि पत्राचार संबंध सीखने के माध्यम से प्राप्त होना चाहिए
आधारीकरण के यांत्रिक कार्यान्वयन की खोज: प्रमाणित किया कि प्रतीक आधारीकरण मध्य-स्तरीय एकत्रीकरण तंत्र (aggregate mechanism) के माध्यम से कार्यान्वित होता है
क्रॉस-आर्किटेक्चर सार्वभौमिकता के प्रमाण: ट्रांसफॉर्मर और स्टेट स्पेस मॉडल में आधारीकरण उद्भव देखा गया, लेकिन एकदिशात्मक LSTM में नहीं
कारणात्मक सत्यापन विधि की स्थापना: ध्यान सिर हस्तक्षेप प्रयोगों के माध्यम से एकत्रीकरण सिर की प्रतीक आधारीकरण में महत्वपूर्ण भूमिका को सत्यापित किया
सह-उपस्थिति सांख्यिकी से परे सीखने का प्रकटीकरण: प्रमाणित किया कि मॉडल द्वारा सीखा गया आधारीकरण संबंध पूरी तरह से सतही सह-उपस्थिति सांख्यिकी द्वारा समझाया नहीं जा सकता
इनपुट: पर्यावरण टोकन (⟨ENV⟩) और भाषा टोकन (⟨LAN⟩) युक्त अनुक्रम
आउटपुट: दिए गए पर्यावरण संदर्भ में संबंधित भाषा टोकन की भविष्यवाणी करना
बाधा: पर्यावरण टोकन और भाषा टोकन विभिन्न शब्दावली सूचकांक का उपयोग करते हैं, मॉडल को उनके बीच पत्राचार सीखना चाहिए
पर्यावरण टोकन स्रोत: पर्यावरण विवरण, क्रिया परत, परिस्थिति परत एनोटेशन
भाषा टोकन स्रोत: मौखिक कथन प्रतिलेख
उदाहरण:
प्रशिक्षण: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
परीक्षण: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [भविष्यवाणी: book⟨LAN⟩]
प्रतीक आधारीकरण के दार्शनिक मूल को पुनः परीक्षा करता है, सहसंबंध से कारणात्मकता तक यांत्रिक प्रमाण प्रदान करता है, "संयोजनवादी प्रणालियों में कोई आंतरिक प्रतीक संरचना नहीं है" के विचार को चुनौती देता है।
Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.
यह पेपर कठोर प्रयोगात्मक डिजाइन और गहन यांत्रिक विश्लेषण के माध्यम से, भाषा मॉडल में प्रतीक आधारीकरण के उद्भव तंत्र को समझने के लिए महत्वपूर्ण योगदान प्रदान करता है। इसके निष्कर्ष न केवल सैद्धांतिक मूल्य रखते हैं, बल्कि अधिक विश्वसनीय AI प्रणाली बनाने के लिए व्यावहारिक मार्गदर्शन भी प्रदान करते हैं।