The Mechanistic Emergence of Symbol Grounding in Language Models
Wu, Ma, Luo et al.
Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.
기호 접지(Symbol grounding)는 어휘와 같은 기호가 현실 세계의 감각운동 경험과 연결되어 의미를 획득하는 방식을 설명한다. 최근 연구에 따르면 대규모로 훈련된 (시각) 언어 모델에서 접지 능력이 명시적인 접지 목표 없이 자발적으로 출현할 수 있다. 그러나 이러한 출현의 구체적 위치와 구동 메커니즘은 여전히 기본적으로 탐구되지 않았다. 이 문제를 해결하기 위해 본 논문은 메커니즘적 및 인과 분석을 통해 기호 접지가 내부 계산에서 어떻게 생성되는지 체계적으로 추적하는 제어된 평가 프레임워크를 도입한다. 연구 결과, 접지는 중간층 계산에 집중되어 있으며 집계 메커니즘을 통해 구현되는데, 여기서 주의 헤드는 환경 기초를 집계하여 언어 형식의 예측을 지원한다. 이 현상은 다중모달 대화 및 다양한 아키텍처(Transformer 및 상태 공간 모델)에서 재현되지만 단방향 LSTM에서는 나타나지 않는다.