2025-11-16T07:07:12.103832

The Mechanistic Emergence of Symbol Grounding in Language Models

Wu, Ma, Luo et al.

Symbol grounding (Harnad, 1990) describes how symbols such as words acquire their meanings by connecting to real-world sensorimotor experiences. Recent work has shown preliminary evidence that grounding may emerge in (vision-)language models trained at scale without using explicit grounding objectives. Yet, the specific loci of this emergence and the mechanisms that drive it remain largely unexplored. To address this problem, we introduce a controlled evaluation framework that systematically traces how symbol grounding arises within the internal computations through mechanistic and causal analysis. Our findings show that grounding concentrates in middle-layer computations and is implemented through the aggregate mechanism, where attention heads aggregate the environmental ground to support the prediction of linguistic forms. This phenomenon replicates in multimodal dialogue and across architectures (Transformers and state-space models), but not in unidirectional LSTMs. Our results provide behavioral and mechanistic evidence that symbol grounding can emerge in language models, with practical implications for predicting and potentially controlling the reliability of generation.

academic

언어 모델에서 기호 접지의 메커니즘적 출현

기본 정보

논문 ID: 2510.13796
제목: The Mechanistic Emergence of Symbol Grounding in Language Models
저자: Shuyu Wu, Ziqiao Ma, Xiaoxi Luo, Yidong Huang, Josue Torres-Fonseca, Freda Shi, Joyce Chai
분류: cs.CL (계산 언어학), cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.13796

초록

기호 접지(Symbol grounding)는 어휘와 같은 기호가 현실 세계의 감각운동 경험과 연결되어 의미를 획득하는 방식을 설명한다. 최근 연구에 따르면 대규모로 훈련된 (시각) 언어 모델에서 접지 능력이 명시적인 접지 목표 없이 자발적으로 출현할 수 있다. 그러나 이러한 출현의 구체적 위치와 구동 메커니즘은 여전히 기본적으로 탐구되지 않았다. 이 문제를 해결하기 위해 본 논문은 메커니즘적 및 인과 분석을 통해 기호 접지가 내부 계산에서 어떻게 생성되는지 체계적으로 추적하는 제어된 평가 프레임워크를 도입한다. 연구 결과, 접지는 중간층 계산에 집중되어 있으며 집계 메커니즘을 통해 구현되는데, 여기서 주의 헤드는 환경 기초를 집계하여 언어 형식의 예측을 지원한다. 이 현상은 다중모달 대화 및 다양한 아키텍처(Transformer 및 상태 공간 모델)에서 재현되지만 단방향 LSTM에서는 나타나지 않는다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는 기호 접지가 언어 모델에서 메커니즘적으로 어떻게 출현하는가? 이며, 구체적으로는 다음을 포함한다:

기호 접지가 훈련 과정에서 언제, 어디서 출현하는가?
어떤 메커니즘이 이러한 출현을 구동하는가?
이 메커니즘이 보편적인가?

문제의 중요성

기호 접지 문제는 인지과학과 인공지능의 기초 문제 중 하나이다. 언어 모델이 추상적 기호와 현실 세계 간의 연결을 학습하는 방식을 이해하는 것은 다음에 중요하다:

모델의 신뢰성 및 해석 가능성 향상
환각 현상 감소
더 나은 다중모달 AI 시스템 구축

기존 방법의 한계

기존 연구는 주로 다음과 같은 한계를 가진다:

메커니즘적 분석 부족: 대부분의 연구는 최종 성능의 상관 분석에만 집중하며 내부 메커니즘을 깊이 있게 탐구하지 않음
훈련 동역학 간과: 훈련 과정에서 접지 능력 발전 궤적의 체계적 연구 부재
정의의 모호성: 접지를 시각-텍스트 신호의 통계적 상관성과 동일시하여 Harnad (1990)의 인과 연결에 관한 고전적 정의에서 벗어남

연구 혁신점

본 논문은 최소화된 테스트 플랫폼을 구축하고 인과 개입 및 메커니즘적 분석 방법을 사용하여 기호 접지의 출현 메커니즘을 체계적으로 연구한다.

핵심 기여

제어된 평가 프레임워크 구축: 환경 토큰(⟨ENV⟩)과 언어 토큰(⟨LAN⟩)이 분리된 테스트 플랫폼을 설계하여 대응 관계가 반드시 학습을 통해 획득되도록 보장
접지의 메커니즘적 구현 발견: 기호 접지가 중간층의 집계 메커니즘(aggregate mechanism)을 통해 구현됨을 증명
아키텍처 간 보편성 증거 제공: Transformer 및 상태 공간 모델에서 접지 출현을 관찰했으나 단방향 LSTM에서는 관찰되지 않음
인과 검증 방법 수립: 주의 헤드 개입 실험을 통해 집계 헤드의 기호 접지에서의 핵심 역할 검증
공존 통계를 초월한 학습 규명: 모델이 학습한 접지 관계가 표면적 공존 통계로 완전히 설명될 수 없음을 증명

방법론 상세 설명

작업 정의

입력: 환경 토큰(⟨ENV⟩)과 언어 토큰(⟨LAN⟩)을 포함하는 수열 출력: 주어진 환경 맥락에서 대응하는 언어 토큰 예측 제약: 환경 토큰과 언어 토큰은 서로 다른 어휘 인덱스를 사용하며, 모델은 이들 간의 대응 관계를 학습해야 함

데이터셋 구축

1. 아동 지향 음성(CHILDES)

환경 토큰 출처: 환경 설명, 동작 계층, 상황 계층 주석
언어 토큰 출처: 구어 발화 전사

예시:

훈련: ⟨CHI⟩ takes book⟨ENV⟩ from mother ⟨CHI⟩ what's that ⟨MOT⟩ a book⟨LAN⟩ in it
테스트: ⟨CHI⟩ asked for a new book⟨ENV⟩ ⟨CHI⟩ I love this [예측: book⟨LAN⟩]

2. 자막 접지 대화(Visual Dialog)

환경 토큰: MSCOCO 이미지 캡션
언어 토큰: 다중 턴 질의응답 대화

3. 이미지 접지 대화

환경 토큰: 동결된 DINOv2 ViT를 통해 추출한 이미지 패치 임베딩
언어 토큰: 대화 전사

평가 프로토콜

접지 정보 이득(Grounding Information Gain)

일치 조건과 불일치 조건 하의 놀라움도 차이로 정의됨:

$G_\theta(v) = \frac{1}{N}\sum_{n=1}^{N} \frac{1}{M}\sum_{u \neq v} [s_\theta(v^{\langle LAN \rangle} | c_n(u^{\langle ENV \rangle})) - s_\theta(v^{\langle LAN \rangle} | c_n(v^{\langle ENV \rangle}))]$

여기서 $s_\theta(w|c) = -\log P_\theta(w|c)$ 는 놀라움도이다.

메커니즘적 분석 방법

1. 현저성 흐름 분석(Saliency Flow Analysis)

각 계층의 현저성 행렬 계산: $I_\ell = |\sum_h A_{h,\ell} \odot \frac{\partial L}{\partial A_{h,\ell}}|$

2. 조정된 렌즈 탐침(Tuned Lens Probing)

중간층 활성화를 최종 예측 공간에 매핑하는 아핀 투영기 훈련

3. 인과 개입 실험

집계 헤드 식별: 환경 토큰에서 예측 위치로의 현저성이 최소 30% 흐르는 주의 헤드
개입 방법: 식별된 주의 헤드 출력을 0으로 설정하고 성능 변화 관찰

실험 설정

모델 아키텍처

Transformer: 4층, 12층, 18층 GPT-2 스타일 모델
상태 공간 모델: 4층, 12층 Mamba-2 모델
대조 모델: 4층 단방향 LSTM
다중모달 모델: DINOv2 기반 시각-언어 모델

훈련 세부사항

초기화: 무작위 초기화 (선행 지식 없음 보장)
목적 함수: 표준 인과 언어 모델링
반복 실험: 5개의 무작위 시드
체크포인트: 초기 훈련 단계에서 밀집 샘플링

어휘 선택

MacArthur-Bates 의사소통 발달 척도에서 100개의 고빈도 명사 선택, 각 단어의 ⟨ENV⟩ 및 ⟨LAN⟩ 형식이 말뭉치에서 각각 ≥100회 출현

실험 결과

주요 발견

1. 행동 수준 증거

Transformer 및 Mamba-2: 일치 조건에서의 놀라움도가 불일치 조건보다 현저히 낮음
LSTM: 두 조건 간 놀라움도에 유의미한 차이 없음
시각 대화: 캡션 및 이미지 접지 설정 모두에서 접지 효과 관찰

2. 공존 통계를 초월함

접지 정보 이득과 공존 통계의 R² 값이 훈련 초기에 상승 후 하강
모델이 학습한 접지 관계가 단순한 통계적 공존을 초월함을 시사

3. 메커니즘적 위치 파악

중간층 집중: 접지 효과가 주로 7-9층에서 나타남
집계 메커니즘: 특정 주의 헤드가 환경 토큰에서 언어 토큰으로의 정보 집계 구현

인과 검증 결과

체크포인트	집계 헤드 수	평균 계층	개입 놀라움도	제어 놀라움도	원본 놀라움도
5000	2.28	7.38	6.51***	6.39	6.38
10000	5.09	7.28	5.86***	5.29	5.30
20000	6.71	7.52	5.62***	4.76	4.77

***는 p < 0.001의 유의미한 차이를 나타냄

크로스 모달 일반화

LLaVA-1.5-7B 등 대규모 VLM에서도 유사한 집계 주의 헤드 패턴이 발견되어 발견의 보편성을 증명한다.

결론 및 논의

주요 결론

기호 접지는 언어 모델에서 자발적으로 출현할 수 있으며, 명시적 감독이 필요 없음
중간층 집계 메커니즘이 접지 구현의 핵심이며, 특정 주의 헤드가 정보 집계를 담당
아키텍처 의존성: Transformer 및 SSM은 접지 출현을 지원하지만 LSTM은 그렇지 않음
표면 통계를 초월함: 모델이 학습한 접지 관계는 심층 의미론적 특징을 가짐

이론적 기여

기호 접지의 철학적 근원을 재검토하고 상관성에서 인과성으로의 메커니즘적 증거를 제공하여 "연결주의 시스템은 내재적 기호 구조가 없다"는 관점에 도전한다.

실제 응용 가치

환각 탐지: 집계 헤드 활동 모니터링을 통한 모델 신뢰성 예측
주의 제어: 환각 완화를 위한 디코딩 시간 전략 제공
모델 설계: 더 신뢰할 수 있는 다중모달 시스템 구축을 위한 지침

한계

규모 제한: 대규모 VLM에서 집계 헤드의 체계적 탐지 및 개입은 여전히 도전적
계산 복잡성: 시각 토큰 수의 대폭 증가로 분석 복잡도 증가
일반화성: 더 많은 작업 및 영역에서 발견의 보편성 검증 필요

향후 방향

대규모 VLM에서 집계 헤드의 자동 탐지 방법 개발
계산 가능한 인과 개입 검증 방안 설계
다른 인지 능력에서 접지 메커니즘의 역할 탐색

심층 평가

장점

방법론 혁신성 강함: 환경-언어 토큰 분리 실험 설계가 정교하며 인과 추론의 유효성 보장
분석 깊이 충분함: 행동에서 메커니즘까지의 다층적 분석으로 완전한 증거 체인 제공
아키텍처 간 검증: 다양한 모델 아키텍처에서 발견 검증으로 결론의 보편성 강화
인과 검증 엄밀함: 개입 실험을 통한 강력한 인과 증거 제공

부족한 점

어휘 범위 제한: 100개 명사만 포함하여 완전한 언어 현상을 대표하기에 불충분할 수 있음
작업 단순화: 실험 작업이 상대적으로 단순하여 실제 언어 이해와 차이 존재
대규모 검증 부족: 진정한 대규모 모델에서의 검증 제한적

영향력 평가

학술적 가치: 기호 접지 연구에 새로운 메커니즘적 관점 제공
실용적 가치: 모델 신뢰성 향상을 위한 구체적 기술 경로 제시
재현성: 상세한 구현 세부사항 및 코드 링크 제공

적용 가능 분야

다중모달 AI 시스템의 해석 가능성 분석
언어 모델 환각 탐지 및 완화
인지과학에서 기호 접지 메커니즘의 계산 모델링
교육 AI에서 개념 학습의 메커니즘 연구

참고문헌

Harnad, S. (1990). The symbol grounding problem. Physica D, 42(1-3), 335-346.
Bick, A., Xing, E. P., & Gu, A. (2025). Understanding the skill gap in recurrent models: The role of the gather-and-aggregate mechanism.
Wang, L., et al. (2023). Label words are anchors: An information flow perspective for understanding in-context learning.
Belrose, N., et al. (2023). Eliciting latent predictions from transformers with the tuned lens.

이 논문은 엄밀한 실험 설계와 심층적인 메커니즘적 분석을 통해 언어 모델에서 기호 접지의 출현 메커니즘을 이해하는 데 중요한 기여를 한다. 그 발견은 이론적 가치뿐만 아니라 더 신뢰할 수 있는 AI 시스템 구축을 위한 실용적 지침을 제공한다.