The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
- 논문 ID: 2501.00885
- 제목: Representation in large language models
- 저자: Cameron C. Yetman (토론토 대학교)
- 분류: cs.CL cs.AI cs.LG
- 발표 시간: 2025년 1월 1일 (초안 버전)
- 논문 링크: https://arxiv.org/abs/2501.00885
대규모 언어 모델(LLMs)의 다양한 작업에서의 뛰어난 성공은 이들의 작동 원리를 설명하기 위한 광범위한 과학적 및 철학적 이론화를 촉발했다. 그러나 기본 이론 문제에 대한 의견 불일치는 교착 상태를 초래했으며, LLM 낙관주의자와 비관주의자의 대립하는 진영은 이러한 시스템의 작동 방식에 대해 근본적으로 다른 견해를 가지고 있다. 교착 상태를 극복하려면 기본 문제에 대한 합의가 필요하며, 본 논문은 그 중 하나의 근본적인 문제를 다루는 것을 목표로 한다: LLM의 행동이 생물학적 인지에서의 표현 기반 정보 처리와 유사한 메커니즘에 의해 부분적으로 주도되는가, 아니면 완전히 메모이제이션과 무작위 표 조회 과정에 의해 주도되는가? 이는 LLM이 어떤 알고리즘을 구현하는지에 관한 질문이며, 그 답은 이러한 시스템이 신념, 의도, 개념, 지식 및 이해를 가지는지 여부와 같은 더 높은 수준의 질문에 중요한 영향을 미친다. 저자는 LLM 행동이 부분적으로 표현 기반 정보 처리에 의해 주도되며, 이러한 표현을 연구하고 이를 바탕으로 설명을 발전시키기 위한 일련의 실용적 기법을 설명하고 옹호한다.
본 연구가 해결하고자 하는 핵심 문제는: 대규모 언어 모델의 행동이 표현 기반 정보 처리에 의해 주도되는가, 아니면 완전히 메모이제이션과 무작위 표 조회에 의존하는가?
- 이론적 불일치의 조화: 현재 LLM 연구 분야에는 심각한 이론적 불일치가 존재하며, 낙관주의자들은 LLM이 인지 유사 능력을 가진다고 믿고 비관주의자들은 이들이 단지 복잡한 패턴 매칭 시스템이라고 본다
- 인지과학적 기초: 이 문제는 LLM을 인지 모델로 사용할 수 있는지, 그리고 그 자체가 인지 시스템인지 여부와 직접적으로 관련된다
- 고차 능력의 기초: 답변은 LLM이 신념, 의도, 개념, 지식 및 이해 등의 고차 인지 능력을 가지는지 여부에 대한 판단에 영향을 미칠 것이다
- 용어 남용: 기계학습 실무에서 "표현"이라는 용어가 너무 광범위하게 사용되어 이론적 가치를 잃었다
- 행동 지향의 한계: 행동 표현만으로 표현의 존재 여부를 판단하는 것은 근본적인 불확실성을 가진다
- 체계적 방법의 부재: LLM에서 표현을 식별하고 검증하기 위한 체계적 방법이 부족하다
저자는 이 기초적 문제를 해결하는 것이 현재의 이론적 교착 상태를 극복하고 향후 LLM 이론화를 위한 견고한 기초를 제공하는 데 중요하다고 본다.
- 표현의 네 가지 조건 특성화 제시: "표현" 개념에 대해 실질적이고 작동 가능한 정의를 제공하며, 정보(INFORMATION), 활용 가능성(EXPLOITABILITY), 행동(BEHAVIOR) 및 역할(ROLE)의 네 가지 조건을 포함한다
- 조회 표 해석 반박: Othello-GPT 및 색상 공간 모델 등의 사례 분석을 통해 LLM이 유한 상태 자동 기계나 조회 표로 완전히 설명될 수 없음을 증명한다
- 메커니즘 해석 가능성 프레임워크 수립: 탐사(probing) 및 개입(intervention) 기법을 사용하여 표현의 존재를 검증하는 방법을 체계적으로 설명한다
- 실용적 연구 방법 제공: LLM 표현 연구를 위한 구체적인 기술 도구 및 방법론 지침을 제공한다
저자는 시스템 S가 특성 z에 대해 표현 R을 가질 때 다음 네 가지 조건을 만족하는 작동 가능한 정의를 제시한다:
REPRESENTATION
- INFORMATION: R은 z에 대한 정보를 담고 있다
- EXPLOITABILITY: R이 담고 있는 z에 대한 정보는 S에 대해 활용 가능하다
- BEHAVIOR: S는 R이 담고 있는 z에 대한 정보를 활용하여 견고한 z 관련 행동을 생성할 수 있다
- ROLE: R은 S의 견고한 z 관련 행동에서 메커니즘적 역할을 수행한다
- 정보 조건(INFORMATION)
- 상호 정보를 사용한 정의: I(X,Y)=H(X)−H(X∣Y)
- I(R,z)>0일 때 조건을 만족한다
- 정보 관계는 인과적 생성의 상관성 또는 구조적 대응을 통해 수립될 수 있다
- 활용 가능성 조건(EXPLOITABILITY)
- S는 R의 활성화에 기반하여 내용 관련 방식으로 z 관련 행동을 조절할 수 있어야 한다
- R에 대한 테스트 및 개입을 통해 검증된다
- 행동 조건(BEHAVIOR)
- "견고한"은 주변 조건의 경미한 변동에 둔감함을 의미한다
- 표현은 견고한 행동을 가능하게 하지만 적절한 알고리즘에 내장되어야 한다
- 역할 조건(ROLE)
- R은 행동을 주도하는 메커니즘에서 인과적 역할을 수행해야 한다
- 범표현주의 문제를 회피한다
저자는 LLM을 조회 표로 보는 관점을 분석한다:
- 유한 상태 자동 기계 관점: LLM은 대규모 조회 표를 인코딩하는 유한 상태 자동 기계로 간주된다
- 비생산적 특성: 조회 표 시스템은 특성상 비생산적이다 — "이미 입력된 내용만 반환할 수 있다"
- 반박 증거:
- Othello-GPT: 게임 트리의 25%가 누락된 데이터에서 훈련되었음에도 불구하고 완전한 데이터 세트에서 99.98%의 합법적 이동률을 달성한다
- 색상 공간 모델: 회전된 색상 인코딩 쌍에서 원본 데이터와 유사한 성능을 보인다 (36% vs 34% Top-3 정확도)
실험 설계:
- 수백만 개의 오셀로 게임 기록에서 GPT 모델 훈련
- 기록은 이동 순서만 포함하며 게임 규칙이나 보드 속성 정보는 없다
- 대조군: 완전한 데이터 세트에서 훈련
- 실험군: 게임 트리의 25%가 누락된 편향된 데이터 세트에서 훈련
결과:
- 대조군: 99.99% 합법적 이동 성공률
- 실험군: 99.98% 합법적 이동 성공률
- 핵심 발견: 모델은 보지 못한 보드 구성에서도 성공하여 단순 조회 표가 아님을 시사한다
실험 설계:
- 사전 훈련된 GPT를 사용하여 색상 및 공간 영역의 구조적 속성 추론 테스트
- 문맥 내 학습 패러다임: 60개 훈련 샘플
- 대조군: RGB 코드와 색상 이름 쌍의 제한된 스펙트럼 부분
- 실험군: 구조적 관계를 유지하면서 체계적으로 배열된 "회전" 조건
결과:
- 대조군: 34% Top-3 정확도
- 회전군: 36% Top-3 정확도
- 핵심 발견: 구조적 관계는 유지되지만 구체적인 쌍이 완전히 새로운 경우에도 성능이 유사하다
- 작은 선형 MLP를 탐사기로 사용한다
- 목표 네트워크의 숨겨진 계층 활성화에서 특정 정보를 디코딩한다
- INFORMATION 및 EXPLOITABILITY 조건을 검증한다
- 활성화 패칭: 특정 활성화 값을 수정하여 행동 변화를 관찰한다
- 특성 유도: 특정 특성을 비정상적으로 높거나 낮은 값으로 고정한다
- BEHAVIOR 및 ROLE 조건을 검증한다
Othello-GPT 검증 결과:
- 선형 탐사가 보드 상태를 성공적으로 분류한다 ("내 것"/"당신 것"/"빈 칸")
- 활성화 개입 (기물 상태 뒤집기)으로 인해 모델 예측이 수정된 보드 상태와 일치한다
Claude 3 Sonnet 검증 결과:
- 희소 자동 인코더를 사용하여 해석 가능한 특성을 식별한다 (예: 금문교, 뇌 과학)
- 특성 유도 실험: 금문교 특성을 10배 활성화하면 모델이 그 다리를 언급한다
- 인지과학 전통: Fodor (1975), Sterelny (1991), Shea (2018) 등이 수립한 표현 이론의 기초
- 계산 계층: Marr (1982)의 알고리즘 계층 분석 프레임워크에 기반
- 표현 학습: Bengio et al. (2014)의 표현 학습 프레임워크
- 용어 일반화 문제: Ramsey (2017)가 지적한 "표현" 개념의 일반화 문제
- 회로 분석: Elhage et al. (2021), Dunefsky et al. (2024)의 계산 경로 분석
- 인과적 추상화: Geiger et al. (2021)의 인과 모델 정렬 방법
- 메커니즘 해석 가능성: Olah et al. (2018, 2020)이 수립한 MI 연구 전통
- LLM은 실질적 표현을 가진다: 특정 경우에 LLM 행동은 네 가지 조건 정의를 만족하는 표현에 의해 주도된다
- 조회 표 해석은 불충분하다: 순수 메모이제이션과 조회 표는 LLM의 일반화 능력을 설명할 수 없다
- 메커니즘 해석 가능성 방법은 효과적이다: 탐사 및 개입 기법은 LLM 표현 연구를 위한 실행 가능한 경로를 제공한다
- 조건 적용의 상황 의존성: 표현의 견고성 평가는 구체적인 작업 및 환경에 따라 달라진다
- 내용 결정 문제 미해결: 표현 내용이 어떻게 결정되는지에 대한 문제를 체계적으로 해결하지 못했다
- 고차 인지 능력 미결정: LLM이 신념, 지식, 이해 등을 가지는지 여부에 대해 직접 해결하지 못했다
- 체계적 표현 지도: LLM이 표현 vs 다른 메커니즘에 의존할 것으로 예상되는 시기에 대한 체계적 설명 수립
- 내용 결정 이론: LLM 표현 내용 결정을 위한 이론적 프레임워크 개발
- 인지 능력 평가: 표현 분석에 기반한 LLM의 고차 인지 능력 평가
- 이론적 기여가 두드러진다: 엄격한 표현 정의를 제공하여 중요한 이론적 공백을 채운다
- 방법론적 혁신: 인지과학의 표현 이론을 기계학습의 해석 가능성 기법과 유기적으로 결합한다
- 실증적 증거가 충분하다: 여러 사례 연구 및 기술 검증을 통해 핵심 주장을 뒷받침한다
- 명확하고 엄밀한 작성: 논증 논리가 명확하고 기술적 세부사항이 정확하게 설명된다
- 사례의 제한성: 주로 소수의 사례에 기반하며 더 광범위한 검증이 필요하다
- 견고성 기준의 모호성: "견고한 행동"의 정의가 여전히 상대적으로 주관적이다
- 실용성 도전: 제시된 방법을 대규모 LLM에 적용하는 것은 여전히 기술적 도전에 직면한다
- 이론적 영향: LLM 인지 능력 연구를 위한 중요한 이론적 기초를 제공한다
- 방법론적 영향: LLM 연구에서 메커니즘 해석 가능성의 적용을 촉진한다
- 실용적 가치: AI 안전 및 해석 가능성 연구에 새로운 도구를 제공한다
- LLM 능력 평가: 특정 LLM이 진정한 인지 능력을 가지는지 평가한다
- 모델 개선: 표현 분석에 기반하여 모델 아키텍처 및 훈련 방법을 개선한다
- AI 안전 연구: LLM 내부 메커니즘을 이해하여 시스템 안전성을 높인다
논문은 풍부한 학제 간 문헌을 인용하며, 주요 내용은 다음을 포함한다:
- 인지과학 기초 문헌: Fodor (1975), Marr (1982), Shea (2018)
- 기계학습 해석 가능성: Olah et al. (2018), Elhage et al. (2021)
- LLM 비판적 연구: Bender & Koller (2020), Marcus & Davis (2020)
- 기술 방법 문헌: Li et al. (2023), Templeton et al. (2024)
요약: 본 논문은 LLM 표현 연구 분야에서 중요한 이론적 및 방법론적 기여를 한다. 엄격한 개념 분석, 실증 연구 및 기술 혁신을 통해 LLM의 내부 메커니즘을 이해하기 위한 새로운 관점을 제공한다. 여전히 일부 한계가 있지만, 향후 LLM 인지 능력 연구를 위한 견고한 기초를 마련한다.