2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy
Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
academic

인과 Transformer에서 위치 정보가 인접 임베딩의 유사성을 통해 위치 인코딩 없이 출현

기본 정보

  • 논문 ID: 2501.00073
  • 제목: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
  • 저자: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
  • 분류: cs.CL (계산 언어학), cs.LG (기계 학습)
  • 발표 시간: 2024년 12월 30일
  • 논문 링크: https://arxiv.org/abs/2501.00073

초록

본 연구는 인과 주의(causal attention)를 갖춘 Transformer가 위치 인코딩 없이 위치 정보가 필요한 작업을 어떻게 해결하는지 탐구합니다. 저자들은 위치 정보가 인접 임베딩 벡터 간의 유사성을 통해 저장될 수 있다는 새로운 가설을 제시하고 검증합니다. 연구 결과, 인접한 임베딩 벡터가 거리가 먼 임베딩 벡터보다 더 유사하며, 이를 통해 Transformer가 토큰의 위치 정보를 재구성할 수 있음을 발견했습니다. 이러한 패턴은 훈련 후 및 무작위 초기화된 인과 Transformer 모델에서 모두 관찰됩니다.

연구 배경 및 동기

문제 정의

전통적인 관점에서는 Transformer가 시퀀스의 토큰 위치 정보를 처리하기 위해 명시적인 위치 인코딩이 필요하다고 생각했습니다. 그러나 최근 연구(Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023)에 따르면, 인과 주의만을 사용하는 디코더 전용 Transformer는 위치 인코딩 없이도 위치 정보를 학습할 수 있습니다.

연구 동기

  1. 이론적 공백: 인과 Transformer가 위치 정보를 어떻게 저장하는지에 대한 깊이 있는 이해 부족
  2. 메커니즘 탐색: Chi et al. (2023)은 위치 정보가 임베딩 분산에 저장된다고 제시했으나, 이 설명이 충분하지 않을 수 있음
  3. 새로운 관점 필요: 위치 정보 표현 메커니즘을 이해하기 위한 새로운 각도 필요

기존 방법의 한계

  • 비인과 주의 메커니즘은 입력 토큰의 순열에 대해 순열 불변성을 가지므로 위치 정보를 처리할 수 없음
  • Chi et al.의 분산 이론은 일부 실험에서 성능이 좋지 않으며, 관찰된 현상을 완전히 설명할 수 없음

핵심 기여

  1. 인접 패턴 가설 제시: 인접 위치의 임베딩 벡터가 더 높은 코사인 유사도를 가지며 "인접 패턴"을 형성함을 발견
  2. 이론적 분석: 인과 주의 첫 번째 계층에서 인접 패턴이 나타나는 이유를 수학적으로 설명
  3. 광범위한 실험 검증: 다양한 작업, 모델 구성 및 초기화 방식에서 인접 패턴의 존재를 검증
  4. 정량적 평가 방법: 인접 확률 점수(adjacency probability score)를 제시하여 위치 정보의 강도를 정량화
  5. 대조 분석: 탐침 실험을 통해 코사인 유사도가 임베딩 분산보다 위치 정보를 더 효과적으로 인코딩함을 증명

방법론 상세 설명

작업 정의

명시적 위치 인코딩 없이 인과 Transformer가 위치 정보를 어떻게 표현하고 활용하는지 탐구하며, 임베딩 벡터 간의 유사성 패턴에 중점을 둡니다.

핵심 개념

자기 코사인 유사도 행렬

길이 n, 차원 d의 토큰 임베딩 시퀀스 X ∈ R^(n×d)에 대해, 자기 코사인 유사도 행렬 C는 다음과 같이 정의됩니다:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

인접 패턴(Adjacency Pattern)

인접 패턴은 자기 코사인 유사도 행렬이 대각선 근처에서 높은 값, 대각선에서 멀어질수록 낮은 값을 나타내는 특성을 의미하며, 인접한 위치의 임베딩 벡터가 더 유사함을 나타냅니다.

인접 확률 점수

인접 패턴의 강도를 정량화하기 위해 저자들은 인접 확률 점수를 제시합니다:

k번째 행에 대한 행 수준 인접 확률 점수는 다음과 같이 정의됩니다:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

전체 행렬의 인접 확률 점수는 모든 행의 평균값입니다.

이론적 분석

평균화 효과

첫 번째 계층에서 위치 k의 임베딩은 이전 k-1개의 임베딩의 선형 결합으로 계산됩니다:

  • 위치 k+t의 임베딩: Σ(i=1 to k+t) α_i * e_i
  • 위치 k+t+1의 임베딩: Σ(i=1 to k+t+1) β_i * e_i

인접한 위치가 더 많은 입력 임베딩을 공유하므로, 그들의 내적 차이는 양수입니다:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

이는 인접 패턴의 출현을 수학적으로 설명합니다.

실험 설정

데이터셋 및 작업

저자들은 위치 정보가 필요한 네 가지 합성 작업을 설계했습니다:

  1. 덧셈 작업(Addition): "123+456="의 답을 생성하며, 입력 길이는 최대 9
  2. 역순 작업(Reversal): "rev(1234)="에 대해 "4321"을 생성하며, 입력 길이는 최대 22
  3. 인덱싱 작업(Indexing): "wherex(134504392,4)="에 대해 첫 번째 출현 위치 "2"를 출력하며, 입력 길이는 최대 20
  4. 정렬 작업(Ordering): 원본 시퀀스와 재정렬 시퀀스가 주어졌을 때 새로운 인덱스 순서를 출력하며, 입력 길이는 최대 18

모델 구성

  • 기본 모델: 6계층 NanoGPT, 1,060만 매개변수
  • 변형 구성: 6/12/24계층, 192/384/768 숨겨진 차원
  • 초기화: 기본값 N(0, 0.02), 다양한 평균값과 분산 테스트
  • 훈련 설정: 각 작업당 20,000개 훈련 샘플 및 20,000개 테스트 샘플, 5개 무작위 시드

평가 지표

  1. 인접 확률 점수: 인접 패턴 강도 정량화
  2. 작업 정확도: 각 작업에서의 모델 성능
  3. 탐침 실험: 4계층 MLP를 사용하여 위치 정보를 탐침하고, NRMSE 및 Pearson-R 평가

실험 결과

주요 발견

1. 인접 패턴의 보편적 존재

  • 토큰 임베딩 계층에서 인접 확률 점수는 약 0.5 (무작위 수준)
  • 첫 번째 인과 주의 계층을 거친 후 점수는 0.8-1.0으로 급상승
  • 이 패턴은 훈련 전후, 다양한 작업 및 모델 구성에서 안정적으로 유지됨

2. 계층별 분석 결과

계층초기화 모델훈련 후 모델
임베딩 계층0.480.54
제1계층0.980.89
제2계층0.990.97
제3계층0.990.98
제6계층0.990.82

3. 하이퍼파라미터 민감도

  • 계층 수 영향: 6-24계층 모델 모두 인접 패턴 표시
  • 차원 영향: 192-768 차원 구성 모두 패턴 유지
  • 초기화 영향: 표준 초기화 방식(σ ≤ 0.02)에서 패턴 안정적

제거 실험

초기화 방식 테스트

다양한 평균값(μ ∈ {0,4,8})과 표준편차(σ ∈ {0.002,0.02,0.2})를 테스트:

  • 작은 분산(σ ≤ 0.02): 인접 패턴 안정적
  • 큰 분산(σ = 0.2): 패턴 소실
  • 큰 평균값은 패턴에 미미한 영향

분산 이론과의 대조

코사인 유사도와 임베딩 분산을 위치 특성으로서의 효과 비교:

특성 유형Pearson-RNRMSE
임베딩 벡터0.710.20
임베딩 분산0.490.23
코사인 유사도0.930.11

사례 분석

그림 1은 역순 작업에서의 자기 코사인 유사도 행렬 시각화를 보여줍니다:

  • 초기화 모델: 제1계층부터 명확한 대각선 패턴 출현
  • 훈련 후 모델: 초기 계층에서 강한 인접 패턴 유지, 후기 계층에서 점진적 감소

관련 연구

위치 인코딩 연구

  • 전통적 방법: 절대 위치 인코딩, 상대 위치 인코딩
  • 최신 발견: Haviv et al. (2022)가 인과 Transformer가 위치 인코딩 없이 훈련 가능함을 처음 증명

인과 주의 메커니즘

  • 순열 불변성: Tsai et al. (2019)가 비인과 주의의 순열 불변성 증명
  • 위치 정보 저장: Chi et al. (2023)이 분산 감소 가설 제시

본 논문의 기여

Chi et al.의 분산 이론과 비교하여 본 논문의 인접 패턴 가설은:

  1. 더 직관적인 기하학적 설명 제공
  2. 탐침 실험에서 우수한 성능
  3. 더 광범위한 모델 구성에 적용 가능

결론 및 논의

주요 결론

  1. 인접 패턴의 보편적 존재: 인과 Transformer는 첫 번째 주의 계층 후 자연스럽게 인접 패턴을 형성
  2. 위치 정보 인코딩: 인접 임베딩의 높은 유사도는 위치 재구성의 가능성을 제공
  3. 메커니즘 설명: 평균화 효과는 패턴 출현의 이유를 수학적으로 설명
  4. 실용적 가치: 코사인 유사도가 임베딩 분산보다 위치 특성으로 더 적합

한계

  1. 데이터셋 제한: 주로 합성 작업에서 검증되었으며, 실제 데이터셋의 일반화 가능성은 추가 연구 필요
  2. 아키텍처 의존성: 결론은 특정 Transformer 아키텍처를 기반으로 하며, 다른 변형의 적용 가능성 미지수
  3. 완전성 문제: 인접 패턴과 분산 모두 100% 작업 성능을 완전히 설명할 수 없음

향후 방향

  1. 대규모 검증: 실제 언어 모델링 작업에서 인접 패턴 검증
  2. 메커니즘 융합: 인접 패턴과 다른 위치 인코딩 메커니즘의 결합 탐색
  3. 이론 완성: 위치 정보 표현에 대한 더 완전한 이론 프레임워크 구축

심층 평가

장점

  1. 혁신적 관점: 기하학적 유사성 각도에서 위치 정보를 이해하며 새로운 이론적 통찰 제공
  2. 엄밀한 검증: 다중 작업, 다중 구성, 다양한 분석 방법을 통한 포괄적 가설 검증
  3. 수학적 기초: 인접 패턴 출현의 이론적 설명 제공
  4. 실용적 도구: 인접 확률 점수는 위치 정보 정량화를 위한 효과적인 방법 제공

부족한 점

  1. 작업 제한: 합성 작업이 실제 응용 시나리오의 복잡성을 완전히 반영하지 못할 수 있음
  2. 메커니즘 불완전성: 기존 이론이 모델 성능을 완전히 설명할 수 없음을 인정
  3. 계산 비용: 자기 코사인 유사도 행렬 계산이 긴 시퀀스에서 비용이 높을 수 있음

영향력

  1. 이론적 기여: Transformer 위치 표현 이해를 위한 새로운 관점 제공
  2. 실무 지침: 위치 인코딩 없는 모델 설계를 위한 이론적 지원
  3. 연구 영감: Transformer 내부 메커니즘을 기하학적 각도에서 분석하는 새로운 방향 개척

적용 시나리오

  1. 경량 모델: 위치 인코딩 매개변수를 줄인 모델 설계
  2. 긴 시퀀스 처리: 위치 인코딩 제한을 피한 시퀀스 모델링
  3. 모델 분석: Transformer 내부 표현 이해 및 디버깅

참고 문헌

본 논문은 주로 다음의 중요한 연구를 참고했습니다:

  • Haviv et al. (2022): 위치 인코딩 없는 훈련의 가능성을 처음 증명
  • Chi et al. (2023): 분산 감소의 위치 정보 가설 제시
  • Tsai et al. (2019): 주의 메커니즘의 순열 성질 분석
  • Vaswani et al. (2017): Transformer 원본 논문

본 연구는 Transformer가 위치 정보를 어떻게 처리하는지 이해하기 위한 중요한 새로운 관점을 제공합니다. 완전성 측면에서 여전히 부족한 점이 있지만, 그 이론적 통찰과 실험적 발견은 이 분야의 추가 발전을 위한 견고한 기초를 마련합니다.