2025-11-14T08:19:11.556995

Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Zuo, Guerzhoy, Guerzhoy

Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.

academic

인과 Transformer에서 위치 정보가 인접 임베딩의 유사성을 통해 위치 인코딩 없이 출현

기본 정보

논문 ID: 2501.00073
제목: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
저자: Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)
분류: cs.CL (계산 언어학), cs.LG (기계 학습)
발표 시간: 2024년 12월 30일
논문 링크: https://arxiv.org/abs/2501.00073

초록

본 연구는 인과 주의(causal attention)를 갖춘 Transformer가 위치 인코딩 없이 위치 정보가 필요한 작업을 어떻게 해결하는지 탐구합니다. 저자들은 위치 정보가 인접 임베딩 벡터 간의 유사성을 통해 저장될 수 있다는 새로운 가설을 제시하고 검증합니다. 연구 결과, 인접한 임베딩 벡터가 거리가 먼 임베딩 벡터보다 더 유사하며, 이를 통해 Transformer가 토큰의 위치 정보를 재구성할 수 있음을 발견했습니다. 이러한 패턴은 훈련 후 및 무작위 초기화된 인과 Transformer 모델에서 모두 관찰됩니다.

연구 배경 및 동기

문제 정의

전통적인 관점에서는 Transformer가 시퀀스의 토큰 위치 정보를 처리하기 위해 명시적인 위치 인코딩이 필요하다고 생각했습니다. 그러나 최근 연구(Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023)에 따르면, 인과 주의만을 사용하는 디코더 전용 Transformer는 위치 인코딩 없이도 위치 정보를 학습할 수 있습니다.

연구 동기

이론적 공백: 인과 Transformer가 위치 정보를 어떻게 저장하는지에 대한 깊이 있는 이해 부족
메커니즘 탐색: Chi et al. (2023)은 위치 정보가 임베딩 분산에 저장된다고 제시했으나, 이 설명이 충분하지 않을 수 있음
새로운 관점 필요: 위치 정보 표현 메커니즘을 이해하기 위한 새로운 각도 필요

기존 방법의 한계

비인과 주의 메커니즘은 입력 토큰의 순열에 대해 순열 불변성을 가지므로 위치 정보를 처리할 수 없음
Chi et al.의 분산 이론은 일부 실험에서 성능이 좋지 않으며, 관찰된 현상을 완전히 설명할 수 없음

핵심 기여

인접 패턴 가설 제시: 인접 위치의 임베딩 벡터가 더 높은 코사인 유사도를 가지며 "인접 패턴"을 형성함을 발견
이론적 분석: 인과 주의 첫 번째 계층에서 인접 패턴이 나타나는 이유를 수학적으로 설명
광범위한 실험 검증: 다양한 작업, 모델 구성 및 초기화 방식에서 인접 패턴의 존재를 검증
정량적 평가 방법: 인접 확률 점수(adjacency probability score)를 제시하여 위치 정보의 강도를 정량화
대조 분석: 탐침 실험을 통해 코사인 유사도가 임베딩 분산보다 위치 정보를 더 효과적으로 인코딩함을 증명

방법론 상세 설명

작업 정의

명시적 위치 인코딩 없이 인과 Transformer가 위치 정보를 어떻게 표현하고 활용하는지 탐구하며, 임베딩 벡터 간의 유사성 패턴에 중점을 둡니다.

핵심 개념

자기 코사인 유사도 행렬

길이 n, 차원 d의 토큰 임베딩 시퀀스 X ∈ R^(n×d)에 대해, 자기 코사인 유사도 행렬 C는 다음과 같이 정의됩니다:

C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)

인접 패턴(Adjacency Pattern)

인접 패턴은 자기 코사인 유사도 행렬이 대각선 근처에서 높은 값, 대각선에서 멀어질수록 낮은 값을 나타내는 특성을 의미하며, 인접한 위치의 임베딩 벡터가 더 유사함을 나타냅니다.

인접 확률 점수

인접 패턴의 강도를 정량화하기 위해 저자들은 인접 확률 점수를 제시합니다:

k번째 행에 대한 행 수준 인접 확률 점수는 다음과 같이 정의됩니다:

P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)

전체 행렬의 인접 확률 점수는 모든 행의 평균값입니다.

이론적 분석

평균화 효과

첫 번째 계층에서 위치 k의 임베딩은 이전 k-1개의 임베딩의 선형 결합으로 계산됩니다:

위치 k+t의 임베딩: Σ(i=1 to k+t) α_i * e_i
위치 k+t+1의 임베딩: Σ(i=1 to k+t+1) β_i * e_i

인접한 위치가 더 많은 입력 임베딩을 공유하므로, 그들의 내적 차이는 양수입니다:

(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0

이는 인접 패턴의 출현을 수학적으로 설명합니다.

실험 설정

데이터셋 및 작업

저자들은 위치 정보가 필요한 네 가지 합성 작업을 설계했습니다:

덧셈 작업(Addition): "123+456="의 답을 생성하며, 입력 길이는 최대 9
역순 작업(Reversal): "rev(1234)="에 대해 "4321"을 생성하며, 입력 길이는 최대 22
인덱싱 작업(Indexing): "wherex(134504392,4)="에 대해 첫 번째 출현 위치 "2"를 출력하며, 입력 길이는 최대 20
정렬 작업(Ordering): 원본 시퀀스와 재정렬 시퀀스가 주어졌을 때 새로운 인덱스 순서를 출력하며, 입력 길이는 최대 18