Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
논문 ID : 2501.00073제목 : Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings저자 : Chunsheng Zuo (Johns Hopkins University), Pavel Guerzhoy (University of Hawai'i at Mānoa), Michael Guerzhoy (University of Toronto)분류 : cs.CL (계산 언어학), cs.LG (기계 학습)발표 시간 : 2024년 12월 30일논문 링크 : https://arxiv.org/abs/2501.00073 본 연구는 인과 주의(causal attention)를 갖춘 Transformer가 위치 인코딩 없이 위치 정보가 필요한 작업을 어떻게 해결하는지 탐구합니다. 저자들은 위치 정보가 인접 임베딩 벡터 간의 유사성을 통해 저장될 수 있다는 새로운 가설을 제시하고 검증합니다. 연구 결과, 인접한 임베딩 벡터가 거리가 먼 임베딩 벡터보다 더 유사하며, 이를 통해 Transformer가 토큰의 위치 정보를 재구성할 수 있음을 발견했습니다. 이러한 패턴은 훈련 후 및 무작위 초기화된 인과 Transformer 모델에서 모두 관찰됩니다.
전통적인 관점에서는 Transformer가 시퀀스의 토큰 위치 정보를 처리하기 위해 명시적인 위치 인코딩이 필요하다고 생각했습니다. 그러나 최근 연구(Haviv et al. 2022; Kazemnejad et al. 2024; Chi et al. 2023)에 따르면, 인과 주의만을 사용하는 디코더 전용 Transformer는 위치 인코딩 없이도 위치 정보를 학습할 수 있습니다.
이론적 공백 : 인과 Transformer가 위치 정보를 어떻게 저장하는지에 대한 깊이 있는 이해 부족메커니즘 탐색 : Chi et al. (2023)은 위치 정보가 임베딩 분산에 저장된다고 제시했으나, 이 설명이 충분하지 않을 수 있음새로운 관점 필요 : 위치 정보 표현 메커니즘을 이해하기 위한 새로운 각도 필요비인과 주의 메커니즘은 입력 토큰의 순열에 대해 순열 불변성을 가지므로 위치 정보를 처리할 수 없음 Chi et al.의 분산 이론은 일부 실험에서 성능이 좋지 않으며, 관찰된 현상을 완전히 설명할 수 없음 인접 패턴 가설 제시 : 인접 위치의 임베딩 벡터가 더 높은 코사인 유사도를 가지며 "인접 패턴"을 형성함을 발견이론적 분석 : 인과 주의 첫 번째 계층에서 인접 패턴이 나타나는 이유를 수학적으로 설명광범위한 실험 검증 : 다양한 작업, 모델 구성 및 초기화 방식에서 인접 패턴의 존재를 검증정량적 평가 방법 : 인접 확률 점수(adjacency probability score)를 제시하여 위치 정보의 강도를 정량화대조 분석 : 탐침 실험을 통해 코사인 유사도가 임베딩 분산보다 위치 정보를 더 효과적으로 인코딩함을 증명명시적 위치 인코딩 없이 인과 Transformer가 위치 정보를 어떻게 표현하고 활용하는지 탐구하며, 임베딩 벡터 간의 유사성 패턴에 중점을 둡니다.
길이 n, 차원 d의 토큰 임베딩 시퀀스 X ∈ R^(n×d)에 대해, 자기 코사인 유사도 행렬 C는 다음과 같이 정의됩니다:
C_ij = cos θ(X_i, X_j) = (X_i · X_j) / (||X_i|| ||X_j||)
인접 패턴은 자기 코사인 유사도 행렬이 대각선 근처에서 높은 값, 대각선에서 멀어질수록 낮은 값을 나타내는 특성을 의미하며, 인접한 위치의 임베딩 벡터가 더 유사함을 나타냅니다.
인접 패턴의 강도를 정량화하기 위해 저자들은 인접 확률 점수를 제시합니다:
k번째 행에 대한 행 수준 인접 확률 점수는 다음과 같이 정의됩니다:
P_Adjacency = P(C_ki < C_kj if i < j) = 1/C(k,2) * Σ I(C_ki < C_kj)
전체 행렬의 인접 확률 점수는 모든 행의 평균값입니다.
첫 번째 계층에서 위치 k의 임베딩은 이전 k-1개의 임베딩의 선형 결합으로 계산됩니다:
위치 k+t의 임베딩: Σ(i=1 to k+t) α_i * e_i 위치 k+t+1의 임베딩: Σ(i=1 to k+t+1) β_i * e_i 인접한 위치가 더 많은 입력 임베딩을 공유하므로, 그들의 내적 차이는 양수입니다:
(Σ α_i * v_i) · (Σ β_i * v_i) - (Σ α_i * v_i) · (Σ β'_i * v_i) > 0
이는 인접 패턴의 출현을 수학적으로 설명합니다.
저자들은 위치 정보가 필요한 네 가지 합성 작업을 설계했습니다:
덧셈 작업(Addition) : "123+456="의 답을 생성하며, 입력 길이는 최대 9역순 작업(Reversal) : "rev(1234)="에 대해 "4321"을 생성하며, 입력 길이는 최대 22인덱싱 작업(Indexing) : "wherex(134504392,4)="에 대해 첫 번째 출현 위치 "2"를 출력하며, 입력 길이는 최대 20정렬 작업(Ordering) : 원본 시퀀스와 재정렬 시퀀스가 주어졌을 때 새로운 인덱스 순서를 출력하며, 입력 길이는 최대 18기본 모델 : 6계층 NanoGPT, 1,060만 매개변수변형 구성 : 6/12/24계층, 192/384/768 숨겨진 차원초기화 : 기본값 N(0, 0.02), 다양한 평균값과 분산 테스트훈련 설정 : 각 작업당 20,000개 훈련 샘플 및 20,000개 테스트 샘플, 5개 무작위 시드인접 확률 점수 : 인접 패턴 강도 정량화작업 정확도 : 각 작업에서의 모델 성능탐침 실험 : 4계층 MLP를 사용하여 위치 정보를 탐침하고, NRMSE 및 Pearson-R 평가토큰 임베딩 계층에서 인접 확률 점수는 약 0.5 (무작위 수준) 첫 번째 인과 주의 계층을 거친 후 점수는 0.8-1.0으로 급상승 이 패턴은 훈련 전후, 다양한 작업 및 모델 구성에서 안정적으로 유지됨 계층 초기화 모델 훈련 후 모델 임베딩 계층 0.48 0.54 제1계층 0.98 0.89 제2계층 0.99 0.97 제3계층 0.99 0.98 제6계층 0.99 0.82
계층 수 영향 : 6-24계층 모델 모두 인접 패턴 표시차원 영향 : 192-768 차원 구성 모두 패턴 유지초기화 영향 : 표준 초기화 방식(σ ≤ 0.02)에서 패턴 안정적다양한 평균값(μ ∈ {0,4,8})과 표준편차(σ ∈ {0.002,0.02,0.2})를 테스트:
작은 분산(σ ≤ 0.02): 인접 패턴 안정적 큰 분산(σ = 0.2): 패턴 소실 큰 평균값은 패턴에 미미한 영향 코사인 유사도와 임베딩 분산을 위치 특성으로서의 효과 비교:
특성 유형 Pearson-R NRMSE 임베딩 벡터 0.71 0.20 임베딩 분산 0.49 0.23 코사인 유사도 0.93 0.11
그림 1은 역순 작업에서의 자기 코사인 유사도 행렬 시각화를 보여줍니다:
초기화 모델: 제1계층부터 명확한 대각선 패턴 출현 훈련 후 모델: 초기 계층에서 강한 인접 패턴 유지, 후기 계층에서 점진적 감소 전통적 방법 : 절대 위치 인코딩, 상대 위치 인코딩최신 발견 : Haviv et al. (2022)가 인과 Transformer가 위치 인코딩 없이 훈련 가능함을 처음 증명순열 불변성 : Tsai et al. (2019)가 비인과 주의의 순열 불변성 증명위치 정보 저장 : Chi et al. (2023)이 분산 감소 가설 제시Chi et al.의 분산 이론과 비교하여 본 논문의 인접 패턴 가설은:
더 직관적인 기하학적 설명 제공 탐침 실험에서 우수한 성능 더 광범위한 모델 구성에 적용 가능 인접 패턴의 보편적 존재 : 인과 Transformer는 첫 번째 주의 계층 후 자연스럽게 인접 패턴을 형성위치 정보 인코딩 : 인접 임베딩의 높은 유사도는 위치 재구성의 가능성을 제공메커니즘 설명 : 평균화 효과는 패턴 출현의 이유를 수학적으로 설명실용적 가치 : 코사인 유사도가 임베딩 분산보다 위치 특성으로 더 적합데이터셋 제한 : 주로 합성 작업에서 검증되었으며, 실제 데이터셋의 일반화 가능성은 추가 연구 필요아키텍처 의존성 : 결론은 특정 Transformer 아키텍처를 기반으로 하며, 다른 변형의 적용 가능성 미지수완전성 문제 : 인접 패턴과 분산 모두 100% 작업 성능을 완전히 설명할 수 없음대규모 검증 : 실제 언어 모델링 작업에서 인접 패턴 검증메커니즘 융합 : 인접 패턴과 다른 위치 인코딩 메커니즘의 결합 탐색이론 완성 : 위치 정보 표현에 대한 더 완전한 이론 프레임워크 구축혁신적 관점 : 기하학적 유사성 각도에서 위치 정보를 이해하며 새로운 이론적 통찰 제공엄밀한 검증 : 다중 작업, 다중 구성, 다양한 분석 방법을 통한 포괄적 가설 검증수학적 기초 : 인접 패턴 출현의 이론적 설명 제공실용적 도구 : 인접 확률 점수는 위치 정보 정량화를 위한 효과적인 방법 제공작업 제한 : 합성 작업이 실제 응용 시나리오의 복잡성을 완전히 반영하지 못할 수 있음메커니즘 불완전성 : 기존 이론이 모델 성능을 완전히 설명할 수 없음을 인정계산 비용 : 자기 코사인 유사도 행렬 계산이 긴 시퀀스에서 비용이 높을 수 있음이론적 기여 : Transformer 위치 표현 이해를 위한 새로운 관점 제공실무 지침 : 위치 인코딩 없는 모델 설계를 위한 이론적 지원연구 영감 : Transformer 내부 메커니즘을 기하학적 각도에서 분석하는 새로운 방향 개척경량 모델 : 위치 인코딩 매개변수를 줄인 모델 설계긴 시퀀스 처리 : 위치 인코딩 제한을 피한 시퀀스 모델링모델 분석 : Transformer 내부 표현 이해 및 디버깅본 논문은 주로 다음의 중요한 연구를 참고했습니다:
Haviv et al. (2022): 위치 인코딩 없는 훈련의 가능성을 처음 증명 Chi et al. (2023): 분산 감소의 위치 정보 가설 제시 Tsai et al. (2019): 주의 메커니즘의 순열 성질 분석 Vaswani et al. (2017): Transformer 원본 논문 본 연구는 Transformer가 위치 정보를 어떻게 처리하는지 이해하기 위한 중요한 새로운 관점을 제공합니다. 완전성 측면에서 여전히 부족한 점이 있지만, 그 이론적 통찰과 실험적 발견은 이 분야의 추가 발전을 위한 견고한 기초를 마련합니다.