2025-11-21T19:43:16.429165

Isotropy and Geometry of Pretrained Protein LMs

Hakim, Roy, Rahman

Large pretrained language models have transformed natural language processing, and their adaptation to protein sequences -- viewed as strings of amino acid characters -- has advanced protein analysis. However, the distinct properties of proteins, such as variable sequence lengths and lack of word-sentence analogs, necessitate a deeper understanding of protein language models (LMs). We investigate the isotropy of protein LM embedding spaces using average pairwise cosine similarity and the IsoScore method, revealing that models like ProtBERT and ProtXLNet are highly anisotropic, utilizing only 2--14 dimensions for global and local representations. In contrast, multi-modal training in ProteinBERT, which integrates sequence and gene ontology data, enhances isotropy, suggesting that diverse biological inputs improve representational efficiency. We also find that embedding distances weakly correlate with alignment-based similarity scores, particularly at low similarity.

academic

사전학습된 단백질 언어모델의 등방성과 기하학

기본 정보

논문 ID: 2510.10655
제목: A Look at the Isotropy of Pretrained Protein Language Models
저자: Sheikh Azizul Hakim, Kowshic Roy, M Saifur Rahman
분류: q-bio.OT (정량 생물학 - 기타)
발표 학회: ICML 2025 Workshop on Multi-modal Foundation Models and Large Language Models for Life Sciences
논문 링크: https://arxiv.org/abs/2510.10655

초록

대규모 사전학습 언어모델은 자연언어처리 분야를 혁신했으며, 단백질 서열에 대한 적용—단백질을 아미노산 문자열로 취급—은 단백질 분석을 발전시켰습니다. 그러나 가변적인 서열 길이 및 단어-문장 유추의 부재와 같은 단백질의 고유한 특성은 단백질 언어모델(LMs)에 대한 더 깊은 이해를 필요로 합니다. 본 연구는 평균 쌍별 코사인 유사도 및 IsoScore 방법을 사용하여 단백질 LM 임베딩 공간의 등방성을 조사하였으며, ProtBERT 및 ProtXLNet과 같은 모델이 고도로 이방성이며 전역 및 국소 표현이 2-14개 차원만 활용함을 발견했습니다. 이와 대조적으로, ProteinBERT의 다중모달 학습은 서열 및 유전자 온톨로지 데이터를 통합하여 등방성을 향상시켰으며, 이는 다양한 생물학적 입력이 표현 효율성을 개선함을 시사합니다. 연구는 또한 임베딩 거리와 정렬 기반 유사성 점수 간의 약한 상관관계를 발견했으며, 특히 낮은 유사성 경우에서 두드러집니다.

연구 배경 및 동기

문제 정의

본 연구는 단백질 언어모델 임베딩 공간의 기하학적 특성 이해 부족 문제를 해결하는 것을 목표로 합니다. 구체적으로는:

등방성 분석 부재: 자연언어처리에서 언어모델 임베딩 공간의 등방성에 관한 광범위한 연구가 있음에도 불구하고, 단백질 영역에서는 이러한 분석이 거의 없습니다
임베딩 공간 효율성 문제: 고차원 단백질 임베딩이 모든 차원을 효과적으로 활용하는지 이해할 필요가 있습니다
생물학적 관련성 검증: 임베딩 공간의 거리 측정과 전통적인 생물학적 유사성 측정 간의 관계가 명확하지 않습니다

중요성

이론적 의의: 단백질 언어모델의 표현 학습 메커니즘에 대한 깊이 있는 이해로 모델 개선을 위한 이론적 기초 제공
실용적 가치: 등방성 분석은 차원 축소 및 모델 압축을 지도하여 계산 효율성 향상
생성 모델 응용: 단백질 설계, 변이 예측 등의 생성 작업에서 다양하고 정보가 풍부한 잠재 공간이 중요합니다

기존 방법의 한계

직접 이식 문제: 기존 단백질 언어모델은 대부분 NLP 아키텍처를 직접 채택하여 단백질 서열의 고유한 특성을 충분히 고려하지 않습니다
단일 모달 제한: 대부분의 모델은 서열 정보만으로 학습되어 기능 및 구조 등의 생물학적 사전 지식이 부족합니다
기하학적 특성 무시: 임베딩 공간의 기하학적 구조에 대한 체계적 분석이 부족합니다

핵심 기여

최초 체계적 분석: 단백질 언어모델 임베딩 공간의 등방성에 대한 최초의 포괄적 분석
다차원 평가 방법: 평균 쌍별 코사인 유사도 및 IsoScore 두 가지 상호보완적인 등방성 측정 방법 채택
다중모달 학습 이점 검증: 다중모달 학습(서열 + 유전자 온톨로지)이 표현 등방성 향상에 효과적임을 입증
생물학적 관련성 분석: 임베딩 거리와 전통적인 정렬 유사성 간의 관계를 깊이 있게 분석하여 기존 방법의 한계 규명
국소 표현 분석: 아미노산 수준의 국소 임베딩으로 분석 확대, 유사한 이방성 패턴 발견

방법 상세 설명

작업 정의

본 연구의 핵심 작업은 단백질 언어모델 임베딩 공간의 기하학적 특성 분석이며, 구체적으로는:

입력: 단백질 서열 데이터셋 및 사전학습된 단백질 언어모델
출력: 등방성 측정(IsoScore, 평균 쌍별 코사인 유사도), 유효 차원 수, 임베딩 거리와 생물학적 유사성의 상관성 분석
제약: 표준 단백질 데이터셋 및 공개된 사전학습 모델 사용으로 결과 재현성 보장

등방성 측정 방법

1. 평균 쌍별 코사인 유사도

코사인 유사도는 두 벡터 x와 y의 정규화된 내적으로 정의됩니다: $\text{cosine similarity} = \frac{x \cdot y}{|x||y|}$

임베딩 공간의 모든 벡터 쌍의 평균 코사인 유사도를 계산하여 등방성을 평가합니다.

2. IsoScore 방법

Rudman 등이 제안한 IsoScore 방법을 채택하며, 다음과 같은 특성을 가집니다:

평균 무관성: 데이터 평균의 영향을 받지 않음
전역 안정성: 데이터 부분집합에 대해 안정적
회전 불변성: 좌표계 회전의 영향을 받지 않음

IsoScore는 주성분의 공분산 행렬을 기반으로 계산되며, 유효 차원 계산 공식은: $\text{effective dim}(X) = i(X) \times (n-1) + 1$

여기서 i(X)는 IsoScore이고 n은 원래 차원 수입니다.

모델 아키텍처 분석

평가된 모델

ProtBERT/ProtBERT-BFD: BERT 아키텍처 기반, 1024차원 임베딩
ProtXLNet: XLNet 아키텍처 기반, 1024차원 임베딩
ProteinBERT: 특별히 설계된 다중모달 아키텍처, 512차원 임베딩

임베딩 생성 전략

전역 임베딩: 국소 임베딩의 평균 풀링을 통해 생성(ProtBERT 시리즈) 또는 직접 생성(ProteinBERT)
국소 임베딩: 각 아미노산 잔기에 해당하는 per-residue 표현

생물학적 유사성 분석

BioPython 및 PAM-250 점수 행렬을 사용하여 전통적인 정렬 유사성 계산:

정렬 점수: 치환 행렬 기반의 서열 정렬 점수
유사성 점수: 최적 정렬에서 동일한 잔기의 비율
임베딩 거리: 제곱 유클리드 거리 및 코사인 유사도

실험 설정

데이터셋

SwissProt 부분집합: UniProt 데이터베이스에서 추출, 약 570,000개의 단백질 서열
데이터 특성: 수동으로 선별되었으며 실험 검증된 주석 및 고품질 기능 구조 정보 포함
샘플링 전략: 상관성 분석을 위해 단백질의 1%를 무작위 샘플링하여 6.4×10^6개의 단백질 쌍 생성

평가 지표

IsoScore: 등방성 측정, 범위 0,1, 0은 고도의 이방성, 1은 완전한 등방성을 나타냅니다
유효 차원 수: IsoScore를 기반으로 계산된 실제 활용 차원 수
상관 계수: 피어슨 상관 계수, 다양한 거리 측정 간의 선형 관계 측정

구현 세부사항

Hugging Face 사전학습 가중치 사용(ProtBERT 시리즈)
ProteinBERT 가중치는 GitHub 공식 저장소에서 획득
전역 표현 생성을 위해 표준 평균 풀링 전략 채택

실험 결과

주요 결과

전역 임베딩 등방성 분석

모델	임베딩 차원	IsoScore	유효 사용 차원
ProtBERT	1024	0.001658	3
ProtBERT-BFD	1024	0.003968	6
ProtXLNet	1024	0.001502	3
ProteinBERT	512	0.231228	120

주요 발견:

전통적인 아키텍처 모델(ProtBERT, ProtXLNet)은 고도로 이방성이며 2-6개의 유효 차원만 사용합니다
ProteinBERT는 현저히 더 등방성입니다(IsoScore=0.23), 120개의 유효 차원을 사용합니다
이와 비교하여 자연언어 BERT 및 GPT의 IsoScore는 각각 0.11 및 0.18입니다

임베딩 거리와 생물학적 유사성의 상관성

ProtBERT 상관성 행렬:

지표	코사인 유사도	제곱 유클리드 거리	정렬 점수	유사성 점수
코사인 유사도	1.000	0.791	0.014	-0.011
제곱 유클리드 거리	-	1.000	-0.103	-0.146
정렬 점수	-	-	1.000	0.847
유사성 점수	-	-	-	1.000

중요한 관찰:

임베딩 측정 간 상관성이 강함(0.791)
전통적인 생물학적 측정 간 상관성이 강함(0.847)
도메인 간 상관성이 약하며, 심지어 음수 값도 있습니다

국소 임베딩 등방성

1024차원의 국소 임베딩의 경우, 각 아미노산은 평균적으로 약 14개의 유효 차원만 사용하여 전역 임베딩과 유사한 이방성 패턴을 보입니다.

비선형 관계 발견

산점도 분석을 통해 발견:

낮은 유사성 영역: 임베딩 거리 분산이 크고 예측 능력이 낮음
높은 유사성 영역: 임베딩 거리가 수렴하고 유클리드 거리가 낮은 값으로 수렴하며 코사인 유사도가 1.0에 가까움
이러한 비대칭적 행동은 임베딩이 높은 생물학적 유사성에서는 더 신뢰할 수 있지만 낮은 유사성에서는 신뢰할 수 없음을 시사합니다

결론 및 논의

주요 결론

고도의 이방성: 서열 단일 모달 단백질 언어모델은 극도의 이방성을 나타내며 많은 차원이 중복됩니다
다중모달 이점: 서열 및 유전자 온톨로지 정보를 통합하는 다중모달 학습은 등방성을 현저히 향상시킵니다
생물학적 관련성 제한: 임베딩 거리와 전통적인 생물학적 유사성 측정 간의 상관성이 약하며, 특히 낮은 유사성 영역에서 두드러집니다
차원 중복의 보편성: 전역 및 국소 표현 모두에서 심각한 차원 중복이 존재합니다

한계

데이터셋 제한: SwissProt 데이터셋만 사용하여 단백질 다양성을 완전히 대표하지 못할 수 있습니다
모델 범위 제한: 평가된 모델 수가 제한적이며 최신 대규모 단백질 언어모델을 포함하지 않습니다
생물학적 검증 부족: 단백질 구조 및 기능과의 직접적인 연관성 분석이 부족합니다
동적 분석 부재: 학습 과정 중 등방성 변화 분석이 없습니다

향후 방향

기하학적 최적화 학습: 기하학적 풍부성 및 등방성을 명시적으로 최적화하는 학습 방법 개발
생물학적 감독 학습: 생물학적 사전 지식 기반의 대조 사전학습
등방성 정규화: 학습 과정 중 등방성을 촉진하는 정규화 추가
기능 제약 임베딩: 온톨로지 또는 구조 데이터 기반의 기능 임베딩 제약

심층 평가

장점

개척적 연구: 단백질 언어모델의 기하학적 특성을 최초로 체계적으로 분석하여 중요한 연구 공백 해소
방법의 과학성: 다양한 상호보완적인 등방성 측정 방법 채택으로 결과의 신뢰성 확보
높은 실용적 가치: 모델 압축 및 차원 축소에 대한 이론적 근거 제공
다중모달 통찰: 다중모달 학습이 표현 품질 개선에 중요함을 입증
포괄적 분석: 전역에서 국소, 등방성에서 생물학적 관련성까지의 전방위 분석

부족한 점

설명 메커니즘 부재: 다중모달 학습이 등방성을 향상시키는 이유에 대한 깊이 있는 설명 부족
하위 작업 검증 부족: 등방성 개선이 구체적인 생물학적 작업 성능에 미치는 영향 검증 부족
모델 커버리지 제한: 더 많은 최신 단백질 언어모델 미포함
최적화 방안 부재: 문제를 발견했지만 구체적인 개선 방안 미제시

영향력

이론적 기여: 단백질 언어모델의 이론적 이해에 중요한 기초 제공
방법론적 가치: 단백질 임베딩 공간 분석의 표준 방법 수립
공학적 지도: 모델 설계 및 최적화에 명확한 방향 제시
학제 간 의의: 방법을 다른 생물 서열 분석 영역으로 확대 가능

적용 시나리오

모델 설계: 새로운 단백질 언어모델 아키텍처 설계 지도
모델 압축: 대규모 단백질 모델의 압축 및 가속화에 대한 이론적 근거 제공
생성 모델: 단백질 설계 및 공학에 더 나은 표현 학습 기초 제공
다중모달 융합: 단백질 다중모달 모델 설계 지도

참고문헌

Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations?
Rudman, W. et al. (2022). IsoScore: Measuring the uniformity of embedding space utilization
Elnaggar, A. et al. (2022). ProtTrans: Toward Understanding the Language of Life
Brandes, N. et al. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function

본 보고서는 논문 PDF 문서의 완전한 읽기 및 분석을 기반으로 하며, 연구의 기술적 세부사항, 실험 결과 및 학술적 기여를 객관적으로 제시하여 관련 연구자에게 포괄적인 참고자료를 제공합니다.