2025-11-19T14:37:13.961956

SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information

Zhou, Wang, Xu

In the training of large language models, parameter-efficient techniques such as LoRA optimize memory usage and reduce communication overhead and memory usage during the fine-tuning phase. However, applying such techniques directly during the pre-training phase results in poor performance, primarily because the premature implementation of low-rank training significantly reduces model accuracy. Existing methods like ReLoRA and GaLore have attempted to address this challenge by updating the low-rank subspace. However, they still fall short of achieving the accuracy of full-rank training. Specifically, ReLoRA restricts the frequency of updates to preserve optimizer states consistency, hindering its ability to closely approximate full-rank training behavior. Meanwhile, GaLore relies on Singular Value Decomposition (SVD) to approximate the full-rank space, which introduces accuracy loss during the approximation process. In this paper, we introduce SwitchLoRA, a parameter-efficient training technique that frequently and smoothly replaces the trainable parameters of LoRA adapters with alternative parameters. SwitchLoRA updates the low-rank subspace incrementally, targeting only a few dimensions at a time to minimize the impact on optimizer states. This allows a higher update frequency, thereby enhancing accuracy by enabling the updated parameters to more closely mimic full-rank behavior during the pre-training phase. Our results demonstrate that SwitchLoRA actually surpasses full-rank training, reducing perplexity from 15.23 to 15.01 on the LLaMA 1.3B model, while also cutting communication overhead by 54\% and memory usage by 13\%. Furthermore, after full fine-tuning the SwitchLoRA pre-trained model and the full-rank pre-trained model on the GLUE benchmark, the SwitchLoRA pre-trained model showed an average accuracy gain of about 1\% over the full-rank pre-trained model.

academic

SwitchLoRA: 전환된 저순위 적응이 전체 순위 정보를 학습할 수 있음

기본 정보

논문 ID: 2406.06564v3
제목: SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information
저자: Kaiye Zhou, Shucheng Wang, Jun Xu (China Mobile (Suzhou) Software Technology Co. Ltd.)
분류: cs.LG, cs.AI, cs.CL
발표 시간: 2025년 1월 2일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2406.06564v3

초록

본 논문은 대규모 언어 모델 사전학습 단계에서의 매개변수 효율적 학습 문제를 해결하기 위해 SwitchLoRA 방법을 제안합니다. LoRA와 같은 전통적인 저순위 적응 기술은 미세조정 단계에서 우수한 성능을 보이지만, 사전학습에 직접 적용하면 성능이 크게 저하됩니다. 기존의 ReLoRA와 GaLore 방법은 저순위 부분공간을 업데이트하여 이 문제를 해결하려고 시도했지만, 여전히 전체 순위 학습의 정확도에 미치지 못합니다. SwitchLoRA는 LoRA 어댑터의 학습 가능한 매개변수를 빈번하고 부드럽게 교체하여 저순위 부분공간을 점진적으로 업데이트하며, 매번 소수의 차원만 대상으로 하여 옵티마이저 상태에 미치는 영향을 최소화합니다. 실험 결과는 SwitchLoRA가 LLaMA 1.3B 모델에서 혼란도를 15.23에서 15.01로 감소시켜 전체 순위 학습을 초과하면서 동시에 통신 오버헤드를 54%, 메모리 사용량을 13% 감소시켰음을 보여줍니다.

연구 배경 및 동기

핵심 문제

Transformer 아키텍처의 부상으로 대규모 언어 모델의 규모가 급격히 증가하면서, 조 단위 모델의 분산 학습은 노드 간 통신 오버헤드의 거대한 문제에 직면하고 있습니다. LoRA와 같은 매개변수 효율적 기술이 미세조정 단계에서 우수한 성능을 보이지만, 사전학습 단계에 직접 적용하면 성능이 크게 저하됩니다.

기존 방법의 한계

ReLoRA: 옵티마이저 상태 일관성을 유지하기 위해 업데이트 빈도를 제한하여 전체 순위 학습 행동을 충분히 근사할 수 없음
GaLore: SVD를 사용하여 전체 순위 공간을 근사하므로 근사 과정에서 정확도 손실 발생

연구 동기

신경망은 학습 초기에 전체 순위 특성을 나타내며, 학습이 진행됨에 따라 내부 순위가 점진적으로 감소합니다. 따라서 사전학습 단계에서 많은 매개변수를 학습하면서 동시에 메모리 사용량과 통신 오버헤드를 줄이기 위해 일부 매개변수를 선택적으로 업데이트할 수 있는 방법이 필요합니다.

핵심 기여

SwitchLoRA 방법 제안: LoRA 행렬의 학습 가능한 매개변수를 빈번하고 부드럽게 조정하여 전체 순위 학습 정확도를 유지하면서 메모리 사용량과 통신 오버헤드를 감소
옵티마이저 상태 관리 전략: 매개변수 전환 시 옵티마이저 상태 재설정 및 임시 동결 메커니즘을 설계하여 상태 불일치의 영향 감소
개선된 초기화 규칙: LoRA 어댑터 매개변수 및 후보 벡터에 대한 새로운 초기화 전략 제공으로 학습 효율성 향상
포괄적인 실험 검증: 다양한 규모의 LLaMA 모델에서 방법의 유효성을 검증하고 GLUE 벤치마크 테스트를 통해 추론 능력 검증

방법 상세 설명

작업 정의

사전학습된 모델의 가중치 행렬 $W \in \mathbb{R}^{m \times n}$ 이 주어졌을 때, 전통적인 LoRA는 이를 $W + \frac{\alpha}{r}BA$ 로 변환합니다. 여기서 $B \in \mathbb{R}^{m \times r}$ , $A \in \mathbb{R}^{r \times n}$ , $r \ll \min(m,n)$ 입니다. SwitchLoRA는 이를 기반으로 B와 A의 벡터를 동적으로 전환하여 유효 순위를 증가시킵니다.

모델 아키텍처

핵심 전환 메커니즘

벡터 분해: 행렬 B를 열 벡터 $b_k \in \mathbb{R}^{m \times 1}$ 로 분해하고, 행렬 A를 행 벡터 $a_k^T \in \mathbb{R}^{1 \times n}$ 로 분해
후보 벡터 집합: 후보 벡터 집합 $C(B)$ 와 $C(A^T)$ 를 유지하며, $\min(m,n)$ 개의 벡터 포함
동적 교체: 학습 단계에서 $b_k$ 와 $a_k$ 를 후보 벡터 $b_k' \in C(B)$ 와 $a_k' \in C(A^T)$ 로 교체

가중치 조정 전략

벡터가 교체될 때 해당 가중치 행렬을 조정합니다: $W \leftarrow W + b_k a_k^T - b_k' a_k'^T$

전환 빈도 설계

지수 감소 함수를 사용합니다: $frequency = Ce^{-\theta \cdot step}$ . 이는 모델이 전체 순위에서 저순위로의 자연스러운 진화 과정을 반영합니다.

기술 혁신 포인트

1. 옵티마이저 상태 영향 최소화

$a_k$ 가 전환될 때 $b_k$ 의 옵티마이저 상태 재설정
$b_k$ 가 전환될 때 $a_k$ 의 옵티마이저 상태 재설정
재설정 후 해당 매개변수를 N단계(N=5) 동안 임시 동결

2. 개선된 초기화 전략

Xavier 및 Kaiming 초기화 아이디어를 기반으로 새로운 표준편차를 설계합니다: $std[B] = std[b] = \left(\frac{r}{\sqrt{mn}}\right)^{\frac{1}{4}} gain^{\frac{1}{2}}$ $std[A] = std[a] = \left(\frac{\sqrt{mr}}{\sqrt{nn}}\right)^{\frac{1}{4}} gain^{\frac{1}{2}}$

3. 메모리 최적화

예비 후보 벡터를 CPU로 오프로드하고 비블로킹 전송을 사용하여 전환 과정을 병렬로 처리합니다.

실험 설정

데이터셋

사전학습: C4 데이터셋, 처음 46M 학습 샘플 및 전체 검증 세트 사용
평가: 1000단계마다 10M 토큰에서 검증 손실 평가
미세조정: GLUE 벤치마크의 여러 작업

모델 구성

실험은 다양한 LLaMA 모델 규모를 포함합니다:

130M (768차원, 12헤드, 12층)
250M (768차원, 16헤드, 24층)
350M (1024차원, 16헤드, 24층)
1.3B (2048차원, 32헤드, 24층)

평가 지표

사전학습: 혼란도(Perplexity)
미세조정: 정확도, 피어슨 상관계수, 매튜스 상관계수

비교 방법

전체 순위 학습
표준 LoRA
ReLoRA
GaLore

구현 세부사항

옵티마이저: Adam (β₁=0.9, β₂=0.999)
학습률 스케줄: 코사인 어닐링, 100단계 워밍업
총 학습 단계: 40,000단계
하드웨어: 8×NVIDIA A800 80GB PCIe GPU

실험 결과

주요 결과

사전학습 성능 비교

1.3B 모델에서의 혼란도 결과:

전체 순위: 15.23
SwitchLoRA (rank=512): 15.01 (전체 순위 학습 초과)
SwitchLoRA (rank=256): 15.89

자원 소비 비교

1.3B 모델을 예로 들면:

메모리 사용량: 전체 순위 학습 대비 13% 감소 (36.1GB → 31.9GB)
통신 오버헤드: 54% 감소 (학습 가능한 매개변수 1339M에서 610M으로 감소)
학습 시간: 기본적으로 동일 (21.6s vs 22.5s)

기존 방법과의 비교

vs ReLoRA

250M 모델에서 ReLoRA가 5000단계의 전체 순위 사전학습을 사용하는 동안 SwitchLoRA는 200단계만 사용해도 여전히 더 나은 성능을 보입니다. 동일한 1000단계 전체 순위 사전학습 조건에서 SwitchLoRA는 ReLoRA보다 훨씬 우수합니다.

vs GaLore

350M 모델에서:

GaLore: 20.29 혼란도
SwitchLoRA: 19.58 혼란도

더 낮은 순위 설정에서 SwitchLoRA의 장점이 더욱 명확하며, 모든 업데이트 방향을 포함하는 것의 중요성을 증명합니다.

소거 실험

전환 빈도의 영향

실험은 초기 빈도와 감소율 모두 적절한 값으로 설정해야 함을 보여줍니다. 너무 높거나 너무 낮으면 성능이 저하됩니다.

동결 단계 수의 영향

동결 단계 수 N의 선택은 학습 효과에 영향을 미치며, N=5가 최적 설정입니다.

초기화 전략 검증

새로운 초기화 방법은 기존 LoRA 초기화 대비 수렴 속도를 크게 향상시킵니다.

추론 능력 검증

GLUE 벤치마크 테스트 결과

350M 모델에서:

SwitchLoRA 사전학습 모델은 GaLore 사전학습 모델보다 평균 3.0점 높음
전체 순위 사전학습 모델보다 평균 0.3점 높음

1.3B 모델에서:

SwitchLoRA 사전학습 모델은 전체 순위 사전학습 모델보다 평균 약 1.0점 높음

실험 발견

순위 분포 분석: SwitchLoRA의 특이값 분포는 전체 순위 학습에 더 가깝고, 표준 LoRA는 병적인 분포를 보임
규모 효과: 모델 규모가 증가함에 따라 SwitchLoRA의 표준 LoRA 대비 장점이 더욱 명확함
일반화 능력: SwitchLoRA로 사전학습된 모델은 다운스트림 작업에서 더 강한 추론 및 일반화 능력을 보임

결론 및 논의

주요 결론

성능 돌파: SwitchLoRA는 사전학습 단계에서 전체 순위 학습을 초과하는 성능을 처음으로 달성
자원 효율성: 메모리 사용량과 통신 오버헤드를 크게 감소시키면서 유사한 학습 시간 유지
일반화 향상: 사전학습된 모델은 다운스트림 작업에서 더 강한 추론 능력을 보임

한계

초매개변수 민감성: 전환 빈도 등의 초매개변수는 신중한 조정이 필요
순위 선택: 전체 순위 학습의 정확도에 도달하기 위해 여전히 큰 LoRA 순위 필요
후보 벡터 선택: 현재 무작위 또는 순차 선택을 사용하며 최적화 여지 가능

향후 방향

적응형 빈도: 더 지능형 전환 빈도 조정 전략 개발
계층 최적화: 다양한 유형의 계층(Q, K, V 행렬)에 대한 차별화된 전환 전략 설계
후보 벡터 최적화: 더 효과적인 후보 벡터 선택 및 업데이트 전략 연구

심층 평가

장점

이론적 혁신: 저순위 부분공간의 점진적 업데이트에 대한 새로운 아이디어를 제안하여 사전학습 단계의 저순위 학습 문제를 효과적으로 해결
공학적 구현: 옵티마이저 상태 관리, 메모리 최적화 등 실제 문제를 상세히 고려하여 매우 실용적
충분한 실험: 사전학습 성능, 자원 소비, 추론 능력 등 다양한 각도에서 방법의 유효성 검증
이론적 분석: 벡터 업데이트 독립성, 옵티마이저 상태 재설정의 합리성 등에 대한 이론적 설명 제공

부족한 점

복잡도 증가: 표준 LoRA 대비 구현 복잡도 증가로 추가 후보 벡터 관리 필요
초매개변수 조정: 전환 빈도, 감소율, 동결 단계 수 등 여러 초매개변수의 신중한 조정 필요
규모 검증: 다양한 모델 규모를 테스트했지만 최대 7B까지만 진행되어 더 큰 모델에 대한 적용성 미검증
이론적 완전성: 일부 이론적 분석을 제공하지만 전체 순위 학습을 초과하는 이유에 대한 심층적 이론적 설명 부족

영향력

학술적 가치: 사전학습 단계의 매개변수 효율적 학습을 위한 새로운 해결책을 제시하여 관련 연구에 영감을 줄 수 있음
실용적 가치: 성능을 유지하면서 자원 소비를 크게 감소시켜 실제 대규모 모델 학습에 중요한 의미
재현성: 상세한 구현 세부사항과 초매개변수 설정을 제공하여 재현 및 적용 용이

적용 시나리오

대규모 모델 사전학습: 특히 자원이 제한되지만 고품질 사전학습이 필요한 시나리오에 적합
분산 학습: 다중 노드 학습에서 통신 오버헤드를 크게 감소시킬 수 있음
점진적 학습: 사전학습 기반에서 계속 학습이 필요한 시나리오에 적용 가능

참고문헌

논문은 다양한 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

Hu et al. 2022: LoRA 원본 논문
Lialin et al. 2023: ReLoRA 방법
Zhao et al. 2024: GaLore 방법
Vaswani et al. 2017: Transformer 아키텍처
Rajbhandari et al. 2020: ZeRO 옵티마이저

종합 평가: 이는 이론적 혁신, 실험 검증, 실용적 가치 측면에서 모두 우수한 고품질 연구 논문입니다. SwitchLoRA 방법은 사전학습 단계의 저순위 학습 문제를 영리하게 해결하여 학습 효과를 유지할 뿐만 아니라 자원을 크게 절감합니다. 일부 한계가 있지만, 그 기여도는 이 분야의 발전을 추진하기에 충분합니다.