Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
- 논문 ID: 2410.13903
- 제목: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
- 저자: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
- 분류: cs.CR (암호화 및 보안), cs.AI (인공지능), cs.DC (분산 컴퓨팅)
- 발표 시간/학회: 제39회 신경정보처리시스템 학회 (NeurIPS 2025)
- 논문 링크: https://arxiv.org/abs/2410.13903
독점 대규모 언어모델(LLMs)은 다양한 작업에서 강력한 일반화 능력을 보여주며, 효율성과 개인정보 보호를 고려하여 엣지 디바이스에 점점 더 많이 배포되고 있습니다. 그러나 충분한 보호 없이 엣지에 배포된 독점 LLMs는 심각한 보안 위협을 야기합니다. 공격자는 모델 가중치와 아키텍처를 추출하여 무단 복제 및 오용을 실현할 수 있습니다. 완전한 모델 가중치 추출을 방지하는 보호 조치가 있더라도, 공격자는 여전히 고급 공격(예: 미세 조정)을 수행하여 모델을 추가로 악용할 수 있습니다. 기존 방어 방안은 일반적으로 상당한 계산 및 통신 오버헤드를 발생시켜 엣지 배포에 부적절합니다. 엣지에 배포된 LLMs를 보호하기 위해, 본 논문은 계산 및 통신 효율이 높은 보호 방법인 CoreGuard를 제안합니다. CoreGuard는 효율적인 보호 프로토콜을 채택하여 계산 오버헤드를 감소시키고, 전파 프로토콜을 통해 통신 오버헤드를 최소화합니다. 광범위한 실험은 CoreGuard가 무시할 수 있는 오버헤드 하에서 상한 보안 보호를 달성함을 보여줍니다.
- 핵심 문제: 엣지에 배포된 독점 LLMs는 모델 도용 위협에 직면하고 있으며, 공격자는 소프트웨어 분석 기술을 통해 모델 아키텍처와 가중치를 추출하여 무단 복제 및 오용을 초래할 수 있습니다.
- 문제의 중요성:
- 독점 LLMs(예: ChatGPT, Claude)는 강력한 일반화 능력을 가지며 개발 비용이 막대합니다
- 엣지 배포 추세가 명확합니다(예: Apple Intelligence가 3B 파라미터 LLM을 iOS 디바이스에 통합)
- 특정 도메인의 독점 LLMs(예: 금융 분야의 BloombergGPT, 의료 분야의 Med-PaLM 2)는 오픈소스 대체품이 부족합니다
- 기존 방법의 한계:
- 수동적 보호(예: 워터마킹): 소유권 증명만 제공하며, 무감시 엣지 환경에서의 오용을 방지할 수 없습니다
- 모델 암호화: 실행 시간에 여전히 공격에 취약합니다
- TEE 직접 보호: 전체 모델을 신뢰할 수 있는 실행 환경(TEE)에 배치하면 약 50배의 효율 저하를 초래합니다
- 부분 파라미터 TEE 실행(PPTE): 제한된 수의 가중치만 보호하며, 쉽게 재구성될 수 있습니다
- 파라미터 셔플 보호(PSP): ShadowNet과 같은 방법은 과도한 데이터 전송 오버헤드가 존재합니다
- 연구 동기: 충분한 보안성을 보장하면서 동시에 수용 가능한 계산 및 통신 오버헤드를 유지하는 솔루션이 필요합니다.
- 엣지 배포 LLMs의 기초 능력 보호에 대한 최초 연구: 이 시나리오에서의 보안 과제를 체계적으로 특성화하고, 엣지 배포 LLMs 보호의 요구사항을 파악합니다.
- CoreGuard 플러그 앤 플레이 솔루션 제안: 경량 인증 메커니즘을 활용하여 엣지 배포 LLMs를 보호하고, 전파 프로토콜을 통해 전송 오버헤드를 크게 감소시키면서 낮은 계산 오버헤드를 유지합니다.
- 포괄적인 실험 검증: 기존 솔루션과 비교하여 CoreGuard는 더 높은 보안 보장, 더 낮은 오버헤드 및 정확도 손실이 없음을 제공합니다.
입력: 훈련된 LLM 모델
출력: 잠금된 모델로, 디바이스 내 신뢰할 수 있는 하드웨어(TEE)를 통한 적절한 인증으로만 정상 작동
제약 조건: 계산 및 통신 오버헤드 최소화, 모델 정확도 유지
CoreGuard 작동은 두 가지 단계로 나뉩니다:
보호 프로토콜(Protection Protocol):
- 선형 계층의 가중치 행렬에 대해 행 순열을 수행: Wq′=πTWq,Wk′=πTWk,Wv′=πTWv,Wm′=πTWm
- 이러한 행 순열은 "잠금"으로 작용하여 선형 계층을 비활성화하며, 해당하는 열 순열 입력(인증)을 통해서만 정상 계산이 가능합니다
- 순열 행렬 π∈{0,1}d×d는 ππT=I를 만족합니다
전파 프로토콜(Propagation Protocol):
- 출력 처리 계층에 대해 열 순열을 수행: Wo′=Woπ,Wn′=Wnπ
- 네트워크 자체의 작동을 통해 특성의 열 순열을 실현하여 자동 인증 효과를 달성합니다
- TEE는 초기 인증만 관리하면 되며, 인증은 모든 후속 계층으로 전파됩니다
암호화 프로세스:
m′=mπ+pπ
여기서 p는 일회용 패드(OTP) 노이즈이고, m′는 암호화된 순열 특성입니다.
출력 선형 계층 처리:
n′=m′Wn′=(mπ+pπ)πTWn+bn=n+pWn
복호화 및 인증:
n′′=n′−pWn=nz′=(γ2⊙σy+nn+y−μy+n+β2)π=zπ
- 단일 인증 전파 메커니즘: 정교한 순열 설계를 통해 네트워크 전체에서 인증의 자동 전파를 실현하여 각 계층마다 TEE 인증이 필요한 것을 회피합니다.
- OTP 암호화와 위치 혼동 결합: 일회용 패드 암호화를 사용하고 순열과 결합하여 암호화 및 복호화 프로세스를 숨깁니다.
- 최적 통신 복잡도: 각 추론마다 5라운드의 TEE-GPU 전송만 필요하여 이론적 최적값을 달성합니다.
- 수학적 보안 보장: Learning With Errors (LWE) 문제의 NP 난해성 가정을 기반으로 보안 증명을 제공합니다.
- GSM8k: 수학 추론 작업
- Spider: 코드 생성 작업
- PubMedQA: 의료 질의응답 작업
- SQuAD: 독해 이해 작업
- 엣지 배포 모델: Qwen2-0.5B-Instruct, Gemma2-2B-it
- 대형 모델: ChatGLM3-6B-32k, LLaMA3-8B-Instruct
- 보안성: 모델 도용 공격의 정확도(낮을수록 안전)
- 효율성: 부동소수점 연산 수(FLOPs), TEE-GPU 전송 오버헤드
- 정확성: 작업별 정확도
- TPTE: NPLO
- PPTE: DarkneTZ, SOTER, Serdab, DTE
- PSP: ShadowNet, TransLinkGuard(TLG)
- 경계: No-shield(하한), Black-box(상한)
- Hugging Face 라이브러리를 사용하여 구현
- AdamW 최적화기, 선형 학습률 스케줄
- NVIDIA A800 GPU에서 실험 수행
- 공격자가 100% 훈련 데이터셋을 소유한다고 가정(이전 연구의 1%보다 더 엄격함)
보안성 평가:
- 무단 추론 정확도: 모든 경우에 0%
- 모델 도용 공격: CoreGuard의 상대 정확도는 1.17×(Black-box의 1.00×에 가까움)
- TPTE 방법 NPLO(9.59×)와 PPTE 방법 DarkneTZ(8.43×)보다 현저히 우수
- 다른 PSP 방법(TLG: 1.07×, ShadowNet: 1.09×)과 유사한 성능
효율성 비교:
- TEE 실행 오버헤드: CoreGuard < 1.17e-03%, PPTE 방법 2.91%-21.52%
- TEE-GPU 전송 오버헤드: CoreGuard는 5라운드만 필요하지만, ShadowNet은 448라운드 필요(LLaMA3-8B)
- 전송 데이터량: CoreGuard 약 20KB, ShadowNet 약 1.3GB
다양한 공격 설정 하의 보안성:
- LoRA 미세 조정 공격: CoreGuard는 상한에 가까운 보안성 유지
- 다양한 데이터 비율(1%-100%): 모든 설정에서 Black-box 보호에 가까움
- 작업 정렬성: 공격자의 목표 작업이 배포 모델의 작업과 정렬되는지 여부와 관계없이 보안성 유지
인증 위치의 영향:
- 중간 위치 인증이 최고의 보안성 제공
- 처음과 끝 위치 인증은 보안성이 낮음(공격자가 소수의 파라미터만 복구하면 되기 때문)
- 대부분의 경우 보호된 모델의 정확도는 원본 모델과 동일
- 개별 경우에 ±0.5%의 미소한 변동이 있으며, 이는 부동소수점 정밀도 제한에 기인합니다
- 모델 보호 방법:
- 워터마킹 기술: 수동적 보호로 소유권 증명만 제공
- 모델 암호화: 실행 시간에 공격에 취약
- TEE 보호: 직접 보호로 계산 오버헤드가 과도
- 파라미터 셔플 보호:
- ShadowNet: 합성곱 계층 채널 셔플 보호
- TransLinkGuard: Transformer 모델 보호
- 신뢰할 수 있는 실행 환경 응용:
- CPU 기반 TEE: ARM TrustZone, Intel SGX
- GPU TEE: 초기 단계이며, 주로 데이터 센터 대상
기존 연구와 비교하여 CoreGuard는 동일한 보안 수준을 유지하면서 특히 통신 오버헤드 측면에서 수량급의 효율 향상을 달성합니다.
- CoreGuard는 엣지 배포 LLMs의 보안 보호 문제를 성공적으로 해결합니다
- 전파 프로토콜을 통해 최적의 통신 복잡도를 실현합니다
- 상한 보안성을 보장하면서 무시할 수 있는 계산 및 통신 오버헤드를 달성합니다
- 모델의 원본 정확도를 유지합니다
- 측면 채널 공격: TEE를 보안 근원으로 의존하며, 측면 채널 공격 위협에 노출될 수 있습니다
- GPU TEE 제한: 현재 주로 CPU 기반 TEE에 의존하며, GPU TEE는 아직 미성숙합니다
- 실제 배포: 논문은 핵심 프레임워크에 초점을 맞추며, 디바이스 특정 구현 세부사항을 깊이 있게 다루지 않습니다
- 아키텍처 호환성: 주로 주류 Transformer 아키텍처를 위해 설계되었습니다
- 측면 채널 공격 방어 조치 통합
- GPU TEE 기술 발전에 적응
- 더 많은 모델 아키텍처로 확장
- 실제 디바이스 배포 최적화
- 혁신성 강함: 엣지 배포 LLMs의 기초 능력 보호 문제를 최초로 체계적으로 해결
- 기술 정교함: 전파 프로토콜 설계가 정교하여 단일 인증으로 전체 네트워크 커버 실현
- 이론 견고함: LWE 문제를 기반으로 수학적 보안 보장 제공
- 실험 충분함: 다중 모델, 다중 작업, 다중 공격 시나리오의 포괄적 평가
- 실용 가치 높음: 현저한 효율 향상으로 실제 배포에서 실현 가능
- 보안 가정: TEE의 보안성에 의존하며, 측면 채널 공격 앞에서 취약할 수 있습니다
- 적용 범위: 주로 Transformer 아키텍처를 대상으로 하며, 다른 아키텍처에 대한 적용성이 제한적입니다
- 배포 복잡성: 실제 배포는 더 많은 하드웨어 및 시스템 수준의 요소를 고려해야 합니다
- 장기 보안성: 공격 기술 발전에 따라 현재 보호 조치의 지속적 유효성 검증이 필요합니다
- 학술 기여: 엣지 AI 보안 분야에 새로운 연구 방향과 해결 사고 제공
- 실용 가치: 상용 LLM 엣지 배포에 중요한 지도 의미 제공
- 기술 추진: TEE 기술의 AI 보호 분야 추가 발전을 촉진할 수 있음
- 독점 LLMs의 엣지 디바이스 배포
- 지연 및 개인정보 보호에 민감한 AI 응용
- 지적 재산권 보호가 필요한 상용 AI 서비스
- 리소스 제약 환경에서의 모델 보호
논문은 모델 보호, 신뢰할 수 있는 실행 환경, 대규모 언어모델 등 여러 분야의 중요한 연구를 포함하는 52개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초와 기술 지원을 제공합니다.
종합 평가: CoreGuard는 기술 혁신, 실험 검증 및 실용 가치 측면에서 모두 우수한 성과를 보여주는 고품질 연구 작업입니다. 본 연구는 중요한 실제 문제를 해결할 뿐만 아니라 관련 분야의 후속 연구에 가치 있는 사고와 방법을 제공합니다.