2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard: 엣지 배포 환경에서 대규모 언어모델의 기초 능력 보호 - 모델 도용 방지

기본 정보

논문 ID: 2410.13903
제목: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
저자: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
분류: cs.CR (암호화 및 보안), cs.AI (인공지능), cs.DC (분산 컴퓨팅)
발표 시간/학회: 제39회 신경정보처리시스템 학회 (NeurIPS 2025)
논문 링크: https://arxiv.org/abs/2410.13903

초록

독점 대규모 언어모델(LLMs)은 다양한 작업에서 강력한 일반화 능력을 보여주며, 효율성과 개인정보 보호를 고려하여 엣지 디바이스에 점점 더 많이 배포되고 있습니다. 그러나 충분한 보호 없이 엣지에 배포된 독점 LLMs는 심각한 보안 위협을 야기합니다. 공격자는 모델 가중치와 아키텍처를 추출하여 무단 복제 및 오용을 실현할 수 있습니다. 완전한 모델 가중치 추출을 방지하는 보호 조치가 있더라도, 공격자는 여전히 고급 공격(예: 미세 조정)을 수행하여 모델을 추가로 악용할 수 있습니다. 기존 방어 방안은 일반적으로 상당한 계산 및 통신 오버헤드를 발생시켜 엣지 배포에 부적절합니다. 엣지에 배포된 LLMs를 보호하기 위해, 본 논문은 계산 및 통신 효율이 높은 보호 방법인 CoreGuard를 제안합니다. CoreGuard는 효율적인 보호 프로토콜을 채택하여 계산 오버헤드를 감소시키고, 전파 프로토콜을 통해 통신 오버헤드를 최소화합니다. 광범위한 실험은 CoreGuard가 무시할 수 있는 오버헤드 하에서 상한 보안 보호를 달성함을 보여줍니다.

연구 배경 및 동기

문제 정의

핵심 문제: 엣지에 배포된 독점 LLMs는 모델 도용 위협에 직면하고 있으며, 공격자는 소프트웨어 분석 기술을 통해 모델 아키텍처와 가중치를 추출하여 무단 복제 및 오용을 초래할 수 있습니다.
문제의 중요성:
- 독점 LLMs(예: ChatGPT, Claude)는 강력한 일반화 능력을 가지며 개발 비용이 막대합니다
- 엣지 배포 추세가 명확합니다(예: Apple Intelligence가 3B 파라미터 LLM을 iOS 디바이스에 통합)
- 특정 도메인의 독점 LLMs(예: 금융 분야의 BloombergGPT, 의료 분야의 Med-PaLM 2)는 오픈소스 대체품이 부족합니다
기존 방법의 한계:
- 수동적 보호(예: 워터마킹): 소유권 증명만 제공하며, 무감시 엣지 환경에서의 오용을 방지할 수 없습니다
- 모델 암호화: 실행 시간에 여전히 공격에 취약합니다
- TEE 직접 보호: 전체 모델을 신뢰할 수 있는 실행 환경(TEE)에 배치하면 약 50배의 효율 저하를 초래합니다
- 부분 파라미터 TEE 실행(PPTE): 제한된 수의 가중치만 보호하며, 쉽게 재구성될 수 있습니다
- 파라미터 셔플 보호(PSP): ShadowNet과 같은 방법은 과도한 데이터 전송 오버헤드가 존재합니다
연구 동기: 충분한 보안성을 보장하면서 동시에 수용 가능한 계산 및 통신 오버헤드를 유지하는 솔루션이 필요합니다.

핵심 기여

엣지 배포 LLMs의 기초 능력 보호에 대한 최초 연구: 이 시나리오에서의 보안 과제를 체계적으로 특성화하고, 엣지 배포 LLMs 보호의 요구사항을 파악합니다.
CoreGuard 플러그 앤 플레이 솔루션 제안: 경량 인증 메커니즘을 활용하여 엣지 배포 LLMs를 보호하고, 전파 프로토콜을 통해 전송 오버헤드를 크게 감소시키면서 낮은 계산 오버헤드를 유지합니다.
포괄적인 실험 검증: 기존 솔루션과 비교하여 CoreGuard는 더 높은 보안 보장, 더 낮은 오버헤드 및 정확도 손실이 없음을 제공합니다.

방법 상세 설명

작업 정의

입력: 훈련된 LLM 모델 출력: 잠금된 모델로, 디바이스 내 신뢰할 수 있는 하드웨어(TEE)를 통한 적절한 인증으로만 정상 작동 제약 조건: 계산 및 통신 오버헤드 최소화, 모델 정확도 유지

모델 아키텍처

CoreGuard 작동은 두 가지 단계로 나뉩니다:

1. 모델 잠금 단계(배포 전)

보호 프로토콜(Protection Protocol):

선형 계층의 가중치 행렬에 대해 행 순열을 수행: $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
이러한 행 순열은 "잠금"으로 작용하여 선형 계층을 비활성화하며, 해당하는 열 순열 입력(인증)을 통해서만 정상 계산이 가능합니다
순열 행렬 $\pi \in \{0,1\}^{d \times d}$ 는 $\pi\pi^T = I$ 를 만족합니다

전파 프로토콜(Propagation Protocol):

출력 처리 계층에 대해 열 순열을 수행: $W'_o = W_o\pi, W'_n = W_n\pi$
네트워크 자체의 작동을 통해 특성의 열 순열을 실현하여 자동 인증 효과를 달성합니다
TEE는 초기 인증만 관리하면 되며, 인증은 모든 후속 계층으로 전파됩니다

2. 추론 인증 단계(배포 후)

암호화 프로세스: $m' = m\pi + p\pi$ 여기서 $p$ 는 일회용 패드(OTP) 노이즈이고, $m'$ 는 암호화된 순열 특성입니다.

출력 선형 계층 처리: $n' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n$

복호화 및 인증: $n'' = n' - pW_n = n$ $z' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi$

기술 혁신점

단일 인증 전파 메커니즘: 정교한 순열 설계를 통해 네트워크 전체에서 인증의 자동 전파를 실현하여 각 계층마다 TEE 인증이 필요한 것을 회피합니다.
OTP 암호화와 위치 혼동 결합: 일회용 패드 암호화를 사용하고 순열과 결합하여 암호화 및 복호화 프로세스를 숨깁니다.
최적 통신 복잡도: 각 추론마다 5라운드의 TEE-GPU 전송만 필요하여 이론적 최적값을 달성합니다.
수학적 보안 보장: Learning With Errors (LWE) 문제의 NP 난해성 가정을 기반으로 보안 증명을 제공합니다.