2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard: エッジ展開におけるLLMの基礎能力の模型窃取に対する保護

基本情報

論文ID: 2410.13903
タイトル: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
著者: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
分類: cs.CR (暗号化とセキュリティ), cs.AI (人工知能), cs.DC (分散コンピューティング)
発表時期/会議: 第39回ニューラル情報処理システム会議 (NeurIPS 2025)
論文リンク: https://arxiv.org/abs/2410.13903

要約

専有大規模言語モデル(LLM)は多様なタスクにおいて強力な汎化能力を示しており、効率性とプライバシーの考慮から、ますますエッジデバイスに展開されています。しかし、適切な保護がない状態で専有LLMをエッジに展開することは、深刻なセキュリティ脅威をもたらします。攻撃者はモデルの重みとアーキテクチャを抽出し、不正な複製と悪用を実現できます。完全なモデル重み抽出を防ぐ保護措置があっても、攻撃者は依然として高度な攻撃(ファインチューニングなど)を実行してモデルをさらに悪用する可能性があります。既存の防御方案は通常、計算と通信の大きなオーバーヘッドを生じさせ、エッジ展開では実用的ではありません。エッジ展開LLMを保護するため、本論文はCoreGuardを提案します。これは計算と通信の効率性に優れた保護方法です。CoreGuardは効率的な保護プロトコルにより計算オーバーヘッドを削減し、伝播プロトコルにより通信オーバーヘッドを最小化します。大規模な実験により、CoreGuardは無視できるオーバーヘッドで上界のセキュリティ保護を実現することが示されています。

研究背景と動機

問題定義

中核的問題: エッジ展開の専有LLMは模型窃取の脅威に直面しており、攻撃者はソフトウェア分析技術を通じてモデルアーキテクチャと重みを抽出し、不正な複製と悪用をもたらします。
問題の重要性:
- 専有LLM(ChatGPT、Claudeなど)は強力な汎化能力を持ち、開発コストが巨大である
- エッジ展開の傾向が明白である(例:Apple Intelligenceが3Bパラメータ LLMをiOSデバイスに統合)
- 特定領域の専有LLM(金融分野のBloombergGPT、医療分野のMed-PaLM 2など)はオープンソース代替品が不足している
既存方法の限界:
- 受動的保護(透かしなど):所有権証明のみを提供し、無監視のエッジ環境での悪用を防止できない
- モデル暗号化:実行時に依然として攻撃に脆弱である
- TEE直接保護:モデル全体を信頼実行環境に配置すると、約50倍の効率低下をもたらす
- 部分パラメータTEE実行(PPTE):保護できるパラメータ数が限定され、再構成されやすい
- パラメータシャッフル保護(PSP)などは過度なデータ転送オーバーヘッドが存在する
研究動機: 十分なセキュリティを保証しながら、許容可能な計算と通信オーバーヘッドを維持するソリューションが必要です。

核心的貢献

エッジ展開LLMの基礎能力保護への初の取り組み:このシナリオにおけるセキュリティ課題を体系的に特性化し、エッジ展開LLMを保護するための要件を明確にしました。
CoreGuardプラグアンドプレイソリューションの提案:軽量な認可メカニズムを利用してエッジ展開LLMを保護し、伝播プロトコルを採用して転送オーバーヘッドを大幅に削減しながら、低い計算オーバーヘッドを維持します。
包括的な実験検証:既存ソリューションと比較して、CoreGuardはより高いセキュリティ保証、より低いオーバーヘッド、精度損失なしを提供します。

方法の詳細説明

タスク定義

入力: 訓練済みLLMモデル出力: ロックされたモデル。デバイス内の信頼できるハードウェア(TEE)による適切な認可を通じてのみ正常に機能します制約: 計算と通信のオーバーヘッドを最小化し、モデル精度を維持する

モデルアーキテクチャ

CoreGuardの操作は2つのステージに分かれています:

1. モデルロックステージ(展開前)

保護プロトコル(Protection Protocol):

線形層の重み行列に対して行置換を実行: $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
これらの行置換は「ロック」として機能し、線形層を無効にします。対応する列置換入力(認可)があってのみ正常に計算できます
置換行列 $\pi \in \{0,1\}^{d \times d}$ は $\pi\pi^T = I$ を満たします