2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.
Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
academic

CoreGuard: エッジ展開におけるLLMの基礎能力の模型窃取に対する保護

基本情報

  • 論文ID: 2410.13903
  • タイトル: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
  • 著者: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
  • 分類: cs.CR (暗号化とセキュリティ), cs.AI (人工知能), cs.DC (分散コンピューティング)
  • 発表時期/会議: 第39回ニューラル情報処理システム会議 (NeurIPS 2025)
  • 論文リンク: https://arxiv.org/abs/2410.13903

要約

専有大規模言語モデル(LLM)は多様なタスクにおいて強力な汎化能力を示しており、効率性とプライバシーの考慮から、ますますエッジデバイスに展開されています。しかし、適切な保護がない状態で専有LLMをエッジに展開することは、深刻なセキュリティ脅威をもたらします。攻撃者はモデルの重みとアーキテクチャを抽出し、不正な複製と悪用を実現できます。完全なモデル重み抽出を防ぐ保護措置があっても、攻撃者は依然として高度な攻撃(ファインチューニングなど)を実行してモデルをさらに悪用する可能性があります。既存の防御方案は通常、計算と通信の大きなオーバーヘッドを生じさせ、エッジ展開では実用的ではありません。エッジ展開LLMを保護するため、本論文はCoreGuardを提案します。これは計算と通信の効率性に優れた保護方法です。CoreGuardは効率的な保護プロトコルにより計算オーバーヘッドを削減し、伝播プロトコルにより通信オーバーヘッドを最小化します。大規模な実験により、CoreGuardは無視できるオーバーヘッドで上界のセキュリティ保護を実現することが示されています。

研究背景と動機

問題定義

  1. 中核的問題: エッジ展開の専有LLMは模型窃取の脅威に直面しており、攻撃者はソフトウェア分析技術を通じてモデルアーキテクチャと重みを抽出し、不正な複製と悪用をもたらします。
  2. 問題の重要性:
    • 専有LLM(ChatGPT、Claudeなど)は強力な汎化能力を持ち、開発コストが巨大である
    • エッジ展開の傾向が明白である(例:Apple Intelligenceが3Bパラメータ LLMをiOSデバイスに統合)
    • 特定領域の専有LLM(金融分野のBloombergGPT、医療分野のMed-PaLM 2など)はオープンソース代替品が不足している
  3. 既存方法の限界:
    • 受動的保護(透かしなど):所有権証明のみを提供し、無監視のエッジ環境での悪用を防止できない
    • モデル暗号化:実行時に依然として攻撃に脆弱である
    • TEE直接保護:モデル全体を信頼実行環境に配置すると、約50倍の効率低下をもたらす
    • 部分パラメータTEE実行(PPTE):保護できるパラメータ数が限定され、再構成されやすい
    • パラメータシャッフル保護(PSP)などは過度なデータ転送オーバーヘッドが存在する
  4. 研究動機: 十分なセキュリティを保証しながら、許容可能な計算と通信オーバーヘッドを維持するソリューションが必要です。

核心的貢献

  1. エッジ展開LLMの基礎能力保護への初の取り組み:このシナリオにおけるセキュリティ課題を体系的に特性化し、エッジ展開LLMを保護するための要件を明確にしました。
  2. CoreGuardプラグアンドプレイソリューションの提案:軽量な認可メカニズムを利用してエッジ展開LLMを保護し、伝播プロトコルを採用して転送オーバーヘッドを大幅に削減しながら、低い計算オーバーヘッドを維持します。
  3. 包括的な実験検証:既存ソリューションと比較して、CoreGuardはより高いセキュリティ保証、より低いオーバーヘッド、精度損失なしを提供します。

方法の詳細説明

タスク定義

入力: 訓練済みLLMモデル 出力: ロックされたモデル。デバイス内の信頼できるハードウェア(TEE)による適切な認可を通じてのみ正常に機能します 制約: 計算と通信のオーバーヘッドを最小化し、モデル精度を維持する

モデルアーキテクチャ

CoreGuardの操作は2つのステージに分かれています:

1. モデルロックステージ(展開前)

保護プロトコル(Protection Protocol):

  • 線形層の重み行列に対して行置換を実行: Wq=πTWq,Wk=πTWk,Wv=πTWv,Wm=πTWmW'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m
  • これらの行置換は「ロック」として機能し、線形層を無効にします。対応する列置換入力(認可)があってのみ正常に計算できます
  • 置換行列π{0,1}d×d\pi \in \{0,1\}^{d \times d}ππT=I\pi\pi^T = Iを満たします

伝播プロトコル(Propagation Protocol):

  • 出力処理層に対して列置換を実行: Wo=Woπ,Wn=WnπW'_o = W_o\pi, W'_n = W_n\pi
  • ネットワーク自体の操作を通じて特徴の列置換を実現し、自動認可効果を達成します
  • TEEは初期認可のみを管理する必要があり、認可はすべての後続層に伝播します

2. 推論認可ステージ(展開後)

暗号化プロセス: m=mπ+pπm' = m\pi + p\pi ここでppはワンタイムパッド(OTP)ノイズ、mm'は暗号化された置換後の特徴です。

出力線形層処理: n=mWn=(mπ+pπ)πTWn+bn=n+pWnn' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n

復号化と認可: n=npWn=nn'' = n' - pW_n = nz=(γ2n+yμy+nσy+n+β2)π=zπz' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi

技術的革新点

  1. 単一認可伝播メカニズム: 巧妙な置換設計を通じて、ネットワーク全体での認可の自動伝播を実現し、各層でのTEE認可の必要性を回避します。
  2. OTP暗号化と位置混淆の組み合わせ: ワンタイムパッド暗号化と置換を組み合わせて、暗号化と復号化プロセスを隠蔽します。
  3. 最適な通信複雑性: 推論ごとにわずか5ラウンドのTEE-GPU転送が必要で、理論的最適値に達します。
  4. 数学的セキュリティ保証: Learning With Errors (LWE)問題のNP困難性の仮定に基づいてセキュリティ証明を提供します。

実験設定

データセット

  • GSM8k: 数学推論タスク
  • Spider: コード生成タスク
  • PubMedQA: 医学質問応答タスク
  • SQuAD: 読解理解タスク

モデル

  • エッジ展開モデル: Qwen2-0.5B-Instruct, Gemma2-2B-it
  • 大規模モデル: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

評価指標

  • セキュリティ: モデル窃取攻撃の精度(低いほど安全)
  • 効率: 浮動小数点演算数(FLOPs)、TEE-GPU転送オーバーヘッド
  • 精度: タスク固有の精度

比較方法

  1. TPTE: NPLO
  2. PPTE: DarkneTZ, SOTER, Serdab, DTE
  3. PSP: ShadowNet, TransLinkGuard(TLG)
  4. 境界: No-shield(下界), Black-box(上界)

実装の詳細

  • Hugging Faceライブラリを使用して実装
  • AdamWオプティマイザ、線形学習率スケジューリング
  • NVIDIA A800 GPUで実験を実施
  • 攻撃者が100%の訓練データセットを所有していると仮定(先行研究の1%より厳密)

実験結果

主要な結果

セキュリティ評価:

  • 未認可推論精度:すべてのケースで0%
  • モデル窃取攻撃:CoreGuardの相対精度は1.17×(Black-boxの1.00×に近い)
  • TPTE方法NPLO(9.59×)およびPPTE方法DarkneTZ(8.43×)を大幅に上回る
  • 他のPSP方法(TLG: 1.07×, ShadowNet: 1.09×)と同等の性能

効率比較:

  • TEE実行オーバーヘッド: CoreGuard < 1.17e-03%, PPTE方法2.91%-21.52%
  • TEE-GPU転送オーバーヘッド: CoreGuardはわずか5ラウンドの転送が必要、ShadowNetは448ラウンド(LLaMA3-8B)
  • 転送データ量: CoreGuardは約20KB、ShadowNetは約1.3GB

アブレーション実験

異なる攻撃設定下のセキュリティ:

  • LoRAファインチューニング攻撃:CoreGuardは上界に近いセキュリティを維持
  • 異なるデータ比率(1%-100%):すべての設定でBlack-box保護に近い
  • タスク整合性:攻撃者の目標タスクが展開モデルのタスクと整合しているかどうかに関わらず、セキュリティを維持

認可位置の影響:

  • 中間位置の認可が最高のセキュリティを提供
  • 首尾位置の認可はセキュリティが低い。攻撃者が少数のパラメータのみを復元する必要があるため

精度の維持

  • ほとんどの場合、保護後のモデルは元のモデルと完全に同じ精度を持つ
  • 個別のケースでは±0.5%の微小な変動が存在し、浮動小数点精度の制限に起因します

関連研究

主要な研究方向

  1. モデル保護方法:
    • 透かし技術:受動的保護、所有権証明のみを提供
    • モデル暗号化:実行時に攻撃に脆弱
    • TEE保護:直接保護の計算オーバーヘッドが過度
  2. パラメータシャッフル保護:
    • ShadowNet:畳み込み層チャネルシャッフル保護
    • TransLinkGuard:Transformerモデル保護
  3. 信頼実行環境の応用:
    • CPU ベースTEE:ARM TrustZone, Intel SGX
    • GPU TEE:初期段階にあり、主にデータセンター向け

本論文の利点

既存研究と比較して、CoreGuardは同じセキュリティレベルを維持しながら、特に通信オーバーヘッドの面で数量級の効率向上を実現しています。

結論と考察

主要な結論

  1. CoreGuardはエッジ展開LLMのセキュリティ保護問題を成功裏に解決しました
  2. 伝播プロトコルを通じて最適な通信複雑性を実現しました
  3. 上界のセキュリティを保証しながら、無視できる計算と通信オーバーヘッドを実現しました
  4. モデルの元の精度を維持しました

限界

  1. サイドチャネル攻撃: TEEをセキュリティルートとして依存しており、サイドチャネル攻撃の脅威を受ける可能性があります
  2. GPU TEE制限: 現在、主にCPUベースのTEEに依存しており、GPU TEEはまだ成熟していません
  3. 実際の展開: 論文はコアフレームワークに焦点を当てており、デバイス固有の実装の詳細には深く掘り下げていません
  4. アーキテクチャ互換性: 主流のTransformerアーキテクチャ向けに設計されています

今後の方向性

  1. サイドチャネル攻撃防護措置の統合
  2. GPU TEE技術の発展への適応
  3. より多くのモデルアーキテクチャへの拡張
  4. 実際のデバイス展開の最適化

深度評価

利点

  1. 革新性が強い: エッジ展開LLMの基礎能力保護問題を初めて体系的に解決しました
  2. 技術が巧妙: 伝播プロトコルの設計が精巧で、単一認可でネットワーク全体をカバーします
  3. 理論が堅実: LWE問題に基づいて数学的セキュリティ保証を提供します
  4. 実験が充分: 複数モデル、複数タスク、複数攻撃シナリオの包括的評価
  5. 実用価値が高い: 顕著な効率向上により、実際の展開で実行可能にします

不足

  1. セキュリティ仮定: TEEのセキュリティに依存しており、サイドチャネル攻撃に対して脆弱である可能性があります
  2. 適用範囲: 主にTransformerアーキテクチャ向けで、他のアーキテクチャへの適用性は限定的です
  3. 展開の複雑性: 実際の展開ではハードウェアとシステムレベルのより多くの要因を考慮する必要があります
  4. 長期的セキュリティ: 攻撃技術の発展に伴い、現在の保護措置の継続的な有効性を検証する必要があります

影響力

  1. 学術的貢献: エッジAIセキュリティ分野に新しい研究方向と解決思考を提供しました
  2. 実用価値: 商用LLMのエッジ展開に重要な指導意義を持ちます
  3. 技術推進: AI保護分野でのTEE技術のさらなる発展を推進する可能性があります

適用シナリオ

  1. 専有LLMのエッジデバイス展開
  2. レイテンシとプライバシーに敏感なAIアプリケーション
  3. 知的財産保護が必要な商用AIサービス
  4. リソース制約環境でのモデル保護

参考文献

論文は52の関連文献を引用しており、モデル保護、信頼実行環境、大規模言語モデルなど複数の分野の重要な研究をカバーしており、研究に堅実な理論的基礎と技術的サポートを提供しています。


総合評価: CoreGuardは技術革新、実験検証、実用価値の面で優れた高品質の研究成果です。この研究は重要な実際的問題を解決するだけでなく、関連分野の後続研究に価値のある思考と方法を提供しています。