Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
- 论文ID: 2410.13903
- 标题: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
- 作者: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
- 分类: cs.CR (Cryptography and Security), cs.AI (Artificial Intelligence), cs.DC (Distributed Computing)
- 发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
- 论文链接: https://arxiv.org/abs/2410.13903
专有大语言模型(LLMs)在多种任务中表现出强大的泛化能力,出于效率和隐私考虑,越来越多地部署在边缘设备上。然而,在边缘部署专有LLMs而缺乏充分保护会带来严重的安全威胁。攻击者可以提取模型权重和架构,实现未授权复制和滥用。即使保护措施能阻止完整的模型权重提取,攻击者仍可能执行高级攻击(如微调)来进一步利用模型。现有的防御方案通常会产生显著的计算和通信开销,使其在边缘部署中不切实际。为了保护边缘部署的LLMs,本文提出了CoreGuard,一种计算和通信高效的保护方法。CoreGuard采用高效的保护协议来降低计算开销,并通过传播协议最小化通信开销。大量实验表明,CoreGuard在可忽略开销下实现了上界安全保护。
- 核心问题: 边缘部署的专有LLMs面临模型窃取威胁,攻击者可以通过软件分析技术提取模型架构和权重,导致未授权复制和滥用。
- 问题重要性:
- 专有LLMs(如ChatGPT、Claude)具有强大的泛化能力,开发成本巨大
- 边缘部署趋势明显(如Apple Intelligence集成3B参数LLM到iOS设备)
- 特定领域的专有LLMs(如金融领域的BloombergGPT、医疗领域的Med-PaLM 2)缺乏开源替代品
- 现有方法局限性:
- 被动保护(如水印):仅提供所有权证明,无法阻止无监督边缘环境中的滥用
- 模型加密:运行时仍易受攻击
- TEE直接保护:将整个模型放入可信执行环境会导致约50倍的效率降低
- 部分参数TEE执行(PPTE):保护权重数量有限,易被重构
- 参数洗牌保护(PSP):如ShadowNet存在过大的数据传输开销
- 研究动机: 需要在保证充分安全性的同时,维持可接受的计算和通信开销的解决方案。
- 首次针对边缘部署LLMs的基础能力保护:系统性地刻画了该场景下的安全挑战,并确定了保护边缘部署LLMs的需求。
- 提出CoreGuard即插即用解决方案:利用轻量级授权机制保护边缘部署的LLMs,采用传播协议显著减少传输开销,同时保持低计算开销。
- 全面的实验验证:相比现有解决方案,CoreGuard提供更高的安全保证、更低的开销且无准确率损失。
输入: 训练好的LLM模型
输出: 锁定的模型,只有通过设备内可信硬件(TEE)的适当授权才能正常工作
约束: 最小化计算和通信开销,保持模型准确率不变
CoreGuard操作分为两个阶段:
保护协议(Protection Protocol):
- 对线性层的权重矩阵进行行置换:Wq′=πTWq,Wk′=πTWk,Wv′=πTWv,Wm′=πTWm
- 这些行置换作为"锁",使线性层失效,只有相应的列置换输入(授权)才能正常计算
- 置换矩阵π∈{0,1}d×d满足ππT=I
传播协议(Propagation Protocol):
- 对输出处理层进行列置换:Wo′=Woπ,Wn′=Wnπ
- 通过网络自身的操作实现特征的列置换,达到自动授权效果
- TEE只需管理初始授权,授权可传播到所有后续层
加密过程:
m′=mπ+pπ
其中p是一次性密码本(OTP)噪声,m′是加密置换后的特征。
输出线性层处理:
n′=m′Wn′=(mπ+pπ)πTWn+bn=n+pWn
解密和授权:
n′′=n′−pWn=nz′=(γ2⊙σy+nn+y−μy+n+β2)π=zπ
- 单次授权传播机制: 通过巧妙的置换设计,实现授权在网络中的自动传播,避免每层都需要TEE授权。
- OTP加密与位置混淆结合: 使用一次性密码本加密并结合置换,隐藏加密和解密过程。
- 最优通信复杂度: 每次推理仅需5轮TEE-GPU传输,达到理论最优。
- 数学安全保证: 基于Learning With Errors (LWE)问题的NP难度假设提供安全性证明。
- GSM8k: 数学推理任务
- Spider: 代码生成任务
- PubMedQA: 医学问答任务
- SQuAD: 阅读理解任务
- 边缘部署模型: Qwen2-0.5B-Instruct, Gemma2-2B-it
- 大型模型: ChatGLM3-6B-32k, LLaMA3-8B-Instruct
- 安全性: 模型窃取攻击的准确率(越低越安全)
- 效率: 浮点运算数(FLOPs)、TEE-GPU传输开销
- 准确性: 任务特定准确率
- TPTE: NPLO
- PPTE: DarkneTZ, SOTER, Serdab, DTE
- PSP: ShadowNet, TransLinkGuard(TLG)
- 边界: No-shield(下界), Black-box(上界)
- 使用Hugging Face库实现
- AdamW优化器,线性学习率调度
- 在NVIDIA A800 GPU上进行实验
- 假设攻击者拥有100%训练数据集(比先前工作的1%更严格)
安全性评估:
- 未授权推理准确率:所有情况下均为0%
- 模型窃取攻击:CoreGuard相对准确率为1.17×(接近Black-box的1.00×)
- 显著优于TPTE方法NPLO(9.59×)和PPTE方法DarkneTZ(8.43×)
- 与其他PSP方法(TLG: 1.07×, ShadowNet: 1.09×)性能相当
效率对比:
- TEE执行开销: CoreGuard < 1.17e-03%, PPTE方法2.91%-21.52%
- TEE-GPU传输开销: CoreGuard仅需5轮传输,而ShadowNet需要448轮(LLaMA3-8B)
- 传输数据量: CoreGuard约20KB,ShadowNet约1.3GB
不同攻击设置下的安全性:
- LoRA微调攻击:CoreGuard保持接近上界的安全性
- 不同数据比例(1%-100%):在所有设置下均接近Black-box保护
- 任务对齐性:无论攻击者目标任务是否与部署模型任务对齐,均保持安全
授权位置影响:
- 中间位置授权提供最佳安全性
- 首尾位置授权安全性较低,因为攻击者只需恢复少量参数
- 在大多数情况下,保护后模型与原始模型准确率完全相同
- 个别情况下存在±0.5%的微小波动,归因于浮点精度限制
- 模型保护方法:
- 水印技术:被动保护,仅提供所有权证明
- 模型加密:运行时易受攻击
- TEE保护:直接保护计算开销过大
- 参数洗牌保护:
- ShadowNet:卷积层通道洗牌保护
- TransLinkGuard:Transformer模型保护
- 可信执行环境应用:
- CPU-based TEE:ARM TrustZone, Intel SGX
- GPU TEE:仍处于早期阶段,主要针对数据中心
相比现有工作,CoreGuard在保持相同安全级别的同时,实现了数量级的效率提升,特别是在通信开销方面。
- CoreGuard成功解决了边缘部署LLMs的安全保护问题
- 通过传播协议实现了最优的通信复杂度
- 在保证上界安全性的同时,实现了可忽略的计算和通信开销
- 保持了模型的原始准确率
- 侧信道攻击: 依赖TEE作为安全根,可能受到侧信道攻击威胁
- GPU TEE限制: 当前主要依赖CPU-based TEE,GPU TEE仍不成熟
- 实际部署: 论文聚焦核心框架,未深入设备特定实现细节
- 架构兼容性: 主要针对主流Transformer架构设计
- 集成侧信道攻击防护措施
- 适应GPU TEE技术发展
- 扩展到更多模型架构
- 实际设备部署优化
- 创新性强: 首次系统性解决边缘部署LLMs的基础能力保护问题
- 技术巧妙: 传播协议设计精巧,实现单次授权覆盖全网络
- 理论扎实: 基于LWE问题提供数学安全保证
- 实验充分: 多模型、多任务、多攻击场景的全面评估
- 实用价值高: 显著的效率提升使其在实际部署中可行
- 安全假设: 依赖TEE的安全性,在侧信道攻击面前可能脆弱
- 适用范围: 主要针对Transformer架构,对其他架构的适用性有限
- 部署复杂性: 实际部署需要考虑更多硬件和系统层面的因素
- 长期安全性: 随着攻击技术发展,当前保护措施的持续有效性需要验证
- 学术贡献: 为边缘AI安全领域提供了新的研究方向和解决思路
- 实用价值: 对于商业LLM边缘部署具有重要指导意义
- 技术推动: 可能推动TEE技术在AI保护领域的进一步发展
- 专有LLMs的边缘设备部署
- 对延迟和隐私敏感的AI应用
- 需要保护知识产权的商业AI服务
- 资源受限环境下的模型保护
论文引用了52篇相关文献,涵盖了模型保护、可信执行环境、大语言模型等多个领域的重要工作,为研究提供了坚实的理论基础和技术支撑。
总体评价: CoreGuard是一项高质量的研究工作,在技术创新、实验验证和实用价值方面都表现出色。该工作不仅解决了一个重要的实际问题,还为相关领域的后续研究提供了有价值的思路和方法。