2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard : Sauvegarde des Capacités Fondamentales des LLMs Contre le Vol de Modèle en Déploiement Edge

Informations Fondamentales

ID de l'article : 2410.13903
Titre : CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
Auteurs : Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
Classification : cs.CR (Cryptographie et Sécurité), cs.AI (Intelligence Artificielle), cs.DC (Informatique Distribuée)
Date de Publication/Conférence : 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
Lien de l'article : https://arxiv.org/abs/2410.13903

Résumé

Les modèles de langage de grande taille (LLMs) propriétaires démontrent des capacités de généralisation robustes sur diverses tâches et sont de plus en plus déployés sur des appareils edge pour des raisons d'efficacité et de confidentialité. Cependant, le déploiement de LLMs propriétaires sur des appareils edge sans protection adéquate présente des menaces de sécurité graves. Les attaquants peuvent extraire les poids du modèle et l'architecture, réalisant ainsi une copie non autorisée et un abus. Même si les mesures de protection peuvent empêcher l'extraction complète des poids du modèle, les attaquants peuvent toujours exécuter des attaques avancées (telles que l'ajustement fin) pour exploiter davantage le modèle. Les solutions de défense existantes produisent généralement des surcharges de calcul et de communication importantes, les rendant impratiques pour le déploiement edge. Pour protéger les LLMs déployés en edge, cet article propose CoreGuard, une méthode de protection efficace en termes de calcul et de communication. CoreGuard emploie un protocole de protection efficace pour réduire la surcharge de calcul et minimise la surcharge de communication via un protocole de propagation. Les expériences extensives démontrent que CoreGuard réalise une protection de sécurité à limite supérieure avec une surcharge négligeable.

Contexte de Recherche et Motivation

Définition du Problème

Problème Central : Les LLMs propriétaires déployés en edge font face à des menaces de vol de modèle, où les attaquants peuvent extraire l'architecture et les poids du modèle via des techniques d'analyse logicielle, entraînant une copie non autorisée et un abus.
Importance du Problème :
- Les LLMs propriétaires (tels que ChatGPT, Claude) possèdent des capacités de généralisation puissantes avec des coûts de développement énormes
- La tendance du déploiement edge est évidente (par exemple, Apple Intelligence intégrant un LLM de 3B paramètres dans les appareils iOS)
- Les LLMs propriétaires spécifiques à un domaine (tels que BloombergGPT pour la finance, Med-PaLM 2 pour la médecine) manquent d'alternatives open-source
Limitations des Approches Existantes :
- Protection Passive (telle que les filigranes) : Fournit uniquement une preuve de propriété, incapable de prévenir l'abus dans les environnements edge non supervisés
- Chiffrement de Modèle : Toujours vulnérable aux attaques à l'exécution
- Protection TEE Directe : Placer l'ensemble du modèle dans un environnement d'exécution de confiance entraîne une réduction d'efficacité d'environ 50 fois
- Exécution TEE de Paramètres Partiels (PPTE) : Protège un nombre limité de poids, facilement reconstruit
- Protection par Permutation de Paramètres (PSP) : Des solutions comme ShadowNet présentent une surcharge de transfert de données excessive
Motivation de la Recherche : Besoin d'une solution garantissant une sécurité suffisante tout en maintenant une surcharge de calcul et de communication acceptable.

Contributions Principales

Protection des Capacités Fondamentales des LLMs en Déploiement Edge pour la Première Fois : Caractérisation systématique des défis de sécurité dans ce scénario et identification des exigences pour protéger les LLMs déployés en edge.
Proposition de la Solution CoreGuard Prête à l'Emploi : Utilisation d'un mécanisme d'autorisation léger pour protéger les LLMs déployés en edge, emploi d'un protocole de propagation réduisant significativement la surcharge de transmission tout en maintenant une faible surcharge de calcul.
Vérification Expérimentale Complète : CoreGuard fournit des garanties de sécurité supérieures, une surcharge inférieure et aucune perte de précision par rapport aux solutions existantes.

Détails de la Méthode

Définition de la Tâche

Entrée : Modèle LLM entraîné Sortie : Modèle verrouillé, fonctionnant normalement uniquement avec une autorisation appropriée via le matériel de confiance (TEE) de l'appareil Contraintes : Minimiser la surcharge de calcul et de communication, maintenir la précision du modèle inchangée

Architecture du Modèle

CoreGuard fonctionne en deux phases :

1. Phase de Verrouillage du Modèle (Avant Déploiement)

Protocole de Protection (Protection Protocol) :

Permutation de ligne des matrices de poids des couches linéaires : $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
Ces permutations de ligne agissent comme des « verrous », rendant les couches linéaires inefficaces, nécessitant une permutation de colonne d'entrée correspondante (autorisation) pour un calcul normal
La matrice de permutation $\pi \in \{0,1\}^{d \times d}$ satisfait $\pi\pi^T = I$

Protocole de Propagation (Propagation Protocol) :

Permutation de colonne des couches de traitement de sortie : $W'_o = W_o\pi, W'_n = W_n\pi$
Réalisation de la permutation de colonne des caractéristiques via les opérations du réseau lui-même, réalisant un effet d'autorisation automatique
Le TEE ne doit gérer que l'autorisation initiale, l'autorisation se propageant à toutes les couches suivantes

2. Phase d'Autorisation d'Inférence (Après Déploiement)

Processus de Chiffrement : $m' = m\pi + p\pi$ où $p$ est le bruit du carnet à usage unique (OTP), $m'$ est la caractéristique permutée chiffrée.

Traitement de la Couche de Sortie Linéaire : $n' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n$

Déchiffrement et Autorisation : $n'' = n' - pW_n = n$ $z' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi$

Points d'Innovation Technique

Mécanisme de Propagation d'Autorisation Unique : Conception astucieuse de permutation réalisant la propagation automatique de l'autorisation dans le réseau, évitant l'autorisation TEE à chaque couche.
Combinaison de Chiffrement OTP et Confusion de Position : Utilisation du chiffrement par carnet à usage unique combiné avec permutation, masquant les processus de chiffrement et déchiffrement.
Complexité de Communication Optimale : Seulement 5 tours de transfert TEE-GPU par inférence, atteignant l'optimalité théorique.
Garanties de Sécurité Mathématique : Preuve de sécurité basée sur l'hypothèse de difficulté NP du problème Learning With Errors (LWE).

Configuration Expérimentale

Ensembles de Données

GSM8k : Tâche de raisonnement mathématique
Spider : Tâche de génération de code
PubMedQA : Tâche de questions-réponses médicales
SQuAD : Tâche de compréhension de lecture

Modèles

Modèles de Déploiement Edge : Qwen2-0.5B-Instruct, Gemma2-2B-it
Modèles de Grande Taille : ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Métriques d'Évaluation

Sécurité : Précision des attaques de vol de modèle (plus faible est mieux)
Efficacité : Nombre d'opérations en virgule flottante (FLOPs), surcharge de transfert TEE-GPU
Précision : Précision spécifique à la tâche

Méthodes de Comparaison

TPTE : NPLO
PPTE : DarkneTZ, SOTER, Serdab, DTE
PSP : ShadowNet, TransLinkGuard (TLG)
Limites : No-shield (limite inférieure), Black-box (limite supérieure)

Détails d'Implémentation

Utilisation de la bibliothèque Hugging Face
Optimiseur AdamW, planification linéaire du taux d'apprentissage
Expériences sur GPU NVIDIA A800
Hypothèse que l'attaquant possède 100% de l'ensemble de données d'entraînement (plus strict que les 1% des travaux antérieurs)

Résultats Expérimentaux

Résultats Principaux

Évaluation de Sécurité :

Précision d'inférence non autorisée : 0% dans tous les cas
Attaque de vol de modèle : Précision relative CoreGuard de 1,17× (proche de la limite supérieure Black-box de 1,00×)
Significativement supérieur à la méthode TPTE NPLO (9,59×) et à la méthode PPTE DarkneTZ (8,43×)
Performance comparable aux autres méthodes PSP (TLG : 1,07×, ShadowNet : 1,09×)

Comparaison d'Efficacité :

Surcharge d'Exécution TEE : CoreGuard < 1,17e-03%, méthodes PPTE 2,91%-21,52%
Surcharge de Transfert TEE-GPU : CoreGuard nécessite seulement 5 tours de transfert, tandis que ShadowNet en nécessite 448 (LLaMA3-8B)
Volume de Données Transférées : CoreGuard environ 20 KB, ShadowNet environ 1,3 GB

Études d'Ablation

Sécurité sous Différents Paramètres d'Attaque :

Attaque d'ajustement fin LoRA : CoreGuard maintient une sécurité proche de la limite supérieure
Différentes proportions de données (1%-100%) : Proche de la protection Black-box dans tous les paramètres
Alignement des tâches : Maintient la sécurité indépendamment de l'alignement entre la tâche cible de l'attaquant et celle du modèle déployé

Impact de la Position d'Autorisation :

L'autorisation en position intermédiaire fournit la meilleure sécurité
L'autorisation en position initiale/finale offre une sécurité inférieure, car l'attaquant ne doit récupérer que peu de paramètres

Maintien de la Précision

Dans la plupart des cas, la précision du modèle protégé est identique au modèle original
Dans certains cas, des fluctuations mineures de ±0,5% existent, attribuées aux limitations de précision en virgule flottante

Travaux Connexes

Directions de Recherche Principales

Méthodes de Protection de Modèle :
- Techniques de Filigrane : Protection passive, fournissant uniquement une preuve de propriété
- Chiffrement de Modèle : Vulnérable aux attaques à l'exécution
- Protection TEE : Surcharge de calcul excessive pour la protection directe
Protection par Permutation de Paramètres :
- ShadowNet : Protection par permutation de canal pour couches convolutives
- TransLinkGuard : Protection de modèles Transformer
Applications d'Environnement d'Exécution de Confiance :
- TEE Basé sur CPU : ARM TrustZone, Intel SGX
- GPU TEE : Encore aux premiers stades, principalement pour centres de données

Avantages de Cet Article

Par rapport aux travaux existants, CoreGuard réalise une amélioration d'efficacité d'ordre de grandeur tout en maintenant le même niveau de sécurité, particulièrement en termes de surcharge de communication.

Conclusion et Discussion

Conclusions Principales

CoreGuard résout avec succès le problème de protection de sécurité des LLMs déployés en edge
Réalise une complexité de communication optimale via le protocole de propagation
Garantit une sécurité à limite supérieure tout en réalisant une surcharge de calcul et de communication négligeable
Maintient la précision originale du modèle

Limitations

Attaques par Canaux Auxiliaires : Dépend du TEE comme racine de confiance, potentiellement vulnérable aux attaques par canaux auxiliaires
Limitations du GPU TEE : Dépend principalement du TEE basé sur CPU, le GPU TEE reste immature
Déploiement Pratique : L'article se concentre sur le cadre principal, sans détails d'implémentation spécifiques aux appareils
Compatibilité Architecturale : Conçu principalement pour l'architecture Transformer dominante

Directions Futures

Intégration de mesures de protection contre les attaques par canaux auxiliaires
Adaptation au développement de la technologie GPU TEE
Extension à davantage d'architectures de modèles
Optimisation du déploiement sur appareils réels

Évaluation Approfondie

Points Forts

Innovation Forte : Première résolution systématique du problème de protection des capacités fondamentales des LLMs en déploiement edge
Technique Ingénieuse : Conception astucieuse du protocole de propagation, réalisant une couverture d'autorisation unique sur l'ensemble du réseau
Fondation Théorique Solide : Preuve de sécurité mathématique basée sur le problème LWE
Expérimentation Complète : Évaluation exhaustive sur plusieurs modèles, tâches et scénarios d'attaque
Valeur Pratique Élevée : Amélioration d'efficacité significative la rendant viable pour le déploiement réel

Insuffisances

Hypothèses de Sécurité : Dépend de la sécurité du TEE, potentiellement fragile face aux attaques par canaux auxiliaires
Portée d'Application : Principalement conçu pour l'architecture Transformer, applicabilité limitée à d'autres architectures
Complexité de Déploiement : Le déploiement réel nécessite de considérer davantage de facteurs matériels et système
Sécurité à Long Terme : L'efficacité continue des mesures de protection actuelles doit être vérifiée avec l'évolution des techniques d'attaque

Impact

Contribution Académique : Fournit une nouvelle direction de recherche et une approche de solution pour le domaine de la sécurité de l'IA edge
Valeur Pratique : Signification importante pour le déploiement edge de LLMs commerciaux
Avancement Technologique : Peut promouvoir le développement ultérieur de la technologie TEE dans le domaine de la protection de l'IA

Scénarios d'Application

Déploiement sur appareils edge de LLMs propriétaires
Applications d'IA sensibles à la latence et à la confidentialité
Services d'IA commerciaux nécessitant la protection de la propriété intellectuelle
Protection de modèles dans les environnements aux ressources limitées

Références

L'article cite 52 références connexes, couvrant plusieurs domaines tels que la protection de modèles, les environnements d'exécution de confiance et les modèles de langage de grande taille, fournissant une base théorique solide et un soutien technique pour la recherche.

Évaluation Globale : CoreGuard est un travail de recherche de haute qualité, démontrant l'excellence en innovation technique, vérification expérimentale et valeur pratique. Ce travail non seulement résout un problème pratique important, mais fournit également des idées et des méthodes précieuses pour la recherche ultérieure dans les domaines connexes.