2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.
Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
academic

CoreGuard : Sauvegarde des Capacités Fondamentales des LLMs Contre le Vol de Modèle en Déploiement Edge

Informations Fondamentales

  • ID de l'article : 2410.13903
  • Titre : CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
  • Auteurs : Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
  • Classification : cs.CR (Cryptographie et Sécurité), cs.AI (Intelligence Artificielle), cs.DC (Informatique Distribuée)
  • Date de Publication/Conférence : 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
  • Lien de l'article : https://arxiv.org/abs/2410.13903

Résumé

Les modèles de langage de grande taille (LLMs) propriétaires démontrent des capacités de généralisation robustes sur diverses tâches et sont de plus en plus déployés sur des appareils edge pour des raisons d'efficacité et de confidentialité. Cependant, le déploiement de LLMs propriétaires sur des appareils edge sans protection adéquate présente des menaces de sécurité graves. Les attaquants peuvent extraire les poids du modèle et l'architecture, réalisant ainsi une copie non autorisée et un abus. Même si les mesures de protection peuvent empêcher l'extraction complète des poids du modèle, les attaquants peuvent toujours exécuter des attaques avancées (telles que l'ajustement fin) pour exploiter davantage le modèle. Les solutions de défense existantes produisent généralement des surcharges de calcul et de communication importantes, les rendant impratiques pour le déploiement edge. Pour protéger les LLMs déployés en edge, cet article propose CoreGuard, une méthode de protection efficace en termes de calcul et de communication. CoreGuard emploie un protocole de protection efficace pour réduire la surcharge de calcul et minimise la surcharge de communication via un protocole de propagation. Les expériences extensives démontrent que CoreGuard réalise une protection de sécurité à limite supérieure avec une surcharge négligeable.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème Central : Les LLMs propriétaires déployés en edge font face à des menaces de vol de modèle, où les attaquants peuvent extraire l'architecture et les poids du modèle via des techniques d'analyse logicielle, entraînant une copie non autorisée et un abus.
  2. Importance du Problème :
    • Les LLMs propriétaires (tels que ChatGPT, Claude) possèdent des capacités de généralisation puissantes avec des coûts de développement énormes
    • La tendance du déploiement edge est évidente (par exemple, Apple Intelligence intégrant un LLM de 3B paramètres dans les appareils iOS)
    • Les LLMs propriétaires spécifiques à un domaine (tels que BloombergGPT pour la finance, Med-PaLM 2 pour la médecine) manquent d'alternatives open-source
  3. Limitations des Approches Existantes :
    • Protection Passive (telle que les filigranes) : Fournit uniquement une preuve de propriété, incapable de prévenir l'abus dans les environnements edge non supervisés
    • Chiffrement de Modèle : Toujours vulnérable aux attaques à l'exécution
    • Protection TEE Directe : Placer l'ensemble du modèle dans un environnement d'exécution de confiance entraîne une réduction d'efficacité d'environ 50 fois
    • Exécution TEE de Paramètres Partiels (PPTE) : Protège un nombre limité de poids, facilement reconstruit
    • Protection par Permutation de Paramètres (PSP) : Des solutions comme ShadowNet présentent une surcharge de transfert de données excessive
  4. Motivation de la Recherche : Besoin d'une solution garantissant une sécurité suffisante tout en maintenant une surcharge de calcul et de communication acceptable.

Contributions Principales

  1. Protection des Capacités Fondamentales des LLMs en Déploiement Edge pour la Première Fois : Caractérisation systématique des défis de sécurité dans ce scénario et identification des exigences pour protéger les LLMs déployés en edge.
  2. Proposition de la Solution CoreGuard Prête à l'Emploi : Utilisation d'un mécanisme d'autorisation léger pour protéger les LLMs déployés en edge, emploi d'un protocole de propagation réduisant significativement la surcharge de transmission tout en maintenant une faible surcharge de calcul.
  3. Vérification Expérimentale Complète : CoreGuard fournit des garanties de sécurité supérieures, une surcharge inférieure et aucune perte de précision par rapport aux solutions existantes.

Détails de la Méthode

Définition de la Tâche

Entrée : Modèle LLM entraîné Sortie : Modèle verrouillé, fonctionnant normalement uniquement avec une autorisation appropriée via le matériel de confiance (TEE) de l'appareil Contraintes : Minimiser la surcharge de calcul et de communication, maintenir la précision du modèle inchangée

Architecture du Modèle

CoreGuard fonctionne en deux phases :

1. Phase de Verrouillage du Modèle (Avant Déploiement)

Protocole de Protection (Protection Protocol) :

  • Permutation de ligne des matrices de poids des couches linéaires : Wq=πTWq,Wk=πTWk,Wv=πTWv,Wm=πTWmW'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m
  • Ces permutations de ligne agissent comme des « verrous », rendant les couches linéaires inefficaces, nécessitant une permutation de colonne d'entrée correspondante (autorisation) pour un calcul normal
  • La matrice de permutation π{0,1}d×d\pi \in \{0,1\}^{d \times d} satisfait ππT=I\pi\pi^T = I

Protocole de Propagation (Propagation Protocol) :

  • Permutation de colonne des couches de traitement de sortie : Wo=Woπ,Wn=WnπW'_o = W_o\pi, W'_n = W_n\pi
  • Réalisation de la permutation de colonne des caractéristiques via les opérations du réseau lui-même, réalisant un effet d'autorisation automatique
  • Le TEE ne doit gérer que l'autorisation initiale, l'autorisation se propageant à toutes les couches suivantes

2. Phase d'Autorisation d'Inférence (Après Déploiement)

Processus de Chiffrement : m=mπ+pπm' = m\pi + p\pipp est le bruit du carnet à usage unique (OTP), mm' est la caractéristique permutée chiffrée.

Traitement de la Couche de Sortie Linéaire : n=mWn=(mπ+pπ)πTWn+bn=n+pWnn' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n

Déchiffrement et Autorisation : n=npWn=nn'' = n' - pW_n = nz=(γ2n+yμy+nσy+n+β2)π=zπz' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi

Points d'Innovation Technique

  1. Mécanisme de Propagation d'Autorisation Unique : Conception astucieuse de permutation réalisant la propagation automatique de l'autorisation dans le réseau, évitant l'autorisation TEE à chaque couche.
  2. Combinaison de Chiffrement OTP et Confusion de Position : Utilisation du chiffrement par carnet à usage unique combiné avec permutation, masquant les processus de chiffrement et déchiffrement.
  3. Complexité de Communication Optimale : Seulement 5 tours de transfert TEE-GPU par inférence, atteignant l'optimalité théorique.
  4. Garanties de Sécurité Mathématique : Preuve de sécurité basée sur l'hypothèse de difficulté NP du problème Learning With Errors (LWE).

Configuration Expérimentale

Ensembles de Données

  • GSM8k : Tâche de raisonnement mathématique
  • Spider : Tâche de génération de code
  • PubMedQA : Tâche de questions-réponses médicales
  • SQuAD : Tâche de compréhension de lecture

Modèles

  • Modèles de Déploiement Edge : Qwen2-0.5B-Instruct, Gemma2-2B-it
  • Modèles de Grande Taille : ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Métriques d'Évaluation

  • Sécurité : Précision des attaques de vol de modèle (plus faible est mieux)
  • Efficacité : Nombre d'opérations en virgule flottante (FLOPs), surcharge de transfert TEE-GPU
  • Précision : Précision spécifique à la tâche

Méthodes de Comparaison

  1. TPTE : NPLO
  2. PPTE : DarkneTZ, SOTER, Serdab, DTE
  3. PSP : ShadowNet, TransLinkGuard (TLG)
  4. Limites : No-shield (limite inférieure), Black-box (limite supérieure)

Détails d'Implémentation

  • Utilisation de la bibliothèque Hugging Face
  • Optimiseur AdamW, planification linéaire du taux d'apprentissage
  • Expériences sur GPU NVIDIA A800
  • Hypothèse que l'attaquant possède 100% de l'ensemble de données d'entraînement (plus strict que les 1% des travaux antérieurs)

Résultats Expérimentaux

Résultats Principaux

Évaluation de Sécurité :

  • Précision d'inférence non autorisée : 0% dans tous les cas
  • Attaque de vol de modèle : Précision relative CoreGuard de 1,17× (proche de la limite supérieure Black-box de 1,00×)
  • Significativement supérieur à la méthode TPTE NPLO (9,59×) et à la méthode PPTE DarkneTZ (8,43×)
  • Performance comparable aux autres méthodes PSP (TLG : 1,07×, ShadowNet : 1,09×)

Comparaison d'Efficacité :

  • Surcharge d'Exécution TEE : CoreGuard < 1,17e-03%, méthodes PPTE 2,91%-21,52%
  • Surcharge de Transfert TEE-GPU : CoreGuard nécessite seulement 5 tours de transfert, tandis que ShadowNet en nécessite 448 (LLaMA3-8B)
  • Volume de Données Transférées : CoreGuard environ 20 KB, ShadowNet environ 1,3 GB

Études d'Ablation

Sécurité sous Différents Paramètres d'Attaque :

  • Attaque d'ajustement fin LoRA : CoreGuard maintient une sécurité proche de la limite supérieure
  • Différentes proportions de données (1%-100%) : Proche de la protection Black-box dans tous les paramètres
  • Alignement des tâches : Maintient la sécurité indépendamment de l'alignement entre la tâche cible de l'attaquant et celle du modèle déployé

Impact de la Position d'Autorisation :

  • L'autorisation en position intermédiaire fournit la meilleure sécurité
  • L'autorisation en position initiale/finale offre une sécurité inférieure, car l'attaquant ne doit récupérer que peu de paramètres

Maintien de la Précision

  • Dans la plupart des cas, la précision du modèle protégé est identique au modèle original
  • Dans certains cas, des fluctuations mineures de ±0,5% existent, attribuées aux limitations de précision en virgule flottante

Travaux Connexes

Directions de Recherche Principales

  1. Méthodes de Protection de Modèle :
    • Techniques de Filigrane : Protection passive, fournissant uniquement une preuve de propriété
    • Chiffrement de Modèle : Vulnérable aux attaques à l'exécution
    • Protection TEE : Surcharge de calcul excessive pour la protection directe
  2. Protection par Permutation de Paramètres :
    • ShadowNet : Protection par permutation de canal pour couches convolutives
    • TransLinkGuard : Protection de modèles Transformer
  3. Applications d'Environnement d'Exécution de Confiance :
    • TEE Basé sur CPU : ARM TrustZone, Intel SGX
    • GPU TEE : Encore aux premiers stades, principalement pour centres de données

Avantages de Cet Article

Par rapport aux travaux existants, CoreGuard réalise une amélioration d'efficacité d'ordre de grandeur tout en maintenant le même niveau de sécurité, particulièrement en termes de surcharge de communication.

Conclusion et Discussion

Conclusions Principales

  1. CoreGuard résout avec succès le problème de protection de sécurité des LLMs déployés en edge
  2. Réalise une complexité de communication optimale via le protocole de propagation
  3. Garantit une sécurité à limite supérieure tout en réalisant une surcharge de calcul et de communication négligeable
  4. Maintient la précision originale du modèle

Limitations

  1. Attaques par Canaux Auxiliaires : Dépend du TEE comme racine de confiance, potentiellement vulnérable aux attaques par canaux auxiliaires
  2. Limitations du GPU TEE : Dépend principalement du TEE basé sur CPU, le GPU TEE reste immature
  3. Déploiement Pratique : L'article se concentre sur le cadre principal, sans détails d'implémentation spécifiques aux appareils
  4. Compatibilité Architecturale : Conçu principalement pour l'architecture Transformer dominante

Directions Futures

  1. Intégration de mesures de protection contre les attaques par canaux auxiliaires
  2. Adaptation au développement de la technologie GPU TEE
  3. Extension à davantage d'architectures de modèles
  4. Optimisation du déploiement sur appareils réels

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Première résolution systématique du problème de protection des capacités fondamentales des LLMs en déploiement edge
  2. Technique Ingénieuse : Conception astucieuse du protocole de propagation, réalisant une couverture d'autorisation unique sur l'ensemble du réseau
  3. Fondation Théorique Solide : Preuve de sécurité mathématique basée sur le problème LWE
  4. Expérimentation Complète : Évaluation exhaustive sur plusieurs modèles, tâches et scénarios d'attaque
  5. Valeur Pratique Élevée : Amélioration d'efficacité significative la rendant viable pour le déploiement réel

Insuffisances

  1. Hypothèses de Sécurité : Dépend de la sécurité du TEE, potentiellement fragile face aux attaques par canaux auxiliaires
  2. Portée d'Application : Principalement conçu pour l'architecture Transformer, applicabilité limitée à d'autres architectures
  3. Complexité de Déploiement : Le déploiement réel nécessite de considérer davantage de facteurs matériels et système
  4. Sécurité à Long Terme : L'efficacité continue des mesures de protection actuelles doit être vérifiée avec l'évolution des techniques d'attaque

Impact

  1. Contribution Académique : Fournit une nouvelle direction de recherche et une approche de solution pour le domaine de la sécurité de l'IA edge
  2. Valeur Pratique : Signification importante pour le déploiement edge de LLMs commerciaux
  3. Avancement Technologique : Peut promouvoir le développement ultérieur de la technologie TEE dans le domaine de la protection de l'IA

Scénarios d'Application

  1. Déploiement sur appareils edge de LLMs propriétaires
  2. Applications d'IA sensibles à la latence et à la confidentialité
  3. Services d'IA commerciaux nécessitant la protection de la propriété intellectuelle
  4. Protection de modèles dans les environnements aux ressources limitées

Références

L'article cite 52 références connexes, couvrant plusieurs domaines tels que la protection de modèles, les environnements d'exécution de confiance et les modèles de langage de grande taille, fournissant une base théorique solide et un soutien technique pour la recherche.


Évaluation Globale : CoreGuard est un travail de recherche de haute qualité, démontrant l'excellence en innovation technique, vérification expérimentale et valeur pratique. Ce travail non seulement résout un problème pratique important, mais fournit également des idées et des méthodes précieuses pour la recherche ultérieure dans les domaines connexes.