2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard: Salvaguardia delle Capacità Fondamentali degli LLM Contro il Furto di Modelli nella Distribuzione Edge

Informazioni Fondamentali

ID Articolo: 2410.13903
Titolo: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
Autori: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
Classificazione: cs.CR (Crittografia e Sicurezza), cs.AI (Intelligenza Artificiale), cs.DC (Calcolo Distribuito)
Data di Pubblicazione/Conferenza: 39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale (NeurIPS 2025)
Collegamento Articolo: https://arxiv.org/abs/2410.13903

Riassunto

I modelli linguistici di grandi dimensioni (LLM) proprietari dimostrano forti capacità di generalizzazione in numerosi compiti e, per motivi di efficienza e privacy, vengono sempre più frequentemente distribuiti su dispositivi edge. Tuttavia, la distribuzione di LLM proprietari su dispositivi edge senza adeguate protezioni presenta gravi minacce alla sicurezza. Gli aggressori possono estrarre i pesi del modello e l'architettura, realizzando copie non autorizzate e abusi. Anche se le misure di protezione riescono a prevenire l'estrazione completa dei pesi del modello, gli aggressori potrebbero comunque eseguire attacchi avanzati (come il fine-tuning) per sfruttare ulteriormente il modello. Le soluzioni di difesa esistenti generalmente producono significativi sovraccarichi computazionali e di comunicazione, rendendole impraticabili nella distribuzione edge. Per proteggere gli LLM distribuiti su edge, questo articolo propone CoreGuard, un metodo di protezione computazionalmente e comunicativamente efficiente. CoreGuard impiega un protocollo di protezione efficiente per ridurre il sovraccarico computazionale e minimizza il sovraccarico di comunicazione attraverso un protocollo di propagazione. Esperimenti estensivi dimostrano che CoreGuard raggiunge una protezione di sicurezza con limite superiore con sovraccarichi trascurabili.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Gli LLM proprietari distribuiti su edge affrontano minacce di furto di modelli, dove gli aggressori possono estrarre l'architettura e i pesi del modello attraverso tecniche di analisi software, causando copie non autorizzate e abusi.
Importanza del Problema:
- Gli LLM proprietari (come ChatGPT, Claude) possiedono forti capacità di generalizzazione con costi di sviluppo enormi
- La tendenza della distribuzione edge è evidente (ad esempio, Apple Intelligence integra un LLM con 3B parametri nei dispositivi iOS)
- Gli LLM proprietari specifici del dominio (come BloombergGPT nel settore finanziario, Med-PaLM 2 nel settore medico) mancano di alternative open-source
Limitazioni dei Metodi Esistenti:
- Protezione Passiva (come watermarking): fornisce solo prove di proprietà, non può prevenire gli abusi in ambienti edge non supervisionati
- Crittografia del Modello: rimane vulnerabile durante l'esecuzione
- Protezione TEE Diretta: inserire l'intero modello in un ambiente di esecuzione affidabile causa una riduzione di efficienza di circa 50 volte
- Esecuzione TEE Parametri Parziali (PPTE): protegge un numero limitato di pesi, facilmente ricostruibili
- Protezione Parametri Shuffle (PSP): soluzioni come ShadowNet presentano sovraccarichi di trasferimento dati eccessivi
Motivazione della Ricerca: È necessaria una soluzione che garantisca una sicurezza adeguata mantenendo al contempo sovraccarichi computazionali e di comunicazione accettabili.

Contributi Fondamentali

Prima Protezione delle Capacità Fondamentali degli LLM per la Distribuzione Edge: Caratterizza sistematicamente le sfide di sicurezza in questo scenario e identifica i requisiti per proteggere gli LLM distribuiti su edge.
Propone la Soluzione Plug-and-Play CoreGuard: Utilizza meccanismi di autorizzazione leggeri per proteggere gli LLM distribuiti su edge, impiega un protocollo di propagazione per ridurre significativamente il sovraccarico di trasferimento, mantenendo al contempo un basso sovraccarico computazionale.
Verifica Sperimentale Completa: Rispetto alle soluzioni esistenti, CoreGuard fornisce garanzie di sicurezza superiori, sovraccarichi inferiori e nessuna perdita di accuratezza.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Modello LLM addestrato Output: Modello bloccato, che funziona normalmente solo con l'autorizzazione appropriata attraverso l'hardware affidabile (TEE) nel dispositivo Vincoli: Minimizzare il sovraccarico computazionale e di comunicazione, mantenere l'accuratezza del modello invariata

Architettura del Modello

CoreGuard opera in due fasi:

1. Fase di Blocco del Modello (Prima della Distribuzione)

Protocollo di Protezione (Protection Protocol):

Esegue permutazioni di righe sulle matrici di peso dei livelli lineari: $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
Queste permutazioni di righe fungono da "serrature", rendendo i livelli lineari inefficaci, con il calcolo normale possibile solo con la corrispondente permutazione di colonne dell'input (autorizzazione)
La matrice di permutazione $\pi \in \{0,1\}^{d \times d}$ soddisfa $\pi\pi^T = I$

Protocollo di Propagazione (Propagation Protocol):

Esegue permutazioni di colonne sui livelli di elaborazione dell'output: $W'_o = W_o\pi, W'_n = W_n\pi$
Realizza la permutazione di colonne delle caratteristiche attraverso le operazioni della rete stessa, ottenendo un effetto di autorizzazione automatica
Il TEE deve solo gestire l'autorizzazione iniziale, che si propaga automaticamente a tutti i livelli successivi

2. Fase di Autorizzazione dell'Inferenza (Dopo la Distribuzione)

Processo di Crittografia: $m' = m\pi + p\pi$ dove $p$ è il rumore del blocco monouso (OTP), $m'$ è la caratteristica permutata crittografata.

Elaborazione del Livello di Output Lineare: $n' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n$

Decrittazione e Autorizzazione: $n'' = n' - pW_n = n$ $z' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi$

Punti di Innovazione Tecnica

Meccanismo di Propagazione dell'Autorizzazione Singola: Attraverso un design di permutazione ingegnoso, realizza la propagazione automatica dell'autorizzazione nella rete, evitando l'autorizzazione TEE per ogni livello.
Combinazione di Crittografia OTP e Confusione di Posizione: Utilizza la crittografia con blocco monouso combinata con permutazioni per nascondere i processi di crittografia e decrittazione.
Complessità di Comunicazione Ottimale: Richiede solo 5 round di trasferimento TEE-GPU per inferenza, raggiungendo l'ottimalità teorica.
Garanzie di Sicurezza Matematica: Fornisce prove di sicurezza basate sull'assunzione di difficoltà NP del problema Learning With Errors (LWE).

Configurazione Sperimentale

Dataset

GSM8k: Compito di ragionamento matematico
Spider: Compito di generazione di codice
PubMedQA: Compito di domande e risposte mediche
SQuAD: Compito di comprensione della lettura

Modelli

Modelli di Distribuzione Edge: Qwen2-0.5B-Instruct, Gemma2-2B-it
Modelli di Grandi Dimensioni: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Metriche di Valutazione

Sicurezza: Accuratezza degli attacchi di furto di modelli (più bassa è meglio)
Efficienza: Numero di operazioni in virgola mobile (FLOPs), sovraccarico di trasferimento TEE-GPU
Accuratezza: Accuratezza specifica del compito

Metodi di Confronto

TPTE: NPLO
PPTE: DarkneTZ, SOTER, Serdab, DTE
PSP: ShadowNet, TransLinkGuard (TLG)
Limiti: No-shield (limite inferiore), Black-box (limite superiore)

Dettagli di Implementazione

Implementazione utilizzando la libreria Hugging Face
Ottimizzatore AdamW, pianificazione del tasso di apprendimento lineare
Esperimenti condotti su GPU NVIDIA A800
Presuppone che l'aggressore possieda il 100% del dataset di addestramento (più rigoroso dell'1% dei lavori precedenti)

Risultati Sperimentali

Risultati Principali

Valutazione della Sicurezza:

Accuratezza dell'inferenza non autorizzata: 0% in tutti i casi
Attacchi di furto di modelli: accuratezza relativa di CoreGuard pari a 1,17× (vicina a Black-box di 1,00×)
Significativamente superiore al metodo TPTE NPLO (9,59×) e al metodo PPTE DarkneTZ (8,43×)
Prestazioni comparabili ad altri metodi PSP (TLG: 1,07×, ShadowNet: 1,09×)

Confronto di Efficienza:

Sovraccarico di Esecuzione TEE: CoreGuard < 1,17e-03%, metodi PPTE 2,91%-21,52%
Sovraccarico di Trasferimento TEE-GPU: CoreGuard richiede solo 5 round di trasferimento, mentre ShadowNet ne richiede 448 (LLaMA3-8B)
Quantità di Dati Trasferiti: CoreGuard circa 20KB, ShadowNet circa 1,3GB

Esperimenti di Ablazione

Sicurezza in Diverse Impostazioni di Attacco:

Attacco di fine-tuning LoRA: CoreGuard mantiene una sicurezza vicina al limite superiore
Diversi rapporti di dati (1%-100%): rimane vicino alla protezione Black-box in tutti i casi
Allineamento dei compiti: mantiene la sicurezza indipendentemente dal fatto che il compito target dell'aggressore sia allineato con il compito del modello distribuito

Impatto della Posizione di Autorizzazione:

L'autorizzazione in posizione intermedia fornisce la migliore sicurezza
L'autorizzazione alle posizioni iniziali e finali ha una sicurezza inferiore, poiché l'aggressore deve solo recuperare pochi parametri

Mantenimento dell'Accuratezza

Nella maggior parte dei casi, il modello protetto mantiene la stessa accuratezza del modello originale
In alcuni casi, si osservano piccole fluttuazioni di ±0,5%, attribuite ai limiti di precisione in virgola mobile

Lavori Correlati

Principali Direzioni di Ricerca

Metodi di Protezione del Modello:
- Tecniche di watermarking: protezione passiva, fornisce solo prove di proprietà
- Crittografia del modello: vulnerabile durante l'esecuzione
- Protezione TEE: il sovraccarico computazionale della protezione diretta è eccessivo
Protezione Shuffle Parametri:
- ShadowNet: protezione shuffle canale per livelli convoluzionali
- TransLinkGuard: protezione modelli Transformer
Applicazioni di Ambienti di Esecuzione Affidabili:
- TEE basato su CPU: ARM TrustZone, Intel SGX
- GPU TEE: ancora in fase iniziale, principalmente per data center

Vantaggi di Questo Lavoro

Rispetto ai lavori esistenti, CoreGuard raggiunge miglioramenti di efficienza di ordini di grandezza mantenendo lo stesso livello di sicurezza, in particolare nel sovraccarico di comunicazione.

Conclusioni e Discussione

Conclusioni Principali

CoreGuard risolve con successo il problema della protezione di sicurezza degli LLM distribuiti su edge
Realizza la complessità di comunicazione ottimale attraverso il protocollo di propagazione
Raggiunge sovraccarichi computazionali e di comunicazione trascurabili garantendo la sicurezza con limite superiore
Mantiene l'accuratezza originale del modello

Limitazioni

Attacchi ai Canali Laterali: dipende da TEE come radice di fiducia della sicurezza, potenzialmente vulnerabile agli attacchi ai canali laterali
Limitazioni GPU TEE: attualmente si affida principalmente a TEE basato su CPU, GPU TEE rimane immaturo
Distribuzione Pratica: l'articolo si concentra sul framework principale, senza approfondire i dettagli di implementazione specifici del dispositivo
Compatibilità Architettonica: progettato principalmente per l'architettura Transformer mainstream

Direzioni Future

Integrazione di misure di protezione contro gli attacchi ai canali laterali
Adattamento allo sviluppo della tecnologia GPU TEE
Estensione a più architetture di modelli
Ottimizzazione della distribuzione su dispositivi reali

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Primo lavoro a risolvere sistematicamente il problema della protezione delle capacità fondamentali degli LLM per la distribuzione edge
Tecnica Ingegnosa: Il design del protocollo di propagazione è elegante, realizzando la copertura dell'autorizzazione singola su tutta la rete
Teoria Solida: Fornisce garanzie di sicurezza matematica basate sul problema LWE
Esperimenti Completi: Valutazione completa su più modelli, compiti e scenari di attacco
Alto Valore Pratico: I significativi miglioramenti di efficienza la rendono praticabile nella distribuzione reale

Carenze

Assunzioni di Sicurezza: dipende dalla sicurezza del TEE, potenzialmente fragile di fronte agli attacchi ai canali laterali
Ambito di Applicabilità: principalmente progettato per l'architettura Transformer, applicabilità limitata ad altre architetture
Complessità di Distribuzione: la distribuzione reale richiede considerazione di più fattori a livello hardware e sistema
Sicurezza a Lungo Termine: l'efficacia continua delle misure di protezione attuali necessita di verifica con lo sviluppo delle tecniche di attacco

Impatto

Contributo Accademico: Fornisce nuove direzioni di ricerca e approcci risolutivi per il campo della sicurezza dell'IA edge
Valore Pratico: Ha importanti implicazioni guida per la distribuzione edge di LLM commerciali
Spinta Tecnologica: Potrebbe promuovere l'ulteriore sviluppo della tecnologia TEE nel campo della protezione dell'IA

Scenari Applicabili

Distribuzione su dispositivi edge di LLM proprietari
Applicazioni di IA sensibili alla latenza e alla privacy
Servizi di IA commerciali che richiedono protezione della proprietà intellettuale
Protezione di modelli in ambienti con risorse limitate

Bibliografia

L'articolo cita 52 articoli correlati, coprendo importanti lavori in più campi tra cui protezione del modello, ambienti di esecuzione affidabili e modelli linguistici di grandi dimensioni, fornendo una base teorica e un supporto tecnico solidi per la ricerca.

Valutazione Complessiva: CoreGuard è un lavoro di ricerca di alta qualità che si distingue per innovazione tecnica, verifica sperimentale e valore pratico. Questo lavoro non solo risolve un importante problema pratico, ma fornisce anche idee e metodi preziosi per la ricerca successiva nei campi correlati.