Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
- ID Articolo: 2410.13903
- Titolo: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
- Autori: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
- Classificazione: cs.CR (Crittografia e Sicurezza), cs.AI (Intelligenza Artificiale), cs.DC (Calcolo Distribuito)
- Data di Pubblicazione/Conferenza: 39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale (NeurIPS 2025)
- Collegamento Articolo: https://arxiv.org/abs/2410.13903
I modelli linguistici di grandi dimensioni (LLM) proprietari dimostrano forti capacità di generalizzazione in numerosi compiti e, per motivi di efficienza e privacy, vengono sempre più frequentemente distribuiti su dispositivi edge. Tuttavia, la distribuzione di LLM proprietari su dispositivi edge senza adeguate protezioni presenta gravi minacce alla sicurezza. Gli aggressori possono estrarre i pesi del modello e l'architettura, realizzando copie non autorizzate e abusi. Anche se le misure di protezione riescono a prevenire l'estrazione completa dei pesi del modello, gli aggressori potrebbero comunque eseguire attacchi avanzati (come il fine-tuning) per sfruttare ulteriormente il modello. Le soluzioni di difesa esistenti generalmente producono significativi sovraccarichi computazionali e di comunicazione, rendendole impraticabili nella distribuzione edge. Per proteggere gli LLM distribuiti su edge, questo articolo propone CoreGuard, un metodo di protezione computazionalmente e comunicativamente efficiente. CoreGuard impiega un protocollo di protezione efficiente per ridurre il sovraccarico computazionale e minimizza il sovraccarico di comunicazione attraverso un protocollo di propagazione. Esperimenti estensivi dimostrano che CoreGuard raggiunge una protezione di sicurezza con limite superiore con sovraccarichi trascurabili.
- Problema Centrale: Gli LLM proprietari distribuiti su edge affrontano minacce di furto di modelli, dove gli aggressori possono estrarre l'architettura e i pesi del modello attraverso tecniche di analisi software, causando copie non autorizzate e abusi.
- Importanza del Problema:
- Gli LLM proprietari (come ChatGPT, Claude) possiedono forti capacità di generalizzazione con costi di sviluppo enormi
- La tendenza della distribuzione edge è evidente (ad esempio, Apple Intelligence integra un LLM con 3B parametri nei dispositivi iOS)
- Gli LLM proprietari specifici del dominio (come BloombergGPT nel settore finanziario, Med-PaLM 2 nel settore medico) mancano di alternative open-source
- Limitazioni dei Metodi Esistenti:
- Protezione Passiva (come watermarking): fornisce solo prove di proprietà, non può prevenire gli abusi in ambienti edge non supervisionati
- Crittografia del Modello: rimane vulnerabile durante l'esecuzione
- Protezione TEE Diretta: inserire l'intero modello in un ambiente di esecuzione affidabile causa una riduzione di efficienza di circa 50 volte
- Esecuzione TEE Parametri Parziali (PPTE): protegge un numero limitato di pesi, facilmente ricostruibili
- Protezione Parametri Shuffle (PSP): soluzioni come ShadowNet presentano sovraccarichi di trasferimento dati eccessivi
- Motivazione della Ricerca: È necessaria una soluzione che garantisca una sicurezza adeguata mantenendo al contempo sovraccarichi computazionali e di comunicazione accettabili.
- Prima Protezione delle Capacità Fondamentali degli LLM per la Distribuzione Edge: Caratterizza sistematicamente le sfide di sicurezza in questo scenario e identifica i requisiti per proteggere gli LLM distribuiti su edge.
- Propone la Soluzione Plug-and-Play CoreGuard: Utilizza meccanismi di autorizzazione leggeri per proteggere gli LLM distribuiti su edge, impiega un protocollo di propagazione per ridurre significativamente il sovraccarico di trasferimento, mantenendo al contempo un basso sovraccarico computazionale.
- Verifica Sperimentale Completa: Rispetto alle soluzioni esistenti, CoreGuard fornisce garanzie di sicurezza superiori, sovraccarichi inferiori e nessuna perdita di accuratezza.
Input: Modello LLM addestrato
Output: Modello bloccato, che funziona normalmente solo con l'autorizzazione appropriata attraverso l'hardware affidabile (TEE) nel dispositivo
Vincoli: Minimizzare il sovraccarico computazionale e di comunicazione, mantenere l'accuratezza del modello invariata
CoreGuard opera in due fasi:
Protocollo di Protezione (Protection Protocol):
- Esegue permutazioni di righe sulle matrici di peso dei livelli lineari: Wq′=πTWq,Wk′=πTWk,Wv′=πTWv,Wm′=πTWm
- Queste permutazioni di righe fungono da "serrature", rendendo i livelli lineari inefficaci, con il calcolo normale possibile solo con la corrispondente permutazione di colonne dell'input (autorizzazione)
- La matrice di permutazione π∈{0,1}d×d soddisfa ππT=I
Protocollo di Propagazione (Propagation Protocol):
- Esegue permutazioni di colonne sui livelli di elaborazione dell'output: Wo′=Woπ,Wn′=Wnπ
- Realizza la permutazione di colonne delle caratteristiche attraverso le operazioni della rete stessa, ottenendo un effetto di autorizzazione automatica
- Il TEE deve solo gestire l'autorizzazione iniziale, che si propaga automaticamente a tutti i livelli successivi
Processo di Crittografia:
m′=mπ+pπ
dove p è il rumore del blocco monouso (OTP), m′ è la caratteristica permutata crittografata.
Elaborazione del Livello di Output Lineare:
n′=m′Wn′=(mπ+pπ)πTWn+bn=n+pWn
Decrittazione e Autorizzazione:
n′′=n′−pWn=nz′=(γ2⊙σy+nn+y−μy+n+β2)π=zπ
- Meccanismo di Propagazione dell'Autorizzazione Singola: Attraverso un design di permutazione ingegnoso, realizza la propagazione automatica dell'autorizzazione nella rete, evitando l'autorizzazione TEE per ogni livello.
- Combinazione di Crittografia OTP e Confusione di Posizione: Utilizza la crittografia con blocco monouso combinata con permutazioni per nascondere i processi di crittografia e decrittazione.
- Complessità di Comunicazione Ottimale: Richiede solo 5 round di trasferimento TEE-GPU per inferenza, raggiungendo l'ottimalità teorica.
- Garanzie di Sicurezza Matematica: Fornisce prove di sicurezza basate sull'assunzione di difficoltà NP del problema Learning With Errors (LWE).
- GSM8k: Compito di ragionamento matematico
- Spider: Compito di generazione di codice
- PubMedQA: Compito di domande e risposte mediche
- SQuAD: Compito di comprensione della lettura
- Modelli di Distribuzione Edge: Qwen2-0.5B-Instruct, Gemma2-2B-it
- Modelli di Grandi Dimensioni: ChatGLM3-6B-32k, LLaMA3-8B-Instruct
- Sicurezza: Accuratezza degli attacchi di furto di modelli (più bassa è meglio)
- Efficienza: Numero di operazioni in virgola mobile (FLOPs), sovraccarico di trasferimento TEE-GPU
- Accuratezza: Accuratezza specifica del compito
- TPTE: NPLO
- PPTE: DarkneTZ, SOTER, Serdab, DTE
- PSP: ShadowNet, TransLinkGuard (TLG)
- Limiti: No-shield (limite inferiore), Black-box (limite superiore)
- Implementazione utilizzando la libreria Hugging Face
- Ottimizzatore AdamW, pianificazione del tasso di apprendimento lineare
- Esperimenti condotti su GPU NVIDIA A800
- Presuppone che l'aggressore possieda il 100% del dataset di addestramento (più rigoroso dell'1% dei lavori precedenti)
Valutazione della Sicurezza:
- Accuratezza dell'inferenza non autorizzata: 0% in tutti i casi
- Attacchi di furto di modelli: accuratezza relativa di CoreGuard pari a 1,17× (vicina a Black-box di 1,00×)
- Significativamente superiore al metodo TPTE NPLO (9,59×) e al metodo PPTE DarkneTZ (8,43×)
- Prestazioni comparabili ad altri metodi PSP (TLG: 1,07×, ShadowNet: 1,09×)
Confronto di Efficienza:
- Sovraccarico di Esecuzione TEE: CoreGuard < 1,17e-03%, metodi PPTE 2,91%-21,52%
- Sovraccarico di Trasferimento TEE-GPU: CoreGuard richiede solo 5 round di trasferimento, mentre ShadowNet ne richiede 448 (LLaMA3-8B)
- Quantità di Dati Trasferiti: CoreGuard circa 20KB, ShadowNet circa 1,3GB
Sicurezza in Diverse Impostazioni di Attacco:
- Attacco di fine-tuning LoRA: CoreGuard mantiene una sicurezza vicina al limite superiore
- Diversi rapporti di dati (1%-100%): rimane vicino alla protezione Black-box in tutti i casi
- Allineamento dei compiti: mantiene la sicurezza indipendentemente dal fatto che il compito target dell'aggressore sia allineato con il compito del modello distribuito
Impatto della Posizione di Autorizzazione:
- L'autorizzazione in posizione intermedia fornisce la migliore sicurezza
- L'autorizzazione alle posizioni iniziali e finali ha una sicurezza inferiore, poiché l'aggressore deve solo recuperare pochi parametri
- Nella maggior parte dei casi, il modello protetto mantiene la stessa accuratezza del modello originale
- In alcuni casi, si osservano piccole fluttuazioni di ±0,5%, attribuite ai limiti di precisione in virgola mobile
- Metodi di Protezione del Modello:
- Tecniche di watermarking: protezione passiva, fornisce solo prove di proprietà
- Crittografia del modello: vulnerabile durante l'esecuzione
- Protezione TEE: il sovraccarico computazionale della protezione diretta è eccessivo
- Protezione Shuffle Parametri:
- ShadowNet: protezione shuffle canale per livelli convoluzionali
- TransLinkGuard: protezione modelli Transformer
- Applicazioni di Ambienti di Esecuzione Affidabili:
- TEE basato su CPU: ARM TrustZone, Intel SGX
- GPU TEE: ancora in fase iniziale, principalmente per data center
Rispetto ai lavori esistenti, CoreGuard raggiunge miglioramenti di efficienza di ordini di grandezza mantenendo lo stesso livello di sicurezza, in particolare nel sovraccarico di comunicazione.
- CoreGuard risolve con successo il problema della protezione di sicurezza degli LLM distribuiti su edge
- Realizza la complessità di comunicazione ottimale attraverso il protocollo di propagazione
- Raggiunge sovraccarichi computazionali e di comunicazione trascurabili garantendo la sicurezza con limite superiore
- Mantiene l'accuratezza originale del modello
- Attacchi ai Canali Laterali: dipende da TEE come radice di fiducia della sicurezza, potenzialmente vulnerabile agli attacchi ai canali laterali
- Limitazioni GPU TEE: attualmente si affida principalmente a TEE basato su CPU, GPU TEE rimane immaturo
- Distribuzione Pratica: l'articolo si concentra sul framework principale, senza approfondire i dettagli di implementazione specifici del dispositivo
- Compatibilità Architettonica: progettato principalmente per l'architettura Transformer mainstream
- Integrazione di misure di protezione contro gli attacchi ai canali laterali
- Adattamento allo sviluppo della tecnologia GPU TEE
- Estensione a più architetture di modelli
- Ottimizzazione della distribuzione su dispositivi reali
- Forte Innovazione: Primo lavoro a risolvere sistematicamente il problema della protezione delle capacità fondamentali degli LLM per la distribuzione edge
- Tecnica Ingegnosa: Il design del protocollo di propagazione è elegante, realizzando la copertura dell'autorizzazione singola su tutta la rete
- Teoria Solida: Fornisce garanzie di sicurezza matematica basate sul problema LWE
- Esperimenti Completi: Valutazione completa su più modelli, compiti e scenari di attacco
- Alto Valore Pratico: I significativi miglioramenti di efficienza la rendono praticabile nella distribuzione reale
- Assunzioni di Sicurezza: dipende dalla sicurezza del TEE, potenzialmente fragile di fronte agli attacchi ai canali laterali
- Ambito di Applicabilità: principalmente progettato per l'architettura Transformer, applicabilità limitata ad altre architetture
- Complessità di Distribuzione: la distribuzione reale richiede considerazione di più fattori a livello hardware e sistema
- Sicurezza a Lungo Termine: l'efficacia continua delle misure di protezione attuali necessita di verifica con lo sviluppo delle tecniche di attacco
- Contributo Accademico: Fornisce nuove direzioni di ricerca e approcci risolutivi per il campo della sicurezza dell'IA edge
- Valore Pratico: Ha importanti implicazioni guida per la distribuzione edge di LLM commerciali
- Spinta Tecnologica: Potrebbe promuovere l'ulteriore sviluppo della tecnologia TEE nel campo della protezione dell'IA
- Distribuzione su dispositivi edge di LLM proprietari
- Applicazioni di IA sensibili alla latenza e alla privacy
- Servizi di IA commerciali che richiedono protezione della proprietà intellettuale
- Protezione di modelli in ambienti con risorse limitate
L'articolo cita 52 articoli correlati, coprendo importanti lavori in più campi tra cui protezione del modello, ambienti di esecuzione affidabili e modelli linguistici di grandi dimensioni, fornendo una base teorica e un supporto tecnico solidi per la ricerca.
Valutazione Complessiva: CoreGuard è un lavoro di ricerca di alta qualità che si distingue per innovazione tecnica, verifica sperimentale e valore pratico. Questo lavoro non solo risolve un importante problema pratico, ma fornisce anche idee e metodi preziosi per la ricerca successiva nei campi correlati.