Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
- Paper-ID: 2410.13903
- Titel: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
- Autoren: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
- Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz), cs.DC (Verteiltes Rechnen)
- Veröffentlichungszeit/Konferenz: 39. Konferenz zu Neuronalen Informationsverarbeitungssystemen (NeurIPS 2025)
- Paper-Link: https://arxiv.org/abs/2410.13903
Proprietäre große Sprachmodelle (LLMs) zeigen starke Generalisierungsfähigkeiten bei verschiedenen Aufgaben und werden zunehmend aus Effizienz- und Datenschutzgründen auf Edge-Geräten bereitgestellt. Die Bereitstellung proprietärer LLMs auf Edge-Geräten ohne angemessenen Schutz stellt jedoch ernsthafte Sicherheitsrisiken dar. Angreifer können Modellgewichte und Architektur extrahieren, was zu unbefugter Vervielfältigung und Missbrauch führt. Selbst wenn Schutzmaßnahmen die vollständige Extraktion von Modellgewichten verhindern, können Angreifer fortgeschrittene Angriffe (wie Feinabstimmung) durchführen, um das Modell weiter auszunutzen. Bestehende Abwehrmaßnahmen führen typischerweise zu erheblichen Rechen- und Kommunikationsaufwänden, was sie für Edge-Bereitstellungen unpraktisch macht. Um LLMs bei Edge-Bereitstellung zu schützen, wird in diesem Papier CoreGuard vorgestellt – eine rechen- und kommunikationseffiziente Schutzmethode. CoreGuard nutzt effiziente Schutzprotokolle zur Reduzierung des Rechenaufwands und minimiert den Kommunikationsaufwand durch Ausbreitungsprotokolle. Umfangreiche Experimente zeigen, dass CoreGuard mit vernachlässigbarem Aufwand obere Sicherheitsgarantien erreicht.
- Kernproblem: Proprietäre LLMs bei Edge-Bereitstellung sind Modelldiebstahlbedrohungen ausgesetzt. Angreifer können durch Softwareanalysetechniken Modellarchitektur und Gewichte extrahieren, was zu unbefugter Vervielfältigung und Missbrauch führt.
- Problemrelevanz:
- Proprietäre LLMs (wie ChatGPT, Claude) verfügen über starke Generalisierungsfähigkeiten mit enormen Entwicklungskosten
- Klarer Trend zur Edge-Bereitstellung (z.B. Apple Intelligence mit 3B-Parameter-LLM auf iOS-Geräten)
- Domänenspezifische proprietäre LLMs (z.B. BloombergGPT im Finanzbereich, Med-PaLM 2 im Gesundheitswesen) haben keine Open-Source-Alternativen
- Einschränkungen bestehender Methoden:
- Passive Schutzmaßnahmen (wie Wasserzeichen): Bieten nur Eigentumsnachweis, können Missbrauch in unüberwachten Edge-Umgebungen nicht verhindern
- Modellverschlüsselung: Anfällig für Angriffe zur Laufzeit
- Direkter TEE-Schutz: Das Platzieren des gesamten Modells in der Trusted Execution Environment führt zu etwa 50-facher Effizienzreduzierung
- Teilweise Parameter-TEE-Ausführung (PPTE): Schützt nur begrenzte Gewichtszahl, anfällig für Rekonstruktion
- Parameter-Shuffle-Schutz (PSP): Methoden wie ShadowNet haben übermäßige Datenübertragungsaufwände
- Forschungsmotivation: Notwendigkeit einer Lösung, die ausreichende Sicherheit gewährleistet und gleichzeitig akzeptable Rechen- und Kommunikationsaufwände aufrechterhält.
- Erstmaliger Schutz grundlegender Fähigkeiten von LLMs bei Edge-Bereitstellung: Systematische Charakterisierung der Sicherheitsherausforderungen in diesem Szenario und Identifizierung der Anforderungen zum Schutz von LLMs bei Edge-Bereitstellung.
- Vorschlag einer Plug-and-Play-Lösung CoreGuard: Nutzung leichtgewichtiger Autorisierungsmechanismen zum Schutz von LLMs bei Edge-Bereitstellung, Einsatz von Ausbreitungsprotokollen zur signifikanten Reduzierung des Übertragungsaufwands bei gleichzeitig niedrigem Rechenaufwand.
- Umfassende experimentelle Validierung: CoreGuard bietet höhere Sicherheitsgarantien, niedrigere Aufwände und keinen Genauigkeitsverlust im Vergleich zu bestehenden Lösungen.
Eingabe: Trainiertes LLM-Modell
Ausgabe: Gesperrtes Modell, das nur durch ordnungsgemäße Autorisierung über vertrauenswürdige Hardware (TEE) im Gerät normal funktioniert
Einschränkungen: Minimierung von Rechen- und Kommunikationsaufwänden, Beibehaltung der Modellgenauigkeit
CoreGuard-Operationen erfolgen in zwei Phasen:
Schutzprotokoll (Protection Protocol):
- Zeilenvertauschung der Gewichtsmatrizen linearer Schichten: Wq′=πTWq,Wk′=πTWk,Wv′=πTWv,Wm′=πTWm
- Diese Zeilenvertauschungen fungieren als "Schlösser", die lineare Schichten deaktivieren. Nur entsprechende Spaltenvertauschungseingaben (Autorisierung) ermöglichen normale Berechnung
- Permutationsmatrix π∈{0,1}d×d erfüllt ππT=I
Ausbreitungsprotokoll (Propagation Protocol):
- Spaltenvertauschung der Ausgabeverarbeitungsschichten: Wo′=Woπ,Wn′=Wnπ
- Realisierung von Spaltenvertauschung von Merkmalen durch Netzwerkoperationen selbst, Erreichung automatischer Autorisierungseffekte
- TEE muss nur initiale Autorisierung verwalten; Autorisierung kann sich auf alle nachfolgenden Schichten ausbreiten
Verschlüsselungsprozess:
m′=mπ+pπ
wobei p One-Time-Pad (OTP)-Rauschen ist und m′ die verschlüsselte vertauschte Merkmal ist.
Ausgabeschicht-Verarbeitung:
n′=m′Wn′=(mπ+pπ)πTWn+bn=n+pWn
Entschlüsselung und Autorisierung:
n′′=n′−pWn=nz′=(γ2⊙σy+nn+y−μy+n+β2)π=zπ
- Mechanismus der einmaligen Autorisierungsausbreitung: Durch geschicktes Permutationsdesign wird die automatische Ausbreitung der Autorisierung im Netzwerk realisiert, wodurch TEE-Autorisierung für jede Schicht vermieden wird.
- Kombination von OTP-Verschlüsselung und Positionsvermischung: Verwendung von One-Time-Pad-Verschlüsselung kombiniert mit Permutation zur Verschleierung von Verschlüsselung und Entschlüsselung.
- Optimale Kommunikationskomplexität: Nur 5 Runden TEE-GPU-Übertragung pro Inferenz erforderlich, erreicht theoretisches Optimum.
- Mathematische Sicherheitsgarantie: Sicherheitsnachweis basierend auf der NP-Härte des Learning With Errors (LWE)-Problems.
- GSM8k: Mathematische Reasoning-Aufgabe
- Spider: Code-Generierungsaufgabe
- PubMedQA: Medizinische Frage-Antwort-Aufgabe
- SQuAD: Leseverständnis-Aufgabe
- Edge-Bereitstellungsmodelle: Qwen2-0.5B-Instruct, Gemma2-2B-it
- Große Modelle: ChatGLM3-6B-32k, LLaMA3-8B-Instruct
- Sicherheit: Genauigkeit von Modelldiebstahl-Angriffen (niedriger ist besser)
- Effizienz: Floating-Point-Operationen (FLOPs), TEE-GPU-Übertragungsaufwand
- Genauigkeit: Aufgabenspezifische Genauigkeit
- TPTE: NPLO
- PPTE: DarkneTZ, SOTER, Serdab, DTE
- PSP: ShadowNet, TransLinkGuard (TLG)
- Grenzen: No-shield (Untergrenze), Black-box (Obergrenze)
- Implementierung mit Hugging Face-Bibliothek
- AdamW-Optimierer, linearer Lernraten-Scheduler
- Experimente auf NVIDIA A800 GPU
- Annahme: Angreifer verfügt über 100% des Trainingsdatensatzes (strenger als 1% in früheren Arbeiten)
Sicherheitsbewertung:
- Genauigkeit ohne Autorisierung: 0% in allen Fällen
- Modelldiebstahl-Angriff: CoreGuard relative Genauigkeit 1,17× (nahe Black-box 1,00×)
- Deutlich besser als TPTE-Methode NPLO (9,59×) und PPTE-Methode DarkneTZ (8,43×)
- Vergleichbare Leistung mit anderen PSP-Methoden (TLG: 1,07×, ShadowNet: 1,09×)
Effizienzvergleich:
- TEE-Ausführungsaufwand: CoreGuard < 1,17e-03%, PPTE-Methoden 2,91%-21,52%
- TEE-GPU-Übertragungsaufwand: CoreGuard benötigt nur 5 Runden, ShadowNet benötigt 448 Runden (LLaMA3-8B)
- Übertragungsdatenmenge: CoreGuard etwa 20KB, ShadowNet etwa 1,3GB
Sicherheit unter verschiedenen Angriffsszenarien:
- LoRA-Feinabstimmungsangriff: CoreGuard behält Sicherheit nahe der Obergrenze
- Verschiedene Datenverhältnisse (1%-100%): Bleibt in allen Einstellungen nahe Black-box-Schutz
- Aufgabenausrichtung: Behält Sicherheit unabhängig davon, ob die Zielaufgabe des Angreifers mit der Bereitstellungsaufgabe übereinstimmt
Auswirkung der Autorisierungsposition:
- Mittlere Positionen bieten beste Sicherheit
- Autorisierung an Anfangs- und Endpositionen bietet niedrigere Sicherheit, da Angreifer nur wenige Parameter wiederherstellen müssen
- In den meisten Fällen identische Genauigkeit zwischen geschütztem und ursprünglichem Modell
- In einzelnen Fällen geringfügige Schwankungen von ±0,5%, zurückzuführen auf Gleitkomma-Präzisionsbeschränkungen
- Modellschutzverfahren:
- Wasserzeichen-Techniken: Passiver Schutz, bietet nur Eigentumsnachweis
- Modellverschlüsselung: Anfällig für Angriffe zur Laufzeit
- TEE-Schutz: Direkter Schutz mit großem Rechenaufwand
- Parameter-Shuffle-Schutz:
- ShadowNet: Kanal-Shuffle-Schutz für Faltungsschichten
- TransLinkGuard: Schutz für Transformer-Modelle
- Anwendungen vertrauenswürdiger Ausführungsumgebungen:
- CPU-basierte TEE: ARM TrustZone, Intel SGX
- GPU TEE: Noch in frühem Stadium, hauptsächlich für Rechenzentren
Im Vergleich zu bestehenden Arbeiten erreicht CoreGuard bei gleichem Sicherheitsniveau eine Effizienzsteigerung um mehrere Größenordnungen, besonders bei Kommunikationsaufwänden.
- CoreGuard löst erfolgreich das Sicherheitsschutzproblem von LLMs bei Edge-Bereitstellung
- Realisierung optimaler Kommunikationskomplexität durch Ausbreitungsprotokolle
- Erreichung oberer Sicherheitsgarantien mit vernachlässigbarem Rechen- und Kommunikationsaufwand
- Beibehaltung der ursprünglichen Modellgenauigkeit
- Seitenkanalangriffe: Abhängig von TEE als Sicherheitswurzel, möglicherweise anfällig für Seitenkanalangriffe
- GPU TEE-Einschränkungen: Hauptsächlich auf CPU-basierte TEE angewiesen, GPU TEE noch nicht ausgereift
- Praktische Bereitstellung: Papier konzentriert sich auf Kernrahmen, nicht auf gerätespezifische Implementierungsdetails
- Architekturkompatibilität: Hauptsächlich für Mainstream-Transformer-Architektur konzipiert
- Integration von Seitenkanalangriff-Schutzmaßnahmen
- Anpassung an GPU TEE-Technologieentwicklung
- Erweiterung auf weitere Modellarchitekturen
- Optimierung für praktische Gerätebereitstellung
- Starke Innovation: Erstmalige systematische Lösung des Grundfähigkeitsschutzproblems von LLMs bei Edge-Bereitstellung
- Geschicktes Design: Ausbreitungsprotokoll-Design ist elegant und realisiert Autorisierungsabdeckung des gesamten Netzwerks durch einmalige Autorisierung
- Solide Theorie: Mathematische Sicherheitsgarantie basierend auf LWE-Problem
- Umfassende Experimente: Vollständige Bewertung über mehrere Modelle, Aufgaben und Angriffsszenarien
- Hoher praktischer Wert: Signifikante Effizienzsteigerung macht praktische Bereitstellung machbar
- Sicherheitsannahmen: Abhängig von TEE-Sicherheit, möglicherweise anfällig für Seitenkanalangriffe
- Anwendungsbereich: Hauptsächlich für Transformer-Architektur, begrenzte Anwendbarkeit auf andere Architekturen
- Bereitstellungskomplexität: Praktische Bereitstellung erfordert Berücksichtigung weiterer Hardware- und Systemebenen-Faktoren
- Langzeitsicherheit: Kontinuierliche Wirksamkeit aktueller Schutzmaßnahmen mit Entwicklung von Angriffstechniken muss verifiziert werden
- Akademischer Beitrag: Bietet neue Forschungsrichtungen und Lösungsansätze für Edge-AI-Sicherheit
- Praktischer Wert: Wichtige Orientierung für kommerzielle LLM-Edge-Bereitstellung
- Technologischer Fortschritt: Kann TEE-Technologieentwicklung im AI-Schutzbereich fördern
- Proprietäre LLM-Bereitstellung auf Edge-Geräten
- Latenz- und datenschutzsensitive AI-Anwendungen
- Kommerzielle AI-Services mit Schutz geistigen Eigentums
- Modellschutz in ressourcenbeschränkten Umgebungen
Das Papier zitiert 52 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen wie Modellschutz, vertrauenswürdige Ausführungsumgebungen und große Sprachmodelle abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.
Gesamtbewertung: CoreGuard ist eine hochwertige Forschungsarbeit, die sich in technischer Innovation, experimenteller Validierung und praktischem Wert auszeichnet. Diese Arbeit löst nicht nur ein wichtiges praktisches Problem, sondern bietet auch wertvolle Ideen und Methoden für nachfolgende Forschung in verwandten Bereichen.