2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard: Schutz grundlegender Fähigkeiten von LLMs gegen Modelldiebstahl bei Edge-Bereitstellung

Grundlegende Informationen

Paper-ID: 2410.13903
Titel: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
Autoren: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz), cs.DC (Verteiltes Rechnen)
Veröffentlichungszeit/Konferenz: 39. Konferenz zu Neuronalen Informationsverarbeitungssystemen (NeurIPS 2025)
Paper-Link: https://arxiv.org/abs/2410.13903

Zusammenfassung

Proprietäre große Sprachmodelle (LLMs) zeigen starke Generalisierungsfähigkeiten bei verschiedenen Aufgaben und werden zunehmend aus Effizienz- und Datenschutzgründen auf Edge-Geräten bereitgestellt. Die Bereitstellung proprietärer LLMs auf Edge-Geräten ohne angemessenen Schutz stellt jedoch ernsthafte Sicherheitsrisiken dar. Angreifer können Modellgewichte und Architektur extrahieren, was zu unbefugter Vervielfältigung und Missbrauch führt. Selbst wenn Schutzmaßnahmen die vollständige Extraktion von Modellgewichten verhindern, können Angreifer fortgeschrittene Angriffe (wie Feinabstimmung) durchführen, um das Modell weiter auszunutzen. Bestehende Abwehrmaßnahmen führen typischerweise zu erheblichen Rechen- und Kommunikationsaufwänden, was sie für Edge-Bereitstellungen unpraktisch macht. Um LLMs bei Edge-Bereitstellung zu schützen, wird in diesem Papier CoreGuard vorgestellt – eine rechen- und kommunikationseffiziente Schutzmethode. CoreGuard nutzt effiziente Schutzprotokolle zur Reduzierung des Rechenaufwands und minimiert den Kommunikationsaufwand durch Ausbreitungsprotokolle. Umfangreiche Experimente zeigen, dass CoreGuard mit vernachlässigbarem Aufwand obere Sicherheitsgarantien erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Proprietäre LLMs bei Edge-Bereitstellung sind Modelldiebstahlbedrohungen ausgesetzt. Angreifer können durch Softwareanalysetechniken Modellarchitektur und Gewichte extrahieren, was zu unbefugter Vervielfältigung und Missbrauch führt.
Problemrelevanz:
- Proprietäre LLMs (wie ChatGPT, Claude) verfügen über starke Generalisierungsfähigkeiten mit enormen Entwicklungskosten
- Klarer Trend zur Edge-Bereitstellung (z.B. Apple Intelligence mit 3B-Parameter-LLM auf iOS-Geräten)
- Domänenspezifische proprietäre LLMs (z.B. BloombergGPT im Finanzbereich, Med-PaLM 2 im Gesundheitswesen) haben keine Open-Source-Alternativen
Einschränkungen bestehender Methoden:
- Passive Schutzmaßnahmen (wie Wasserzeichen): Bieten nur Eigentumsnachweis, können Missbrauch in unüberwachten Edge-Umgebungen nicht verhindern
- Modellverschlüsselung: Anfällig für Angriffe zur Laufzeit
- Direkter TEE-Schutz: Das Platzieren des gesamten Modells in der Trusted Execution Environment führt zu etwa 50-facher Effizienzreduzierung
- Teilweise Parameter-TEE-Ausführung (PPTE): Schützt nur begrenzte Gewichtszahl, anfällig für Rekonstruktion
- Parameter-Shuffle-Schutz (PSP): Methoden wie ShadowNet haben übermäßige Datenübertragungsaufwände
Forschungsmotivation: Notwendigkeit einer Lösung, die ausreichende Sicherheit gewährleistet und gleichzeitig akzeptable Rechen- und Kommunikationsaufwände aufrechterhält.

Kernbeiträge

Erstmaliger Schutz grundlegender Fähigkeiten von LLMs bei Edge-Bereitstellung: Systematische Charakterisierung der Sicherheitsherausforderungen in diesem Szenario und Identifizierung der Anforderungen zum Schutz von LLMs bei Edge-Bereitstellung.
Vorschlag einer Plug-and-Play-Lösung CoreGuard: Nutzung leichtgewichtiger Autorisierungsmechanismen zum Schutz von LLMs bei Edge-Bereitstellung, Einsatz von Ausbreitungsprotokollen zur signifikanten Reduzierung des Übertragungsaufwands bei gleichzeitig niedrigem Rechenaufwand.
Umfassende experimentelle Validierung: CoreGuard bietet höhere Sicherheitsgarantien, niedrigere Aufwände und keinen Genauigkeitsverlust im Vergleich zu bestehenden Lösungen.

Methodische Details

Aufgabendefinition

Eingabe: Trainiertes LLM-Modell Ausgabe: Gesperrtes Modell, das nur durch ordnungsgemäße Autorisierung über vertrauenswürdige Hardware (TEE) im Gerät normal funktioniert Einschränkungen: Minimierung von Rechen- und Kommunikationsaufwänden, Beibehaltung der Modellgenauigkeit

Modellarchitektur

CoreGuard-Operationen erfolgen in zwei Phasen:

1. Modellsperrphase (vor Bereitstellung)

Schutzprotokoll (Protection Protocol):

Zeilenvertauschung der Gewichtsmatrizen linearer Schichten: $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
Diese Zeilenvertauschungen fungieren als "Schlösser", die lineare Schichten deaktivieren. Nur entsprechende Spaltenvertauschungseingaben (Autorisierung) ermöglichen normale Berechnung
Permutationsmatrix $\pi \in \{0,1\}^{d \times d}$ erfüllt $\pi\pi^T = I$

Ausbreitungsprotokoll (Propagation Protocol):

Spaltenvertauschung der Ausgabeverarbeitungsschichten: $W'_o = W_o\pi, W'_n = W_n\pi$
Realisierung von Spaltenvertauschung von Merkmalen durch Netzwerkoperationen selbst, Erreichung automatischer Autorisierungseffekte
TEE muss nur initiale Autorisierung verwalten; Autorisierung kann sich auf alle nachfolgenden Schichten ausbreiten

2. Inferenz-Autorisierungsphase (nach Bereitstellung)

Verschlüsselungsprozess: $m' = m\pi + p\pi$ wobei $p$ One-Time-Pad (OTP)-Rauschen ist und $m'$ die verschlüsselte vertauschte Merkmal ist.

Ausgabeschicht-Verarbeitung: $n' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n$

Entschlüsselung und Autorisierung: $n'' = n' - pW_n = n$ $z' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi$

Technische Innovationen

Mechanismus der einmaligen Autorisierungsausbreitung: Durch geschicktes Permutationsdesign wird die automatische Ausbreitung der Autorisierung im Netzwerk realisiert, wodurch TEE-Autorisierung für jede Schicht vermieden wird.
Kombination von OTP-Verschlüsselung und Positionsvermischung: Verwendung von One-Time-Pad-Verschlüsselung kombiniert mit Permutation zur Verschleierung von Verschlüsselung und Entschlüsselung.
Optimale Kommunikationskomplexität: Nur 5 Runden TEE-GPU-Übertragung pro Inferenz erforderlich, erreicht theoretisches Optimum.
Mathematische Sicherheitsgarantie: Sicherheitsnachweis basierend auf der NP-Härte des Learning With Errors (LWE)-Problems.

Experimentelle Einrichtung

Datensätze

GSM8k: Mathematische Reasoning-Aufgabe
Spider: Code-Generierungsaufgabe
PubMedQA: Medizinische Frage-Antwort-Aufgabe
SQuAD: Leseverständnis-Aufgabe

Modelle

Edge-Bereitstellungsmodelle: Qwen2-0.5B-Instruct, Gemma2-2B-it
Große Modelle: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Bewertungsmetriken

Sicherheit: Genauigkeit von Modelldiebstahl-Angriffen (niedriger ist besser)
Effizienz: Floating-Point-Operationen (FLOPs), TEE-GPU-Übertragungsaufwand
Genauigkeit: Aufgabenspezifische Genauigkeit

Vergleichsmethoden

TPTE: NPLO
PPTE: DarkneTZ, SOTER, Serdab, DTE
PSP: ShadowNet, TransLinkGuard (TLG)
Grenzen: No-shield (Untergrenze), Black-box (Obergrenze)

Implementierungsdetails

Implementierung mit Hugging Face-Bibliothek
AdamW-Optimierer, linearer Lernraten-Scheduler
Experimente auf NVIDIA A800 GPU
Annahme: Angreifer verfügt über 100% des Trainingsdatensatzes (strenger als 1% in früheren Arbeiten)

Experimentelle Ergebnisse

Hauptergebnisse

Sicherheitsbewertung:

Genauigkeit ohne Autorisierung: 0% in allen Fällen
Modelldiebstahl-Angriff: CoreGuard relative Genauigkeit 1,17× (nahe Black-box 1,00×)
Deutlich besser als TPTE-Methode NPLO (9,59×) und PPTE-Methode DarkneTZ (8,43×)
Vergleichbare Leistung mit anderen PSP-Methoden (TLG: 1,07×, ShadowNet: 1,09×)

Effizienzvergleich:

TEE-Ausführungsaufwand: CoreGuard < 1,17e-03%, PPTE-Methoden 2,91%-21,52%
TEE-GPU-Übertragungsaufwand: CoreGuard benötigt nur 5 Runden, ShadowNet benötigt 448 Runden (LLaMA3-8B)
Übertragungsdatenmenge: CoreGuard etwa 20KB, ShadowNet etwa 1,3GB

Ablationsstudien

Sicherheit unter verschiedenen Angriffsszenarien:

LoRA-Feinabstimmungsangriff: CoreGuard behält Sicherheit nahe der Obergrenze
Verschiedene Datenverhältnisse (1%-100%): Bleibt in allen Einstellungen nahe Black-box-Schutz
Aufgabenausrichtung: Behält Sicherheit unabhängig davon, ob die Zielaufgabe des Angreifers mit der Bereitstellungsaufgabe übereinstimmt

Auswirkung der Autorisierungsposition:

Mittlere Positionen bieten beste Sicherheit
Autorisierung an Anfangs- und Endpositionen bietet niedrigere Sicherheit, da Angreifer nur wenige Parameter wiederherstellen müssen

Genauigkeitsbeibehaltung

In den meisten Fällen identische Genauigkeit zwischen geschütztem und ursprünglichem Modell
In einzelnen Fällen geringfügige Schwankungen von ±0,5%, zurückzuführen auf Gleitkomma-Präzisionsbeschränkungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

CoreGuard löst erfolgreich das Sicherheitsschutzproblem von LLMs bei Edge-Bereitstellung
Realisierung optimaler Kommunikationskomplexität durch Ausbreitungsprotokolle
Erreichung oberer Sicherheitsgarantien mit vernachlässigbarem Rechen- und Kommunikationsaufwand
Beibehaltung der ursprünglichen Modellgenauigkeit

Einschränkungen

Seitenkanalangriffe: Abhängig von TEE als Sicherheitswurzel, möglicherweise anfällig für Seitenkanalangriffe
GPU TEE-Einschränkungen: Hauptsächlich auf CPU-basierte TEE angewiesen, GPU TEE noch nicht ausgereift
Praktische Bereitstellung: Papier konzentriert sich auf Kernrahmen, nicht auf gerätespezifische Implementierungsdetails
Architekturkompatibilität: Hauptsächlich für Mainstream-Transformer-Architektur konzipiert

Zukünftige Richtungen

Integration von Seitenkanalangriff-Schutzmaßnahmen
Anpassung an GPU TEE-Technologieentwicklung
Erweiterung auf weitere Modellarchitekturen
Optimierung für praktische Gerätebereitstellung

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erstmalige systematische Lösung des Grundfähigkeitsschutzproblems von LLMs bei Edge-Bereitstellung
Geschicktes Design: Ausbreitungsprotokoll-Design ist elegant und realisiert Autorisierungsabdeckung des gesamten Netzwerks durch einmalige Autorisierung
Solide Theorie: Mathematische Sicherheitsgarantie basierend auf LWE-Problem
Umfassende Experimente: Vollständige Bewertung über mehrere Modelle, Aufgaben und Angriffsszenarien
Hoher praktischer Wert: Signifikante Effizienzsteigerung macht praktische Bereitstellung machbar

Schwächen

Sicherheitsannahmen: Abhängig von TEE-Sicherheit, möglicherweise anfällig für Seitenkanalangriffe
Anwendungsbereich: Hauptsächlich für Transformer-Architektur, begrenzte Anwendbarkeit auf andere Architekturen
Bereitstellungskomplexität: Praktische Bereitstellung erfordert Berücksichtigung weiterer Hardware- und Systemebenen-Faktoren
Langzeitsicherheit: Kontinuierliche Wirksamkeit aktueller Schutzmaßnahmen mit Entwicklung von Angriffstechniken muss verifiziert werden

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtungen und Lösungsansätze für Edge-AI-Sicherheit
Praktischer Wert: Wichtige Orientierung für kommerzielle LLM-Edge-Bereitstellung
Technologischer Fortschritt: Kann TEE-Technologieentwicklung im AI-Schutzbereich fördern

Anwendungsszenarien

Proprietäre LLM-Bereitstellung auf Edge-Geräten
Latenz- und datenschutzsensitive AI-Anwendungen
Kommerzielle AI-Services mit Schutz geistigen Eigentums
Modellschutz in ressourcenbeschränkten Umgebungen

Literaturverzeichnis

Das Papier zitiert 52 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen wie Modellschutz, vertrauenswürdige Ausführungsumgebungen und große Sprachmodelle abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.

Gesamtbewertung: CoreGuard ist eine hochwertige Forschungsarbeit, die sich in technischer Innovation, experimenteller Validierung und praktischem Wert auszeichnet. Diese Arbeit löst nicht nur ein wichtiges praktisches Problem, sondern bietet auch wertvolle Ideen und Methoden für nachfolgende Forschung in verwandten Bereichen.