2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.
Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
academic

CoreGuard: Schutz grundlegender Fähigkeiten von LLMs gegen Modelldiebstahl bei Edge-Bereitstellung

Grundlegende Informationen

  • Paper-ID: 2410.13903
  • Titel: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
  • Autoren: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
  • Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz), cs.DC (Verteiltes Rechnen)
  • Veröffentlichungszeit/Konferenz: 39. Konferenz zu Neuronalen Informationsverarbeitungssystemen (NeurIPS 2025)
  • Paper-Link: https://arxiv.org/abs/2410.13903

Zusammenfassung

Proprietäre große Sprachmodelle (LLMs) zeigen starke Generalisierungsfähigkeiten bei verschiedenen Aufgaben und werden zunehmend aus Effizienz- und Datenschutzgründen auf Edge-Geräten bereitgestellt. Die Bereitstellung proprietärer LLMs auf Edge-Geräten ohne angemessenen Schutz stellt jedoch ernsthafte Sicherheitsrisiken dar. Angreifer können Modellgewichte und Architektur extrahieren, was zu unbefugter Vervielfältigung und Missbrauch führt. Selbst wenn Schutzmaßnahmen die vollständige Extraktion von Modellgewichten verhindern, können Angreifer fortgeschrittene Angriffe (wie Feinabstimmung) durchführen, um das Modell weiter auszunutzen. Bestehende Abwehrmaßnahmen führen typischerweise zu erheblichen Rechen- und Kommunikationsaufwänden, was sie für Edge-Bereitstellungen unpraktisch macht. Um LLMs bei Edge-Bereitstellung zu schützen, wird in diesem Papier CoreGuard vorgestellt – eine rechen- und kommunikationseffiziente Schutzmethode. CoreGuard nutzt effiziente Schutzprotokolle zur Reduzierung des Rechenaufwands und minimiert den Kommunikationsaufwand durch Ausbreitungsprotokolle. Umfangreiche Experimente zeigen, dass CoreGuard mit vernachlässigbarem Aufwand obere Sicherheitsgarantien erreicht.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Proprietäre LLMs bei Edge-Bereitstellung sind Modelldiebstahlbedrohungen ausgesetzt. Angreifer können durch Softwareanalysetechniken Modellarchitektur und Gewichte extrahieren, was zu unbefugter Vervielfältigung und Missbrauch führt.
  2. Problemrelevanz:
    • Proprietäre LLMs (wie ChatGPT, Claude) verfügen über starke Generalisierungsfähigkeiten mit enormen Entwicklungskosten
    • Klarer Trend zur Edge-Bereitstellung (z.B. Apple Intelligence mit 3B-Parameter-LLM auf iOS-Geräten)
    • Domänenspezifische proprietäre LLMs (z.B. BloombergGPT im Finanzbereich, Med-PaLM 2 im Gesundheitswesen) haben keine Open-Source-Alternativen
  3. Einschränkungen bestehender Methoden:
    • Passive Schutzmaßnahmen (wie Wasserzeichen): Bieten nur Eigentumsnachweis, können Missbrauch in unüberwachten Edge-Umgebungen nicht verhindern
    • Modellverschlüsselung: Anfällig für Angriffe zur Laufzeit
    • Direkter TEE-Schutz: Das Platzieren des gesamten Modells in der Trusted Execution Environment führt zu etwa 50-facher Effizienzreduzierung
    • Teilweise Parameter-TEE-Ausführung (PPTE): Schützt nur begrenzte Gewichtszahl, anfällig für Rekonstruktion
    • Parameter-Shuffle-Schutz (PSP): Methoden wie ShadowNet haben übermäßige Datenübertragungsaufwände
  4. Forschungsmotivation: Notwendigkeit einer Lösung, die ausreichende Sicherheit gewährleistet und gleichzeitig akzeptable Rechen- und Kommunikationsaufwände aufrechterhält.

Kernbeiträge

  1. Erstmaliger Schutz grundlegender Fähigkeiten von LLMs bei Edge-Bereitstellung: Systematische Charakterisierung der Sicherheitsherausforderungen in diesem Szenario und Identifizierung der Anforderungen zum Schutz von LLMs bei Edge-Bereitstellung.
  2. Vorschlag einer Plug-and-Play-Lösung CoreGuard: Nutzung leichtgewichtiger Autorisierungsmechanismen zum Schutz von LLMs bei Edge-Bereitstellung, Einsatz von Ausbreitungsprotokollen zur signifikanten Reduzierung des Übertragungsaufwands bei gleichzeitig niedrigem Rechenaufwand.
  3. Umfassende experimentelle Validierung: CoreGuard bietet höhere Sicherheitsgarantien, niedrigere Aufwände und keinen Genauigkeitsverlust im Vergleich zu bestehenden Lösungen.

Methodische Details

Aufgabendefinition

Eingabe: Trainiertes LLM-Modell Ausgabe: Gesperrtes Modell, das nur durch ordnungsgemäße Autorisierung über vertrauenswürdige Hardware (TEE) im Gerät normal funktioniert Einschränkungen: Minimierung von Rechen- und Kommunikationsaufwänden, Beibehaltung der Modellgenauigkeit

Modellarchitektur

CoreGuard-Operationen erfolgen in zwei Phasen:

1. Modellsperrphase (vor Bereitstellung)

Schutzprotokoll (Protection Protocol):

  • Zeilenvertauschung der Gewichtsmatrizen linearer Schichten: Wq=πTWq,Wk=πTWk,Wv=πTWv,Wm=πTWmW'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m
  • Diese Zeilenvertauschungen fungieren als "Schlösser", die lineare Schichten deaktivieren. Nur entsprechende Spaltenvertauschungseingaben (Autorisierung) ermöglichen normale Berechnung
  • Permutationsmatrix π{0,1}d×d\pi \in \{0,1\}^{d \times d} erfüllt ππT=I\pi\pi^T = I

Ausbreitungsprotokoll (Propagation Protocol):

  • Spaltenvertauschung der Ausgabeverarbeitungsschichten: Wo=Woπ,Wn=WnπW'_o = W_o\pi, W'_n = W_n\pi
  • Realisierung von Spaltenvertauschung von Merkmalen durch Netzwerkoperationen selbst, Erreichung automatischer Autorisierungseffekte
  • TEE muss nur initiale Autorisierung verwalten; Autorisierung kann sich auf alle nachfolgenden Schichten ausbreiten

2. Inferenz-Autorisierungsphase (nach Bereitstellung)

Verschlüsselungsprozess: m=mπ+pπm' = m\pi + p\pi wobei pp One-Time-Pad (OTP)-Rauschen ist und mm' die verschlüsselte vertauschte Merkmal ist.

Ausgabeschicht-Verarbeitung: n=mWn=(mπ+pπ)πTWn+bn=n+pWnn' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n

Entschlüsselung und Autorisierung: n=npWn=nn'' = n' - pW_n = nz=(γ2n+yμy+nσy+n+β2)π=zπz' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi

Technische Innovationen

  1. Mechanismus der einmaligen Autorisierungsausbreitung: Durch geschicktes Permutationsdesign wird die automatische Ausbreitung der Autorisierung im Netzwerk realisiert, wodurch TEE-Autorisierung für jede Schicht vermieden wird.
  2. Kombination von OTP-Verschlüsselung und Positionsvermischung: Verwendung von One-Time-Pad-Verschlüsselung kombiniert mit Permutation zur Verschleierung von Verschlüsselung und Entschlüsselung.
  3. Optimale Kommunikationskomplexität: Nur 5 Runden TEE-GPU-Übertragung pro Inferenz erforderlich, erreicht theoretisches Optimum.
  4. Mathematische Sicherheitsgarantie: Sicherheitsnachweis basierend auf der NP-Härte des Learning With Errors (LWE)-Problems.

Experimentelle Einrichtung

Datensätze

  • GSM8k: Mathematische Reasoning-Aufgabe
  • Spider: Code-Generierungsaufgabe
  • PubMedQA: Medizinische Frage-Antwort-Aufgabe
  • SQuAD: Leseverständnis-Aufgabe

Modelle

  • Edge-Bereitstellungsmodelle: Qwen2-0.5B-Instruct, Gemma2-2B-it
  • Große Modelle: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Bewertungsmetriken

  • Sicherheit: Genauigkeit von Modelldiebstahl-Angriffen (niedriger ist besser)
  • Effizienz: Floating-Point-Operationen (FLOPs), TEE-GPU-Übertragungsaufwand
  • Genauigkeit: Aufgabenspezifische Genauigkeit

Vergleichsmethoden

  1. TPTE: NPLO
  2. PPTE: DarkneTZ, SOTER, Serdab, DTE
  3. PSP: ShadowNet, TransLinkGuard (TLG)
  4. Grenzen: No-shield (Untergrenze), Black-box (Obergrenze)

Implementierungsdetails

  • Implementierung mit Hugging Face-Bibliothek
  • AdamW-Optimierer, linearer Lernraten-Scheduler
  • Experimente auf NVIDIA A800 GPU
  • Annahme: Angreifer verfügt über 100% des Trainingsdatensatzes (strenger als 1% in früheren Arbeiten)

Experimentelle Ergebnisse

Hauptergebnisse

Sicherheitsbewertung:

  • Genauigkeit ohne Autorisierung: 0% in allen Fällen
  • Modelldiebstahl-Angriff: CoreGuard relative Genauigkeit 1,17× (nahe Black-box 1,00×)
  • Deutlich besser als TPTE-Methode NPLO (9,59×) und PPTE-Methode DarkneTZ (8,43×)
  • Vergleichbare Leistung mit anderen PSP-Methoden (TLG: 1,07×, ShadowNet: 1,09×)

Effizienzvergleich:

  • TEE-Ausführungsaufwand: CoreGuard < 1,17e-03%, PPTE-Methoden 2,91%-21,52%
  • TEE-GPU-Übertragungsaufwand: CoreGuard benötigt nur 5 Runden, ShadowNet benötigt 448 Runden (LLaMA3-8B)
  • Übertragungsdatenmenge: CoreGuard etwa 20KB, ShadowNet etwa 1,3GB

Ablationsstudien

Sicherheit unter verschiedenen Angriffsszenarien:

  • LoRA-Feinabstimmungsangriff: CoreGuard behält Sicherheit nahe der Obergrenze
  • Verschiedene Datenverhältnisse (1%-100%): Bleibt in allen Einstellungen nahe Black-box-Schutz
  • Aufgabenausrichtung: Behält Sicherheit unabhängig davon, ob die Zielaufgabe des Angreifers mit der Bereitstellungsaufgabe übereinstimmt

Auswirkung der Autorisierungsposition:

  • Mittlere Positionen bieten beste Sicherheit
  • Autorisierung an Anfangs- und Endpositionen bietet niedrigere Sicherheit, da Angreifer nur wenige Parameter wiederherstellen müssen

Genauigkeitsbeibehaltung

  • In den meisten Fällen identische Genauigkeit zwischen geschütztem und ursprünglichem Modell
  • In einzelnen Fällen geringfügige Schwankungen von ±0,5%, zurückzuführen auf Gleitkomma-Präzisionsbeschränkungen

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Modellschutzverfahren:
    • Wasserzeichen-Techniken: Passiver Schutz, bietet nur Eigentumsnachweis
    • Modellverschlüsselung: Anfällig für Angriffe zur Laufzeit
    • TEE-Schutz: Direkter Schutz mit großem Rechenaufwand
  2. Parameter-Shuffle-Schutz:
    • ShadowNet: Kanal-Shuffle-Schutz für Faltungsschichten
    • TransLinkGuard: Schutz für Transformer-Modelle
  3. Anwendungen vertrauenswürdiger Ausführungsumgebungen:
    • CPU-basierte TEE: ARM TrustZone, Intel SGX
    • GPU TEE: Noch in frühem Stadium, hauptsächlich für Rechenzentren

Vorteile dieser Arbeit

Im Vergleich zu bestehenden Arbeiten erreicht CoreGuard bei gleichem Sicherheitsniveau eine Effizienzsteigerung um mehrere Größenordnungen, besonders bei Kommunikationsaufwänden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. CoreGuard löst erfolgreich das Sicherheitsschutzproblem von LLMs bei Edge-Bereitstellung
  2. Realisierung optimaler Kommunikationskomplexität durch Ausbreitungsprotokolle
  3. Erreichung oberer Sicherheitsgarantien mit vernachlässigbarem Rechen- und Kommunikationsaufwand
  4. Beibehaltung der ursprünglichen Modellgenauigkeit

Einschränkungen

  1. Seitenkanalangriffe: Abhängig von TEE als Sicherheitswurzel, möglicherweise anfällig für Seitenkanalangriffe
  2. GPU TEE-Einschränkungen: Hauptsächlich auf CPU-basierte TEE angewiesen, GPU TEE noch nicht ausgereift
  3. Praktische Bereitstellung: Papier konzentriert sich auf Kernrahmen, nicht auf gerätespezifische Implementierungsdetails
  4. Architekturkompatibilität: Hauptsächlich für Mainstream-Transformer-Architektur konzipiert

Zukünftige Richtungen

  1. Integration von Seitenkanalangriff-Schutzmaßnahmen
  2. Anpassung an GPU TEE-Technologieentwicklung
  3. Erweiterung auf weitere Modellarchitekturen
  4. Optimierung für praktische Gerätebereitstellung

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erstmalige systematische Lösung des Grundfähigkeitsschutzproblems von LLMs bei Edge-Bereitstellung
  2. Geschicktes Design: Ausbreitungsprotokoll-Design ist elegant und realisiert Autorisierungsabdeckung des gesamten Netzwerks durch einmalige Autorisierung
  3. Solide Theorie: Mathematische Sicherheitsgarantie basierend auf LWE-Problem
  4. Umfassende Experimente: Vollständige Bewertung über mehrere Modelle, Aufgaben und Angriffsszenarien
  5. Hoher praktischer Wert: Signifikante Effizienzsteigerung macht praktische Bereitstellung machbar

Schwächen

  1. Sicherheitsannahmen: Abhängig von TEE-Sicherheit, möglicherweise anfällig für Seitenkanalangriffe
  2. Anwendungsbereich: Hauptsächlich für Transformer-Architektur, begrenzte Anwendbarkeit auf andere Architekturen
  3. Bereitstellungskomplexität: Praktische Bereitstellung erfordert Berücksichtigung weiterer Hardware- und Systemebenen-Faktoren
  4. Langzeitsicherheit: Kontinuierliche Wirksamkeit aktueller Schutzmaßnahmen mit Entwicklung von Angriffstechniken muss verifiziert werden

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtungen und Lösungsansätze für Edge-AI-Sicherheit
  2. Praktischer Wert: Wichtige Orientierung für kommerzielle LLM-Edge-Bereitstellung
  3. Technologischer Fortschritt: Kann TEE-Technologieentwicklung im AI-Schutzbereich fördern

Anwendungsszenarien

  1. Proprietäre LLM-Bereitstellung auf Edge-Geräten
  2. Latenz- und datenschutzsensitive AI-Anwendungen
  3. Kommerzielle AI-Services mit Schutz geistigen Eigentums
  4. Modellschutz in ressourcenbeschränkten Umgebungen

Literaturverzeichnis

Das Papier zitiert 52 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen wie Modellschutz, vertrauenswürdige Ausführungsumgebungen und große Sprachmodelle abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.


Gesamtbewertung: CoreGuard ist eine hochwertige Forschungsarbeit, die sich in technischer Innovation, experimenteller Validierung und praktischem Wert auszeichnet. Diese Arbeit löst nicht nur ein wichtiges praktisches Problem, sondern bietet auch wertvolle Ideen und Methoden für nachfolgende Forschung in verwandten Bereichen.