2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard: Salvaguardando las Capacidades Fundamentales de LLMs Contra el Robo de Modelos en Implementación en Dispositivos Periféricos

Información Básica

ID del Artículo: 2410.13903
Título: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
Autores: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial), cs.DC (Computación Distribuida)
Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2410.13903

Resumen

Los modelos de lenguaje grandes (LLMs) propietarios demuestran capacidades de generalización sólidas en diversas tareas y se implementan cada vez más en dispositivos periféricos por consideraciones de eficiencia y privacidad. Sin embargo, la implementación de LLMs propietarios en dispositivos periféricos sin protección adecuada presenta amenazas de seguridad graves. Los atacantes pueden extraer pesos de modelo y arquitectura, realizando copias no autorizadas y abuso. Incluso si las medidas de protección previenen la extracción completa de pesos del modelo, los atacantes aún pueden ejecutar ataques avanzados (como ajuste fino) para explotar aún más el modelo. Las soluciones de defensa existentes típicamente generan gastos computacionales y de comunicación significativos, haciéndolas impracticables para implementación en dispositivos periféricos. Para proteger LLMs implementados en dispositivos periféricos, este artículo propone CoreGuard, un método de protección eficiente en términos computacionales y de comunicación. CoreGuard emplea un protocolo de protección eficiente para reducir gastos computacionales y minimiza gastos de comunicación mediante un protocolo de propagación. Experimentos extensos demuestran que CoreGuard logra protección de seguridad de límite superior con gastos negligibles.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Los LLMs propietarios implementados en dispositivos periféricos enfrentan amenazas de robo de modelos, donde los atacantes pueden extraer arquitectura y pesos del modelo mediante técnicas de análisis de software, resultando en copias no autorizadas y abuso.
Importancia del Problema:
- Los LLMs propietarios (como ChatGPT, Claude) poseen capacidades de generalización sólidas con costos de desarrollo enormes
- La tendencia de implementación en dispositivos periféricos es evidente (como Apple Intelligence integrando LLM de 3B parámetros en dispositivos iOS)
- Los LLMs propietarios específicos de dominio (como BloombergGPT en finanzas, Med-PaLM 2 en medicina) carecen de alternativas de código abierto
Limitaciones de Métodos Existentes:
- Protección Pasiva (como marcas de agua): Solo proporciona prueba de propiedad, incapaz de prevenir abuso en entornos periféricos sin supervisión
- Cifrado de Modelos: Sigue siendo vulnerable durante la ejecución
- Protección TEE Directa: Colocar el modelo completo en un entorno de ejecución confiable resulta en aproximadamente 50 veces de reducción de eficiencia
- Ejecución TEE de Parámetros Parciales (PPTE): Protege un número limitado de pesos, fácilmente reconstruible
- Protección de Barajado de Parámetros (PSP): Soluciones como ShadowNet presentan gastos de transferencia de datos excesivos
Motivación de Investigación: Se requiere una solución que garantice seguridad suficiente mientras mantiene gastos computacionales y de comunicación aceptables.

Contribuciones Principales

Primera Protección de Capacidades Fundamentales para LLMs en Implementación Periférica: Caracteriza sistemáticamente los desafíos de seguridad en este escenario e identifica los requisitos para proteger LLMs implementados en dispositivos periféricos.
Propone Solución CoreGuard Plug-and-Play: Utiliza mecanismos de autorización ligeros para proteger LLMs implementados en dispositivos periféricos, empleando un protocolo de propagación para reducir significativamente gastos de transmisión mientras mantiene bajos gastos computacionales.
Verificación Experimental Integral: En comparación con soluciones existentes, CoreGuard proporciona garantías de seguridad más altas, gastos más bajos y sin pérdida de precisión.

Explicación Detallada del Método

Definición de Tarea

Entrada: Modelo LLM entrenado Salida: Modelo bloqueado que funciona normalmente solo con autorización apropiada a través de hardware confiable dentro del dispositivo (TEE) Restricciones: Minimizar gastos computacionales y de comunicación, mantener la precisión del modelo sin cambios

Arquitectura del Modelo

CoreGuard opera en dos fases:

1. Fase de Bloqueo de Modelo (Antes de Implementación)

Protocolo de Protección (Protection Protocol):

Realizar permutación de filas en matrices de peso de capas lineales: $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
Estas permutaciones de filas actúan como "cerraduras", deshabilitando capas lineales, con solo entrada de permutación de columnas correspondiente (autorización) permitiendo cálculo normal
La matriz de permutación $\pi \in \{0,1\}^{d \times d}$ satisface $\pi\pi^T = I$

Protocolo de Propagación (Propagation Protocol):

Realizar permutación de columnas en capas de procesamiento de salida: $W'_o = W_o\pi, W'_n = W_n\pi$
Lograr permutación de columnas de características a través de operaciones de red propias, alcanzando efecto de autorización automática
TEE solo necesita gestionar autorización inicial, con autorización propagándose a todas las capas posteriores

2. Fase de Autorización de Inferencia (Después de Implementación)

Proceso de Cifrado: $m' = m\pi + p\pi$ donde $p$ es ruido de libreta de un solo uso (OTP), $m'$ es la característica permutada cifrada.

Procesamiento de Capa de Salida Lineal: $n' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n$

Descifrado y Autorización: $n'' = n' - pW_n = n$ $z' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi$

Puntos de Innovación Técnica

Mecanismo de Propagación de Autorización Única: A través de diseño de permutación ingenioso, logra propagación automática de autorización a través de la red, evitando autorización TEE en cada capa.
Combinación de Cifrado OTP y Ofuscación de Posición: Utiliza cifrado de libreta de un solo uso combinado con permutación, ocultando procesos de cifrado y descifrado.
Complejidad de Comunicación Óptima: Solo requiere 5 rondas de transferencia TEE-GPU por inferencia, alcanzando óptimo teórico.
Garantía de Seguridad Matemática: Proporciona prueba de seguridad basada en el supuesto de dificultad NP del problema Learning With Errors (LWE).

Configuración Experimental

Conjuntos de Datos

GSM8k: Tarea de razonamiento matemático
Spider: Tarea de generación de código
PubMedQA: Tarea de preguntas y respuestas médicas
SQuAD: Tarea de comprensión de lectura

Modelos

Modelos de Implementación Periférica: Qwen2-0.5B-Instruct, Gemma2-2B-it
Modelos Grandes: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Métricas de Evaluación

Seguridad: Precisión de ataques de robo de modelos (menor es más seguro)
Eficiencia: Número de operaciones de punto flotante (FLOPs), gastos de transferencia TEE-GPU
Precisión: Precisión específica de tarea

Métodos de Comparación

TPTE: NPLO
PPTE: DarkneTZ, SOTER, Serdab, DTE
PSP: ShadowNet, TransLinkGuard (TLG)
Límites: No-shield (límite inferior), Black-box (límite superior)

Detalles de Implementación

Implementación utilizando biblioteca Hugging Face
Optimizador AdamW, programación de tasa de aprendizaje lineal
Experimentos en GPU NVIDIA A800
Supone que el atacante posee 100% del conjunto de datos de entrenamiento (más estricto que 1% en trabajos anteriores)

Resultados Experimentales

Resultados Principales

Evaluación de Seguridad:

Precisión de inferencia no autorizada: 0% en todos los casos
Ataque de robo de modelos: Precisión relativa de CoreGuard 1.17× (cercana a Black-box 1.00×)
Significativamente superior al método TPTE NPLO (9.59×) y método PPTE DarkneTZ (8.43×)
Rendimiento comparable a otros métodos PSP (TLG: 1.07×, ShadowNet: 1.09×)

Comparación de Eficiencia:

Gasto de Ejecución TEE: CoreGuard < 1.17e-03%, métodos PPTE 2.91%-21.52%
Gasto de Transferencia TEE-GPU: CoreGuard requiere solo 5 rondas, mientras que ShadowNet requiere 448 rondas (LLaMA3-8B)
Volumen de Datos Transferidos: CoreGuard aproximadamente 20KB, ShadowNet aproximadamente 1.3GB

Experimentos de Ablación

Seguridad bajo Diferentes Configuraciones de Ataque:

Ataque de ajuste fino LoRA: CoreGuard mantiene seguridad cercana al límite superior
Diferentes proporciones de datos (1%-100%): Cercano a protección Black-box en todas las configuraciones
Alineación de tareas: Mantiene seguridad independientemente de si la tarea objetivo del atacante se alinea con la tarea del modelo implementado

Impacto de Posición de Autorización:

Autorización en posición intermedia proporciona mejor seguridad
Autorización en posiciones inicial y final tiene seguridad más baja, ya que los atacantes solo necesitan recuperar pocos parámetros

Mantenimiento de Precisión

En la mayoría de casos, el modelo protegido mantiene precisión idéntica al modelo original
En casos individuales existe fluctuación menor de ±0.5%, atribuida a limitaciones de precisión de punto flotante

Trabajo Relacionado

Direcciones de Investigación Principales

Métodos de Protección de Modelos:
- Técnicas de marcas de agua: Protección pasiva, solo proporciona prueba de propiedad
- Cifrado de modelos: Vulnerable durante ejecución
- Protección TEE: Gastos computacionales de protección directa demasiado altos
Protección de Barajado de Parámetros:
- ShadowNet: Protección de barajado de canales de capas convolucionales
- TransLinkGuard: Protección de modelos Transformer
Aplicaciones de Entorno de Ejecución Confiable:
- TEE Basado en CPU: ARM TrustZone, Intel SGX
- GPU TEE: Aún en etapa temprana, principalmente dirigido a centros de datos

Ventajas de Este Trabajo

En comparación con trabajos existentes, CoreGuard logra mejoras de eficiencia de órdenes de magnitud mientras mantiene el mismo nivel de seguridad, particularmente en gastos de comunicación.

Conclusiones y Discusión

Conclusiones Principales

CoreGuard resuelve exitosamente el problema de protección de seguridad para LLMs implementados en dispositivos periféricos
Logra complejidad de comunicación óptima a través del protocolo de propagación
Logra gastos computacionales y de comunicación negligibles mientras garantiza seguridad de límite superior
Mantiene la precisión original del modelo

Limitaciones

Ataques de Canal Lateral: Depende de TEE como raíz de seguridad, potencialmente vulnerable a ataques de canal lateral
Limitaciones de GPU TEE: Actualmente depende principalmente de TEE basado en CPU, GPU TEE aún inmaduro
Implementación Práctica: El artículo se enfoca en marco central, sin profundizar en detalles de implementación específicos de dispositivos
Compatibilidad de Arquitectura: Diseñado principalmente para arquitectura Transformer convencional

Direcciones Futuras

Integrar medidas de protección contra ataques de canal lateral
Adaptarse al desarrollo de tecnología GPU TEE
Extender a más arquitecturas de modelos
Optimización de implementación en dispositivos reales

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primer trabajo que aborda sistemáticamente la protección de capacidades fundamentales para LLMs en implementación periférica
Técnica Ingeniosa: Diseño de protocolo de propagación elegante, logrando cobertura de autorización única en toda la red
Teoría Sólida: Proporciona garantía de seguridad matemática basada en el problema LWE
Experimentos Completos: Evaluación integral en múltiples modelos, tareas y escenarios de ataque
Valor Práctico Alto: Mejoras significativas de eficiencia hacen viable la implementación práctica

Insuficiencias

Supuestos de Seguridad: Depende de seguridad de TEE, potencialmente frágil ante ataques de canal lateral
Rango de Aplicabilidad: Principalmente dirigido a arquitectura Transformer, aplicabilidad limitada a otras arquitecturas
Complejidad de Implementación: La implementación práctica requiere considerar más factores a nivel de hardware y sistema
Seguridad a Largo Plazo: La efectividad continua de medidas de protección actuales necesita verificación con desarrollo de técnicas de ataque

Impacto

Contribución Académica: Proporciona nueva dirección de investigación y pensamiento de solución para el campo de seguridad de IA periférica
Valor Práctico: Tiene significado importante para orientación de implementación periférica de LLM comercial
Impulso Tecnológico: Puede impulsar desarrollo adicional de tecnología TEE en el campo de protección de IA

Escenarios Aplicables

Implementación de LLMs propietarios en dispositivos periféricos
Aplicaciones de IA sensibles a latencia y privacidad
Servicios de IA comercial que requieren protección de propiedad intelectual
Protección de modelos en entornos con recursos limitados

Referencias

El artículo cita 52 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo protección de modelos, entornos de ejecución confiables, modelos de lenguaje grandes, proporcionando base teórica sólida y apoyo técnico para la investigación.

Evaluación General: CoreGuard es un trabajo de investigación de alta calidad que demuestra excelencia en innovación técnica, verificación experimental y valor práctico. Este trabajo no solo resuelve un problema práctico importante, sino que también proporciona ideas y métodos valiosos para investigación posterior en campos relacionados.