2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.
Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
academic

CoreGuard: Salvaguardando las Capacidades Fundamentales de LLMs Contra el Robo de Modelos en Implementación en Dispositivos Periféricos

Información Básica

  • ID del Artículo: 2410.13903
  • Título: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
  • Autores: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
  • Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial), cs.DC (Computación Distribuida)
  • Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2410.13903

Resumen

Los modelos de lenguaje grandes (LLMs) propietarios demuestran capacidades de generalización sólidas en diversas tareas y se implementan cada vez más en dispositivos periféricos por consideraciones de eficiencia y privacidad. Sin embargo, la implementación de LLMs propietarios en dispositivos periféricos sin protección adecuada presenta amenazas de seguridad graves. Los atacantes pueden extraer pesos de modelo y arquitectura, realizando copias no autorizadas y abuso. Incluso si las medidas de protección previenen la extracción completa de pesos del modelo, los atacantes aún pueden ejecutar ataques avanzados (como ajuste fino) para explotar aún más el modelo. Las soluciones de defensa existentes típicamente generan gastos computacionales y de comunicación significativos, haciéndolas impracticables para implementación en dispositivos periféricos. Para proteger LLMs implementados en dispositivos periféricos, este artículo propone CoreGuard, un método de protección eficiente en términos computacionales y de comunicación. CoreGuard emplea un protocolo de protección eficiente para reducir gastos computacionales y minimiza gastos de comunicación mediante un protocolo de propagación. Experimentos extensos demuestran que CoreGuard logra protección de seguridad de límite superior con gastos negligibles.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los LLMs propietarios implementados en dispositivos periféricos enfrentan amenazas de robo de modelos, donde los atacantes pueden extraer arquitectura y pesos del modelo mediante técnicas de análisis de software, resultando en copias no autorizadas y abuso.
  2. Importancia del Problema:
    • Los LLMs propietarios (como ChatGPT, Claude) poseen capacidades de generalización sólidas con costos de desarrollo enormes
    • La tendencia de implementación en dispositivos periféricos es evidente (como Apple Intelligence integrando LLM de 3B parámetros en dispositivos iOS)
    • Los LLMs propietarios específicos de dominio (como BloombergGPT en finanzas, Med-PaLM 2 en medicina) carecen de alternativas de código abierto
  3. Limitaciones de Métodos Existentes:
    • Protección Pasiva (como marcas de agua): Solo proporciona prueba de propiedad, incapaz de prevenir abuso en entornos periféricos sin supervisión
    • Cifrado de Modelos: Sigue siendo vulnerable durante la ejecución
    • Protección TEE Directa: Colocar el modelo completo en un entorno de ejecución confiable resulta en aproximadamente 50 veces de reducción de eficiencia
    • Ejecución TEE de Parámetros Parciales (PPTE): Protege un número limitado de pesos, fácilmente reconstruible
    • Protección de Barajado de Parámetros (PSP): Soluciones como ShadowNet presentan gastos de transferencia de datos excesivos
  4. Motivación de Investigación: Se requiere una solución que garantice seguridad suficiente mientras mantiene gastos computacionales y de comunicación aceptables.

Contribuciones Principales

  1. Primera Protección de Capacidades Fundamentales para LLMs en Implementación Periférica: Caracteriza sistemáticamente los desafíos de seguridad en este escenario e identifica los requisitos para proteger LLMs implementados en dispositivos periféricos.
  2. Propone Solución CoreGuard Plug-and-Play: Utiliza mecanismos de autorización ligeros para proteger LLMs implementados en dispositivos periféricos, empleando un protocolo de propagación para reducir significativamente gastos de transmisión mientras mantiene bajos gastos computacionales.
  3. Verificación Experimental Integral: En comparación con soluciones existentes, CoreGuard proporciona garantías de seguridad más altas, gastos más bajos y sin pérdida de precisión.

Explicación Detallada del Método

Definición de Tarea

Entrada: Modelo LLM entrenado Salida: Modelo bloqueado que funciona normalmente solo con autorización apropiada a través de hardware confiable dentro del dispositivo (TEE) Restricciones: Minimizar gastos computacionales y de comunicación, mantener la precisión del modelo sin cambios

Arquitectura del Modelo

CoreGuard opera en dos fases:

1. Fase de Bloqueo de Modelo (Antes de Implementación)

Protocolo de Protección (Protection Protocol):

  • Realizar permutación de filas en matrices de peso de capas lineales: Wq=πTWq,Wk=πTWk,Wv=πTWv,Wm=πTWmW'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m
  • Estas permutaciones de filas actúan como "cerraduras", deshabilitando capas lineales, con solo entrada de permutación de columnas correspondiente (autorización) permitiendo cálculo normal
  • La matriz de permutación π{0,1}d×d\pi \in \{0,1\}^{d \times d} satisface ππT=I\pi\pi^T = I

Protocolo de Propagación (Propagation Protocol):

  • Realizar permutación de columnas en capas de procesamiento de salida: Wo=Woπ,Wn=WnπW'_o = W_o\pi, W'_n = W_n\pi
  • Lograr permutación de columnas de características a través de operaciones de red propias, alcanzando efecto de autorización automática
  • TEE solo necesita gestionar autorización inicial, con autorización propagándose a todas las capas posteriores

2. Fase de Autorización de Inferencia (Después de Implementación)

Proceso de Cifrado: m=mπ+pπm' = m\pi + p\pi donde pp es ruido de libreta de un solo uso (OTP), mm' es la característica permutada cifrada.

Procesamiento de Capa de Salida Lineal: n=mWn=(mπ+pπ)πTWn+bn=n+pWnn' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n

Descifrado y Autorización: n=npWn=nn'' = n' - pW_n = nz=(γ2n+yμy+nσy+n+β2)π=zπz' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi

Puntos de Innovación Técnica

  1. Mecanismo de Propagación de Autorización Única: A través de diseño de permutación ingenioso, logra propagación automática de autorización a través de la red, evitando autorización TEE en cada capa.
  2. Combinación de Cifrado OTP y Ofuscación de Posición: Utiliza cifrado de libreta de un solo uso combinado con permutación, ocultando procesos de cifrado y descifrado.
  3. Complejidad de Comunicación Óptima: Solo requiere 5 rondas de transferencia TEE-GPU por inferencia, alcanzando óptimo teórico.
  4. Garantía de Seguridad Matemática: Proporciona prueba de seguridad basada en el supuesto de dificultad NP del problema Learning With Errors (LWE).

Configuración Experimental

Conjuntos de Datos

  • GSM8k: Tarea de razonamiento matemático
  • Spider: Tarea de generación de código
  • PubMedQA: Tarea de preguntas y respuestas médicas
  • SQuAD: Tarea de comprensión de lectura

Modelos

  • Modelos de Implementación Periférica: Qwen2-0.5B-Instruct, Gemma2-2B-it
  • Modelos Grandes: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Métricas de Evaluación

  • Seguridad: Precisión de ataques de robo de modelos (menor es más seguro)
  • Eficiencia: Número de operaciones de punto flotante (FLOPs), gastos de transferencia TEE-GPU
  • Precisión: Precisión específica de tarea

Métodos de Comparación

  1. TPTE: NPLO
  2. PPTE: DarkneTZ, SOTER, Serdab, DTE
  3. PSP: ShadowNet, TransLinkGuard (TLG)
  4. Límites: No-shield (límite inferior), Black-box (límite superior)

Detalles de Implementación

  • Implementación utilizando biblioteca Hugging Face
  • Optimizador AdamW, programación de tasa de aprendizaje lineal
  • Experimentos en GPU NVIDIA A800
  • Supone que el atacante posee 100% del conjunto de datos de entrenamiento (más estricto que 1% en trabajos anteriores)

Resultados Experimentales

Resultados Principales

Evaluación de Seguridad:

  • Precisión de inferencia no autorizada: 0% en todos los casos
  • Ataque de robo de modelos: Precisión relativa de CoreGuard 1.17× (cercana a Black-box 1.00×)
  • Significativamente superior al método TPTE NPLO (9.59×) y método PPTE DarkneTZ (8.43×)
  • Rendimiento comparable a otros métodos PSP (TLG: 1.07×, ShadowNet: 1.09×)

Comparación de Eficiencia:

  • Gasto de Ejecución TEE: CoreGuard < 1.17e-03%, métodos PPTE 2.91%-21.52%
  • Gasto de Transferencia TEE-GPU: CoreGuard requiere solo 5 rondas, mientras que ShadowNet requiere 448 rondas (LLaMA3-8B)
  • Volumen de Datos Transferidos: CoreGuard aproximadamente 20KB, ShadowNet aproximadamente 1.3GB

Experimentos de Ablación

Seguridad bajo Diferentes Configuraciones de Ataque:

  • Ataque de ajuste fino LoRA: CoreGuard mantiene seguridad cercana al límite superior
  • Diferentes proporciones de datos (1%-100%): Cercano a protección Black-box en todas las configuraciones
  • Alineación de tareas: Mantiene seguridad independientemente de si la tarea objetivo del atacante se alinea con la tarea del modelo implementado

Impacto de Posición de Autorización:

  • Autorización en posición intermedia proporciona mejor seguridad
  • Autorización en posiciones inicial y final tiene seguridad más baja, ya que los atacantes solo necesitan recuperar pocos parámetros

Mantenimiento de Precisión

  • En la mayoría de casos, el modelo protegido mantiene precisión idéntica al modelo original
  • En casos individuales existe fluctuación menor de ±0.5%, atribuida a limitaciones de precisión de punto flotante

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Métodos de Protección de Modelos:
    • Técnicas de marcas de agua: Protección pasiva, solo proporciona prueba de propiedad
    • Cifrado de modelos: Vulnerable durante ejecución
    • Protección TEE: Gastos computacionales de protección directa demasiado altos
  2. Protección de Barajado de Parámetros:
    • ShadowNet: Protección de barajado de canales de capas convolucionales
    • TransLinkGuard: Protección de modelos Transformer
  3. Aplicaciones de Entorno de Ejecución Confiable:
    • TEE Basado en CPU: ARM TrustZone, Intel SGX
    • GPU TEE: Aún en etapa temprana, principalmente dirigido a centros de datos

Ventajas de Este Trabajo

En comparación con trabajos existentes, CoreGuard logra mejoras de eficiencia de órdenes de magnitud mientras mantiene el mismo nivel de seguridad, particularmente en gastos de comunicación.

Conclusiones y Discusión

Conclusiones Principales

  1. CoreGuard resuelve exitosamente el problema de protección de seguridad para LLMs implementados en dispositivos periféricos
  2. Logra complejidad de comunicación óptima a través del protocolo de propagación
  3. Logra gastos computacionales y de comunicación negligibles mientras garantiza seguridad de límite superior
  4. Mantiene la precisión original del modelo

Limitaciones

  1. Ataques de Canal Lateral: Depende de TEE como raíz de seguridad, potencialmente vulnerable a ataques de canal lateral
  2. Limitaciones de GPU TEE: Actualmente depende principalmente de TEE basado en CPU, GPU TEE aún inmaduro
  3. Implementación Práctica: El artículo se enfoca en marco central, sin profundizar en detalles de implementación específicos de dispositivos
  4. Compatibilidad de Arquitectura: Diseñado principalmente para arquitectura Transformer convencional

Direcciones Futuras

  1. Integrar medidas de protección contra ataques de canal lateral
  2. Adaptarse al desarrollo de tecnología GPU TEE
  3. Extender a más arquitecturas de modelos
  4. Optimización de implementación en dispositivos reales

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primer trabajo que aborda sistemáticamente la protección de capacidades fundamentales para LLMs en implementación periférica
  2. Técnica Ingeniosa: Diseño de protocolo de propagación elegante, logrando cobertura de autorización única en toda la red
  3. Teoría Sólida: Proporciona garantía de seguridad matemática basada en el problema LWE
  4. Experimentos Completos: Evaluación integral en múltiples modelos, tareas y escenarios de ataque
  5. Valor Práctico Alto: Mejoras significativas de eficiencia hacen viable la implementación práctica

Insuficiencias

  1. Supuestos de Seguridad: Depende de seguridad de TEE, potencialmente frágil ante ataques de canal lateral
  2. Rango de Aplicabilidad: Principalmente dirigido a arquitectura Transformer, aplicabilidad limitada a otras arquitecturas
  3. Complejidad de Implementación: La implementación práctica requiere considerar más factores a nivel de hardware y sistema
  4. Seguridad a Largo Plazo: La efectividad continua de medidas de protección actuales necesita verificación con desarrollo de técnicas de ataque

Impacto

  1. Contribución Académica: Proporciona nueva dirección de investigación y pensamiento de solución para el campo de seguridad de IA periférica
  2. Valor Práctico: Tiene significado importante para orientación de implementación periférica de LLM comercial
  3. Impulso Tecnológico: Puede impulsar desarrollo adicional de tecnología TEE en el campo de protección de IA

Escenarios Aplicables

  1. Implementación de LLMs propietarios en dispositivos periféricos
  2. Aplicaciones de IA sensibles a latencia y privacidad
  3. Servicios de IA comercial que requieren protección de propiedad intelectual
  4. Protección de modelos en entornos con recursos limitados

Referencias

El artículo cita 52 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo protección de modelos, entornos de ejecución confiables, modelos de lenguaje grandes, proporcionando base teórica sólida y apoyo técnico para la investigación.


Evaluación General: CoreGuard es un trabajo de investigación de alta calidad que demuestra excelencia en innovación técnica, verificación experimental y valor práctico. Este trabajo no solo resuelve un problema práctico importante, sino que también proporciona ideas y métodos valiosos para investigación posterior en campos relacionados.