Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
CoreGuard: Salvaguardando las Capacidades Fundamentales de LLMs Contra el Robo de Modelos en Implementación en Dispositivos Periféricos
- ID del Artículo: 2410.13903
- Título: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
- Autores: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
- Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial), cs.DC (Computación Distribuida)
- Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2025)
- Enlace del Artículo: https://arxiv.org/abs/2410.13903
Los modelos de lenguaje grandes (LLMs) propietarios demuestran capacidades de generalización sólidas en diversas tareas y se implementan cada vez más en dispositivos periféricos por consideraciones de eficiencia y privacidad. Sin embargo, la implementación de LLMs propietarios en dispositivos periféricos sin protección adecuada presenta amenazas de seguridad graves. Los atacantes pueden extraer pesos de modelo y arquitectura, realizando copias no autorizadas y abuso. Incluso si las medidas de protección previenen la extracción completa de pesos del modelo, los atacantes aún pueden ejecutar ataques avanzados (como ajuste fino) para explotar aún más el modelo. Las soluciones de defensa existentes típicamente generan gastos computacionales y de comunicación significativos, haciéndolas impracticables para implementación en dispositivos periféricos. Para proteger LLMs implementados en dispositivos periféricos, este artículo propone CoreGuard, un método de protección eficiente en términos computacionales y de comunicación. CoreGuard emplea un protocolo de protección eficiente para reducir gastos computacionales y minimiza gastos de comunicación mediante un protocolo de propagación. Experimentos extensos demuestran que CoreGuard logra protección de seguridad de límite superior con gastos negligibles.
- Problema Central: Los LLMs propietarios implementados en dispositivos periféricos enfrentan amenazas de robo de modelos, donde los atacantes pueden extraer arquitectura y pesos del modelo mediante técnicas de análisis de software, resultando en copias no autorizadas y abuso.
- Importancia del Problema:
- Los LLMs propietarios (como ChatGPT, Claude) poseen capacidades de generalización sólidas con costos de desarrollo enormes
- La tendencia de implementación en dispositivos periféricos es evidente (como Apple Intelligence integrando LLM de 3B parámetros en dispositivos iOS)
- Los LLMs propietarios específicos de dominio (como BloombergGPT en finanzas, Med-PaLM 2 en medicina) carecen de alternativas de código abierto
- Limitaciones de Métodos Existentes:
- Protección Pasiva (como marcas de agua): Solo proporciona prueba de propiedad, incapaz de prevenir abuso en entornos periféricos sin supervisión
- Cifrado de Modelos: Sigue siendo vulnerable durante la ejecución
- Protección TEE Directa: Colocar el modelo completo en un entorno de ejecución confiable resulta en aproximadamente 50 veces de reducción de eficiencia
- Ejecución TEE de Parámetros Parciales (PPTE): Protege un número limitado de pesos, fácilmente reconstruible
- Protección de Barajado de Parámetros (PSP): Soluciones como ShadowNet presentan gastos de transferencia de datos excesivos
- Motivación de Investigación: Se requiere una solución que garantice seguridad suficiente mientras mantiene gastos computacionales y de comunicación aceptables.
- Primera Protección de Capacidades Fundamentales para LLMs en Implementación Periférica: Caracteriza sistemáticamente los desafíos de seguridad en este escenario e identifica los requisitos para proteger LLMs implementados en dispositivos periféricos.
- Propone Solución CoreGuard Plug-and-Play: Utiliza mecanismos de autorización ligeros para proteger LLMs implementados en dispositivos periféricos, empleando un protocolo de propagación para reducir significativamente gastos de transmisión mientras mantiene bajos gastos computacionales.
- Verificación Experimental Integral: En comparación con soluciones existentes, CoreGuard proporciona garantías de seguridad más altas, gastos más bajos y sin pérdida de precisión.
Entrada: Modelo LLM entrenado
Salida: Modelo bloqueado que funciona normalmente solo con autorización apropiada a través de hardware confiable dentro del dispositivo (TEE)
Restricciones: Minimizar gastos computacionales y de comunicación, mantener la precisión del modelo sin cambios
CoreGuard opera en dos fases:
Protocolo de Protección (Protection Protocol):
- Realizar permutación de filas en matrices de peso de capas lineales: Wq′=πTWq,Wk′=πTWk,Wv′=πTWv,Wm′=πTWm
- Estas permutaciones de filas actúan como "cerraduras", deshabilitando capas lineales, con solo entrada de permutación de columnas correspondiente (autorización) permitiendo cálculo normal
- La matriz de permutación π∈{0,1}d×d satisface ππT=I
Protocolo de Propagación (Propagation Protocol):
- Realizar permutación de columnas en capas de procesamiento de salida: Wo′=Woπ,Wn′=Wnπ
- Lograr permutación de columnas de características a través de operaciones de red propias, alcanzando efecto de autorización automática
- TEE solo necesita gestionar autorización inicial, con autorización propagándose a todas las capas posteriores
Proceso de Cifrado:
m′=mπ+pπ
donde p es ruido de libreta de un solo uso (OTP), m′ es la característica permutada cifrada.
Procesamiento de Capa de Salida Lineal:
n′=m′Wn′=(mπ+pπ)πTWn+bn=n+pWn
Descifrado y Autorización:
n′′=n′−pWn=nz′=(γ2⊙σy+nn+y−μy+n+β2)π=zπ
- Mecanismo de Propagación de Autorización Única: A través de diseño de permutación ingenioso, logra propagación automática de autorización a través de la red, evitando autorización TEE en cada capa.
- Combinación de Cifrado OTP y Ofuscación de Posición: Utiliza cifrado de libreta de un solo uso combinado con permutación, ocultando procesos de cifrado y descifrado.
- Complejidad de Comunicación Óptima: Solo requiere 5 rondas de transferencia TEE-GPU por inferencia, alcanzando óptimo teórico.
- Garantía de Seguridad Matemática: Proporciona prueba de seguridad basada en el supuesto de dificultad NP del problema Learning With Errors (LWE).
- GSM8k: Tarea de razonamiento matemático
- Spider: Tarea de generación de código
- PubMedQA: Tarea de preguntas y respuestas médicas
- SQuAD: Tarea de comprensión de lectura
- Modelos de Implementación Periférica: Qwen2-0.5B-Instruct, Gemma2-2B-it
- Modelos Grandes: ChatGLM3-6B-32k, LLaMA3-8B-Instruct
- Seguridad: Precisión de ataques de robo de modelos (menor es más seguro)
- Eficiencia: Número de operaciones de punto flotante (FLOPs), gastos de transferencia TEE-GPU
- Precisión: Precisión específica de tarea
- TPTE: NPLO
- PPTE: DarkneTZ, SOTER, Serdab, DTE
- PSP: ShadowNet, TransLinkGuard (TLG)
- Límites: No-shield (límite inferior), Black-box (límite superior)
- Implementación utilizando biblioteca Hugging Face
- Optimizador AdamW, programación de tasa de aprendizaje lineal
- Experimentos en GPU NVIDIA A800
- Supone que el atacante posee 100% del conjunto de datos de entrenamiento (más estricto que 1% en trabajos anteriores)
Evaluación de Seguridad:
- Precisión de inferencia no autorizada: 0% en todos los casos
- Ataque de robo de modelos: Precisión relativa de CoreGuard 1.17× (cercana a Black-box 1.00×)
- Significativamente superior al método TPTE NPLO (9.59×) y método PPTE DarkneTZ (8.43×)
- Rendimiento comparable a otros métodos PSP (TLG: 1.07×, ShadowNet: 1.09×)
Comparación de Eficiencia:
- Gasto de Ejecución TEE: CoreGuard < 1.17e-03%, métodos PPTE 2.91%-21.52%
- Gasto de Transferencia TEE-GPU: CoreGuard requiere solo 5 rondas, mientras que ShadowNet requiere 448 rondas (LLaMA3-8B)
- Volumen de Datos Transferidos: CoreGuard aproximadamente 20KB, ShadowNet aproximadamente 1.3GB
Seguridad bajo Diferentes Configuraciones de Ataque:
- Ataque de ajuste fino LoRA: CoreGuard mantiene seguridad cercana al límite superior
- Diferentes proporciones de datos (1%-100%): Cercano a protección Black-box en todas las configuraciones
- Alineación de tareas: Mantiene seguridad independientemente de si la tarea objetivo del atacante se alinea con la tarea del modelo implementado
Impacto de Posición de Autorización:
- Autorización en posición intermedia proporciona mejor seguridad
- Autorización en posiciones inicial y final tiene seguridad más baja, ya que los atacantes solo necesitan recuperar pocos parámetros
- En la mayoría de casos, el modelo protegido mantiene precisión idéntica al modelo original
- En casos individuales existe fluctuación menor de ±0.5%, atribuida a limitaciones de precisión de punto flotante
- Métodos de Protección de Modelos:
- Técnicas de marcas de agua: Protección pasiva, solo proporciona prueba de propiedad
- Cifrado de modelos: Vulnerable durante ejecución
- Protección TEE: Gastos computacionales de protección directa demasiado altos
- Protección de Barajado de Parámetros:
- ShadowNet: Protección de barajado de canales de capas convolucionales
- TransLinkGuard: Protección de modelos Transformer
- Aplicaciones de Entorno de Ejecución Confiable:
- TEE Basado en CPU: ARM TrustZone, Intel SGX
- GPU TEE: Aún en etapa temprana, principalmente dirigido a centros de datos
En comparación con trabajos existentes, CoreGuard logra mejoras de eficiencia de órdenes de magnitud mientras mantiene el mismo nivel de seguridad, particularmente en gastos de comunicación.
- CoreGuard resuelve exitosamente el problema de protección de seguridad para LLMs implementados en dispositivos periféricos
- Logra complejidad de comunicación óptima a través del protocolo de propagación
- Logra gastos computacionales y de comunicación negligibles mientras garantiza seguridad de límite superior
- Mantiene la precisión original del modelo
- Ataques de Canal Lateral: Depende de TEE como raíz de seguridad, potencialmente vulnerable a ataques de canal lateral
- Limitaciones de GPU TEE: Actualmente depende principalmente de TEE basado en CPU, GPU TEE aún inmaduro
- Implementación Práctica: El artículo se enfoca en marco central, sin profundizar en detalles de implementación específicos de dispositivos
- Compatibilidad de Arquitectura: Diseñado principalmente para arquitectura Transformer convencional
- Integrar medidas de protección contra ataques de canal lateral
- Adaptarse al desarrollo de tecnología GPU TEE
- Extender a más arquitecturas de modelos
- Optimización de implementación en dispositivos reales
- Innovación Fuerte: Primer trabajo que aborda sistemáticamente la protección de capacidades fundamentales para LLMs en implementación periférica
- Técnica Ingeniosa: Diseño de protocolo de propagación elegante, logrando cobertura de autorización única en toda la red
- Teoría Sólida: Proporciona garantía de seguridad matemática basada en el problema LWE
- Experimentos Completos: Evaluación integral en múltiples modelos, tareas y escenarios de ataque
- Valor Práctico Alto: Mejoras significativas de eficiencia hacen viable la implementación práctica
- Supuestos de Seguridad: Depende de seguridad de TEE, potencialmente frágil ante ataques de canal lateral
- Rango de Aplicabilidad: Principalmente dirigido a arquitectura Transformer, aplicabilidad limitada a otras arquitecturas
- Complejidad de Implementación: La implementación práctica requiere considerar más factores a nivel de hardware y sistema
- Seguridad a Largo Plazo: La efectividad continua de medidas de protección actuales necesita verificación con desarrollo de técnicas de ataque
- Contribución Académica: Proporciona nueva dirección de investigación y pensamiento de solución para el campo de seguridad de IA periférica
- Valor Práctico: Tiene significado importante para orientación de implementación periférica de LLM comercial
- Impulso Tecnológico: Puede impulsar desarrollo adicional de tecnología TEE en el campo de protección de IA
- Implementación de LLMs propietarios en dispositivos periféricos
- Aplicaciones de IA sensibles a latencia y privacidad
- Servicios de IA comercial que requieren protección de propiedad intelectual
- Protección de modelos en entornos con recursos limitados
El artículo cita 52 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo protección de modelos, entornos de ejecución confiables, modelos de lenguaje grandes, proporcionando base teórica sólida y apoyo técnico para la investigación.
Evaluación General: CoreGuard es un trabajo de investigación de alta calidad que demuestra excelencia en innovación técnica, verificación experimental y valor práctico. Este trabajo no solo resuelve un problema práctico importante, sino que también proporciona ideas y métodos valiosos para investigación posterior en campos relacionados.