2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard: Защита фундаментальных возможностей LLM от кража моделей при граничном развертывании

Основная информация

ID статьи: 2410.13903
Название: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
Авторы: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
Классификация: cs.CR (криптография и безопасность), cs.AI (искусственный интеллект), cs.DC (распределённые вычисления)
Дата публикации/конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025)
Ссылка на статью: https://arxiv.org/abs/2410.13903

Аннотация

Проприетарные большие языковые модели (LLM) демонстрируют сильные обобщающие способности на различных задачах и всё чаще развёртываются на граничных устройствах в целях повышения эффективности и защиты конфиденциальности. Однако развёртывание проприетарных LLM на граничных устройствах без надлежащей защиты представляет серьёзную угрозу безопасности. Злоумышленники могут извлекать веса модели и архитектуру, что приводит к несанкционированному копированию и злоупотреблению. Даже если защитные меры предотвращают полное извлечение весов модели, злоумышленники могут выполнять продвинутые атаки (такие как тонкая настройка) для дальнейшего использования модели. Существующие решения защиты обычно создают значительные вычислительные и коммуникационные издержки, что делает их непрактичными для граничного развёртывания. Для защиты LLM при граничном развёртывании в данной работе предлагается CoreGuard — вычислительно и коммуникационно эффективный метод защиты. CoreGuard использует эффективный протокол защиты для снижения вычислительных издержек и минимизирует коммуникационные издержки посредством протокола распространения. Обширные экспериментальные результаты демонстрируют, что CoreGuard обеспечивает верхнюю границу безопасности при пренебрежимо малых издержках.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Проприетарные LLM при граничном развёртывании сталкиваются с угрозой кража моделей, когда злоумышленники могут извлекать архитектуру и веса модели посредством методов анализа программного обеспечения, что приводит к несанкционированному копированию и злоупотреблению.
Важность проблемы:
- Проприетарные LLM (такие как ChatGPT, Claude) обладают мощными обобщающими способностями и требуют огромных затрат на разработку
- Явная тенденция к граничному развёртыванию (например, Apple Intelligence интегрирует LLM с 3B параметрами в устройства iOS)
- Специализированные проприетарные LLM (такие как BloombergGPT в финансовой сфере, Med-PaLM 2 в медицине) не имеют открытых альтернатив
Ограничения существующих методов:
- Пассивная защита (например, водяные знаки): обеспечивает только доказательство собственности, не может предотвратить злоупотребление в неконтролируемой граничной среде
- Шифрование модели: остаётся уязвимым во время выполнения
- Прямая защита TEE: размещение всей модели в доверенной среде выполнения приводит к снижению эффективности примерно в 50 раз
- Выполнение частичных параметров в TEE (PPTE): защищает ограниченное количество весов, легко поддаётся реконструкции
- Защита с перестановкой параметров (PSP): такие решения как ShadowNet имеют чрезмерные издержки передачи данных
Исследовательская мотивация: Необходимо решение, которое обеспечивает достаточную безопасность при сохранении приемлемых вычислительных и коммуникационных издержек.

Основные вклады

Первая защита фундаментальных возможностей LLM при граничном развёртывании: систематическое описание проблем безопасности в данном сценарии и определение требований для защиты LLM при граничном развёртывании.
Предложение универсального решения CoreGuard: использование лёгких механизмов авторизации для защиты LLM при граничном развёртывании, применение протокола распространения для значительного снижения издержек передачи при сохранении низких вычислительных издержек.
Комплексная экспериментальная верификация: CoreGuard обеспечивает более высокие гарантии безопасности, более низкие издержки и отсутствие потерь в точности по сравнению с существующими решениями.

Подробное описание метода

Определение задачи

Вход: обученная модель LLM Выход: заблокированная модель, которая работает нормально только при надлежащей авторизации через доверенное оборудование (TEE) на устройстве Ограничения: минимизация вычислительных и коммуникационных издержек, сохранение точности модели

Архитектура модели

Операции CoreGuard разделены на два этапа:

1. Этап блокировки модели (перед развёртыванием)

Протокол защиты (Protection Protocol):

Применение перестановки строк к матрицам весов линейных слоёв: $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
Эти перестановки строк действуют как "замок", делая линейные слои неработоспособными; нормальное вычисление возможно только при наличии соответствующей перестановки столбцов входных данных (авторизация)
Матрица перестановок $\pi \in \{0,1\}^{d \times d}$ удовлетворяет условию $\pi\pi^T = I$

Протокол распространения (Propagation Protocol):

Применение перестановки столбцов к слоям обработки выходных данных: $W'_o = W_o\pi, W'_n = W_n\pi$
Реализация перестановки столбцов признаков через собственные операции сети, достижение эффекта автоматической авторизации
TEE требуется только управлять начальной авторизацией; авторизация распространяется на все последующие слои

2. Этап авторизации при выводе (после развёртывания)

Процесс шифрования: $m' = m\pi + p\pi$ где $p$ — шум одноразового блокнота (OTP), $m'$ — зашифрованная перестановленная признак.

Обработка выходного линейного слоя: $n' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n$

Расшифровка и авторизация: $n'' = n' - pW_n = n$ $z' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi$

Технические инновации

Механизм распространения авторизации в один проход: благодаря тщательно продуманной конструкции перестановок достигается автоматическое распространение авторизации по всей сети, избегая необходимости авторизации TEE на каждом слое.
Комбинация шифрования OTP и маскировки позиций: использование одноразового блокнота для шифрования в сочетании с перестановками скрывает процессы шифрования и расшифровки.
Оптимальная коммуникационная сложность: каждый вывод требует только 5 раундов передачи между TEE и GPU, достигая теоретического оптимума.
Математические гарантии безопасности: доказательство безопасности основано на предположении NP-сложности задачи Learning With Errors (LWE).

Экспериментальная установка

Наборы данных

GSM8k: задачи математического рассуждения
Spider: задачи генерации кода
PubMedQA: задачи медицинского вопросно-ответного взаимодействия
SQuAD: задачи понимания текста

Модели

Модели для граничного развёртывания: Qwen2-0.5B-Instruct, Gemma2-2B-it
Крупные модели: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

Метрики оценки

Безопасность: точность атак кража модели (чем ниже, тем безопаснее)
Эффективность: количество операций с плавающей точкой (FLOPs), издержки передачи между TEE и GPU
Точность: точность, специфичная для задачи

Методы сравнения

TPTE: NPLO
PPTE: DarkneTZ, SOTER, Serdab, DTE
PSP: ShadowNet, TransLinkGuard (TLG)
Границы: No-shield (нижняя граница), Black-box (верхняя граница)

Детали реализации

Использование библиотеки Hugging Face
Оптимизатор AdamW, линейное расписание скорости обучения
Эксперименты проводились на GPU NVIDIA A800
Предположение, что злоумышленник имеет доступ к 100% набора данных обучения (более строгое, чем 1% в предыдущих работах)

Результаты экспериментов

Основные результаты

Оценка безопасности:

Точность несанкционированного вывода: 0% во всех случаях
Атаки кража модели: относительная точность CoreGuard составляет 1,17× (близко к верхней границе Black-box 1,00×)
Значительно превосходит метод TPTE NPLO (9,59×) и метод PPTE DarkneTZ (8,43×)
Производительность сопоставима с другими методами PSP (TLG: 1,07×, ShadowNet: 1,09×)

Сравнение эффективности:

Издержки выполнения TEE: CoreGuard < 1,17e-03%, методы PPTE 2,91%-21,52%
Издержки передачи между TEE и GPU: CoreGuard требует только 5 раундов передачи, тогда как ShadowNet требует 448 раундов (LLaMA3-8B)
Объём передаваемых данных: CoreGuard примерно 20 КБ, ShadowNet примерно 1,3 ГБ

Абляционные исследования

Безопасность при различных параметрах атак:

Атаки с тонкой настройкой LoRA: CoreGuard сохраняет безопасность, близкую к верхней границе
Различные доли данных (1%-100%): остаётся близко к защите Black-box во всех параметрах
Выравнивание задач: сохраняет безопасность независимо от того, соответствует ли целевая задача злоумышленника задаче развёрнутой модели

Влияние позиции авторизации:

Авторизация в промежуточной позиции обеспечивает лучшую безопасность
Авторизация в начальной и конечной позициях имеет более низкую безопасность, так как злоумышленнику требуется восстановить только ограниченное количество параметров

Сохранение точности

В большинстве случаев защищённая модель имеет точность, полностью идентичную исходной модели
В отдельных случаях наблюдаются небольшие колебания ±0,5%, что объясняется ограничениями точности при работе с плавающей точкой

Связанные работы

Основные направления исследований

Методы защиты моделей:
- Методы водяных знаков: пассивная защита, обеспечивает только доказательство собственности
- Шифрование моделей: уязвимо во время выполнения
- Защита TEE: прямая защита имеет чрезмерные вычислительные издержки
Защита с перестановкой параметров:
- ShadowNet: защита с перестановкой каналов свёрточных слоёв
- TransLinkGuard: защита моделей Transformer
Применение доверенных сред выполнения:
- TEE на основе CPU: ARM TrustZone, Intel SGX
- GPU TEE: находится на ранней стадии развития, в основном ориентирован на центры обработки данных

Преимущества данной работы

По сравнению с существующими работами CoreGuard достигает улучшения эффективности на несколько порядков при сохранении того же уровня безопасности, особенно в отношении издержек коммуникации.

Заключение и обсуждение

Основные выводы

CoreGuard успешно решает проблему защиты LLM при граничном развёртывании
Посредством протокола распространения достигается оптимальная коммуникационная сложность
Обеспечивает верхнюю границу безопасности при пренебрежимо малых вычислительных и коммуникационных издержках
Сохраняет исходную точность модели

Ограничения

Атаки по побочным каналам: зависит от TEE как корня доверия, может быть уязвима к атакам по побочным каналам
Ограничения GPU TEE: в настоящее время в основном полагается на TEE на основе CPU, GPU TEE ещё не зрелая
Практическое развёртывание: статья сосредоточена на основной структуре, не углубляется в детали реализации, специфичные для устройства
Совместимость архитектуры: в основном разработана для основных архитектур Transformer

Направления будущих исследований

Интеграция защиты от атак по побочным каналам
Адаптация к развитию технологии GPU TEE
Расширение на дополнительные архитектуры моделей
Оптимизация для практического развёртывания на устройствах

Глубокая оценка

Преимущества

Высокая инновационность: первая систематическая работа по решению проблемы защиты фундаментальных возможностей LLM при граничном развёртывании
Тщательная техническая разработка: элегантный дизайн протокола распространения, реализующий распространение авторизации в один проход по всей сети
Прочная теоретическая база: математические гарантии безопасности, основанные на задаче LWE
Комплексные эксперименты: полная оценка на нескольких моделях, задачах и сценариях атак
Высокая практическая ценность: значительное повышение эффективности делает решение практически применимым

Недостатки

Предположения безопасности: зависит от безопасности TEE, может быть уязвима перед атаками по побочным каналам
Ограниченная область применения: в основном разработана для архитектуры Transformer, применимость к другим архитектурам ограничена
Сложность развёртывания: практическое развёртывание требует учёта большего количества факторов на уровне оборудования и системы
Долгосрочная безопасность: необходимо проверить продолжающуюся эффективность текущих защитных мер по мере развития методов атак

Влияние

Научный вклад: предоставляет новое направление исследований и решения для области безопасности граничного ИИ
Практическая ценность: имеет важное значение для руководства коммерческим граничным развёртыванием LLM
Технологический прогресс: может способствовать дальнейшему развитию технологии TEE в области защиты ИИ

Применимые сценарии

Граничное развёртывание проприетарных LLM на устройствах
Приложения ИИ, чувствительные к задержкам и конфиденциальности
Коммерческие сервисы ИИ, требующие защиты интеллектуальной собственности
Защита моделей в среде с ограниченными ресурсами

Список литературы

Статья цитирует 52 соответствующих источника, охватывающих защиту моделей, доверенные среды выполнения, большие языковые модели и другие области, обеспечивая прочную теоретическую базу и техническую поддержку для исследования.

Общая оценка: CoreGuard — это высококачественная исследовательская работа, демонстрирующая отличные результаты в технической инновации, экспериментальной верификации и практической ценности. Данная работа не только решает важную практическую проблему, но и предоставляет ценные идеи и методы для последующих исследований в соответствующих областях.