Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers
Jang, Lee, Chung et al.
Tokenization is a crucial step that bridges human-readable text with model-readable discrete tokens. However, recent studies have revealed that tokenizers can be exploited to elicit unwanted model behaviors. In this work, we investigate incomplete tokens, i.e., undecodable tokens with stray bytes resulting from byte-level byte-pair encoding (BPE) tokenization. We hypothesize that such tokens are heavily reliant on their adjacent tokens and are fragile when paired with unfamiliar tokens. To demonstrate this vulnerability, we introduce improbable bigrams: out-of-distribution combinations of incomplete tokens designed to exploit their dependency. Our experiments show that improbable bigrams are significantly prone to hallucinatory behaviors. Surprisingly, the same phrases have drastically lower rates of hallucination (90% reduction in Llama3.1) when an alternative tokenization is used. We caution against the potential vulnerabilities introduced by byte-level BPE tokenizers, which may introduce blind spots to language models.
academic
Невероятные биграммы выявляют уязвимости неполных токенов в байт-уровневых токенизаторах
В данной работе исследуется проблема уязвимости неполных токенов в байт-уровневом кодировании пар байтов (BPE) при токенизации. Авторы обнаружили, что эти неполные токены, содержащие свободные байты, сильно зависят от соседних токенов и подвержены проблемам при сочетании с незнакомыми токенами. Путём конструирования «невероятных биграмм» — распределённых вне области комбинаций неполных токенов — авторы доказали, что такая уязвимость приводит к значительному галлюцинированию. Эксперименты показывают, что при использовании альтернативных методов токенизации частота галлюцинаций для одних и тех же фраз значительно снижается (на 90% в Llama3.1).
Основная проблема, которую решает данная работа, — это уязвимость неполных токенов в байт-уровневых BPE-токенизаторах, которые приводят к галлюцинированию в больших языковых моделях.
Ключевая роль токенизации: Токенизация — это критический этап, связывающий читаемый человеком текст с дискретными токенами, обрабатываемыми моделью
Существующие угрозы безопасности: Недавние исследования показывают, что токенизаторы могут быть злонамеренно использованы для провоцирования ненадлежащего поведения модели
Практический вред: Проблемы токенизации могут привести к потере целостности данных, противодействующим атакам, идентификации отпечатков моделей и другим рискам безопасности
Авторы предполагают, что неполные токены, благодаря своим структурным характеристикам, проявляют уязвимость при сочетании с незнакомыми соседними токенами, даже если эти токены сами по себе хорошо обучены.
Выявление уязвимости неполных токенов: Систематический анализ структурных характеристик и потенциальных проблем неполных токенов в байт-уровневых BPE-токенизаторах
Введение концепции «невероятных биграмм»: Разработка нового метода атаки для выявления уязвимостей неполных токенов
Кросс-модельная верификация: Проверка универсальности уязвимости на пяти основных больших языковых моделях
Предоставление стратегий смягчения: Демонстрация разрешимости проблемы через альтернативные методы токенизации и предложение профилактических мер
Входные данные: Текстовые фразы, содержащие неполные токены
Выходные данные: Ответы модели на повторяющиеся задачи
Цель: Выявление комбинаций токенов, которые приводят к неспособности модели правильно повторить входную фразу
Шаг 1: Структурный анализ
- Выявление начальных и продолжающих байтов в токене
- Определение количества требуемых или предоставляемых байтов
Шаг 2: Проверка совместимости
- Поиск структурно дополняющих пар токенов
- Обеспечение того, чтобы комбинация образовывала действительный символ Unicode
Шаг 3: Проверка осуществимости
- Выполнение теста декодирования-кодирования
- Проверка того, что полученная строка действительно токенизируется как ожидается
Важные находки: За исключением Command-R, частота галлюцинаций всех моделей значительно снижается при использовании альтернативной токенизации, что доказывает, что проблема действительно вызвана неполными токенами.
Неполные токены имеют систематические уязвимости: Даже хорошо обученные неполные токены подвержены галлюцинированию при определённых комбинациях
Проблема вызвана токенизацией, а не обучением: Альтернативная токенизация значительно улучшает проблему, доказывая, что корень находится в структуре токена
Широкое влияние: Проблема широко распространена в нескольких основных моделях
Land, S. & Bartolo, M. (2024). Fishing for magikarp: Automatically detecting under-trained tokens in large language models.
Bostrom, K. & Durrett, G. (2020). Byte pair encoding is suboptimal for language model pretraining.
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural machine translation of rare words with subword units.
Limisiewicz, T. et al. (2024). MYTE: Morphology-driven byte encoding for better and fairer multilingual language modeling.
Общая оценка: Это высококачественная исследовательская работа, выявляющая важную уязвимость безопасности в байт-уровневых BPE-токенизаторах. Несмотря на некоторые ограничения, её оригинальность, методологическая строгость и практическая ценность делают её значительным вкладом в область исследований безопасности токенизаторов. Данное исследование имеет важное значение для повышения безопасности и устойчивости больших языковых моделей.