2025-11-17T10:07:13.253503

Stronger Re-identification Attacks through Reasoning and Aggregation

Charpentier, Lison
Text de-identification techniques are often used to mask personally identifiable information (PII) from documents. Their ability to conceal the identity of the individuals mentioned in a text is, however, hard to measure. Recent work has shown how the robustness of de-identification methods could be assessed by attempting the reverse process of _re-identification_, based on an automated adversary using its background knowledge to uncover the PIIs that have been masked. This paper presents two complementary strategies to build stronger re-identification attacks. We first show that (1) the _order_ in which the PII spans are re-identified matters, and that aggregating predictions across multiple orderings leads to improved results. We also find that (2) reasoning models can boost the re-identification performance, especially when the adversary is assumed to have access to extensive background knowledge.
academic

Более сильные атаки переидентификации через рассуждение и агрегацию

Основная информация

  • ID статьи: 2510.09184
  • Название: Stronger Re-identification Attacks through Reasoning and Aggregation
  • Авторы: Lucas Georges Gabriel Charpentier (Университет Осло), Pierre Lison (Норвежский центр вычислений)
  • Категория: cs.CL (Компьютерная лингвистика)
  • Дата публикации: 10 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.09184

Аннотация

Методы деидентификации текста обычно используются для маскирования личной идентифицирующей информации (PII) в документах. Однако способность этих методов скрывать упоминания личности в тексте сложно измерить. Недавние исследования показали, что надежность методов деидентификации можно оценить путем попытки обратного процесса переидентификации, основанного на автоматизированном противнике, использующем фоновые знания для раскрытия замаскированной PII. В данной статье предлагаются две взаимодополняющие стратегии для построения более сильных атак переидентификации: (1) порядок переидентификации диапазонов PII имеет значение, агрегирование предсказаний по нескольким порядкам улучшает результаты; (2) модели рассуждения могут повысить производительность переидентификации, особенно когда предполагается, что противник обладает обширными фоновыми знаниями.

Исследовательский контекст и мотивация

Определение проблемы

Деидентификация текста — это важный метод защиты конфиденциальности, направленный на удаление или маскирование личной идентифицирующей информации (PII) из документов, включая прямые идентификаторы (такие как имена, номера телефонов) и косвенные идентификаторы (такие как возраст, пол, местоположение и т.д.). Эта технология имеет важное применение при обработке чувствительных документов, таких как судебные решения и медицинские записи.

Значимость исследования

Оценка эффективности методов деидентификации является критической задачей. Традиционные методы оценки затрудняют точное измерение уровня защиты конфиденциальности деидентифицированных документов. Путем построения атак переидентификации для тестирования надежности методов деидентификации, аналогично красным командам в кибербезопасности, можно лучше оценить и улучшить технологии защиты конфиденциальности.

Ограничения существующих методов

Существующие методы атак переидентификации имеют следующие недостатки:

  1. Отсутствие систематического исследования важности порядка переидентификации PII
  2. Недостаточное использование возможностей современных моделей рассуждения
  3. Отсутствие эффективных стратегий агрегирования предсказаний

Исследовательская мотивация

Данная работа направлена на усиление атак переидентификации по двум направлениям: исследование различных стратегий порядка переидентификации и агрегирование нескольких результатов предсказания; использование больших языковых моделей с возможностями рассуждения для повышения эффективности атак.

Основные вклады

  1. Предложены четыре стратегии порядка переидентификации PII: сверху вниз, снизу вверх, случайный порядок и порядок на основе энтропии, с систематической оценкой их эффективности
  2. Разработан механизм агрегирования взвешенного голосования: агрегирование предсказаний из нескольких различных порядков значительно повышает точность переидентификации
  3. Подтверждены преимущества моделей рассуждения: использование LLM с оптимизацией рассуждения показывает значительное улучшение производительности переидентификации по сравнению с моделями инструкционной настройки
  4. Предоставлена комплексная экспериментальная оценка: систематические эксперименты на наборе данных TAB с учетом противников с различными уровнями фоновых знаний

Подробное описание методов

Определение задачи

Учитывая деидентифицированный документ (в котором PII замаскирована), задача переидентификации направлена на использование фоновых знаний для вывода содержимого замаскированной PII. Входные данные представляют собой деидентифицированный документ с несколькими метками MASK, выходные данные — конкретные значения PII для каждой замаскированной позиции.

Архитектура модели

Двухэтапная структура переидентификации

  1. Этап извлечения:
    • Разреженное извлечение: использование модели BMx для выбора топ-100 наиболее релевантных документов из базы фоновых знаний
    • Плотное извлечение: использование обученного извлекателя в стиле ColBERT для поиска наиболее релевантных текстовых блоков для каждого диапазона PII
  2. Этап заполнения:
    • Подача релевантных текстовых блоков и локального контекста в LLM
    • Использование двух версий модели Qwen3-4B: версии с инструкционной настройкой и версии с оптимизацией рассуждения

Обучение плотного извлекателя

  • Инициализация кодировщиков документов и запросов на основе ModernBERT-base
  • Обучение на биографических данных Wikipedia, где положительные образцы содержат целевую сущность, отрицательные образцы не содержат
  • Обучающие данные включают примерно 160 000 локальных текстов с соответствующими парами положительных и отрицательных образцов

Стратегии порядка переидентификации

  1. Сверху вниз (Top-down): последовательная переидентификация PII в порядке их появления в документе
  2. Снизу вверх (Bottom-up): переидентификация в обратном порядке, начиная с последней PII
  3. Случайный порядок (Random): случайный выбор неидентифицированной PII для обработки
  4. На основе энтропии (Entropy-based): расчет значения энтропии для каждого диапазона PII, переидентификация в порядке возрастания энтропии

Формула расчета энтропии: H(s)=i=1kpilogpiH(s) = -\sum_{i=1}^{k} p_i \log p_i

где pip_i — вероятность, назначенная LLM для i-го токена диапазона ss.

Стратегия агрегирования

Используется механизм агрегирования взвешенного голосования для объединения результатов предсказания из нескольких порядков:

As(c)=i=1m1(ci=c)piA_s(c) = \sum_{i=1}^{m} \mathbf{1}(c_i = c) p_i

где As(c)A_s(c) — агрегированный балл кандидата cc для диапазона ss, 1\mathbf{1} — индикаторная функция, pip_i — вероятность кандидата в i-м запуске.

Экспериментальная установка

Набор данных

  • Основной набор данных: TAB (Text Anonymization Benchmark) тестовый набор, содержащий 127 случаев Европейского суда по правам человека (ECHR)
  • Фоновые знания: два уровня
    • Общие знания: резюме судебных разбирательств, юридические отчеты и открытые случаи, дополненные синтетическими статьями, созданными Mistral-12B
    • Наихудший случай: полные фоновые знания, включающие все исходные судебные решения

Метрики оценки

  1. Точность точного совпадения: доля предсказанных диапазонов, полностью совпадающих с исходными значениями
  2. Полнота на уровне слов: доля слов из предсказания, присутствующих в исходном диапазоне, учитывающая частичные совпадения

Детали реализации

  • Разреженное извлечение: модель BMx
  • Плотное извлечение: архитектура ColBERT на основе ModernBERT-base
  • Модель заполнения: версия Qwen3-4B с инструкционной настройкой и версия с оптимизацией рассуждения
  • Окно контекста: локальный контекст 1000 символов, извлеченные блоки 1200 символов
  • Количество извлечений: топ-10 релевантных текстовых блоков для каждого диапазона PII

Результаты экспериментов

Основные результаты

Результаты модели с инструкционной настройкой

При общих фоновых знаниях:

  • Среди стратегий с одним порядком сортировка на основе энтропии показывает лучший результат (12,1% точности точного совпадения)
  • Взвешенное голосование значительно повышает производительность, стратегия ALL достигает 14,5%
  • Переидентификация квазиидентификаторов превосходит прямые идентификаторы

При наихудшем случае фоновых знаний:

  • Производительность значительно улучшается, стратегия агрегирования ALL достигает 48,7% точности точного совпадения
  • Коэффициент распознавания прямых идентификаторов превышает 77%

Результаты модели с оптимизацией рассуждения

  • Значительное улучшение по сравнению с моделью инструкционной настройки
  • При наихудшем случае стратегия агрегирования ALL достигает 57,2% точности точного совпадения
  • Стратегия с одним порядком на основе энтропии показывает выдающиеся результаты (55,0%)

Ключевые выводы

  1. Ограниченная важность порядка: различия в производительности между различными стратегиями с одним порядком относительно небольшие
  2. Значительный эффект агрегирования: агрегирование по нескольким порядкам всегда превосходит стратегии с одним порядком
  3. Преимущества моделей рассуждения: модели с оптимизацией рассуждения показывают существенное улучшение по сравнению с моделями инструкционной настройки
  4. Критическая роль фоновых знаний: обширные фоновые знания значительно повышают эффективность переидентификации
  5. Квазиидентификаторы легче идентифицировать: переидентификация квазиидентификаторов обычно превосходит прямые идентификаторы

Результаты полноты на уровне слов

Результаты полноты на уровне слов соответствуют тенденции точности точного совпадения, но с более высокими значениями, что указывает на способность модели частично правильно идентифицировать содержимое PII.

Связанные работы

Методы деидентификации текста

  • Методы на основе правил
  • Статистические методы
  • Нейросетевые модели разметки последовательностей
  • Методы на основе больших языковых моделей

Исследования атак переидентификации

  • Использование информационных ящиков Wikipedia в качестве фоновых знаний (Morris и др.)
  • Метод переидентификации с увеличением извлечения (Charpentier и Lison)
  • Данная работа исследует роль порядка и рассуждения на этой основе

Заключение и обсуждение

Основные выводы

  1. Эффективность стратегий агрегирования: агрегирование предсказаний по нескольким порядкам значительно повышает производительность переидентификации
  2. Явные преимущества моделей рассуждения: LLM с оптимизацией рассуждения показывают лучшую производительность в задачах переидентификации
  3. Критическая важность фоновых знаний: обширные фоновые знания являются ключевым фактором успешной переидентификации
  4. Потенциал сортировки на основе энтропии: хотя улучшение ограничено, стратегия сортировки на основе энтропии показывает относительно стабильную производительность

Ограничения

  1. Ограничения размера модели: протестирована только одна архитектура и размер модели
  2. Языковые ограничения: рассмотрены только фоновые знания на английском языке
  3. Параметр нулевого примера: не исследован потенциал обучения с несколькими примерами
  4. Ограничения типов данных: не рассмотрены другие типы данных, такие как таблицы или графы знаний

Направления будущих исследований

  1. Исследование эффектов различных архитектур и размеров моделей
  2. Интеграция многоязычных фоновых знаний
  3. Исследование стратегий динамического расчета энтропии
  4. Интеграция источников структурированных данных

Глубокая оценка

Преимущества

  1. Важность проблемы: оценка защиты конфиденциальности является важным направлением текущих исследований
  2. Методологические инновации: систематическое исследование роли порядка и стратегий агрегирования
  3. Достаточные эксперименты: комплексные абляционные эксперименты на реальных наборах данных
  4. Практическая ценность: предоставляет ценный инструмент состязательной оценки для улучшения методов деидентификации
  5. Ясное изложение: четкая структура статьи и точное описание технических деталей

Недостатки

  1. Недостаточный теоретический анализ: отсутствует глубокий анализ причин, по которым определенные порядки или стратегии агрегирования более эффективны
  2. Высокие вычислительные затраты: время вывода модели рассуждения в 25 раз больше, чем у модели инструкционной настройки, что ограничивает практическое применение
  3. Единственный набор данных: валидация только на данных из юридической области, обобщаемость требует проверки
  4. Недостаточное рассмотрение состязательности: не рассмотрены возможные защитные стратегии, которые может применить защищающаяся сторона

Влияние

  1. Академический вклад: предоставляет новые методы и идеи для области оценки защиты конфиденциальности
  2. Практическая ценность: способствует разработке более надежных систем деидентификации
  3. Воспроизводимость: предоставляет подробные детали реализации и информацию о моделях
  4. Вдохновляющее значение: предлагает несколько ценных направлений для последующих исследований

Применимые сценарии

  1. Оценка защиты конфиденциальности: оценка надежности методов деидентификации текста
  2. Красные команды: тестирование безопасности перед развертыванием систем деидентификации
  3. Улучшение методов: руководство по разработке более сильных методов деидентификации
  4. Проверка соответствия: помощь организациям в оценке эффективности мер защиты конфиденциальности

Библиография

Статья ссылается на важные работы в области защиты конфиденциальности, деидентификации текста, генерации с увеличением извлечения, обеспечивая прочную теоретическую основу для исследования. Особого внимания заслуживает предыдущая работа Charpentier и Lison (2025), которая расширена в данной статье.


Общая оценка: Это высококачественная исследовательская работа, вносящая ценный вклад в важную область оценки защиты конфиденциальности. Несмотря на некоторые ограничения, предложенные методы имеют важную практическую ценность и академическое значение, закладывая основу для дальнейшего развития этой области.