2025-11-16T01:19:12.319847

Content Anonymization for Privacy in Long-form Audio

Aggazzotti, Garg, Cai et al.
Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.
academic

Анонимизация содержания для обеспечения конфиденциальности в длинноформатном аудио

Основная информация

  • ID статьи: 2510.12780
  • Название: Content Anonymization for Privacy in Long-form Audio
  • Авторы: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (Университет Джонса Хопкинса)
  • Классификация: cs.SD (Sound), cs.CL (Computational Linguistics)
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.12780

Аннотация

Существующие технологии анонимизации речи успешно скрывают акустическую идентичность говорящего в коротких, изолированных высказываниях в соответствии с эталонными тестами, такими как VoicePrivacy Challenge. Однако в практических приложениях высказывания редко встречаются отдельно: длинноформатное аудио широко распространено в интервью, телефонных разговорах и встречах. В этих случаях доступны несколько высказываний от одного говорящего, что создает повышенный риск конфиденциальности: злоумышленник может переидентифицировать человека, используя его словарный запас, грамматику и манеру выражения, даже если его голос полностью замаскирован. Для решения этого риска в данной работе предлагается новый метод анонимизации содержания. Метод выполняет контекстное переписывание транскрибированного текста в конвейере ASR-TTS для устранения специфичного для говорящего стиля при сохранении семантики. Исследование демонстрирует эффективность атак на основе содержания на анонимизированную речь в условиях длинноформатного телефонного диалога, а затем показывает, как предложенный метод анонимизации на основе содержания снижает этот риск при сохранении практической полезности речи.

Исследовательский контекст и мотивация

Определение проблемы

Существующие технологии анонимизации речи в основном сосредоточены на скрытии акустической идентичности на уровне отдельных высказываний, но сталкиваются со значительными проблемами в сценариях длинноформатного аудио:

  1. Распространенность длинноформатного аудио: В практических приложениях, таких как интервью, телефонные разговоры и встречи, аудио обычно содержит несколько высказываний от одного говорящего
  2. Языковое содержание как побочный канал биометрии: Злоумышленник может использовать лингвистические характеристики говорящего, такие как выбор словарного запаса, структура грамматики и привычки выражения, для идентификации
  3. Ограничения существующих методов: Сосредоточены на анонимизации акустического сигнала, игнорируя информацию об идентичности в языковом содержании

Значимость исследования

  • Потребность в защите конфиденциальности: С увеличением применения речевых данных защита идентичности говорящего становится все более важной
  • Практические сценарии применения: Существует разрыв между существующими эталонными тестами и практическими приложениями, требующий учета особенностей длинноформатного аудио
  • Многомодальные угрозы: Злоумышленник может одновременно использовать акустические и лингвистические характеристики, требуя комплексной защиты

Ограничения существующих методов

  1. Защита одного модального режима: Обработка только акустических характеристик, игнорирование языкового содержания
  2. Простая обработка PII: Только удаление явной личной информации, не обработка языкового стиля
  3. Обработка на уровне высказываний: Отсутствие рассмотрения структуры дискурса в длинноформатном аудио

Основные вклады

  1. Первое систематическое исследование: Первое систематическое исследование атак на основе содержания в анонимизации речи для длинноформатного аудио
  2. Метод контекстного переписывания: Предложена техника совместного переписывания нескольких высказываний на основе скользящего окна с учетом контекста диалога
  3. Количественная оценка компромисса конфиденциальность-полезность: Использование современных генеративных моделей и систем обнаружения для количественной оценки компромисса между защитой конфиденциальности и практической полезностью
  4. Сравнение нескольких моделей: Сравнение производительности моделей API (GPT-4o-mini, GPT-5) и локальных моделей (Gemma-3-4B)
  5. Комплексная система оценки: Установлена многомерная система оценки, включающая защиту конфиденциальности, точность содержания и естественность аудио

Подробное описание метода

Определение задачи

Учитывая длинноформатную аудиозапись X=(u1,u2,...,uN)X = (u_1, u_2, ..., u_N) (от исходного говорящего ss), целью является создание анонимизированной версии X=g(X)X' = g(X), которая не может быть отнесена к ss. Успешная анонимизация требует достижения равной частоты ошибок (EER) атакующего на уровне 50% (уровень случайного угадывания).

Архитектура модели

Конвейер анонимизации ASR-TTS

  1. Этап ASR: Использование Whisper-medium для транскрибирования исходного аудио в текст
  2. Этап анонимизации содержания: Переписывание транскрибированного текста
  3. Этап TTS: Синтез новой речи с использованием XTTS с вложениями псевдоцелевого говорящего

Методы анонимизации содержания

1. Переписывание по высказываниям (GPT-4o-mini)

  • Независимая обработка каждого высказывания
  • Применимо для обработки более коротких высказываний

2. Переписывание по сегментам (Gemma-3-4B, GPT-5)

  • Обработка текстовых сегментов, охватывающих несколько высказываний (16 высказываний или примерно 300 токенов)
  • Способность захватывать и изменять более широкие модели дискурса
  • Использование скользящего окна для предоставления контекста (N=8 предыдущих высказываний)

Стратегии переписывания

  • Замена PII: Замена личной информации вымышленной, но гендерно согласованной информацией
  • Изменение стиля: Модификация языкового стиля для устранения характеристик говорящего
  • Регулировка длины: Сжатие содержания и изменение длины высказываний
  • Контекстная осведомленность: Учет истории диалога при переписывании

Технические инновации

  1. Совместное переписывание нескольких высказываний: Преодоление ограничений традиционной обработки отдельных высказываний с учетом структуры дискурса
  2. Механизм контекстного окна: Использование истории диалога для более точного переписывания
  3. Локализованное решение: Предоставление выбора локальной модели, обеспечивающего как защиту конфиденциальности, так и практическую полезность
  4. Многомерная оптимизация: Одновременное рассмотрение защиты конфиденциальности, семантической верности и уклонения от обнаружения

Экспериментальная установка

Наборы данных

  • Fisher Speech Corpus: Содержит почти 2000 часов диалоговой телефонной речи
  • Экспериментальная установка: Использование "сложной" установки (1944 испытания)
    • Положительные образцы (959): Различные тематические диалоги одного говорящего
    • Отрицательные образцы (985): Одна и та же тематика диалогов разных говорящих
  • VoxCeleb2: Используется для создания вложений псевдоцелевого говорящего

Метрики оценки

Метрики защиты конфиденциальности

  • Равная частота ошибок (EER): Частота ошибок атакующего при различении речи одного говорящего и разных говорящих
  • Цель: EER = 50% (уровень случайного угадывания)

Метрики практической полезности

  • UTMOS: Автоматическое предсказание оценки естественности речи (1-5 баллов)
  • Семантическое сходство:
    • Оценка жадного выравнивания (GAS)
    • Сходство динамического временного деформирования (DTW-Sim)

Метрики обнаруживаемости

  • Обнаружение синтезированного текста: Использование детектора Binoculars
  • Обнаружение синтезированной речи: Использование детектора SSL-AASIST

Методы сравнения

  1. Только анонимизация аудио: Стандартный конвейер ASR-TTS без модификации содержания
  2. Только анонимизация содержания: Переписывание содержания с сохранением исходного голоса
  3. Анонимизация аудио + содержания: Одновременное переписывание содержания и анонимизация голоса

Модели атак

  • Атака на основе речи: Модель верификации говорящего WavLM-Base
  • Атака на основе содержания: Модель LUAR (Learning Universal Authorship Representations)

Результаты экспериментов

Основные результаты

Эффективность защиты конфиденциальности

  1. Угроза атак на основе содержания: С увеличением количества высказываний EER атаки на основе содержания снижается с примерно 0,4 до 0,1, что доказывает способность языкового содержания к идентификации
  2. Эффективность анонимизации: Все методы переписывания значительно повышают EER, приближая атаки на основе содержания к уровню случайного угадывания
  3. Сравнение моделей: Переписывание по сегментам (GPT-5, Gemma3-4B) более эффективно, чем переписывание по высказываниям (GPT4o-mini)

Сохранение практической полезности

  1. Естественность аудио: Оценка UTMOS анонимизированной речи составляет 3,14, что выше, чем 2,09 для исходной записи
  2. Семантическая верность:
    • GPT-5: GAS=0,699, DTW-Sim=0,739
    • Gemma3-4B: GAS=0,648, DTW-Sim=0,582
    • GPT4o-mini: GAS=0,678, DTW-Sim=0,702

Абляционные исследования

Сравнение стратегий переписывания

  • Консервативная стратегия (Gemma3-4Bc): Сохранение 50% исходных высказываний, наименьшая сложность обнаружения
  • Полное переписывание: Обеспечение более сильной защиты конфиденциальности, но немного более высокая обнаруживаемость

Анализ уклонения от обнаружения

  • Обнаружение синтезированной речи: Более точно, чем обнаружение синтезированного текста, особенно при меньшем количестве высказываний
  • Эффект повторной транскрипции: Повторная транскрипция после синтеза может естественным образом удалить некоторые признаки машинного создания

Анализ примеров

Эксперименты показывают, что процесс повторной транскрипции через конвейер ASR-TTS может естественным образом удалить некоторые характеристики машинного создания текста, что затрудняет обнаружение финального анонимизированного текста как искусственно созданного.

Связанные работы

Анонимизация речи

  • VoicePrivacy Challenge: Главным образом сосредоточен на акустической анонимизации коротких высказываний
  • Традиционные методы: Преобразование речи на основе kNN и другие, хорошо работающие в сценариях с одним высказыванием

Конфиденциальность содержания

  • Обработка PII: Существующие методы главным образом сосредоточены на явных идентификаторах, таких как имена и места
  • Анонимизация стиля: Отсутствие систематической обработки характеристик языкового стиля

Идентификация автора

  • Текстовый анализ: На основе выбора словарного запаса, грамматики, использования функциональных слов и других характеристик
  • Транскрипция речи: Недавние работы доказали наличие информации об идентичности в транскрибированном тексте

Выводы и обсуждение

Основные выводы

  1. Реальность угрозы содержания: Языковое содержание в длинноформатном аудио представляет значительный риск конфиденциальности
  2. Эффективность защиты переписыванием: Переписывание на основе LLM эффективно защищает от атак на основе содержания
  3. Осуществимость локального решения: Небольшие открытые модели (Gemma-3-4B) достигают производительности, близкой к моделям API
  4. Сохранение практической полезности: Возможно обеспечить защиту конфиденциальности при сохранении качества речи и целостности семантики

Ограничения

  1. Распространение ошибок ASR: Ошибки на этапе ASR могут повлиять на финальное качество
  2. Семантическая верность: Процесс переписывания может привести к потере тонких семантических деталей или иронии
  3. Ограничения модели атаки: Главным образом рассматриваются неинформированные атакующие; полуинформированные атаки могут быть более эффективными
  4. Отсутствие сквозного решения: Текущий метод зависит от каскадного конвейера, отсутствует сквозное решение

Направления будущих исследований

  1. Сквозные модели: Разработка сквозных систем совместной анонимизации речи и содержания
  2. Надежное переписывание: Улучшение баланса между семантической верностью и анонимизацией стиля в моделях переписывания
  3. Защита от сильных атак: Исследование стратегий защиты от адаптивных полуинформированных атакующих
  4. Обработка в реальном времени: Разработка эффективных методов анонимизации для сценариев реального времени

Глубокая оценка

Преимущества

  1. Важность проблемы: Первое систематическое выявление и решение угрозы содержания в анонимизации речи для длинноформатного аудио
  2. Инновационность метода: Предложена контекстно-осведомленная стратегия совместного переписывания нескольких высказываний
  3. Полнота экспериментов:
    • Многомерная система оценки (конфиденциальность, практическая полезность, обнаруживаемость)
    • Сравнение различных моделей и стратегий
    • Валидация на реальных наборах данных
  4. Практическая ценность: Предоставлены полные решения от моделей API до локальных моделей
  5. Научная строгость: Использование установленных моделей атак и протоколов оценки

Недостатки

  1. Единственность набора данных: Валидация главным образом на корпусе Fisher, отсутствие проверки кроссдоменной обобщаемости
  2. Ограничения модели атаки: Не рассматриваются более сильные адаптивные атаки или многомодальные атаки
  3. Отсутствие анализа вычислительных затрат: Не предоставлен подробный анализ вычислительных расходов различных методов
  4. Отсутствие пользовательских исследований: Недостаток субъективной оценки эффективности анонимизации реальными пользователями
  5. Долгосрочная безопасность: Не рассмотрено влияние прогресса в технологиях атак на эффективность защиты

Влияние

  1. Академический вклад:
    • Заполнение пробела в исследованиях анонимизации длинноформатного аудио
    • Установление новой парадигмы оценки и эталонов
    • Предоставление важной основы для последующих исследований
  2. Практическая ценность:
    • Предоставление практического решения для защиты конфиденциальности при обработке речевых данных
    • Прямая ценность в приложениях, таких как интервью, записи встреч
    • Предоставление технической поддержки для соответствия соответствующим нормативным требованиям
  3. Воспроизводимость: Авторы обещают открыть исходный код и подсказки, что способствует воспроизведению и расширению исследований

Применимые сценарии

  1. Сценарии с высокими требованиями к конфиденциальности: Медицинские интервью, юридические консультации, психотерапия и т.д.
  2. Коммерческие приложения: Защита конфиденциальности при обработке записей обслуживания клиентов и встреч
  3. Совместное использование исследовательских данных: Приватизированное распространение речевых корпусов
  4. Требования соответствия: Техническая поддержка для соответствия нормативным требованиям, таким как GDPR

Библиография

В статье цитируется 26 связанных работ, охватывающих анонимизацию речи, конфиденциальность содержания, идентификацию авторства и другие области, обеспечивающие прочную теоретическую основу для исследования. Ключевые ссылки включают работы, связанные с VoicePrivacy Challenge, модель идентификации авторства LUAR и недавний прогресс в технологиях анонимизации речи.


Общая оценка: Это высококачественная исследовательская статья, которая выявляет и решает важную проблему в области анонимизации речи. Метод инновационен, эксперименты полны, результаты убедительны и имеют важную ценность как для академического сообщества, так и для промышленности. Несмотря на некоторые ограничения, работа открывает новое направление исследований в области защиты конфиденциальности длинноформатного аудио.