Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.
- ID статьи: 2510.12780
- Название: Content Anonymization for Privacy in Long-form Audio
- Авторы: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (Университет Джонса Хопкинса)
- Классификация: cs.SD (Sound), cs.CL (Computational Linguistics)
- Дата публикации: 14 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.12780
Существующие технологии анонимизации речи успешно скрывают акустическую идентичность говорящего в коротких, изолированных высказываниях в соответствии с эталонными тестами, такими как VoicePrivacy Challenge. Однако в практических приложениях высказывания редко встречаются отдельно: длинноформатное аудио широко распространено в интервью, телефонных разговорах и встречах. В этих случаях доступны несколько высказываний от одного говорящего, что создает повышенный риск конфиденциальности: злоумышленник может переидентифицировать человека, используя его словарный запас, грамматику и манеру выражения, даже если его голос полностью замаскирован. Для решения этого риска в данной работе предлагается новый метод анонимизации содержания. Метод выполняет контекстное переписывание транскрибированного текста в конвейере ASR-TTS для устранения специфичного для говорящего стиля при сохранении семантики. Исследование демонстрирует эффективность атак на основе содержания на анонимизированную речь в условиях длинноформатного телефонного диалога, а затем показывает, как предложенный метод анонимизации на основе содержания снижает этот риск при сохранении практической полезности речи.
Существующие технологии анонимизации речи в основном сосредоточены на скрытии акустической идентичности на уровне отдельных высказываний, но сталкиваются со значительными проблемами в сценариях длинноформатного аудио:
- Распространенность длинноформатного аудио: В практических приложениях, таких как интервью, телефонные разговоры и встречи, аудио обычно содержит несколько высказываний от одного говорящего
- Языковое содержание как побочный канал биометрии: Злоумышленник может использовать лингвистические характеристики говорящего, такие как выбор словарного запаса, структура грамматики и привычки выражения, для идентификации
- Ограничения существующих методов: Сосредоточены на анонимизации акустического сигнала, игнорируя информацию об идентичности в языковом содержании
- Потребность в защите конфиденциальности: С увеличением применения речевых данных защита идентичности говорящего становится все более важной
- Практические сценарии применения: Существует разрыв между существующими эталонными тестами и практическими приложениями, требующий учета особенностей длинноформатного аудио
- Многомодальные угрозы: Злоумышленник может одновременно использовать акустические и лингвистические характеристики, требуя комплексной защиты
- Защита одного модального режима: Обработка только акустических характеристик, игнорирование языкового содержания
- Простая обработка PII: Только удаление явной личной информации, не обработка языкового стиля
- Обработка на уровне высказываний: Отсутствие рассмотрения структуры дискурса в длинноформатном аудио
- Первое систематическое исследование: Первое систематическое исследование атак на основе содержания в анонимизации речи для длинноформатного аудио
- Метод контекстного переписывания: Предложена техника совместного переписывания нескольких высказываний на основе скользящего окна с учетом контекста диалога
- Количественная оценка компромисса конфиденциальность-полезность: Использование современных генеративных моделей и систем обнаружения для количественной оценки компромисса между защитой конфиденциальности и практической полезностью
- Сравнение нескольких моделей: Сравнение производительности моделей API (GPT-4o-mini, GPT-5) и локальных моделей (Gemma-3-4B)
- Комплексная система оценки: Установлена многомерная система оценки, включающая защиту конфиденциальности, точность содержания и естественность аудио
Учитывая длинноформатную аудиозапись X=(u1,u2,...,uN) (от исходного говорящего s), целью является создание анонимизированной версии X′=g(X), которая не может быть отнесена к s. Успешная анонимизация требует достижения равной частоты ошибок (EER) атакующего на уровне 50% (уровень случайного угадывания).
- Этап ASR: Использование Whisper-medium для транскрибирования исходного аудио в текст
- Этап анонимизации содержания: Переписывание транскрибированного текста
- Этап TTS: Синтез новой речи с использованием XTTS с вложениями псевдоцелевого говорящего
1. Переписывание по высказываниям (GPT-4o-mini)
- Независимая обработка каждого высказывания
- Применимо для обработки более коротких высказываний
2. Переписывание по сегментам (Gemma-3-4B, GPT-5)
- Обработка текстовых сегментов, охватывающих несколько высказываний (16 высказываний или примерно 300 токенов)
- Способность захватывать и изменять более широкие модели дискурса
- Использование скользящего окна для предоставления контекста (N=8 предыдущих высказываний)
- Замена PII: Замена личной информации вымышленной, но гендерно согласованной информацией
- Изменение стиля: Модификация языкового стиля для устранения характеристик говорящего
- Регулировка длины: Сжатие содержания и изменение длины высказываний
- Контекстная осведомленность: Учет истории диалога при переписывании
- Совместное переписывание нескольких высказываний: Преодоление ограничений традиционной обработки отдельных высказываний с учетом структуры дискурса
- Механизм контекстного окна: Использование истории диалога для более точного переписывания
- Локализованное решение: Предоставление выбора локальной модели, обеспечивающего как защиту конфиденциальности, так и практическую полезность
- Многомерная оптимизация: Одновременное рассмотрение защиты конфиденциальности, семантической верности и уклонения от обнаружения
- Fisher Speech Corpus: Содержит почти 2000 часов диалоговой телефонной речи
- Экспериментальная установка: Использование "сложной" установки (1944 испытания)
- Положительные образцы (959): Различные тематические диалоги одного говорящего
- Отрицательные образцы (985): Одна и та же тематика диалогов разных говорящих
- VoxCeleb2: Используется для создания вложений псевдоцелевого говорящего
- Равная частота ошибок (EER): Частота ошибок атакующего при различении речи одного говорящего и разных говорящих
- Цель: EER = 50% (уровень случайного угадывания)
- UTMOS: Автоматическое предсказание оценки естественности речи (1-5 баллов)
- Семантическое сходство:
- Оценка жадного выравнивания (GAS)
- Сходство динамического временного деформирования (DTW-Sim)
- Обнаружение синтезированного текста: Использование детектора Binoculars
- Обнаружение синтезированной речи: Использование детектора SSL-AASIST
- Только анонимизация аудио: Стандартный конвейер ASR-TTS без модификации содержания
- Только анонимизация содержания: Переписывание содержания с сохранением исходного голоса
- Анонимизация аудио + содержания: Одновременное переписывание содержания и анонимизация голоса
- Атака на основе речи: Модель верификации говорящего WavLM-Base
- Атака на основе содержания: Модель LUAR (Learning Universal Authorship Representations)
- Угроза атак на основе содержания: С увеличением количества высказываний EER атаки на основе содержания снижается с примерно 0,4 до 0,1, что доказывает способность языкового содержания к идентификации
- Эффективность анонимизации: Все методы переписывания значительно повышают EER, приближая атаки на основе содержания к уровню случайного угадывания
- Сравнение моделей: Переписывание по сегментам (GPT-5, Gemma3-4B) более эффективно, чем переписывание по высказываниям (GPT4o-mini)
- Естественность аудио: Оценка UTMOS анонимизированной речи составляет 3,14, что выше, чем 2,09 для исходной записи
- Семантическая верность:
- GPT-5: GAS=0,699, DTW-Sim=0,739
- Gemma3-4B: GAS=0,648, DTW-Sim=0,582
- GPT4o-mini: GAS=0,678, DTW-Sim=0,702
- Консервативная стратегия (Gemma3-4Bc): Сохранение 50% исходных высказываний, наименьшая сложность обнаружения
- Полное переписывание: Обеспечение более сильной защиты конфиденциальности, но немного более высокая обнаруживаемость
- Обнаружение синтезированной речи: Более точно, чем обнаружение синтезированного текста, особенно при меньшем количестве высказываний
- Эффект повторной транскрипции: Повторная транскрипция после синтеза может естественным образом удалить некоторые признаки машинного создания
Эксперименты показывают, что процесс повторной транскрипции через конвейер ASR-TTS может естественным образом удалить некоторые характеристики машинного создания текста, что затрудняет обнаружение финального анонимизированного текста как искусственно созданного.
- VoicePrivacy Challenge: Главным образом сосредоточен на акустической анонимизации коротких высказываний
- Традиционные методы: Преобразование речи на основе kNN и другие, хорошо работающие в сценариях с одним высказыванием
- Обработка PII: Существующие методы главным образом сосредоточены на явных идентификаторах, таких как имена и места
- Анонимизация стиля: Отсутствие систематической обработки характеристик языкового стиля
- Текстовый анализ: На основе выбора словарного запаса, грамматики, использования функциональных слов и других характеристик
- Транскрипция речи: Недавние работы доказали наличие информации об идентичности в транскрибированном тексте
- Реальность угрозы содержания: Языковое содержание в длинноформатном аудио представляет значительный риск конфиденциальности
- Эффективность защиты переписыванием: Переписывание на основе LLM эффективно защищает от атак на основе содержания
- Осуществимость локального решения: Небольшие открытые модели (Gemma-3-4B) достигают производительности, близкой к моделям API
- Сохранение практической полезности: Возможно обеспечить защиту конфиденциальности при сохранении качества речи и целостности семантики
- Распространение ошибок ASR: Ошибки на этапе ASR могут повлиять на финальное качество
- Семантическая верность: Процесс переписывания может привести к потере тонких семантических деталей или иронии
- Ограничения модели атаки: Главным образом рассматриваются неинформированные атакующие; полуинформированные атаки могут быть более эффективными
- Отсутствие сквозного решения: Текущий метод зависит от каскадного конвейера, отсутствует сквозное решение
- Сквозные модели: Разработка сквозных систем совместной анонимизации речи и содержания
- Надежное переписывание: Улучшение баланса между семантической верностью и анонимизацией стиля в моделях переписывания
- Защита от сильных атак: Исследование стратегий защиты от адаптивных полуинформированных атакующих
- Обработка в реальном времени: Разработка эффективных методов анонимизации для сценариев реального времени
- Важность проблемы: Первое систематическое выявление и решение угрозы содержания в анонимизации речи для длинноформатного аудио
- Инновационность метода: Предложена контекстно-осведомленная стратегия совместного переписывания нескольких высказываний
- Полнота экспериментов:
- Многомерная система оценки (конфиденциальность, практическая полезность, обнаруживаемость)
- Сравнение различных моделей и стратегий
- Валидация на реальных наборах данных
- Практическая ценность: Предоставлены полные решения от моделей API до локальных моделей
- Научная строгость: Использование установленных моделей атак и протоколов оценки
- Единственность набора данных: Валидация главным образом на корпусе Fisher, отсутствие проверки кроссдоменной обобщаемости
- Ограничения модели атаки: Не рассматриваются более сильные адаптивные атаки или многомодальные атаки
- Отсутствие анализа вычислительных затрат: Не предоставлен подробный анализ вычислительных расходов различных методов
- Отсутствие пользовательских исследований: Недостаток субъективной оценки эффективности анонимизации реальными пользователями
- Долгосрочная безопасность: Не рассмотрено влияние прогресса в технологиях атак на эффективность защиты
- Академический вклад:
- Заполнение пробела в исследованиях анонимизации длинноформатного аудио
- Установление новой парадигмы оценки и эталонов
- Предоставление важной основы для последующих исследований
- Практическая ценность:
- Предоставление практического решения для защиты конфиденциальности при обработке речевых данных
- Прямая ценность в приложениях, таких как интервью, записи встреч
- Предоставление технической поддержки для соответствия соответствующим нормативным требованиям
- Воспроизводимость: Авторы обещают открыть исходный код и подсказки, что способствует воспроизведению и расширению исследований
- Сценарии с высокими требованиями к конфиденциальности: Медицинские интервью, юридические консультации, психотерапия и т.д.
- Коммерческие приложения: Защита конфиденциальности при обработке записей обслуживания клиентов и встреч
- Совместное использование исследовательских данных: Приватизированное распространение речевых корпусов
- Требования соответствия: Техническая поддержка для соответствия нормативным требованиям, таким как GDPR
В статье цитируется 26 связанных работ, охватывающих анонимизацию речи, конфиденциальность содержания, идентификацию авторства и другие области, обеспечивающие прочную теоретическую основу для исследования. Ключевые ссылки включают работы, связанные с VoicePrivacy Challenge, модель идентификации авторства LUAR и недавний прогресс в технологиях анонимизации речи.
Общая оценка: Это высококачественная исследовательская статья, которая выявляет и решает важную проблему в области анонимизации речи. Метод инновационен, эксперименты полны, результаты убедительны и имеют важную ценность как для академического сообщества, так и для промышленности. Несмотря на некоторые ограничения, работа открывает новое направление исследований в области защиты конфиденциальности длинноформатного аудио.