2025-11-16T01:19:12.319847

Content Anonymization for Privacy in Long-form Audio

Aggazzotti, Garg, Cai et al.

Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.

academic

Анонимизация содержания для обеспечения конфиденциальности в длинноформатном аудио

Основная информация

ID статьи: 2510.12780
Название: Content Anonymization for Privacy in Long-form Audio
Авторы: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (Университет Джонса Хопкинса)
Классификация: cs.SD (Sound), cs.CL (Computational Linguistics)
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12780

Аннотация

Существующие технологии анонимизации речи успешно скрывают акустическую идентичность говорящего в коротких, изолированных высказываниях в соответствии с эталонными тестами, такими как VoicePrivacy Challenge. Однако в практических приложениях высказывания редко встречаются отдельно: длинноформатное аудио широко распространено в интервью, телефонных разговорах и встречах. В этих случаях доступны несколько высказываний от одного говорящего, что создает повышенный риск конфиденциальности: злоумышленник может переидентифицировать человека, используя его словарный запас, грамматику и манеру выражения, даже если его голос полностью замаскирован. Для решения этого риска в данной работе предлагается новый метод анонимизации содержания. Метод выполняет контекстное переписывание транскрибированного текста в конвейере ASR-TTS для устранения специфичного для говорящего стиля при сохранении семантики. Исследование демонстрирует эффективность атак на основе содержания на анонимизированную речь в условиях длинноформатного телефонного диалога, а затем показывает, как предложенный метод анонимизации на основе содержания снижает этот риск при сохранении практической полезности речи.

Исследовательский контекст и мотивация

Определение проблемы

Существующие технологии анонимизации речи в основном сосредоточены на скрытии акустической идентичности на уровне отдельных высказываний, но сталкиваются со значительными проблемами в сценариях длинноформатного аудио:

Распространенность длинноформатного аудио: В практических приложениях, таких как интервью, телефонные разговоры и встречи, аудио обычно содержит несколько высказываний от одного говорящего
Языковое содержание как побочный канал биометрии: Злоумышленник может использовать лингвистические характеристики говорящего, такие как выбор словарного запаса, структура грамматики и привычки выражения, для идентификации
Ограничения существующих методов: Сосредоточены на анонимизации акустического сигнала, игнорируя информацию об идентичности в языковом содержании

Значимость исследования

Потребность в защите конфиденциальности: С увеличением применения речевых данных защита идентичности говорящего становится все более важной
Практические сценарии применения: Существует разрыв между существующими эталонными тестами и практическими приложениями, требующий учета особенностей длинноформатного аудио
Многомодальные угрозы: Злоумышленник может одновременно использовать акустические и лингвистические характеристики, требуя комплексной защиты

Ограничения существующих методов

Защита одного модального режима: Обработка только акустических характеристик, игнорирование языкового содержания
Простая обработка PII: Только удаление явной личной информации, не обработка языкового стиля
Обработка на уровне высказываний: Отсутствие рассмотрения структуры дискурса в длинноформатном аудио

Основные вклады

Первое систематическое исследование: Первое систематическое исследование атак на основе содержания в анонимизации речи для длинноформатного аудио
Метод контекстного переписывания: Предложена техника совместного переписывания нескольких высказываний на основе скользящего окна с учетом контекста диалога
Количественная оценка компромисса конфиденциальность-полезность: Использование современных генеративных моделей и систем обнаружения для количественной оценки компромисса между защитой конфиденциальности и практической полезностью
Сравнение нескольких моделей: Сравнение производительности моделей API (GPT-4o-mini, GPT-5) и локальных моделей (Gemma-3-4B)
Комплексная система оценки: Установлена многомерная система оценки, включающая защиту конфиденциальности, точность содержания и естественность аудио

Подробное описание метода

Определение задачи

Учитывая длинноформатную аудиозапись $X = (u_1, u_2, ..., u_N)$ (от исходного говорящего $s$ ), целью является создание анонимизированной версии $X' = g(X)$ , которая не может быть отнесена к $s$ . Успешная анонимизация требует достижения равной частоты ошибок (EER) атакующего на уровне 50% (уровень случайного угадывания).

Архитектура модели

Конвейер анонимизации ASR-TTS

Этап ASR: Использование Whisper-medium для транскрибирования исходного аудио в текст
Этап анонимизации содержания: Переписывание транскрибированного текста
Этап TTS: Синтез новой речи с использованием XTTS с вложениями псевдоцелевого говорящего

Методы анонимизации содержания

1. Переписывание по высказываниям (GPT-4o-mini)

Независимая обработка каждого высказывания
Применимо для обработки более коротких высказываний

2. Переписывание по сегментам (Gemma-3-4B, GPT-5)

Обработка текстовых сегментов, охватывающих несколько высказываний (16 высказываний или примерно 300 токенов)
Способность захватывать и изменять более широкие модели дискурса
Использование скользящего окна для предоставления контекста (N=8 предыдущих высказываний)

Стратегии переписывания

Замена PII: Замена личной информации вымышленной, но гендерно согласованной информацией
Изменение стиля: Модификация языкового стиля для устранения характеристик говорящего
Регулировка длины: Сжатие содержания и изменение длины высказываний
Контекстная осведомленность: Учет истории диалога при переписывании

Технические инновации

Совместное переписывание нескольких высказываний: Преодоление ограничений традиционной обработки отдельных высказываний с учетом структуры дискурса
Механизм контекстного окна: Использование истории диалога для более точного переписывания
Локализованное решение: Предоставление выбора локальной модели, обеспечивающего как защиту конфиденциальности, так и практическую полезность
Многомерная оптимизация: Одновременное рассмотрение защиты конфиденциальности, семантической верности и уклонения от обнаружения

Экспериментальная установка

Наборы данных

Fisher Speech Corpus: Содержит почти 2000 часов диалоговой телефонной речи
Экспериментальная установка: Использование "сложной" установки (1944 испытания)
- Положительные образцы (959): Различные тематические диалоги одного говорящего
- Отрицательные образцы (985): Одна и та же тематика диалогов разных говорящих
VoxCeleb2: Используется для создания вложений псевдоцелевого говорящего

Метрики оценки

Метрики защиты конфиденциальности

Равная частота ошибок (EER): Частота ошибок атакующего при различении речи одного говорящего и разных говорящих
Цель: EER = 50% (уровень случайного угадывания)

Метрики практической полезности

UTMOS: Автоматическое предсказание оценки естественности речи (1-5 баллов)
Семантическое сходство:
- Оценка жадного выравнивания (GAS)
- Сходство динамического временного деформирования (DTW-Sim)

Метрики обнаруживаемости

Обнаружение синтезированного текста: Использование детектора Binoculars
Обнаружение синтезированной речи: Использование детектора SSL-AASIST

Методы сравнения

Только анонимизация аудио: Стандартный конвейер ASR-TTS без модификации содержания
Только анонимизация содержания: Переписывание содержания с сохранением исходного голоса
Анонимизация аудио + содержания: Одновременное переписывание содержания и анонимизация голоса

Модели атак

Атака на основе речи: Модель верификации говорящего WavLM-Base
Атака на основе содержания: Модель LUAR (Learning Universal Authorship Representations)

Результаты экспериментов

Основные результаты

Эффективность защиты конфиденциальности

Угроза атак на основе содержания: С увеличением количества высказываний EER атаки на основе содержания снижается с примерно 0,4 до 0,1, что доказывает способность языкового содержания к идентификации
Эффективность анонимизации: Все методы переписывания значительно повышают EER, приближая атаки на основе содержания к уровню случайного угадывания
Сравнение моделей: Переписывание по сегментам (GPT-5, Gemma3-4B) более эффективно, чем переписывание по высказываниям (GPT4o-mini)

Сохранение практической полезности

Естественность аудио: Оценка UTMOS анонимизированной речи составляет 3,14, что выше, чем 2,09 для исходной записи
Семантическая верность:
- GPT-5: GAS=0,699, DTW-Sim=0,739
- Gemma3-4B: GAS=0,648, DTW-Sim=0,582
- GPT4o-mini: GAS=0,678, DTW-Sim=0,702

Абляционные исследования

Сравнение стратегий переписывания

Консервативная стратегия (Gemma3-4Bc): Сохранение 50% исходных высказываний, наименьшая сложность обнаружения
Полное переписывание: Обеспечение более сильной защиты конфиденциальности, но немного более высокая обнаруживаемость

Анализ уклонения от обнаружения

Обнаружение синтезированной речи: Более точно, чем обнаружение синтезированного текста, особенно при меньшем количестве высказываний
Эффект повторной транскрипции: Повторная транскрипция после синтеза может естественным образом удалить некоторые признаки машинного создания

Анализ примеров

Эксперименты показывают, что процесс повторной транскрипции через конвейер ASR-TTS может естественным образом удалить некоторые характеристики машинного создания текста, что затрудняет обнаружение финального анонимизированного текста как искусственно созданного.

Связанные работы

Анонимизация речи

VoicePrivacy Challenge: Главным образом сосредоточен на акустической анонимизации коротких высказываний
Традиционные методы: Преобразование речи на основе kNN и другие, хорошо работающие в сценариях с одним высказыванием

Конфиденциальность содержания

Обработка PII: Существующие методы главным образом сосредоточены на явных идентификаторах, таких как имена и места
Анонимизация стиля: Отсутствие систематической обработки характеристик языкового стиля

Идентификация автора

Текстовый анализ: На основе выбора словарного запаса, грамматики, использования функциональных слов и других характеристик
Транскрипция речи: Недавние работы доказали наличие информации об идентичности в транскрибированном тексте

Выводы и обсуждение

Основные выводы

Реальность угрозы содержания: Языковое содержание в длинноформатном аудио представляет значительный риск конфиденциальности
Эффективность защиты переписыванием: Переписывание на основе LLM эффективно защищает от атак на основе содержания
Осуществимость локального решения: Небольшие открытые модели (Gemma-3-4B) достигают производительности, близкой к моделям API
Сохранение практической полезности: Возможно обеспечить защиту конфиденциальности при сохранении качества речи и целостности семантики

Ограничения

Распространение ошибок ASR: Ошибки на этапе ASR могут повлиять на финальное качество
Семантическая верность: Процесс переписывания может привести к потере тонких семантических деталей или иронии
Ограничения модели атаки: Главным образом рассматриваются неинформированные атакующие; полуинформированные атаки могут быть более эффективными
Отсутствие сквозного решения: Текущий метод зависит от каскадного конвейера, отсутствует сквозное решение

Направления будущих исследований

Сквозные модели: Разработка сквозных систем совместной анонимизации речи и содержания
Надежное переписывание: Улучшение баланса между семантической верностью и анонимизацией стиля в моделях переписывания
Защита от сильных атак: Исследование стратегий защиты от адаптивных полуинформированных атакующих
Обработка в реальном времени: Разработка эффективных методов анонимизации для сценариев реального времени

Глубокая оценка

Преимущества

Важность проблемы: Первое систематическое выявление и решение угрозы содержания в анонимизации речи для длинноформатного аудио
Инновационность метода: Предложена контекстно-осведомленная стратегия совместного переписывания нескольких высказываний
Полнота экспериментов:
- Многомерная система оценки (конфиденциальность, практическая полезность, обнаруживаемость)
- Сравнение различных моделей и стратегий
- Валидация на реальных наборах данных
Практическая ценность: Предоставлены полные решения от моделей API до локальных моделей
Научная строгость: Использование установленных моделей атак и протоколов оценки

Недостатки

Единственность набора данных: Валидация главным образом на корпусе Fisher, отсутствие проверки кроссдоменной обобщаемости
Ограничения модели атаки: Не рассматриваются более сильные адаптивные атаки или многомодальные атаки
Отсутствие анализа вычислительных затрат: Не предоставлен подробный анализ вычислительных расходов различных методов
Отсутствие пользовательских исследований: Недостаток субъективной оценки эффективности анонимизации реальными пользователями
Долгосрочная безопасность: Не рассмотрено влияние прогресса в технологиях атак на эффективность защиты

Влияние

Академический вклад:
- Заполнение пробела в исследованиях анонимизации длинноформатного аудио
- Установление новой парадигмы оценки и эталонов
- Предоставление важной основы для последующих исследований
Практическая ценность:
- Предоставление практического решения для защиты конфиденциальности при обработке речевых данных
- Прямая ценность в приложениях, таких как интервью, записи встреч
- Предоставление технической поддержки для соответствия соответствующим нормативным требованиям
Воспроизводимость: Авторы обещают открыть исходный код и подсказки, что способствует воспроизведению и расширению исследований

Применимые сценарии

Сценарии с высокими требованиями к конфиденциальности: Медицинские интервью, юридические консультации, психотерапия и т.д.
Коммерческие приложения: Защита конфиденциальности при обработке записей обслуживания клиентов и встреч
Совместное использование исследовательских данных: Приватизированное распространение речевых корпусов
Требования соответствия: Техническая поддержка для соответствия нормативным требованиям, таким как GDPR

Библиография

В статье цитируется 26 связанных работ, охватывающих анонимизацию речи, конфиденциальность содержания, идентификацию авторства и другие области, обеспечивающие прочную теоретическую основу для исследования. Ключевые ссылки включают работы, связанные с VoicePrivacy Challenge, модель идентификации авторства LUAR и недавний прогресс в технологиях анонимизации речи.

Общая оценка: Это высококачественная исследовательская статья, которая выявляет и решает важную проблему в области анонимизации речи. Метод инновационен, эксперименты полны, результаты убедительны и имеют важную ценность как для академического сообщества, так и для промышленности. Несмотря на некоторые ограничения, работа открывает новое направление исследований в области защиты конфиденциальности длинноформатного аудио.