2025-11-17T01:43:13.245415

Target speaker anonymization in multi-speaker recordings

Tomashenko, Yamagishi, Wang et al.

Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.

academic

Анонимизация целевого говорящего в многоговорящих записях

Основная информация

ID статьи: 2510.09307
Название: Target Speaker Anonymization in Multi-Speaker Recordings
Авторы: Natalia Tomashenko¹, Junichi Yamagishi², Xin Wang², Yun Liu², Emmanuel Vincent¹
Учреждения: ¹Université de Lorraine, CNRS, Inria, Loria, Франция; ²National Institute of Informatics, Токио, Япония
Классификация: eess.AS (Обработка аудио и речи), cs.CL (Вычислительная лингвистика), cs.CR (Криптография и безопасность)
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09307

Аннотация

Существующие исследования анонимизации говорящих сосредоточены в основном на однодикторных аудиозаписях, что привело к оптимизации как технологий, так и метрик оценки для этих условий. Данное исследование решает значительные проблемы анонимизации говорящих в многоговорящих диалоговых аудиозаписях, особенно в сценариях, где требуется анонимизация только одного целевого говорящего. Такие сценарии высоко релевантны в окружении колл-центров, где конфиденциальность клиента требует анонимизации только голоса клиента при взаимодействии с оператором. Традиционные методы анонимизации часто неприменимы к этой задаче. Кроме того, существующие методы оценки не могут адекватно оценить защиту конфиденциальности и практическую применимость в таких сложных многоговорящих сценариях. Данная работа направлена на заполнение этих пробелов путём исследования эффективных стратегий анонимизации целевого говорящего в диалоговых аудиозаписях, выявления потенциальных проблем в их разработке и предложения улучшенных методов оценки.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, решаемая в данном исследовании, заключается в селективной анонимизации конкретного целевого говорящего в многоговорящих диалоговых записях — это новая и сложная задача. Традиционные технологии анонимизации говорящих разработаны в основном для однодикторного аудио и не могут эффективно обрабатывать требования селективной анонимизации в многоговорящих сценариях.

Значимость и практическая ценность

Требования правового соответствия: С внедрением нормативных актов по защите конфиденциальности, таких как GDPR, защита конфиденциальности голосовых данных становится критически важной
Практические сценарии применения: В колл-центрах, медицинских консультациях и других сценариях необходимо защищать конфиденциальность клиентов при сохранении информации о персонале обслуживания
Технические вызовы: Голосовые данные содержат богатую личную информацию (возраст, пол, состояние здоровья, эмоциональное состояние и т.д.), требуя защиты конфиденциальности при сохранении языкового содержания

Ограничения существующих методов

Технические ограничения: Существующие методы анонимизации не могут селективно нацеливаться на конкретных говорящих в смешанном аудио
Недостаточная оценка: Отсутствуют метрики оценки защиты конфиденциальности и практической применимости для многоговорящих сценариев
Ограниченное применение: Традиционные методы плохо работают при перекрывающейся речи и сложных диалоговых сценариях

Основные вклады

Предложение структуры анонимизации целевого говорящего (TSA): Первое систематическое решение проблемы селективной анонимизации в многоговорящих диалогах
Разработка комплексного метода оценки: Установление системы оценки защиты конфиденциальности и практической применимости для многоговорящих сценариев анонимизации
Экспериментальная проверка и анализ: Полная экспериментальная оценка на основе двух передовых методов извлечения целевого говорящего
Выявление ключевых вызовов: Глубокий анализ внутренних ограничений и технических проблем задачи, обеспечивающий руководство для будущих исследований

Подробное описание методов

Определение задачи

Входные данные: Смешанный аудиосигнал, содержащий несколько говорящих
Выходные данные: Смешанное аудио с анонимизацией только целевого говорящего
Ограничения: Сохранение исходной речи нецелевых говорящих, поддержание понятности и практической применимости общего диалога

Архитектура модели

Проектирование структуры TSA

TSA использует трёхэтапный конвейерный подход:

Извлечение целевого говорящего (TSE):
- Использование предварительно обученных векторов встраивания говорящего для идентификации целевого говорящего
- Оценка комплексной мягкой маски для разделения спектрограммы целевого говорящего
- Извлечение речевых сегментов целевого говорящего из смешанного аудио
Анонимизация говорящего:
- Применение анонимизации только к извлеченной речи целевого говорящего
- Использование системы анонимизации на основе признаков векторного квантования узкого места (VQ-BN)
- Синтез анонимизированной речи через сеть HiFi-GAN
Переобъединение речи:
- Объединение анонимизированной речи целевого говорящего с исходной речью нецелевых говорящих
- Генерация окончательного частично анонимизированного смешанного аудио

Модели извлечения целевого говорящего

TSE на основе Conformer:

Сочетание сверточных слоёв и механизмов самовнимания для обработки спектрограмм STFT
Реконструкция действительной и мнимой частей спектрограммы целевого говорящего
Интеграция встраивания говорящего для идентификации и фокусировки на целевом говорящем

WeSep BSRNN TSE:

Явное разделение аудиоспектрограммы на несколько полос частот
Тонкозернистое моделирование уникальных спектральных характеристик каждой полосы
Архитектура на основе рекуррентной нейронной сети с разделением полос

Технические инновации

Оригинальная структура: Первое комплексное решение для анонимизации целевого говорящего в многоговорящих сценариях
Модульное проектирование: Развязанное проектирование модулей TSE и анонимизации, облегчающее оптимизацию и замену
Инновация в системе оценки: Введение новых метрик, таких как tcpWER, для комплексной оценки защиты конфиденциальности и практической применимости
Моделирование злоумышленника: Рассмотрение сценария полуинформированного злоумышленника, обеспечивающее более реалистичную оценку конфиденциальности

Экспериментальная установка

Наборы данных

SparseLibri2Mix: Многоговорящий набор данных, построенный на основе подмножества test-clean LibriSpeech
Условия перекрытия: 5 различных уровней перекрытия (20%, 40%, 60%, 80%, 100%)
Масштаб данных: 500 смешанных файлов для каждого условия, всего 2500 файлов (примерно 5 часов речи)
Количество говорящих: 40 говорящих, первый говорящий служит целевым говорящим

Метрики оценки

Оценка защиты конфиденциальности

Равная частота ошибок (EER): Оценка эффективности анонимизации с использованием системы автоматической верификации говорящего (ASV)
Модель злоумышленника: Полуинформированный злоумышленник с доступом к системе анонимизации и обучающим данным

Оценка практической применимости

Основная метрика: Коэффициент ошибок слова с временным ограничением минимальной перестановки (tcpWER)
Вспомогательные метрики:
- Коэффициент ошибок диаризации (DER)
- Коэффициент ошибок слова (WER) для ASR целевого говорящего
- Масштабно-инвариантное отношение искажения сигнала (SI-SDR)

Методы сравнения

Системы анонимизации: Базовая система B5 из VoicePrivacy 2024 Challenge
Модели TSE: Conformer-based TSE vs. WeSep BSRNN TSE
Модели оценки: Система ASV ECAPA-TDNN, система ASR DiCoW

Результаты экспериментов

Основные результаты

Сравнение производительности моделей TSE

Уровень перекрытия (%)	20	40	60	80	100	Среднее
Conformer TSE	17.9	15.8	14.6	14.0	14.0	15.3
WeSep BSRNN TSE	18.6	17.5	17.2	16.7	16.2	17.2

Эффективность защиты конфиденциальности

Однодикторный сценарий: EER повышается с 3.0% до 32.4% после анонимизации
Многоговорящий сценарий:
- Conformer TSE: среднее EER 36.4%
- WeSep BSRNN TSE: среднее EER 36.9%
Улучшение конфиденциальности: Повышение на 12-14% по сравнению с однодикторным сценарием

Сохранение практической применимости

Результаты tcpWER:
- Conformer TSE: среднее 17.8%
- WeSep BSRNN TSE: среднее 14.6% (более оптимально)
Результаты DER: WeSep BSRNN превосходит Conformer при всех условиях перекрытия

Абляционные эксперименты

Влияние качества TSE

Извлечение исходного сигнала: Процесс TSE приводит к значительному снижению EER и WER по сравнению с исходным смешанным сигналом
Влияние анонимизации: WER дополнительно увеличивается после анонимизации, в основном из-за ошибок вставки, вызванных остаточными сигналами нецелевых говорящих
Влияние уровня перекрытия: С увеличением уровня перекрытия производительность TSE снижается, но эффективность защиты конфиденциальности остаётся относительно стабильной

Анализ стратегий злоумышленника

Выбор эталонного сигнала: Атаки с использованием исходного эталонного сигнала более эффективны, чем с использованием анонимизированного эталонного сигнала
Согласованность модели TSE: Атаки наиболее эффективны, когда злоумышленник использует ту же модель TSE, что и пользователь

Экспериментальные выводы

TSE является критическим узким местом: Качество TSE напрямую влияет на окончательную защиту конфиденциальности и практическую применимость
Вызовы перекрывающейся речи: Производительность TSE значительно снижается при высоких уровнях перекрытия
Проблема ошибок вставки: Остаточные сигналы нецелевых говорящих приводят к увеличению ошибок вставки в ASR
Компромисс конфиденциальность-практичность: Существует неотъемлемый компромисс между защитой конфиденциальности и практической применимостью речи

Связанные работы

Исследования анонимизации говорящих

Методы обработки сигналов: Простые методы преобразования, такие как коэффициенты McAdams и смещение тона
Методы нейронного преобразования речи: Технологии анонимизации на основе обучения развязанным представлениям
Вызовы VoicePrivacy: Продвижение развития технологий анонимизации однодикторной речи

Извлечение целевого говорящего

Методы глубокого обучения: Технологии разделения речи на основе глубоких нейронных сетей
Механизмы внимания: Использование механизмов внимания, управляемых встраиванием говорящего
Технология разделения полос: Передовые методы обработки в частотной области, такие как BSRNN

Исследования многоговорящих сценариев

Существующие исследования многоговорящей анонимизации крайне ограничены; данная работа является пионерской в этой области.

Заключение и обсуждение

Основные выводы

Техническая осуществимость: Структура TSA может реализовать селективную анонимизацию целевого говорящего в многоговорящих сценариях
Компромиссы производительности: Существуют компромиссы между защитой конфиденциальности, качеством речи и вычислительной сложностью
Важность оценки: Новые метрики оценки критичны для точной оценки эффективности многоговорящей анонимизации
Пространство для улучшения: Существующие методы имеют значительное пространство для улучшения в сохранении практической применимости

Ограничения

Зависимость от TSE: Производительность метода сильно зависит от качества модуля TSE
Вычислительная сложность: Трёхэтапный конвейер увеличивает сложность системы и вычислительные затраты
Снижение практической применимости: tcpWER показывает значительное снижение по сравнению с исходным аудио
Ограничения набора данных: Эксперименты проводились только на смоделированных наборах данных, отсутствует проверка на реальных диалоговых данных

Направления будущих исследований

Сквозное обучение: Совместное обучение модулей TSE и анонимизации для оптимизации общей производительности
Улучшение TSE: Разработка специализированных моделей TSE, оптимизированных для задачи анонимизации
Обработка в реальном времени: Исследование решений TSA в реальном времени или близких к реальному времени
Многомодальная анонимизация: Интеграция визуальной информации для многомодальной защиты конфиденциальности

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое решение проблемы многоговорящей целевой анонимизации, заполняющее важный исследовательский пробел
Полнота метода: Предоставление комплексного решения от технической структуры до методов оценки
Достаточные эксперименты: Комплексные сравнительные эксперименты с несколькими моделями TSE и множественными условиями перекрытия
Глубокий анализ: Детальный анализ вклада каждого модуля и ограничений системы
Практическое значение: Решение насущных потребностей практических сценариев применения, таких как колл-центры

Недостатки

Ограничения производительности: tcpWER показывает значительное снижение по сравнению с исходным аудио, практическая применимость требует улучшения
Эффективность вычислений: Высокая вычислительная сложность трёхэтапного конвейера неблагоприятна для приложений в реальном времени
Ограничения данных: Отсутствие проверки на реальных диалоговых данных
Модель злоумышленника: Модель злоумышленника относительно проста, не рассматривает более сложные стратегии атак
Оценка конфиденциальности: Результаты EER 36-37% указывают на сохраняющийся риск утечки конфиденциальности

Влияние

Академический вклад: Открытие нового направления исследований многоговорящей целевой анонимизации
Практическая ценность: Предоставление решений защиты конфиденциальности для колл-центров, медицины и других отраслей
Технологический прогресс: Продвижение интеграции технологий TSE и анонимизации речи
Установление стандартов: Предоставление справочных материалов для разработки соответствующих стандартов оценки и эталонов

Применимые сценарии

Колл-центры: Защита конфиденциальности клиентов при сохранении возможности анализа качества обслуживания
Медицинские консультации: Анонимизация голоса пациента для медицинских исследований и обучения
Судебные записи: Обработка судебных записей с защитой конфиденциальности сторон
Образование и обучение: Анонимизация голоса студентов для образовательных и исследовательских целей

Библиография

Данная работа цитирует 31 соответствующий источник, охватывающий множество связанных областей, включая защиту конфиденциальности речи, анонимизацию говорящих, извлечение целевого говорящего, автоматическое распознавание речи и другие, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная исследовательская работа, вносящая пионерский вклад в решение важной и сложной проблемы защиты конфиденциальности речи в многоговорящих сценариях. Хотя в технической производительности остаётся место для улучшения, инновационное проектирование структуры, комплексные методы оценки и глубокий анализ закладывают важную основу для последующих исследований в этой области.