Personal Attribute Leakage in Federated Speech Models
Al-Ali, Ghavamipour, Caselli et al.
Federated learning is a common method for privacy-preserving training of machine learning models. In this paper, we analyze the vulnerability of ASR models to attribute inference attacks in the federated setting. We test a non-parametric white-box attack method under a passive threat model on three ASR models: Wav2Vec2, HuBERT, and Whisper. The attack operates solely on weight differentials without access to raw speech from target speakers. We demonstrate attack feasibility on sensitive demographic and clinical attributes: gender, age, accent, emotion, and dysarthria. Our findings indicate that attributes that are underrepresented or absent in the pre-training data are more vulnerable to such inference attacks. In particular, information about accents can be reliably inferred from all models. Our findings expose previously undocumented vulnerabilities in federated ASR models and offer insights towards improved security.
academic
Утечка личных атрибутов в федеративных моделях распознавания речи
Федеративное обучение является распространённым методом защиты конфиденциальности при обучении моделей машинного обучения. В данной статье анализируется уязвимость моделей ASR в федеративной среде к атакам вывода атрибутов. Исследователи в рамках пассивной модели угроз протестировали непараметрический метод атаки типа "белый ящик" на трёх моделях ASR (Wav2Vec2, HuBERT и Whisper). Атака работает только на основе различий весов, без необходимости доступа к исходной речи целевого говорящего. Исследование доказывает возможность атак на чувствительные демографические и клинические атрибуты (пол, возраст, акцент, эмоции и дизартрия). Исследование показало, что атрибуты, недостаточно представленные или отсутствующие в данных предварительного обучения, более подвержены таким атакам вывода. В частности, информация об акценте может быть надёжно выведена из всех моделей.
Основная проблема: Утекают ли чувствительные личные атрибуты пользователей через обновления весов моделей ASR в федеративной среде обучения?
Угрозы конфиденциальности: Речевые данные содержат богатую личную информацию, включая демографические характеристики (пол, возраст, акцент), клинические состояния (дизартрия) и эмоциональное состояние
Правовое соответствие: Утечка атрибутов может нарушить GDPR, HIPAA и антидискриминационные законы США и ЕС
Защита конфиденциальности: ADA защищает инвалидов от дискриминации; утечка информации о нарушениях речи имеет серьёзные последствия
Практические угрозы: Даже без раскрытия личности утечка только атрибутов, таких как акцент или эмоциональное состояние, представляет серьёзное нарушение конфиденциальности
Предположения федеративного обучения: Хотя федеративное обучение улучшает конфиденциальность, сохраняя исходный звук на устройстве, обновления модели всё ещё могут утечь чувствительную информацию
Исследовательский пробел: Предыдущие работы сосредоточены на переидентификации говорящего и атаках вывода членства, но масштаб утечки атрибутов остаётся недостаточно изучен
Модель угрозы: Отсутствует систематическое исследование вывода атрибутов только на основе обновлений весов
Первое систематическое исследование: Первый комплексный анализ уязвимостей утечки личных атрибутов в федеративных моделях ASR
Оценка множественных атрибутов: Оценка трёх основных моделей ASR на пяти чувствительных атрибутах (пол, возраст, акцент, эмоции, дизартрия)
Метод атаки: Предложен непараметрический метод атаки типа "белый ящик" на основе различий весов без доступа к исходным речевым данным
Ключевые находки: Обнаружено, что атрибуты, недостаточно представленные в данных предварительного обучения, более подвержены утечке, особенно информация об акценте
Рекомендации по защите: Предоставлены эмпирические доказательства смягчения утечки атрибутов путём диверсификации данных предварительного обучения
Использование открытых наборов данных для имитации процесса настройки:
Для каждого образца (xi, yi), i = 1,...,n:
1. Настроить глобальную модель Wg на образце xi
2. Получить теневую модель Wi
3. Построить размеченный набор данных {(Wi, yi)}
Значительные различия атрибутов: Возраст и акцент показывают наиболее сильную утечку (80-100% точности), тогда как пол наиболее сложен для предсказания (46-64%)
Различия моделей: Whisper демонстрирует утечку >70% на всех атрибутах, кроме пола
Статистическая значимость: Результаты определения возраста достигают статистической значимости на всех моделях (95% доверительный интервал)
Значимость исследования: Первое систематическое выявление уязвимостей утечки атрибутов в федеративных моделях ASR имеет важное значение для защиты конфиденциальности
Обоснованный дизайн методов: Метод атаки прост и эффективен, модель угрозы реалистична и достоверна
Комплексные эксперименты: Охватывают множество атрибутов, несколько моделей и детальный анализ
Глубокие инсайты: Обнаружена важная связь между диверсификацией данных предварительного обучения и защитой конфиденциальности
Практическая ценность: Предоставляет важное руководство для защиты конфиденциальности в системах федеративного обучения
Ограничения наборов данных: Некоторые эксперименты используют наборы данных небольшого размера, что может повлиять на статистическую надёжность результатов
Предположения атаки: Предположение о настройке на одно высказывание чрезмерно упрощено; на практике обычно используется больше данных
Ограниченная оценка защиты: Оценка методов защиты относительно ограничена, требуется более комплексный анализ безопасности
Сложность вычислений: Не проведён детальный анализ вычислительных затрат и практической осуществимости атаки
Академический вклад: Открывает новое направление в исследованиях конфиденциальности федеративного обучения, ожидается стимулирование дальнейших исследований
Практическое руководство: Предоставляет важные соображения безопасности для развёртывания федеративных систем ASR в промышленности
Политическое влияние: Результаты исследования могут повлиять на разработку и реализацию соответствующих нормативных актов по защите конфиденциальности
Технологический прогресс: Способствует развитию более безопасных алгоритмов федеративного обучения и технологий защиты конфиденциальности
Baevski et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." NeurIPS 2020.
Hsu et al. "HuBERT: Self-supervised speech representation learning by masked prediction of hidden units." IEEE/ACM TASLP 2021.
Radford et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.
Shokri et al. "Membership inference attacks against machine learning models." IEEE S&P 2017.
Melis et al. "Exploiting unintended feature leakage in collaborative learning." IEEE S&P 2019.
Данная статья выявляет важные риски конфиденциальности в федеративном обучении в области речи, предоставляя ценные инсайты и руководство для построения более безопасных систем речевого AI. Исследование имеет не только значительную академическую ценность, но и глубокое практическое значение для реальных приложений.