2025-11-17T01:43:13.245415

Target speaker anonymization in multi-speaker recordings

Tomashenko, Yamagishi, Wang et al.

Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.

academic

Anonymisation du Locuteur Cible dans les Enregistrements Multi-Locuteurs

Informations Fondamentales

ID de l'article: 2510.09307
Titre: Target Speaker Anonymization in Multi-Speaker Recordings
Auteurs: Natalia Tomashenko¹, Junichi Yamagishi², Xin Wang², Yun Liu², Emmanuel Vincent¹
Institutions: ¹Université de Lorraine, CNRS, Inria, Loria, France; ²National Institute of Informatics, Tokyo, Japon
Classification: eess.AS (Traitement Audio et Parole), cs.CL (Linguistique Informatique), cs.CR (Cryptographie et Sécurité)
Date de publication: 10 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09307

Résumé

Les recherches existantes sur l'anonymisation des locuteurs se concentrent principalement sur l'audio monolocuteur, ce qui a conduit à optimiser les techniques et les métriques d'évaluation pour cette condition. Cette étude aborde les défis majeurs de l'anonymisation des locuteurs dans les dialogues multi-locuteurs, en particulier dans les scénarios où seul un locuteur cible doit être anonymisé. Ce scénario est hautement pertinent dans des environnements tels que les centres d'appels, où la confidentialité du client doit être protégée uniquement pour la voix du client lors de l'interaction avec un opérateur. Les méthodes d'anonymisation traditionnelles s'avèrent souvent inadéquates pour cette tâche. De plus, les méthodes d'évaluation actuelles ne peuvent pas évaluer avec précision la protection de la vie privée et l'utilité dans ces scénarios complexes multi-locuteurs. Ce travail vise à combler ces lacunes en explorant des stratégies efficaces d'anonymisation du locuteur cible dans les dialogues audio, en mettant en évidence les problèmes potentiels de développement et en proposant des méthodes d'évaluation améliorées.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental abordé par cette recherche est l'anonymisation sélective d'un locuteur cible spécifique dans les enregistrements de dialogues multi-locuteurs, ce qui constitue une tâche nouvelle et hautement complexe. Les techniques traditionnelles d'anonymisation des locuteurs sont principalement conçues pour l'audio monolocuteur et ne peuvent pas traiter efficacement les besoins d'anonymisation sélective dans les scénarios multi-locuteurs.

Importance et Valeur Applicative

Exigences de conformité juridique: Avec la mise en œuvre de réglementations de protection de la vie privée telles que le RGPD, la protection de la vie privée des données vocales devient cruciale
Scénarios d'application pratiques: Dans les centres d'appels, les consultations médicales et autres contextes, il est nécessaire de protéger la confidentialité des clients tout en conservant les informations du personnel de service
Défis technologiques: Les données vocales contiennent des informations personnelles riches (âge, sexe, état de santé, état émotionnel, etc.), nécessitant la protection de la vie privée tout en maintenant le contenu linguistique

Limitations des Méthodes Existantes

Limitations techniques: Les méthodes d'anonymisation existantes ne peuvent pas cibler sélectivement des locuteurs spécifiques dans l'audio mixte
Évaluation insuffisante: Absence de métriques d'évaluation de la protection de la vie privée et de l'utilité adaptées aux scénarios multi-locuteurs
Application limitée: Les méthodes traditionnelles fonctionnent mal avec la parole chevauchée et les scénarios de dialogue complexes

Contributions Principales

Proposition du cadre d'anonymisation du locuteur cible (TSA): Première résolution systématique du problème d'anonymisation sélective dans les dialogues multi-locuteurs
Développement d'une méthode d'évaluation complète: Établissement d'un système d'évaluation de la protection de la vie privée et de l'utilité pour les scénarios d'anonymisation multi-locuteurs
Vérification expérimentale et analyse: Évaluation expérimentale complète basée sur deux méthodes d'extraction de locuteur cible de pointe
Identification des défis clés: Analyse approfondie des limitations inhérentes et des défis techniques de cette tâche, fournissant des orientations pour les recherches futures

Détails Méthodologiques

Définition de la Tâche

Entrée: Signal audio mixte contenant plusieurs locuteurs
Sortie: Audio mixte avec anonymisation appliquée uniquement au locuteur cible
Contraintes: Maintien de la parole originale des locuteurs non-cibles, préservation de l'intelligibilité et de l'utilité globales du dialogue

Architecture du Modèle

Conception du Cadre TSA

TSA adopte une approche en trois étapes:

Extraction du Locuteur Cible (TSE):
- Utilisation de vecteurs d'incorporation de locuteur pré-entraînés pour identifier le locuteur cible
- Estimation d'un masque complexe souple pour séparer le spectrogramme temps-fréquence du locuteur cible
- Extraction des segments de parole du locuteur cible de l'audio mixte
Anonymisation du Locuteur:
- Application de l'anonymisation uniquement à la parole extraite du locuteur cible
- Utilisation d'un système d'anonymisation basé sur les caractéristiques du goulot d'étranglement de quantification vectorielle (VQ-BN)
- Synthèse de la parole anonymisée via le réseau HiFi-GAN
Recombinaison de la Parole:
- Fusion de la parole anonymisée du locuteur cible avec la parole originale des locuteurs non-cibles
- Génération de l'audio mixte partiellement anonymisé final

Modèles d'Extraction du Locuteur Cible

TSE basé sur Conformer:

Combinaison de couches convolutives et de mécanismes d'auto-attention pour traiter les spectrogrammes STFT
Reconstruction des parties réelle et imaginaire du spectrogramme STFT du locuteur cible
Intégration d'incorporations de locuteur pour identifier et se concentrer sur le locuteur cible

TSE WeSep BSRNN:

Segmentation explicite du spectrogramme audio en plusieurs bandes de fréquence
Modélisation fine des caractéristiques spectrales uniques de chaque bande
Architecture basée sur le réseau de neurones récurrents à segmentation de bande

Points d'Innovation Technique

Cadre novateur: Première solution complète d'anonymisation du locuteur cible pour les scénarios multi-locuteurs
Conception modulaire: Conception découplée des modules TSE et anonymisation, facilitant l'optimisation et le remplacement
Innovation du système d'évaluation: Introduction de nouvelles métriques telles que tcpWER pour une évaluation complète de la protection de la vie privée et de l'utilité
Modélisation de l'attaquant: Considération de scénarios d'attaquants semi-informés, fournissant une évaluation de la vie privée plus réaliste

Configuration Expérimentale

Ensembles de Données

SparseLibri2Mix: Ensemble de données multi-locuteurs construit sur le sous-ensemble test-clean de LibriSpeech
Conditions de chevauchement: 5 degrés de chevauchement différents (20%, 40%, 60%, 80%, 100%)
Échelle des données: 500 fichiers mixtes par condition, 2500 fichiers au total (environ 5 heures de parole)
Nombre de locuteurs: 40 locuteurs, le premier locuteur servant de locuteur cible

Métriques d'Évaluation

Évaluation de la Protection de la Vie Privée

Taux d'erreur égal (EER): Évaluation de l'efficacité de l'anonymisation à l'aide du système de vérification automatique du locuteur (ASV)
Modèle d'attaquant: Attaquant semi-informé ayant accès au système d'anonymisation et aux données d'entraînement

Évaluation de l'Utilité

Métrique principale: Taux d'erreur de permutation minimale contraint dans le temps (tcpWER)
Métriques auxiliaires:
- Taux d'erreur de diarisation (DER)
- Taux d'erreur de mots (WER) de la reconnaissance automatique de la parole du locuteur cible
- Rapport de distorsion du signal invariant à l'échelle (SI-SDR)

Méthodes de Comparaison

Système d'anonymisation: Système de base B5 du défi VoicePrivacy 2024
Modèles TSE: TSE basé sur Conformer vs. TSE WeSep BSRNN
Modèles d'évaluation: Système ASV ECAPA-TDNN, système ASR DiCoW

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances des Modèles TSE

Taux de chevauchement (%)	20	40	60	80	100	Moyenne
TSE Conformer	17.9	15.8	14.6	14.0	14.0	15.3
TSE WeSep BSRNN	18.6	17.5	17.2	16.7	16.2	17.2

Efficacité de la Protection de la Vie Privée

Scénario monolocuteur: EER passant de 3.0% à 32.4% après anonymisation
Scénario multi-locuteur:
- TSE Conformer: EER moyen 36.4%
- TSE WeSep BSRNN: EER moyen 36.9%
Amélioration de la vie privée: Augmentation de 12-14% par rapport au scénario monolocuteur

Maintien de l'Utilité

Résultats tcpWER:
- TSE Conformer: 17.8% en moyenne
- TSE WeSep BSRNN: 14.6% en moyenne (supérieur)
Résultats DER: WeSep BSRNN surpasse Conformer dans toutes les conditions de chevauchement

Expériences d'Ablation

Impact de la Qualité TSE

Extraction du signal original: Le processus TSE entraîne une baisse significative de l'EER et du WER par rapport au signal mixte original
Impact de l'anonymisation: Le WER augmente davantage après l'anonymisation, principalement en raison des erreurs d'insertion causées par les signaux résiduels des locuteurs non-cibles
Impact du degré de chevauchement: Avec l'augmentation du chevauchement, les performances TSE diminuent, mais l'efficacité de la protection de la vie privée reste relativement stable

Analyse de la Stratégie d'Attaque

Sélection du signal de référence: Les attaques utilisant le signal de référence original sont plus efficaces que celles utilisant le signal de référence anonymisé
Cohérence du modèle TSE: Les attaques sont plus efficaces lorsque l'attaquant utilise le même modèle TSE que l'utilisateur

Découvertes Expérimentales

TSE est le goulot d'étranglement clé: La qualité TSE affecte directement la protection de la vie privée et l'utilité finales
Défi de la parole chevauchée: Les performances TSE diminuent considérablement dans les conditions de taux de chevauchement élevé
Problème d'erreurs d'insertion: Les signaux résiduels des locuteurs non-cibles entraînent une augmentation des erreurs d'insertion ASR
Compromis vie privée-utilité: Existence d'un compromis inhérent entre la protection de la vie privée et l'utilité de la parole

Travaux Connexes

Recherche sur l'Anonymisation des Locuteurs

Méthodes de traitement du signal: Méthodes de transformation simples telles que les coefficients McAdams et le décalage de tonalité
Méthodes de conversion de parole neuronale: Techniques d'anonymisation basées sur l'apprentissage de représentations découplées
Défi VoicePrivacy: Promotion du développement de technologies d'anonymisation monolocuteur

Extraction du Locuteur Cible

Méthodes d'apprentissage profond: Techniques de séparation de parole basées sur les réseaux de neurones profonds
Mécanismes d'attention: Utilisation de mécanismes d'attention guidés par l'incorporation de locuteur
Technologie de segmentation de bande: Méthodes avancées de traitement du domaine fréquentiel telles que BSRNN

Recherche sur les Scénarios Multi-Locuteurs

La recherche existante sur l'anonymisation multi-locuteur est extrêmement limitée; cet article est un travail novateur dans ce domaine.

Conclusions et Discussion

Conclusions Principales

Faisabilité technique: Le cadre TSA peut réaliser l'anonymisation sélective du locuteur cible dans les scénarios multi-locuteurs
Compromis de performance: Existence de compromis entre la protection de la vie privée, la qualité de la parole et la complexité de calcul
Importance de l'évaluation: Les nouvelles métriques d'évaluation sont essentielles pour évaluer avec précision l'efficacité de l'anonymisation multi-locuteur
Espace d'amélioration: Les méthodes actuelles présentent un espace d'amélioration significatif dans le maintien de l'utilité

Limitations

Dépendance TSE: Les performances de la méthode dépendent fortement de la qualité du module TSE
Complexité de calcul: Le pipeline en trois étapes augmente la complexité du système et les frais de calcul
Dégradation de l'utilité: Le tcpWER montre une baisse évidente par rapport à l'audio original
Limitation des ensembles de données: Les expériences sont menées uniquement sur des ensembles de données simulés, manquant de validation sur des données de dialogue réelles

Directions Futures

Entraînement bout à bout: Entraînement conjoint des modules TSE et anonymisation pour optimiser les performances globales
Amélioration TSE: Développement de modèles TSE spécialisés optimisés pour la tâche d'anonymisation
Traitement en temps réel: Exploration de solutions TSA en temps réel ou quasi-temps réel
Anonymisation multimodale: Intégration d'informations visuelles pour la protection de la vie privée multimodale

Évaluation Approfondie

Points Forts

Innovation forte: Première résolution systématique du problème d'anonymisation du locuteur cible multi-locuteur, comblant une lacune de recherche importante
Méthode complète: Fourniture d'une solution complète du cadre technique aux méthodes d'évaluation
Expériences complètes: Expériences comparatives complètes avec plusieurs modèles TSE et plusieurs conditions de chevauchement
Analyse approfondie: Analyse détaillée de la contribution de chaque module et des limitations du système
Signification pratique: Résolution des besoins urgents des scénarios d'application pratiques tels que les centres d'appels

Insuffisances

Limitations de performance: Le tcpWER montre une baisse considérable par rapport à l'audio original, l'utilité nécessite une amélioration
Efficacité de calcul: La complexité de calcul du pipeline en trois étapes est élevée, défavorable aux applications en temps réel
Limitation des données: Absence de validation sur des données de dialogue réelles
Modèle d'attaquant: Le modèle d'attaquant est relativement simple, ne considérant pas les stratégies d'attaque plus complexes
Évaluation de la vie privée: Le résultat EER de 36-37% indique un risque de fuite de vie privée persistant

Impact

Contribution académique: Ouverture d'une nouvelle direction de recherche en anonymisation du locuteur cible multi-locuteur
Valeur pratique: Fourniture de solutions de protection de la vie privée pour les industries telles que les centres d'appels et les services médicaux
Promotion technologique: Promotion du développement fusionné des technologies TSE et d'anonymisation de parole
Établissement de normes: Fourniture de références pour l'établissement de normes d'évaluation et de benchmarks connexes

Scénarios Applicables

Centres d'appels: Protection de la confidentialité des clients tout en conservant la capacité d'analyse de la qualité de service
Consultations médicales: Anonymisation de la parole des patients pour la recherche médicale et les objectifs de formation
Enregistrements juridiques: Traitement des enregistrements judiciaires protégeant la confidentialité des parties
Formation éducative: Anonymisation de la parole des étudiants pour les objectifs d'enseignement et de recherche

Références

Cet article cite 31 références connexes, couvrant plusieurs domaines pertinents tels que la protection de la vie privée vocale, l'anonymisation des locuteurs, l'extraction du locuteur cible et la reconnaissance automatique de la parole, fournissant une base théorique solide pour la recherche.

Évaluation globale: Cet article est un travail de recherche de haute qualité qui apporte des contributions novatrices au problème important et complexe de la protection de la vie privée vocale dans les scénarios multi-locuteurs. Bien qu'il y ait encore de l'espace pour l'amélioration des performances techniques, sa conception de cadre innovante, ses méthodes d'évaluation complètes et son analyse approfondie jettent une base importante pour les recherches ultérieures dans ce domaine.