2025-11-16T01:19:12.319847

Content Anonymization for Privacy in Long-form Audio

Aggazzotti, Garg, Cai et al.
Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.
academic

Anonymisation du Contenu pour la Confidentialité dans l'Audio Longue Durée

Informations Fondamentales

  • ID de l'article : 2510.12780
  • Titre : Content Anonymization for Privacy in Long-form Audio
  • Auteurs : Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (Université Johns Hopkins)
  • Classification : cs.SD (Son), cs.CL (Linguistique Computationnelle)
  • Date de publication : 14 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.12780

Résumé

Les techniques existantes d'anonymisation vocale réussissent à masquer l'identité acoustique des locuteurs dans des énoncés courts et isolés, comme démontré par les tests de référence du VoicePrivacy Challenge. Cependant, dans les applications réelles, les énoncés apparaissent rarement isolément : l'audio longue durée est courant dans les domaines des entretiens, des appels téléphoniques et des réunions. Dans ces contextes, plusieurs énoncés provenant du même locuteur sont disponibles, ce qui présente un risque de confidentialité accru : les attaquants peuvent exploiter le vocabulaire, la grammaire et les modes d'expression d'une personne pour la réidentifier, même si sa voix est complètement déguisée. Pour remédier à ce risque, cet article propose de nouvelles méthodes d'anonymisation du contenu. La méthode effectue une réécriture contextuelle du texte transcrit dans un pipeline ASR-TTS pour éliminer le style spécifique au locuteur tout en préservant la sémantique. L'étude démontre l'efficacité des attaques basées sur le contenu contre la parole anonymisée dans un contexte de conversation téléphonique longue durée, puis montre comment la méthode d'anonymisation proposée basée sur le contenu atténue ce risque tout en maintenant l'utilité de la parole.

Contexte de Recherche et Motivation

Définition du Problème

Les techniques d'anonymisation vocale existantes se concentrent principalement sur le masquage de l'identité acoustique au niveau des énoncés individuels, mais font face à des défis majeurs dans les scénarios audio longue durée :

  1. Prévalence de l'audio longue durée : Dans les applications réelles telles que les entretiens, les appels téléphoniques et les réunions, l'audio contient généralement plusieurs énoncés du même locuteur
  2. Contenu linguistique comme canal auxiliaire biométrique : Les attaquants peuvent exploiter les caractéristiques linguistiques du locuteur telles que les choix de vocabulaire, la structure grammaticale et les habitudes d'expression pour l'identification
  3. Limitations des méthodes existantes : Elles se concentrent sur l'anonymisation du signal acoustique, en ignorant les informations d'identité dans le contenu linguistique

Importance de la Recherche

  • Besoins en matière de protection de la vie privée : Avec l'augmentation des applications de données vocales, la protection de l'identité du locuteur devient de plus en plus importante
  • Scénarios d'application réels : Il existe un écart entre les tests de référence existants et les applications réelles, nécessitant de considérer les spécificités de l'audio longue durée
  • Menaces multimodales : Les attaquants peuvent exploiter simultanément les caractéristiques acoustiques et linguistiques, nécessitant une protection intégrée

Limitations des Méthodes Existantes

  1. Protection unimodale : Traite uniquement les caractéristiques acoustiques, en ignorant le contenu linguistique
  2. Traitement simple des PII : Supprime uniquement les informations d'identification personnelle évidentes, sans traiter le style linguistique
  3. Traitement au niveau des énoncés : Manque de considération pour la structure du discours dans l'audio longue durée

Contributions Principales

  1. Première étude systématique : Première évaluation systématique des attaques basées sur le contenu dans l'anonymisation vocale pour l'audio longue durée
  2. Méthode de réécriture contextualisée : Propose une technique de réécriture conjointe multi-énoncés basée sur une fenêtre glissante, tenant compte du contexte conversationnel
  3. Quantification du compromis confidentialité-utilité : Utilise des modèles génératifs modernes et des systèmes de détection pour quantifier le compromis entre la protection de la vie privée et l'utilité
  4. Comparaison multi-modèles : Compare les performances des modèles API (GPT-4o-mini, GPT-5) et des modèles locaux (Gemma-3-4B)
  5. Cadre d'évaluation intégré : Établit un système d'évaluation multidimensionnel incluant la protection de la vie privée, la fidélité du contenu et la naturalité de l'audio

Détails de la Méthode

Définition de la Tâche

Étant donné un enregistrement audio longue durée X=(u1,u2,...,uN)X = (u_1, u_2, ..., u_N) (provenant du locuteur source ss), l'objectif est de produire une version anonymisée X=g(X)X' = g(X) qui ne peut pas être attribuée à ss. Une anonymisation réussie nécessite que le taux d'erreur égal (EER) de l'attaquant atteigne 50% (niveau de devinette aléatoire).

Architecture du Modèle

Pipeline d'Anonymisation ASR-TTS

  1. Étape ASR : Utilise Whisper-medium pour transcrire l'audio original en texte
  2. Étape d'anonymisation du contenu : Effectue le traitement de réécriture du texte transcrit
  3. Étape TTS : Synthétise la nouvelle parole en utilisant des plongements de locuteur pseudo-cible

Méthodes d'Anonymisation du Contenu

1. Réécriture Énoncé par Énoncé (GPT-4o-mini)

  • Traite indépendamment chaque énoncé
  • Applicable au traitement d'énoncés plus courts

2. Réécriture Segmentée (Gemma-3-4B, GPT-5)

  • Traite les segments de texte s'étendant sur plusieurs énoncés (16 énoncés ou environ 300 tokens)
  • Capable de capturer et de modifier les modèles de discours plus larges
  • Utilise une fenêtre glissante fournissant le contexte (N=8 énoncés précédents)

Stratégies de Réécriture

  • Remplacement des PII : Remplace les informations d'identification personnelle par des informations fictives mais cohérentes avec le genre
  • Modification du style : Modifie le style linguistique pour éliminer les caractéristiques du locuteur
  • Ajustement de la longueur : Compresse le contenu et modifie la longueur des énoncés
  • Sensibilité au contexte : Considère l'historique conversationnel pour la réécriture

Points d'Innovation Technique

  1. Réécriture conjointe multi-énoncés : Dépasse les limitations du traitement traditionnel mono-énoncé, en tenant compte de la structure du discours
  2. Mécanisme de fenêtre contextuelle : Exploite l'historique conversationnel pour une réécriture plus précise
  3. Solutions localisées : Fournit des options de modèles locaux qui protègent la vie privée tout en étant pratiques
  4. Optimisation multidimensionnelle : Considère simultanément la protection de la vie privée, la fidélité sémantique et l'évasion de détection

Configuration Expérimentale

Ensemble de Données

  • Corpus de Parole Fisher : Contient près de 2000 heures de parole téléphonique conversationnelle
  • Configuration expérimentale : Utilise le paramètre « difficile » (1944 essais)
    • Échantillons positifs (959) : Conversations sur différents sujets du même locuteur
    • Échantillons négatifs (985) : Conversations sur le même sujet de locuteurs différents
  • VoxCeleb2 : Utilisé pour générer des plongements de locuteur pseudo-cible

Métriques d'Évaluation

Indicateurs de Protection de la Vie Privée

  • Taux d'Erreur Égal (EER) : Taux d'erreur de l'attaquant pour distinguer la parole du même locuteur et de locuteurs différents
  • Objectif : EER = 50% (niveau de devinette aléatoire)

Indicateurs d'Utilité

  • UTMOS : Prédiction automatique du score de naturalité de la parole (1-5)
  • Similarité sémantique :
    • Score d'alignement glouton (GAS)
    • Similarité de déformation temporelle dynamique (DTW-Sim)

Indicateurs de Détectabilité

  • Détection de texte synthétique : Utilise le détecteur Binoculars
  • Détection de parole synthétique : Utilise le détecteur SSL-AASIST

Méthodes de Comparaison

  1. Anonymisation audio uniquement : Pipeline ASR-TTS standard, sans modification de contenu
  2. Anonymisation de contenu uniquement : Réécriture du contenu mais conservation du son original
  3. Anonymisation audio + contenu : Réécriture du contenu et anonymisation vocale simultanées

Modèles d'Attaque

  • Attaque vocale : Modèle de vérification du locuteur WavLM-Base
  • Attaque basée sur le contenu : Modèle LUAR (Learning Universal Authorship Representations)

Résultats Expérimentaux

Résultats Principaux

Efficacité de la Protection de la Vie Privée

  1. Menace des attaques basées sur le contenu : Avec l'augmentation du nombre d'énoncés, l'EER des attaques basées sur le contenu diminue d'environ 0,4 à 0,1, démontrant la capacité d'identification du contenu linguistique
  2. Efficacité de l'anonymisation : Toutes les méthodes de réécriture augmentent significativement l'EER, rapprochant les attaques basées sur le contenu du niveau de devinette aléatoire
  3. Comparaison des modèles : La réécriture segmentée (GPT-5, Gemma3-4B) est plus efficace que la réécriture énoncé par énoncé (GPT4o-mini)

Maintien de l'Utilité

  1. Naturalité de l'audio : Le score UTMOS de la parole anonymisée est de 3,14, supérieur à celui de l'enregistrement original de 2,09
  2. Fidélité sémantique :
    • GPT-5 : GAS=0,699, DTW-Sim=0,739
    • Gemma3-4B : GAS=0,648, DTW-Sim=0,582
    • GPT4o-mini : GAS=0,678, DTW-Sim=0,702

Études d'Ablation

Comparaison des Stratégies de Réécriture

  • Stratégie conservatrice (Gemma3-4Bc) : Conserve 50% des énoncés originaux, difficulté de détection la plus faible
  • Réécriture complète : Fournit une protection de la vie privée plus forte mais une détectabilité légèrement plus élevée

Analyse de l'Évasion de Détection

  • Détection de parole synthétique : Plus précise que la détection de texte synthétique, particulièrement avec peu d'énoncés
  • Effet de retranscription : Le processus de retranscription après synthèse peut éliminer certaines traces de génération automatique

Études de Cas

Les expériences montrent que le processus de retranscription via le pipeline ASR-TTS peut éliminer naturellement certaines caractéristiques de texte généré par machine, rendant le texte anonymisé final plus difficile à détecter comme généré artificiellement.

Travaux Connexes

Anonymisation Vocale

  • VoicePrivacy Challenge : Se concentre principalement sur l'anonymisation acoustique d'énoncés courts
  • Méthodes traditionnelles : Conversion vocale kNN, etc., performantes dans les scénarios d'énoncés uniques

Confidentialité du Contenu

  • Traitement des PII : Les méthodes existantes se concentrent principalement sur les identifiants explicites tels que les noms et les lieux
  • Anonymisation de style : Manque de traitement systématique des caractéristiques de style linguistique

Identification d'Auteur

  • Analyse textuelle : Basée sur les choix de vocabulaire, la grammaire, l'utilisation de mots fonctionnels, etc.
  • Transcription vocale : Les travaux récents ont démontré les informations d'identification dans le texte transcrit

Conclusion et Discussion

Conclusions Principales

  1. Menace de contenu réelle : Le contenu linguistique dans l'audio longue durée constitue un risque de confidentialité majeur
  2. Protection par réécriture efficace : La réécriture basée sur LLM peut efficacement défendre contre les attaques basées sur le contenu
  3. Faisabilité des solutions locales : Les petits modèles open-source (Gemma-3-4B) approchent les performances des modèles API
  4. Maintien de l'utilité : La qualité vocale et l'intégrité sémantique peuvent être préservées tout en fournissant une protection de la vie privée

Limitations

  1. Propagation d'erreurs ASR : Les erreurs à l'étape ASR peuvent affecter la qualité finale
  2. Fidélité sémantique : Le processus de réécriture peut perdre des informations sémantiques subtiles ou l'ironie
  3. Limitations du modèle d'attaque : Considère principalement les attaquants non informés ; les attaques semi-informées pourraient être plus efficaces
  4. Absence de bout en bout : La méthode actuelle dépend d'un pipeline en cascade, manquant une solution bout en bout

Directions Futures

  1. Modèles bout en bout : Développer des systèmes bout en bout pour l'anonymisation conjointe de la parole et du contenu
  2. Réécriture robuste : Améliorer l'équilibre entre la fidélité sémantique et l'anonymisation de style
  3. Protection contre les attaques fortes : Étudier les stratégies de défense contre les attaquants semi-informés
  4. Traitement en temps réel : Développer des méthodes d'anonymisation efficaces applicables aux scénarios en temps réel

Évaluation Approfondie

Points Forts

  1. Importance du problème : Première identification et résolution systématique de la menace de contenu dans l'anonymisation audio longue durée
  2. Innovativité de la méthode : Propose une stratégie de réécriture conjointe multi-énoncés sensible au contexte
  3. Complétude expérimentale :
    • Système d'évaluation multidimensionnel (confidentialité, utilité, détectabilité)
    • Comparaison de multiples modèles et stratégies
    • Validation sur ensemble de données réel
  4. Valeur pratique : Fournit une solution complète allant des modèles API aux modèles locaux
  5. Rigueur de recherche : Utilise des modèles d'attaque établis et des protocoles d'évaluation

Insuffisances

  1. Ensemble de données unique : Validation principalement sur le corpus Fisher, manque de vérification de généralisation inter-domaines
  2. Limitation des modèles d'attaque : Ne considère pas les attaques adaptatives plus fortes ou les attaques multimodales
  3. Analyse des coûts de calcul absente : N'analyse pas en détail les coûts de calcul des différentes méthodes
  4. Manque d'études utilisateur : Absence d'évaluation subjective par des utilisateurs réels de l'efficacité de l'anonymisation
  5. Sécurité à long terme : Ne considère pas l'impact de l'évolution des techniques d'attaque sur l'efficacité de la protection

Impact

  1. Contributions académiques :
    • Comble le vide de recherche en anonymisation audio longue durée
    • Établit un nouveau paradigme d'évaluation et une référence
    • Fournit une base importante pour les recherches ultérieures
  2. Valeur pratique :
    • Fournit une solution de protection de la vie privée pratique pour le traitement des données vocales
    • Valeur directe dans les applications telles que les entretiens et les enregistrements de réunions
    • Soutien technique pour la conformité aux réglementations pertinentes
  3. Reproductibilité : Les auteurs s'engagent à ouvrir le code source et les invites, facilitant la reproduction et l'extension de la recherche

Scénarios d'Application

  1. Scénarios à haute confidentialité : Entretiens médicaux, consultations juridiques, thérapie psychologique, etc.
  2. Applications commerciales : Protection de la vie privée pour les appels de service client et les enregistrements de réunions
  3. Partage de données de recherche : Publication privatisée de corpus vocaux
  4. Exigences de conformité : Soutien technique pour la conformité aux réglementations de confidentialité telles que le RGPD

Références Bibliographiques

Cet article cite 26 références pertinentes couvrant l'anonymisation vocale, la confidentialité du contenu, l'identification d'auteur et d'autres domaines importants, fournissant une base théorique solide pour la recherche. Les références clés incluent les travaux liés au VoicePrivacy Challenge, le modèle d'identification d'auteur LUAR et les progrès récents en techniques d'anonymisation vocale.


Évaluation Globale : Ceci est un article de recherche de haute qualité qui identifie et résout un problème important dans le domaine de l'anonymisation vocale. La méthode est innovante, les expériences sont complètes et les résultats sont convaincants, avec une valeur importante pour le monde académique et industriel. Bien qu'il existe certaines limitations, il ouvre une nouvelle direction de recherche pour la protection de la vie privée dans l'audio longue durée.