We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
- ID de l'article : 2501.01401
- Titre : VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
- Auteurs : Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (Groupe VGG, Université d'Oxford)
- Classification : eess.AS (Génie Électrique et Sciences des Systèmes - Traitement Audio et Parole)
- Date de Publication : 2 janvier 2025 (Prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2501.01401
Cet article propose une architecture basée sur Transformer pour la séparation de la voix d'un locuteur cible parmi plusieurs locuteurs et bruits environnementaux. La méthode utilise deux réseaux de neurones indépendants : (A) un réseau d'enrôlement qui exploite diverses combinaisons de modalités audio et visuelles pour générer des vecteurs d'enrobage spécifiques au locuteur ; (B) un réseau de séparation qui accepte le signal bruyant et les vecteurs d'enrôlement comme entrées et produit le signal propre du locuteur cible. Les innovations principales incluent : (i) les vecteurs d'enrôlement peuvent être générés à partir de données audio uniquement, audiovisuelles (utilisant les mouvements des lèvres) ou visuelles uniquement (utilisant les mouvements des lèvres de vidéos silencieuses) ; (ii) la flexibilité d'utiliser plusieurs vecteurs d'enrôlement positifs et négatifs lors de la séparation.
La séparation de la parole est un défi fondamental du traitement audio, particulièrement dans les environnements bruyants et les scénarios multi-locuteurs. Les applications existantes telles que les aides auditives, les systèmes d'activation vocale et les vidéoconférences dépendent fortement de la performance de la séparation de la parole.
- Méthodes basées sur l'enrobage audio : Des méthodes telles que VoiceFilter dépendent d'audio propre et sans bruit pour générer des enrobages de locuteur, ce qui est difficile à obtenir dans les environnements bruyants réels.
- Méthodes audiovisuelles : Des méthodes telles que Looking to Listen et VoiceFormer exploitent les indices visuels (mouvements des lèvres), mais nécessitent un accès continu à l'information visuelle pendant la séparation, avec une dégradation des performances lorsque les données visuelles sont occultées ou manquantes.
Cet article vise à combiner les avantages des approches de conditionnement audio et visuel tout en évitant les défis inhérents à chacune. Grâce à une conception en deux étapes : la phase d'enrôlement peut exploiter l'information multimodale pour générer des représentations robustes du locuteur, tandis que la phase de séparation dépend uniquement des données audio, améliorant ainsi l'efficacité de calcul et la robustesse aux variations d'information visuelle.
- Réseau d'enrôlement multimodal : Propose un réseau d'enrobage de locuteur capable de traiter les entrées audio, audiovisuelles et purement visuelles, avec notamment une application innovante supportant la génération de vecteurs d'enrôlement à partir de vidéos silencieuses uniquement.
- Conditionnement par échantillons positifs et négatifs : Introduit un mécanisme d'apprentissage contrastif utilisant simultanément des vecteurs d'enrôlement positifs (locuteur cible) et négatifs (locuteurs non-cibles).
- Avantages de l'architecture en deux étapes : La phase de séparation est complètement indépendante de l'information visuelle, résolvant les limitations des méthodes audiovisuelles traditionnelles en cas d'absence d'information visuelle.
- Amélioration des performances : Atteint des performances supérieures aux méthodes existantes sur les ensembles de données LRS3 et LibriSpeech.
Étant donné un signal audio mixte contenant le locuteur cible, d'autres locuteurs et du bruit environnemental, l'objectif est de séparer la composante vocale du locuteur cible avec des caractéristiques acoustiques spécifiques, tout en filtrant les voix concurrentes et le bruit environnemental.
Réseau audio uniquement (Figure 1a) :
- Utilise le modèle ECAPA-TDNN pré-entraîné comme extracteur de caractéristiques de locuteur
- Entrée : spectrogramme d'audio propre S(f,t)=STFT(ac)
- Sortie : enrobage de locuteur de dimension 192 Sac∈R192
Réseau audiovisuel (Figure 1b) :
- Encodage audio : Ea∈Rta×768
- Encodage vidéo (mouvements des lèvres) : Ev∈Rtv×512
- Encodage d'image faciale : Ef∈R128
- Fusion de caractéristiques : F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- Traitement des caractéristiques fusionnées par trois couches d'encodeur Transformer
- Sortie : vecteur d'enrôlement de dimension 192 Savf∈R192
Réseau purement visuel (Figure 1b) :
- Utilise uniquement l'information visuelle (mouvements des lèvres et/ou image faciale)
- Sortie : Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- Basé sur l'architecture VoiceFormer, comprenant un encodeur-décodeur audio et un encodeur d'enrobage de locuteur
- Entrée : forme d'onde audio bruyante et plusieurs vecteurs d'enrôlement positifs et négatifs
- Utilise trois couches d'encodeur Transformer pour fusionner l'audio et l'encodage du locuteur
- Amplifie les caractéristiques correspondant au locuteur cible via un mécanisme d'attention, supprimant les caractéristiques des locuteurs non-cibles
- Les connexions de saut entre encodeur et décodeur préservent les informations de bas et haut niveau
- Stratégie d'entraînement par distillation de connaissances : Le réseau d'enrôlement audiovisuel apprend par distillation de connaissances à imiter la sortie du réseau audio uniquement, assurant la cohérence entre les différentes modalités.
- Flexibilité multimodale : Supporte la génération de vecteurs d'enrôlement à partir de différentes combinaisons de modalités, y compris un mode purement visuel innovant.
- Mécanisme d'apprentissage contrastif : Utilise simultanément des échantillons positifs et négatifs pour fournir une capacité de discrimination de locuteur plus forte.
- LRS3 : Grand ensemble de données audiovisuel provenant de vidéos TEDx publiques, contenant des styles de parole et des sujets diversifiés
- LibriSpeech : Grand ensemble de données audio pur provenant de livres audio du domaine public
- Les locuteurs dans l'ensemble de test n'ont pas été vus pendant l'entraînement, assurant l'évaluation de la capacité de généralisation
- SDR (Signal-to-Distortion Ratio) : Mesure la qualité de la sortie de séparation
- STOI (Short-Time Objective Intelligibility) : Quantifie l'intelligibilité du signal
- PESQ (Perceptual Evaluation of Speech Quality) : Reflète le score de qualité perçue par l'auditeur
- Méthodes audio : VoiceFilter
- Méthodes audiovisuelles : Conversation, VisualVoice, VoiceFormer
- Implémentation en PyTorch
- Données vidéo : 25 FPS, visage recadré à la région de la bouche du locuteur
- Audio : mono, taux d'échantillonnage 16 kHz
- Transformer : 3 couches, 8 têtes d'attention, dimension du modèle 532
- Données d'entraînement : fragments audio de 4 secondes, recadrage aléatoire et augmentation de données appliquant des ajustements de vitesse, de hauteur et de décibels
Effet des vecteurs d'enrôlement positifs et négatifs (Tableau 1) :
| Configuration | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13,8 | 14,0 | 14,4 | 14,5 |
Les résultats montrent que l'augmentation du nombre de vecteurs d'enrôlement positifs et négatifs améliore les performances de séparation.
Comparaison multimodale (Tableau 2) :
| Modalité | Audio | Visuel | SDR↑ | STOI↑ | PESQ↑ |
|---|
| Audio propre | ✓ | ✗ | 14,4 | 91 | 2,52 |
| Audio propre + lèvres | ✓ | ✓ | 14,5 | 91 | 2,55 |
| Audio bruyant | ✓ | ✗ | 6,3 | 58 | 1,82 |
| Audio bruyant + lèvres | ✓ | ✓ | 13,7 | 88 | 2,45 |
| Mouvements des lèvres uniquement | ✗ | ✓ | 11,1 | 77 | 2,25 |
| Lèvres + visage | ✗ | ✓ | 12,0 | 80 | 2,35 |
Comparaison avec les méthodes SOTA (Tableau 3) :
| Méthode | Ensemble de Données | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14,4 | 92 | 2,42 |
| VoiceVector | LRS3 | 14,5 | 91 | 2,52 |
| VoiceFilter | LibriSpeech | 12,6 | - | - |
| VoiceVector | LibriSpeech | 13,1 | 89 | 2,12 |
- Efficacité du mode purement visuel : L'utilisation uniquement des mouvements des lèvres atteint une performance SDR de 11,1, prouvant l'importance de l'information visuelle.
- Robustesse au bruit : Lorsqu'elle est combinée avec des indices visuels, la performance de l'audio bruyant s'améliore considérablement, passant de SDR 6,3 à 13,7.
- Généralisation entre ensembles de données : Surpasse les méthodes de base sur l'ensemble de données LibriSpeech non entraîné.
- Méthodes de conditionnement multimodal : Exploitation des indices visuels (principalement les mouvements des lèvres) pour guider la séparation
- Méthodes d'enrobage spécifique au locuteur : Génération d'enrobages de locuteur à partir d'échantillons de parole propre pour le conditionnement
- Par rapport aux méthodes audiovisuelles traditionnelles : la phase de séparation ne nécessite pas d'information visuelle, améliorant la robustesse et l'efficacité de calcul
- Par rapport aux méthodes purement audio : fournit une capacité de discrimination de locuteur plus forte grâce aux vecteurs d'enrôlement multimodaux
- Introduction d'un mécanisme d'échantillon négatif : par rapport aux méthodes précédentes utilisant uniquement des échantillons positifs, fournit un meilleur effet d'apprentissage contrastif
- L'architecture en deux étapes proposée combine avec succès les avantages du conditionnement audio et visuel
- Les vecteurs d'enrôlement multimodaux démontrent de bonnes performances dans divers scénarios
- Le mécanisme d'apprentissage contrastif avec échantillons positifs et négatifs améliore efficacement les performances de séparation
- Atteint des performances supérieures aux méthodes existantes sur les ensembles de données standard
- Dépendance aux données synthétiques : Principalement entraîné et testé sur des mélanges audio synthétiques, avec une possible divergence de domaine par rapport aux environnements bruyants réels
- Exigences de qualité visuelle : Le mode purement visuel nécessite toujours des vidéos de mouvements des lèvres clairs
- Complexité de calcul : L'architecture en deux étapes augmente la complexité globale du système
- Validation et optimisation dans les environnements bruyants réels
- Exploration de la fusion de modalités visuelles supplémentaires (gestes, expressions faciales)
- Recherche supplémentaire sur les stratégies d'optimisation de bout en bout
- Innovation technique forte : Première réalisation de l'enrôlement de locuteur en modalité purement visuelle, ouvrant de nouvelles directions pour le traitement de la parole visuelle
- Conception architecturale rationnelle : La conception en deux étapes équilibre intelligemment la performance et la praticité
- Expérimentation complète : Évaluation complète couvrant diverses combinaisons de modalités et méthodes de comparaison
- Amélioration de performance évidente : Surpasse les méthodes SOTA existantes sur plusieurs métriques
- Validation insuffisante en scénarios réels : Principalement basée sur des données synthétiques, manquant de validation dans des environnements bruyants réels
- Analyse d'efficacité de calcul manquante : N'a pas fourni d'analyse détaillée de la complexité de calcul et du temps d'inférence
- Analyse insuffisante des cas d'échec : Manque d'analyse approfondie des limitations de la méthode
- Valeur académique : Fournit de nouvelles perspectives de recherche pour la séparation de parole multimodale
- Valeur pratique : Possède une valeur potentielle dans les applications pratiques telles que les aides auditives et les vidéoconférences
- Reproductibilité : Fournit des détails d'implémentation détaillés, facilitant la reproduction de la recherche
- Systèmes de vidéoconférence : Utilisation de l'information visuelle des participants pour la séparation de la parole
- Appareils auditifs intelligents : Mise en évidence de la voix du locuteur cible dans les environnements bruyants
- Traitement de contenu multimédia : Extraction de la voix d'un locuteur spécifique à partir de contenu audiovisuel
L'article cite des travaux importants dans le domaine de la séparation de la parole, notamment :
- Série VoiceFilter : Méthodes de séparation basées sur l'enrobage de locuteur
- Looking to Listen, VoiceFormer : Travaux représentatifs de la séparation audiovisuelle
- ECAPA-TDNN : Modèle classique pour la reconnaissance de locuteur
- LRS3, LibriSpeech : Ensembles de données standard pour le traitement de la parole
Évaluation Globale : Ceci est un excellent article avec une forte innovation technique et une conception expérimentale rationnelle. Grâce à une conception architecturale astucieuse en deux étapes et à une stratégie de fusion multimodale, il réalise une amélioration significative des performances dans la tâche de séparation de la parole. En particulier, l'application innovante de la modalité purement visuelle ouvre de nouvelles directions de recherche pour ce domaine. Bien qu'il y ait encore de la place pour l'amélioration dans la validation en scénarios réels, la qualité globale du travail est élevée et possède une valeur académique et pratique importante.