We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
- Papier-ID: 2501.01401
- Titel: VoiceVector: Multimodale Registrierungsvektoren zur Sprechertrennung
- Autoren: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (VGG-Gruppe, Universität Oxford)
- Klassifizierung: eess.AS (Elektrotechnik und Systemwissenschaften – Audio- und Sprachverarbeitung)
- Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2501.01401
In diesem Artikel wird eine auf Transformer basierende Architektur vorgestellt, um die Stimme eines Zielsprechers aus mehreren Sprechern und Umgebungsrauschen zu trennen. Das Verfahren nutzt zwei unabhängige neuronale Netze: (A) ein Registrierungsnetz, das verschiedene Kombinationen von Audio- und Visualmodalitäten nutzt, um sprecherspezifische Einbettungsvektoren zu generieren; (B) ein Trennungsnetz, das verrauschte Signale und Registrierungsvektoren als Eingabe akzeptiert und das saubere Signal des Zielsprechers ausgibt. Die wichtigsten Innovationen umfassen: (i) Registrierungsvektoren können aus reinen Audiodaten, audiovisuellen Daten (unter Verwendung von Lippenbewegungen) oder reinen Visualdaten (unter Verwendung von Lippenbewegungen aus stummem Video) generiert werden; (ii) Flexibilität bei der Verwendung mehrerer positiver und negativer Registrierungsvektoren während des Trennungsprozesses.
Sprechertrennung ist eine Kernherausforderung in der Audioverarbeitung, besonders in lauten Umgebungen und Szenarien mit mehreren Sprechern. Bestehende Anwendungen wie Hörhilfen, sprachaktivierte Systeme und Videokonferenzen sind stark von der Leistung der Sprechertrennung abhängig.
- Audio-Einbettungs-basierte Methoden: Methoden wie VoiceFilter sind auf saubere, rauschfreie Audiodaten angewiesen, um Sprechereinbettungen zu generieren, was in praktischen Rauschumgebungen schwierig zu erreichen ist.
- Audiovisuelle Methoden: Methoden wie Looking to Listen und VoiceFormer nutzen zwar visuelle Hinweise (Lippenbewegungen), benötigen aber während des Trennungsprozesses kontinuierlich visuelle Informationen. Die Leistung sinkt, wenn visuelle Daten verdeckt oder fehlend sind.
Dieser Artikel zielt darauf ab, die Vorteile von Audio- und Visualkonditionierungsmethoden zu kombinieren und gleichzeitig deren inhärente Herausforderungen zu vermeiden. Durch ein zweistufiges Design: Die Registrierungsphase kann multimodale Informationen nutzen, um robuste Sprecherdarstellungen zu generieren, während die Trennungsphase nur auf Audiodaten angewiesen ist, was die Recheneffizienz und Robustheit gegenüber Veränderungen visueller Informationen erhöht.
- Multimodales Registrierungsnetz: Vorschlag eines Sprechereinbettungsnetzes, das Audio-, Audiovisual- und reine Visualeingaben verarbeiten kann, mit innovativer Unterstützung für die Generierung von Registrierungsvektoren aus stummem Video allein.
- Positive und negative Stichproben-Konditionierung: Einführung eines kontrastiven Lernmechanismus, der gleichzeitig positive (Zielsprecher) und negative (Nicht-Zielsprecher) Registrierungsvektoren nutzt.
- Vorteile der zweistufigen Architektur: Die Trennungsphase ist vollständig unabhängig von visuellen Informationen und löst die Einschränkungen traditioneller audiovisueller Methoden bei fehlenden visuellen Informationen.
- Leistungsverbesserung: Erreicht überlegene Leistung gegenüber bestehenden Methoden auf den Datensätzen LRS3 und LibriSpeech.
Gegeben ist ein gemischtes Audiosignal, das den Zielsprecher, andere Sprecher und Umgebungsrauschen enthält. Das Ziel besteht darin, die Sprachkomponente des Zielsprechers mit spezifischen akustischen Merkmalen zu trennen und gleichzeitig konkurrierende Stimmen und Umgebungsrauschen herauszufiltern.
Audio-spezifisches Netz (Abbildung 1a):
- Verwendet vortrainiertes ECAPA-TDNN-Modell als Sprechermerkmalsextraktor
- Eingabe: Spektrogramm sauberer Audio S(f,t)=STFT(ac)
- Ausgabe: 192-dimensionaler Sprechereinbettungsvektor Sac∈R192
Audiovisuelles Netz (Abbildung 1b):
- Audio-Kodierung: Ea∈Rta×768
- Video-Kodierung (Lippenbewegungen): Ev∈Rtv×512
- Gesichtsbildkodierung: Ef∈R128
- Merkmalsfusion: F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- Verarbeitung fusionierter Merkmale durch dreischichtigen Transformer-Encoder
- Ausgabe: 192-dimensionaler Registrierungsvektor Savf∈R192
Reines Visualnetz (Abbildung 1b):
- Nutzt nur visuelle Informationen (Lippenbewegungen und/oder Gesichtsbild)
- Ausgabe: Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- Basierend auf VoiceFormer-Architektur mit Audio-Encoder-Decoder und Sprechereinbettungs-Encoder
- Eingabe: Verrauschte Audiowellenform und mehrere positive und negative Registrierungsvektoren
- Nutzt dreischichtigen Transformer-Encoder zur Fusion von Audio- und Sprecherkodierung
- Verwendet Aufmerksamkeitsmechanismus, um Merkmale des Zielsprechers zu verstärken und Merkmale von Nicht-Zielsprechern zu unterdrücken
- Skip-Verbindungen zwischen Encoder und Decoder bewahren niedrig- und hochstufige Informationen
- Wissensdestillations-Trainingsstrategie: Das audiovisuelle Registrierungsnetz lernt durch Wissensdestillation, die Ausgabe des Audio-spezifischen Netzes nachzuahmen und Konsistenz zwischen verschiedenen Modalitäten zu gewährleisten.
- Multimodale Flexibilität: Unterstützt die Generierung von Registrierungsvektoren aus verschiedenen Modalitätskombinationen, einschließlich des innovativen reinen Visualmodus.
- Kontrastiver Lernmechanismus: Nutzt gleichzeitig positive und negative Stichproben für stärkere Sprecherdiskriminierungsfähigkeit.
- LRS3: Großflächiger audiovisueller Datensatz aus öffentlichen TEDx-Videos mit vielfältigen Sprechstilen und Themen
- LibriSpeech: Großflächiger reiner Audio-Datensatz aus gemeinfrei verfügbaren Hörbüchern
- Sprecher in Testmengen wurden während des Trainings nicht gesehen, um die Bewertung der Verallgemeinerungsfähigkeit zu gewährleisten
- SDR (Signal-to-Distortion Ratio): Misst die Qualität der Trennungsausgabe
- STOI (Short-Time Objective Intelligibility): Quantifiziert die Signalverständlichkeit
- PESQ (Perceptual Evaluation of Speech Quality): Spiegelt die vom Hörer wahrgenommene Bewertung wider
- Audio-Methoden: VoiceFilter
- Audiovisuelle Methoden: Conversation, VisualVoice, VoiceFormer
- Implementierung mit PyTorch
- Videodaten: 25 FPS, Gesicht zugeschnitten auf Mundbereich des Sprechers
- Audio: Mono, 16 kHz Abtastrate
- Transformer: 3 Schichten, 8 Aufmerksamkeitsköpfe, Modelldimension 532
- Trainingsdaten: 4-Sekunden-Audiofragmente mit zufälligem Zuschnitt und Datenerweiterung wie Geschwindigkeits-, Tonhöhen- und Dezibel-Anpassungen
Effekt positiver und negativer Einbettungsvektoren (Tabelle 1):
| Konfiguration | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13,8 | 14,0 | 14,4 | 14,5 |
Die Ergebnisse zeigen, dass die Erhöhung der Anzahl positiver und negativer Registrierungsvektoren die Trennungsleistung verbessert.
Multimodale Vergleiche (Tabelle 2):
| Modalität | Audio | Visuell | SDR↑ | STOI↑ | PESQ↑ |
|---|
| Sauberes Audio | ✓ | ✗ | 14,4 | 91 | 2,52 |
| Sauberes Audio + Lippen | ✓ | ✓ | 14,5 | 91 | 2,55 |
| Verrauschtes Audio | ✓ | ✗ | 6,3 | 58 | 1,82 |
| Verrauschtes Audio + Lippen | ✓ | ✓ | 13,7 | 88 | 2,45 |
| Nur Lippenbewegungen | ✗ | ✓ | 11,1 | 77 | 2,25 |
| Lippen + Gesicht | ✗ | ✓ | 12,0 | 80 | 2,35 |
Vergleich mit SOTA-Methoden (Tabelle 3):
| Methode | Datensatz | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14,4 | 92 | 2,42 |
| VoiceVector | LRS3 | 14,5 | 91 | 2,52 |
| VoiceFilter | LibriSpeech | 12,6 | - | - |
| VoiceVector | LibriSpeech | 13,1 | 89 | 2,12 |
- Effektivität des reinen Visualmodus: Allein mit Lippenbewegungen kann eine Leistung von SDR 11,1 erreicht werden, was die Bedeutung visueller Informationen beweist.
- Rauschrobustheit: Bei Kombination mit visuellen Hinweisen verbessert sich die Leistung verrauschter Audio von SDR 6,3 deutlich auf 13,7.
- Datensatzübergreifende Verallgemeinerung: Übertrifft Baseline-Methoden auch auf dem nicht trainierten LibriSpeech-Datensatz.
- Multimodale Konditionierungsmethoden: Nutzung visueller Hinweise (hauptsächlich Lippenbewegungen) zur Anleitung der Trennung
- Sprecherspezifische Einbettungsmethoden: Generierung von Sprechereinbettungen aus sauberen Sprachproben zur Konditionierung
- Im Vergleich zu traditionellen audiovisuellen Methoden: Die Trennungsphase benötigt keine visuellen Informationen, was Robustheit und Recheneffizienz erhöht
- Im Vergleich zu reinen Audio-Methoden: Bietet stärkere Sprecherdiskriminierungsfähigkeit durch multimodale Registrierungsvektoren
- Einführung eines Negativstichproben-Mechanismus: Bietet bessere kontrastive Lerneffekte im Vergleich zu früheren Methoden, die nur positive Stichproben nutzen
- Die vorgeschlagene zweistufige Architektur kombiniert erfolgreich die Vorteile von Audio- und Visualkonditionierung
- Multimodale Registrierungsvektoren zeigen in verschiedenen Szenarien gute Leistung
- Der kontrastive Lernmechanismus mit positiven und negativen Stichproben verbessert die Trennungsleistung effektiv
- Erreicht überlegene Leistung gegenüber bestehenden Methoden auf Standarddatensätzen
- Abhängigkeit von synthetischen Daten: Hauptsächlich auf synthetischen gemischten Audiodaten trainiert und getestet, mit möglicher Domänendiskrepanz zu echten Rauschumgebungen
- Anforderungen an Visualqualität: Der reine Visualmodus benötigt immer noch klare Lippenbewegungsvideo
- Rechenkomplexität: Die zweistufige Architektur erhöht die Gesamtsystemkomplexität
- Validierung und Optimierung in echten Rauschumgebungen
- Erforschung der Fusion weiterer visueller Modalitäten (wie Gesten, Gesichtsausdrücke)
- Weitere Forschung zu End-to-End-Optimierungsstrategien
- Starke technische Innovation: Erstmalige Umsetzung der reinen Visualmodalität für Sprecherregistrierung, eröffnet neue Richtungen in der visuellen Sprachverarbeitung
- Vernünftige Architekturgestaltung: Das zweistufige Design balanciert geschickt Leistung und Praktikabilität
- Umfassende Experimente: Umfassende Bewertung mit verschiedenen Modalitätskombinationen und Vergleichsmethoden
- Deutliche Leistungsverbesserung: Übertrifft bestehende SOTA-Methoden in mehreren Metriken
- Unzureichende Validierung in echten Szenarien: Hauptsächlich auf synthetischen Daten basierend, fehlt Validierung in echten Rauschumgebungen
- Fehlende Recheneffizienzanalyse: Keine detaillierten Angaben zur Rechenkomplexität und Inferenzzeit
- Unzureichende Analyse von Fehlerfällen: Mangelnde tiefgreifende Analyse der Methodenlimitierungen
- Akademischer Wert: Bietet neue Forschungsideen für multimodale Sprechertrennung
- Praktischer Wert: Hat potenziellen Wert in praktischen Anwendungen wie Hörhilfen und Videokonferenzen
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails, die Forschungsreproduzierbarkeit fördern
- Videokonferenzsysteme: Nutzung visueller Informationen von Teilnehmern zur Sprechertrennung
- Intelligente Hörhilfen: Hervorhebung der Stimme des Zielsprechers in lauten Umgebungen
- Multimedia-Inhaltsverarbeitung: Extraktion der Stimme spezifischer Sprecher aus Audio-Video-Inhalten
Der Artikel zitiert wichtige Arbeiten im Bereich Sprechertrennung, einschließlich:
- VoiceFilter-Serie: Trennungsmethoden basierend auf Sprechereinbettung
- Looking to Listen, VoiceFormer: Repräsentative Arbeiten zur audiovisuellen Trennung
- ECAPA-TDNN: Klassisches Modell zur Sprechererkennung
- LRS3, LibriSpeech: Standarddatensätze für Sprachverarbeitung
Gesamtbewertung: Dies ist ein ausgezeichnetes Papier mit starker technischer Innovation und vernünftiger experimenteller Gestaltung. Durch geschicktes zweistufiges Architekturdesign und multimodale Fusionsstrategie erreicht es signifikante Leistungsverbesserungen bei der Sprechertrennung. Besonders die innovative Anwendung der reinen Visualmodalität eröffnet neue Forschungsrichtungen für dieses Gebiet. Obwohl es noch Raum für Verbesserungen bei der Validierung in echten Szenarien gibt, ist die Gesamtqualität der Arbeit hoch und hat wichtigen akademischen und praktischen Wert.