2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman

We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.

academic

VoiceVector: 화자 분리를 위한 다중모달 등록 벡터

기본 정보

논문 ID: 2501.01401
제목: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
저자: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (옥스포드 대학교 VGG 그룹)
분류: eess.AS (전기공학 및 시스템 과학-음성 및 음향 처리)
발표 시간: 2025년 1월 2일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.01401

초록

본 논문은 다중 화자 및 환경 소음으로부터 목표 화자의 음성을 분리하기 위한 Transformer 기반 아키텍처를 제안한다. 이 방법은 두 개의 독립적인 신경망을 사용한다: (A) 등록 네트워크는 음성 및 시각 모달리티의 다양한 조합을 활용하여 화자 특정 임베딩 벡터를 생성하고; (B) 분리 네트워크는 노이즈 신호와 등록 벡터를 입력으로 받아 목표 화자의 깨끗한 신호를 출력한다. 주요 혁신 사항은 다음과 같다: (i) 등록 벡터는 음성 전용, 음성-시각 데이터(입술 운동 사용), 또는 시각 전용 데이터(무음 비디오의 입술 운동 사용)로부터 생성될 수 있으며; (ii) 분리 과정 중 다중 양성 및 음성 등록 벡터를 사용한 조건화의 유연성을 제공한다.

연구 배경 및 동기

문제 정의

음성 분리는 음향 처리의 핵심 과제이며, 특히 노이즈 환경 및 다중 화자 시나리오에서 그러하다. 보청기, 음성 활성화 시스템, 화상 회의 등의 기존 응용 프로그램은 모두 음성 분리 성능에 크게 의존한다.

기존 방법의 한계

음성 임베딩 기반 방법: VoiceFilter 등의 방법은 깨끗하고 노이즈가 없는 음성에 의존하여 화자 임베딩을 생성하는데, 이는 실제 노이즈 환경에서 얻기 어렵다.
음성-시각 방법: Looking to Listen, VoiceFormer 등의 방법은 시각적 단서(입술 운동)를 활용하지만 분리 과정 중 지속적으로 시각 정보를 필요로 하며, 시각 데이터가 가려지거나 누락될 때 성능이 저하된다.

연구 동기

본 논문은 음성 및 시각 조건화 방법의 장점을 결합하면서 각각의 고유한 과제를 회피하는 것을 목표로 한다. 두 단계 설계를 통해: 등록 단계는 다중모달 정보를 활용하여 강건한 화자 표현을 생성할 수 있으며, 분리 단계는 음성 데이터에만 의존하여 계산 효율성을 높이고 시각 정보 변화에 대한 강건성을 개선한다.

핵심 기여

다중모달 등록 네트워크: 음성, 음성-시각, 순수 시각 입력을 처리할 수 있는 화자 임베딩 네트워크를 제안하며, 특히 무음 비디오로부터만 등록 벡터를 생성하는 혁신적인 기능을 지원한다.
양성 및 음성 샘플 조건화: 양성 샘플(목표 화자)과 음성 샘플(비목표 화자) 등록 벡터를 동시에 사용하는 대조 학습 메커니즘을 도입한다.
두 단계 아키텍처의 장점: 분리 단계는 시각 정보에 완전히 독립적이므로 시각 정보 부재 시 기존 음성-시각 방법의 한계를 해결한다.
성능 향상: LRS3 및 LibriSpeech 데이터셋에서 기존 방법을 능가하는 성능을 달성한다.

방법 상세 설명

작업 정의

목표 화자, 다른 화자, 환경 소음을 포함하는 혼합 음성 신호가 주어졌을 때, 목표는 특정 음향 특성을 가진 목표 화자의 음성 성분을 분리하면서 경쟁 음성 및 환경 소음을 필터링하는 것이다.

모델 아키텍처

1. 화자 등록 네트워크

음성 전용 네트워크(그림 1a):

사전 학습된 ECAPA-TDNN 모델을 화자 특성 추출기로 사용
입력: 깨끗한 음성의 스펙트로그램 $S(f,t) = STFT(a_c)$
출력: 192차원 화자 임베딩 $S_{ac} \in \mathbb{R}^{192}$

음성-시각 네트워크(그림 1b):

음성 인코딩: $E_a \in \mathbb{R}^{t_a \times 768}$
비디오 인코딩(입술 운동): $E_v \in \mathbb{R}^{t_v \times 512}$
얼굴 이미지 인코딩: $E_f \in \mathbb{R}^{128}$
특성 융합: $F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}$
3층 Transformer 인코더를 통해 융합 특성 처리
출력: 192차원 등록 벡터 $S_{avf} \in \mathbb{R}^{192}$

순수 시각 네트워크(그림 1b):

시각 정보만 사용(입술 운동 및/또는 얼굴 이미지)
출력: $S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))$

2. 화자 분리 네트워크

VoiceFormer 아키텍처 기반으로, 음성 인코더-디코더 및 화자 임베딩 인코더 포함
입력: 노이즈 음성 파형 및 다중 양성/음성 등록 벡터
3층 Transformer 인코더를 사용하여 음성 및 화자 인코딩 융합
주의 메커니즘을 통해 목표 화자와 일치하는 특성을 강화하고 비목표 화자 특성을 억제
인코더-디코더 간 스킵 연결은 저수준 및 고수준 정보를 보존

기술 혁신 사항

지식 증류 학습 전략: 음성-시각 등록 네트워크는 지식 증류를 통해 음성 전용 네트워크의 출력을 모방하도록 학습하여 모달리티 간 일관성을 보장한다.
다중모달 유연성: 다양한 모달리티 조합으로부터 등록 벡터를 생성하는 것을 지원하며, 혁신적인 순수 시각 모드를 포함한다.
대조 학습 메커니즘: 양성 및 음성 샘플을 동시에 사용하여 더 강한 화자 구분 능력을 제공한다.

실험 설정

데이터셋

LRS3: 공개 TEDx 비디오로부터의 대규모 음성-시각 데이터셋으로, 다양한 화자 스타일 및 주제 포함
LibriSpeech: 공개 도메인 오디오북으로부터의 대규모 순수 음성 데이터셋
테스트 셋의 화자는 학습 과정 중 미확인 상태로 유지되어 일반화 능력 평가 보장

평가 지표

SDR (Signal-to-Distortion Ratio): 분리 출력의 품질 측정
STOI (Short-Time Objective Intelligibility): 신호 명확도 정량화
PESQ (Perceptual Evaluation of Speech Quality): 청취자가 인지한 평가 반영

비교 방법

음성 방법: VoiceFilter
음성-시각 방법: Conversation, VisualVoice, VoiceFormer

구현 세부사항

PyTorch를 사용하여 구현
비디오 데이터: 25 FPS, 화자 입 영역으로 얼굴 자르기
음성: 모노, 16kHz 샘플링 레이트
Transformer: 3층, 8개 주의 헤드, 모델 차원 532
학습 데이터: 4초 음성 조각, 무작위 자르기 및 속도, 음정, 데시벨 조정 등의 데이터 증강 적용

실험 결과

주요 결과

양성/음성 임베딩 벡터 효과(표 1):

구성	1P-0N	1P-1N	3P-2N	3P-3N
SDR↑	13.8	14.0	14.4	14.5

결과는 양성/음성 등록 벡터의 수를 증가시키면 분리 성능이 향상됨을 보여준다.

다중모달 비교(표 2):

모달리티	음성	시각	SDR↑	STOI↑	PESQ↑
깨끗한 음성	✓	✗	14.4	91	2.52
깨끗한 음성+입술	✓	✓	14.5	91	2.55
노이즈 음성	✓	✗	6.3	58	1.82
노이즈 음성+입술	✓	✓	13.7	88	2.45
입술 운동만	✗	✓	11.1	77	2.25
입술+얼굴	✗	✓	12.0	80	2.35

SOTA 방법과의 비교(표 3):

방법	데이터셋	SDR↑	STOI↑	PESQ↑
VoiceFormer	LRS3	14.4	92	2.42
VoiceVector	LRS3	14.5	91	2.52
VoiceFilter	LibriSpeech	12.6	-	-
VoiceVector	LibriSpeech	13.1	89	2.12

주요 발견

순수 시각 모드의 효과성: 입술 운동만 사용하여도 SDR 11.1의 성능을 달성하여 시각 정보의 중요성을 입증한다.
노이즈 강건성: 시각적 단서와 결합할 때, 노이즈 음성의 성능이 SDR 6.3에서 13.7로 대폭 향상된다.
교차 데이터셋 일반화: 학습되지 않은 LibriSpeech 데이터셋에서도 기준 방법을 능가한다.

결론 및 논의

주요 결론

제안된 두 단계 아키텍처는 음성 및 시각 조건화의 장점을 성공적으로 결합
다중모달 등록 벡터는 다양한 시나리오에서 우수한 성능 발휘
양성/음성 샘플의 대조 학습 메커니즘이 분리 성능을 효과적으로 향상
표준 데이터셋에서 기존 방법을 능가하는 성능 달성

한계

합성 데이터 의존성: 주로 합성 혼합 음성에서 학습 및 테스트되어 실제 노이즈 환경과 도메인 차이 존재 가능
시각 품질 요구사항: 순수 시각 모드는 여전히 명확한 입술 운동 비디오 필요
계산 복잡도: 두 단계 아키텍처는 전체 시스템 복잡도 증가

향후 방향

실제 노이즈 환경에서의 검증 및 최적화
제스처, 표정 등 추가 시각 모달리티 융합 탐색
엔드-투-엔드 최적화 전략의 추가 연구

심층 평가

장점

기술 혁신성 강함: 순수 시각 모달리티 화자 등록을 처음으로 구현하여 시각 음성 처리의 새로운 방향 개척
아키텍처 설계 합리적: 두 단계 설계가 성능과 실용성을 영리하게 균형
실험 충분함: 다양한 모달리티 조합 및 비교 방법의 포괄적 평가 포함
성능 향상 명확함: 다중 지표에서 기존 SOTA 방법 초과

부족한 점

실제 시나리오 검증 부족: 주로 합성 데이터 기반으로 실제 노이즈 환경 검증 부족
계산 효율성 분석 누락: 상세한 계산 복잡도 및 추론 시간 분석 미제공
실패 사례 분석 부족: 방법의 한계에 대한 심층 분석 부족

영향력

학술적 가치: 다중모달 음성 분리에 새로운 연구 사상 제공
실용적 가치: 보청기, 화상 회의 등 실제 응용에서 잠재적 가치
재현성: 상세한 구현 세부사항 제공으로 연구 재현 용이

적용 시나리오

화상 회의 시스템: 참석자의 시각 정보를 활용한 음성 분리
지능형 보청 장치: 시끄러운 환경에서 목표 화자 음성 강조
멀티미디어 콘텐츠 처리: 음성-시각 콘텐츠로부터 특정 화자의 음성 추출

참고문헌

논문은 음성 분리 분야의 중요한 연구를 인용하고 있으며, 다음을 포함한다:

VoiceFilter 시리즈: 화자 임베딩 기반 분리 방법
Looking to Listen, VoiceFormer: 음성-시각 분리의 대표 연구
ECAPA-TDNN: 화자 인식의 고전적 모델
LRS3, LibriSpeech: 음성 처리의 표준 데이터셋

종합 평가: 이는 기술 혁신성이 강하고 실험 설계가 합리적인 우수한 논문이다. 영리한 두 단계 아키텍처 설계와 다중모달 융합 전략을 통해 음성 분리 작업에서 현저한 성능 향상을 달성했다. 특히 순수 시각 모달리티의 혁신적 응용은 해당 분야에 새로운 연구 방향을 제공한다. 실제 시나리오 검증 측면에서 개선의 여지가 있지만, 전반적인 작업 품질이 높으며 중요한 학술적 및 실용적 가치를 지닌다.