2025-11-19T19:28:20.973947

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

Wang, Zhu, Chen et al.
Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.
academic

LINK: 오디오-비주얼 비디오 파싱을 위한 적응형 모달리티 상호작용

기본 정보

  • 논문 ID: 2412.20872
  • 제목: LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing
  • 저자: Langyu Wang, Bingke Zhu, Yingying Chen, Jinqiao Wang
  • 분류: cs.CV
  • 발표 시간: 2024년 12월 31일 (arXiv v2)
  • 논문 링크: https://arxiv.org/abs/2412.20872

초록

오디오-비주얼 비디오 파싱 작업은 약한 레이블을 통해 비디오를 분류하면서 동시에 이벤트가 가시적, 청각적 또는 둘 다인지를 식별하고 각각의 시간적 경계를 파악하는 데 중점을 둡니다. 많은 기존 방법들은 서로 다른 모달리티 간에 정렬이 자주 부족하다는 문제를 간과하여 모달리티 상호작용 과정에서 추가 노이즈를 야기합니다. 본 논문은 비정렬 지식 학습 상호작용 방법(LINK)을 제안하며, 이는 이벤트 예측 과정에서 서로 다른 모달리티의 입력을 동적으로 조정하여 모달리티 간의 기여도를 균형있게 조절합니다. 또한 의사 레이블의 의미 정보를 사전 지식으로 활용하여 다른 모달리티의 노이즈를 완화합니다. 실험 결과는 본 모델이 LLP 데이터셋에서 기존 방법들을 능가함을 보여줍니다.

연구 배경 및 동기

핵심 문제

오디오-비주얼 비디오 파싱(AVVP) 작업이 직면한 주요 과제는 모달리티 비정렬 문제입니다. 실제 시나리오에서 오디오와 비주얼 이벤트는 항상 동기화되지 않으며, 서로 다른 모달리티는 이벤트 예측에 유용한 단서를 제공하지 못할 수 있습니다.

문제의 중요성

  1. 다중 모달리티 학습의 현실적 과제: 전통적 방법들은 비주얼과 오디오 신호가 동기화되어 있다고 가정하지만, 실제로는 많은 비정렬 사례가 존재합니다
  2. 노이즈 간섭: 오디오와 비주얼 이벤트가 비정렬될 때, 모달리티 상호작용은 무관한 노이즈를 도입하여 예측 정확도를 저하시킵니다
  3. 실제 응용 수요: 정확한 오디오-비주얼 이벤트 파싱은 비디오 이해, 콘텐츠 분석 등의 응용에 매우 중요합니다

기존 방법의 한계

  1. 모달리티 차이 무시: 기존 방법들은 이벤트 예측에 대한 서로 다른 모달리티의 차별화된 영향을 고려하지 않습니다
  2. 고정된 상호작용 가중치: 모달리티 기여도를 균형있게 조절하는 동적 메커니즘이 부족합니다
  3. 의사 레이블 활용 부족: 의사 레이블의 의미 정보를 충분히 활용하지 못합니다

핵심 기여

  1. LINK 프레임워크 제안: 비정렬 지식 상호작용을 학습할 수 있는 방법을 설계하여 서로 다른 모달리티의 기여도를 동적으로 균형있게 조절합니다
  2. 시공간 주의 메커니즘: 시공간 주의 및 적응형 모달리티 상호작용 모듈(TSAM)을 도입하여 특징 표현 능력을 강화합니다
  3. 분할 오디오-비주얼 의미 유사도 손실: 코사인 유사도 기반의 가중 손실 함수를 설계하여 모달리티 상호작용을 최적화합니다
  4. 의사 레이블 의미 상호작용 모듈: 의사 레이블 의미 정보를 사전 지식으로 특징에 융합하는 PLSIM 모듈을 제안합니다
  5. SOTA 성능: LLP 데이터셋에서 최고 성능을 달성하며, 특히 단일 모달리티 이벤트 예측에서 현저한 개선을 보입니다

방법론 상세 설명

작업 정의

T초의 비디오가 주어졌을 때, 이를 T개의 비중복 분할로 나누면 S={At,Vt}t=1TS = \{A_t, V_t\}_{t=1}^T이며, 여기서 AtA_tVtV_t는 각각 시간 tt의 오디오 및 비주얼 분할을 나타냅니다. 각 분할에서 ytaRCy_t^a \in \mathbb{R}^C, ytvRCy_t^v \in \mathbb{R}^C, ytavRCy_t^{av} \in \mathbb{R}^C는 각각 오디오 이벤트 레이블, 비주얼 이벤트 레이블 및 오디오-비주얼 이벤트 레이블을 나타내며, CC는 이벤트 유형의 개수입니다.

모델 아키텍처

1. 시공간 주의 및 적응형 모달리티 상호작용 모듈(TSAM)

특징 추출: 사전 학습된 CLAP 및 CLIP 인코더를 사용하여 오디오 및 비주얼 특징을 추출합니다:

  • Fa={f1a,...,fTa}RT×dF^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d}
  • Fv={f1v,...,fTv}RT×dF^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d}

시간 주의: Wtm(ftm)=δ(MLP(AvgPool(ftm))+MLP(MaxPool(ftm)))W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m)))

공간 주의: Stm(ftm)=δ((AvgPool(ftm));(MaxPool(ftm)))S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m)))

주의 강화 특징: f^tm=Stm(Wtm(ftm)ftm)(Wtm(ftm)ftm)\hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m)

교차 모달리티 상호작용(AV-Adapter 기반): f^tac=f^ta+α2Softmax(f^taf^tv)(β2f^tv)\hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v)f^tvc=f^tv+α1Softmax(f^tvf^ta)(β1f^ta)\hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a)

여기서 α1,α2,β1,β2\alpha_1, \alpha_2, \beta_1, \beta_2는 학습 가능한 매개변수입니다.

2. 분할 오디오-비주얼 의미 유사도 손실(S-LOSS)

VALOR 손실 함수를 기반으로 확장: LVALOR=Lvideo+Lvideoa+Lvideov+Llabel+λLavssL_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss}

핵심 혁신은 동적 가중치 λ\lambda입니다: λ={1s0.2e1μ0.2<s<0e1μ+(1e1μ)ss0\lambda = \begin{cases} 1 & s \leq -0.2 \\ e^{|1-\mu|} & -0.2 < s < 0 \\ e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0 \end{cases}

여기서 ss는 오디오-비주얼 특징의 코사인 유사도이며, μ\mu는 학습 가능한 매개변수입니다.

3. 의사 레이블 의미 상호작용 모듈(PLSIM)

의미 특징 추출: Fpa=CLAP(ftexta),Fpv=CLIP(ftextv)F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v)

다층 퍼셉트론 매핑: γa1=Δ1m(Fpa),γa2=Δ2m(Fpa)\gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a)ρv1=Δ3m(Fpv),ρv2=Δ4m(Fpv)\rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v)

특징 융합: Fa=f^taoutγa1+γa2+f^taoutF^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout}Fv=f^tvoutρv1+ρv2+f^tvoutF^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout}

기술적 혁신점

  1. 적응형 가중치 메커니즘: 코사인 유사도를 통해 손실 가중치를 동적으로 조정하여 경계 샘플 최적화에 중점을 둡니다
  2. 의미 제약: CLIP/CLAP 텍스트 인코더에서 추출한 의미 정보를 사전 지식으로 활용합니다
  3. 모달리티 기여도 균형: 네 개의 학습 가능한 매개변수를 통해 교차 모달리티 상호작용의 적응형 조정을 구현합니다

실험 설정

데이터셋

LLP 데이터셋:

  • 총 11,849개의 YouTube 비디오, 25개 이벤트 카테고리 포함
  • 훈련 집합: 10,000개 비디오(약한 레이블만 포함)
  • 테스트 집합: 1,200개 비디오(완전 주석)
  • 검증 집합: 649개 비디오(완전 주석)

평가 지표

두 가지 수준의 성능을 평가하기 위해 F-score를 사용합니다:

  • 분할 수준: 분할 수준의 오디오(A), 비주얼(V), 오디오-비주얼(AV) 이벤트 인식
  • 이벤트 수준: 이벤트 수준의 성능 평가
  • Type@AVEvent@AV: 오디오-비주얼 이벤트의 유형 및 이벤트 예측 정확도

비교 방법

HAN, MM-Pyramid, MGN, JoMoLD, CMPAE, DGSCT, VALOR++, CM-PIE, LEAP, CoLeaF+ 등 여러 SOTA 방법을 포함합니다.

실험 결과

주요 결과

LLP 데이터셋에서의 성능 비교는 LINK가 전반적인 성능 향상을 달성했음을 보여줍니다:

분할 수준 성능:

  • 오디오 이벤트: 69.7%(vs VALOR++ 68.1%, +1.6%)
  • 비주얼 이벤트: 69.0%(vs VALOR++ 68.4%, +0.6%)
  • 오디오-비주얼 이벤트: 62.1%(vs VALOR++ 61.9%, +0.2%)

이벤트 수준 성능:

  • 오디오 이벤트: 63.4%(vs VALOR++ 61.2%, +2.2%)
  • 비주얼 이벤트: 64.9%(vs VALOR++ 64.7%, +0.2%)
  • 오디오-비주얼 이벤트: 55.7%(vs VALOR++ 55.5%, +0.2%)

소거 실험

소거 실험은 각 구성 요소의 유효성을 검증합니다:

  1. TSAM 모듈: 여러 지표에서 0.4-0.8%의 개선을 가져옵니다
  2. S-LOSS: 특히 단일 모달리티 이벤트 예측에 현저한 개선을 제공합니다
  3. PLSIM 모듈: 단일 모달리티 이벤트의 예측 능력을 크게 향상시킵니다
  4. 조합 효과: 세 모듈을 함께 사용할 때 최고 성능을 달성합니다

실험 발견

  1. 단일 모달리티 성능 향상 현저: 다중 모달리티 이벤트에 비해 단일 모달리티 이벤트의 성능 향상이 더욱 두드러집니다
  2. 손실 함수 유효성: 유사도 기반 가중 전략은 모달리티 기여도를 효과적으로 균형있게 조절합니다
  3. 의미 정보의 가치: 의사 레이블의 의미 정보는 사전 지식으로서 노이즈를 효과적으로 억제합니다

관련 연구

주요 연구 방향

  1. 아키텍처 강화: HAN, Multi-Modal Pyramidal Feature Attention, Dual-Guided Attention 등
  2. 레이블 최적화: 대규모 사전 학습 모델(CLIP, CLAP)을 활용한 밀집 의사 레이블 생성
  3. 디코딩 전략: 중복 이벤트 처리를 위한 새로운 디코딩 방법

본 논문의 장점

기존 연구와 비교하여 LINK는 다음 측면에서 돌파구를 마련합니다:

  1. 모달리티 비정렬 문제를 명확히 해결합니다
  2. 고정 가중치가 아닌 동적 모달리티 기여도 균형을 조절합니다
  3. 의사 레이블 의미 정보를 충분히 활용합니다

결론 및 논의

주요 결론

  1. 모달리티 비정렬은 핵심 과제: 실험은 모달리티 상호작용의 동적 조정의 중요성을 증명합니다
  2. 의미 정보는 사전 지식으로서의 가치 보유: 의사 레이블 의미 정보는 예측 과정을 효과적으로 지도합니다
  3. 균형 전략은 유효: 적응형 가중치 메커니즘은 예측 성능을 크게 개선합니다

한계

  1. 다중 모달리티 이벤트 개선 제한: 주요 개선은 단일 모달리티 이벤트에 집중되어 있습니다
  2. 계산 복잡도: 여러 주의 메커니즘 및 의미 모듈은 계산 오버헤드를 증가시킵니다
  3. 데이터셋 한계: LLP 데이터셋에서만 검증되었으며, 일반화 능력은 추가 검증이 필요합니다

향후 방향

저자들은 다중 모달리티 이벤트의 예측 성능 개선을 위한 추가 연구를 명확히 제시합니다.

심층 평가

장점

  1. 문제 정의 정확: 모달리티 비정렬이라는 핵심 문제를 정확히 식별하고 해결합니다
  2. 방법론 설계 합리적: 세 개의 핵심 모듈이 상호 보완하여 완전한 솔루션을 형성합니다
  3. 실험 충분: 상세한 소거 실험이 각 구성 요소의 유효성을 검증합니다
  4. 성능 향상 현저: 여러 지표에서 SOTA 성능을 달성합니다

부족한 점

  1. 이론적 분석 부족: 방법 유효성에 대한 이론적 분석 및 수렴성 증명이 부족합니다
  2. 계산 효율성 미논의: 계산 복잡도 분석 및 실행 시간 비교가 제공되지 않습니다
  3. 시각화 분석 부재: 주의 가중치 및 특징 분포의 시각화 분석이 부족합니다
  4. 다중 모달리티 이벤트 개선 제한: 핵심 목표인 다중 모달리티 이벤트 예측 개선이 충분하지 않습니다

영향력

  1. 기술적 기여: 다중 모달리티 비정렬 문제 해결을 위한 새로운 사고방식을 제공합니다
  2. 실용적 가치: 방법론은 다른 오디오-비주얼 작업으로 확장 가능합니다
  3. 재현성: 상세한 구현 세부사항이 제공되어 재현을 용이하게 합니다

적용 시나리오

  1. 비디오 콘텐츠 분석: 자동 비디오 주석 및 이벤트 감지
  2. 멀티미디어 검색: 오디오-비주얼 콘텐츠 기반 비디오 검색
  3. 감시 시스템: 보안 분야의 이벤트 인식 및 경보
  4. 교육 응용: 온라인 교육 비디오의 자동 분석 및 인덱싱

참고문헌

논문은 오디오-비주얼 이벤트 위치 파악, 다중 모달리티 학습, 주의 메커니즘 등 관련 분야의 중요한 연구를 포함하는 25개의 참고문헌을 인용하며, 방법론 설계를 위한 견고한 이론적 기초를 제공합니다.


종합 평가: 이는 오디오-비주얼 비디오 파싱 작업에서 모달리티 비정렬 문제를 다루는 고품질 논문입니다. 방법론 설계가 합리적이고 실험 검증이 충분하며, LLP 데이터셋에서 SOTA 성능을 달성합니다. 다중 모달리티 이벤트 예측 및 이론적 분석 측면에서 개선의 여지가 있지만, 전반적인 기여는 현저하며 관련 분야 연구에 귀중한 참고자료를 제공합니다.