Video Question Answering (VideoQA) is a complex video-language task that demands a sophisticated understanding of both visual content and temporal dynamics. Traditional Transformer-style architectures, while effective in integrating multimodal data, often simplify temporal dynamics through positional encoding and fail to capture non-linear interactions within video sequences. In this paper, we introduce the Temporal Trio Transformer (T3T), a novel architecture that models time consistency and time variability. The T3T integrates three key components: Temporal Smoothing (TS), Temporal Difference (TD), and Temporal Fusion (TF). The TS module employs Brownian Bridge for capturing smooth, continuous temporal transitions, while the TD module identifies and encodes significant temporal variations and abrupt changes within the video content. Subsequently, the TF module synthesizes these temporal features with textual cues, facilitating a deeper contextual understanding and response accuracy. The efficacy of the T3T is demonstrated through extensive testing on multiple VideoQA benchmark datasets. Our results underscore the importance of a nuanced approach to temporal modeling in improving the accuracy and depth of video-based question answering.
๋
ผ๋ฌธ ID : 2504.05783์ ๋ชฉ : Video Flow as Time Series: Discovering Temporal Consistency and Variability for VideoQA์ ์ : Zijie Song, Zhenzhen Hu, Yixiao Ma, Jia Li, Richang Hong๋ถ๋ฅ : cs.CV cs.AI๋ฐํ ์๊ฐ/ํํ : ICME 2025 (์๋ก ํ์ )๋
ผ๋ฌธ ๋งํฌ : https://arxiv.org/abs/2504.05783 ๋น๋์ค ์ง๋ฌธ ๋ต๋ณ(VideoQA)์ ์๊ฐ์ ์ฝํ
์ธ ์ ์๊ฐ์ ์ญํ์ ๋ชจ๋ ์ ๊ตํ๊ฒ ์ดํดํด์ผ ํ๋ ๋ณต์กํ ๋น๋์ค-์ธ์ด ์์
์
๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ํตํฉ์ ํจ๊ณผ์ ์ธ ๊ธฐ์กด Transformer ์คํ์ผ ์ํคํ
์ฒ๋ ์์น ์ธ์ฝ๋ฉ์ ํตํด ์๊ฐ์ ์ญํ์ ๋จ์ํํ๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ ๋น๋์ค ์ํ์ค ๋ด์ ๋น์ ํ ์ํธ์์ฉ์ ํฌ์ฐฉํ์ง ๋ชปํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ์๊ฐ์ ๋ณ๋์ฑ์ ๋ชจ๋ธ๋งํ๋ ์๋ก์ด ์ํคํ
์ฒ์ธ Temporal Trio Transformer(T3T)๋ฅผ ์๊ฐํฉ๋๋ค. T3T๋ ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ํตํฉํฉ๋๋ค: Temporal Smoothing(TS), Temporal Difference(TD), Temporal Fusion(TF). TS ๋ชจ๋์ Brownian Bridge๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ๋๋ฝ๊ณ ์ฐ์์ ์ธ ์๊ฐ์ ์ ํ์ ํฌ์ฐฉํ๊ณ , TD ๋ชจ๋์ ๋น๋์ค ์ฝํ
์ธ ๋ด์ ์ค์ํ ์๊ฐ์ ๋ณํ์ ๊ธ๊ฒฉํ ๋ณํ๋ฅผ ์๋ณํ๊ณ ์ธ์ฝ๋ฉํฉ๋๋ค. ์ดํ TF ๋ชจ๋์ ์ด๋ฌํ ์๊ฐ์ ํน์ง์ ํ
์คํธ ๋จ์์ ํฉ์ฑํ์ฌ ๋ ๊น์ ๋งฅ๋ฝ์ ์ดํด์ ์๋ต ์ ํ๋๋ฅผ ์ด์งํฉ๋๋ค. T3T์ ํจ๋ฅ์ ์ฌ๋ฌ VideoQA ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ๋ํ ๊ด๋ฒ์ํ ํ
์คํธ๋ฅผ ํตํด ์
์ฆ๋ฉ๋๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ๋น๋์ค ๊ธฐ๋ฐ ์ง๋ฌธ ๋ต๋ณ์ ์ ํ๋์ ๊น์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ ์๊ฐ์ ๋ชจ๋ธ๋ง์ ๋ํ ๋ฏธ๋ฌํ ์ ๊ทผ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
VideoQA ์์
์ ๋ชจ๋ธ์ด ์๊ฐ์ ์ฝํ
์ธ ๋ฅผ ์ฒ๋ฆฌํ ๋ฟ๋ง ์๋๋ผ ํน์ ์ง๋ฌธ์ ์๋ตํ๊ธฐ ์ํด ๋น๋์ค์ ์๊ฐ์ ์ด๋ฒคํธ์์ ์ถ๋ก ์ ์ํํด์ผ ํฉ๋๋ค. ์ด๋ ์๊ฐ์ ์ผ๊ด์ฑ(temporal consistency)๊ณผ ์๊ฐ์ ๋ณ๋์ฑ(temporal variability)์ ๋ํ ๊น์ ์ดํด๊ฐ ํ์ํฉ๋๋ค.
์๊ฐ์ ์ดํด์ ๋ณต์ก์ฑ : ๋น๋์ค๋ ์ํ์ค ์ ๋ณด๋ก์ ์๊ฐ์ ์ญํ์ ์ฐ์์ ์ธ ํ๋ฆ๊ณผ ๊ธ๊ฒฉํ ์ด๋ฒคํธ๋ฅผ ํฌํจํ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ด ๋ ๊ฐ์ง ํน์ฑ์ ๋์์ ํฌ์ฐฉํ๊ธฐ ์ด๋ ต์ต๋๋ค.๋ฉํฐ๋ชจ๋ฌ ์ตํฉ ๊ณผ์ : ์๊ฐ์ ์๊ฐ ์ ๋ณด๋ฅผ ํ
์คํธ ์ง๋ฌธ๊ณผ ํจ๊ณผ์ ์ผ๋ก ์ตํฉํ์ฌ ์ ํํ ์๊ฐ์ ์ถ๋ก ์ ์คํํด์ผ ํฉ๋๋ค.์ค์ ์์ฉ ์์ : VideoQA๋ ๋น๋์ค ์ฝํ
์ธ ์ดํด, ์ง๋ฅํ ๊ฐ์, ๊ต์ก ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ค์ํ ์์ฉ ๊ฐ์น๋ฅผ ๊ฐ์ง๋๋ค.์์น ์ธ์ฝ๋ฉ์ ์ ํํ : ๊ธฐ์กด Transformer ์ํคํ
์ฒ๋ ์์น ์ธ์ฝ๋ฉ์ ์์กดํ์ฌ ์๊ฐ์ ์ญํ์ ํฌ์ฐฉํ๋ฏ๋ก ์๊ฐ์ ์ญํ์ ์ ํํ ๋ฐ ๊ณผ๋ํ ๋จ์ํ๋ฅผ ์ด๋ํฉ๋๋ค.๋น์ ํ ์ํธ์์ฉ ๋ถ์ฌ : ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋น๋์ค ์ํ์ค์ ๋น์ ํ ์ํธ์์ฉ ๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์์ต๋๋ค.๋ถ์์ ํ ์๊ฐ์ ๋ชจ๋ธ๋ง : ์๊ฐ์ ํน์ง์ ์ผ๋ถ๋ง ๋ชจ๋ธ๋งํ๋ฉฐ, ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ๋ณ๋์ฑ์ ๋ํ ์ข
ํฉ์ ๊ณ ๋ ค๊ฐ ๋ถ์กฑํฉ๋๋ค.๋ณธ ๋
ผ๋ฌธ์ ๋น๋์ค ํ๋ฆ์ ์๊ณ์ด๋ก ๊ฐ๋
ํํ๊ณ , ์๊ณ์ด ๋ถ์ ๊ด์ ์์ ๋น๋์ค ๋ฐ์ดํฐ์ ๋ด์ฌ๋ ๋์ ์๊ฐ์ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๊ณ ํด์ํ์ฌ ๋ ์ ํํ VideoQA๋ฅผ ์คํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์ด๋ก ์ ํ์ : ๋น๋์ค ํ๋ฆ์ ์๊ณ์ด๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์ฒ์์ผ๋ก ์๋ํ๋ฉฐ, Brownian Bridge์ ์ฐจ๋ถ ์ฐ์ฐ์ ํตํด ํฌ๊ด์ ์ด๊ณ ํด์ ๊ฐ๋ฅํ VideoQA ์๊ฐ์ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.์ํคํ
์ฒ ํ์ : ๋น๋์ค์ ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ์๊ฐ์ ๋ณ๋์ฑ์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ Temporal Trio Transformer(T3T)๋ฅผ ์ ์ํฉ๋๋ค.๋ชจ๋ ์ค๊ณ : ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ์ค๊ณํฉ๋๋ค:
Temporal Smoothing(TS): ๋ถ๋๋ฝ๊ณ ์ฐ์์ ์ธ ์๊ฐ์ ์ ํ ํฌ์ฐฉ Temporal Difference(TD): ์ค์ํ ์๊ฐ์ ๋ณํ์ ๊ธ๊ฒฉํ ๋ณํ ์๋ณ Temporal Fusion(TF): ์๊ฐ์ ํน์ง๊ณผ ํ
์คํธ ๋จ์ ์ตํฉ ์ฑ๋ฅ ํฅ์ : ์ฌ๋ฌ VideoQA ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์์ ํ์ ํ ๊ฐ์ ์ ๋ฌ์ฑํ์ฌ ์ ๊ตํ ์๊ฐ์ ๋ชจ๋ธ๋ง์ ์ค์์ฑ์ ๊ฒ์ฆํฉ๋๋ค.๋น๋์ค v์ ๊ด๋ จ ์ง๋ฌธ q๊ฐ ์ฃผ์ด์ก์ ๋, VideoQA ์์
์ ๋ชจ๋ธ์ด ํ๋ณด ๋ต๋ณ ์งํฉ A์์ ์ ๋ต รข๋ฅผ ์์ธกํ๋๋ก ์๊ตฌํฉ๋๋ค. ๋ชจ๋ธ์ ๋น๋์ค์ ์๊ฐ์ ์ฝํ
์ธ ์ ์๊ฐ์ ์ญํ์ ์ดํดํ๊ณ ์ง๋ฌธ๊ณผ ํจ๊ป ์ถ๋ก ํด์ผ ํฉ๋๋ค.
T3T ํ๋ ์์ํฌ๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
Visual-text Representation Extraction : ์๊ฐ-ํ
์คํธ ํํ ์ถ์ถTemporal Trio Transformer : ์๊ฐ์ ์ผ์ค ๋ณํ๊ธฐAnswer Prediction : ๋ต๋ณ ์์ธก๋น๋์ค ์ฒ๋ฆฌ : N=16 ํ๋ ์์ ๊ท ๋ฑํ๊ฒ ์ํ๋งํ๊ณ , ์ฌ์ ํ์ต๋ ViT-L ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํน์ง {fn}1:N โ RNรD์ ์ถ์ถํฉ๋๋ค.ํ
์คํธ ์ฒ๋ฆฌ : ์ฌ์ ํ์ต๋ DeBerta-base ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ง๋ฌธ q๋ฅผ {ql}1:L โ RLรD๋ก ์ธ์ฝ๋ฉํ๊ณ , ํ๋ณด ๋ต๋ณ์ {am}1:M โ RMรD๋ก ์ธ์ฝ๋ฉํฉ๋๋ค.1. Temporal Smoothing(TS) ๋ชจ๋
TS ๋ชจ๋์ Brownian Bridge ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ๋๋ฝ๊ณ ์ฐ์์ ์ธ ์๊ฐ์ ์ ํ์ ํฌ์ฐฉํฉ๋๋ค:
fS_n = (1-ฮn)f1 + ฮn*fN + โ(ฮn(1-ฮn))Wn
์ฌ๊ธฐ์:
{ฮn}1:N์ 0์์ 1๊น์ง ๊ท ๋ฑํ๊ฒ ๋ถํฌ๋ ์๊ฐ ๋จ๊ณ์
๋๋ค. Wn = ConVK(fn)์ K์ธต ์ปจ๋ณผ๋ฃจ์
๊ณผ ReLU๋ฅผ ํตํด ํ์ต๋ ๋ฌด์์ ์์์
๋๋ค. ๊ฒฝ๊ณ ์กฐ๊ฑด์ ๋ง์กฑํฉ๋๋ค: fS_1 = f1, fS_N = fN 2. Temporal Difference(TD) ๋ชจ๋
TD ๋ชจ๋์ ํ๋ ์ ์ฐจ๋ถ์ ํตํด ์ค์ํ ์๊ฐ์ ๋ณํ๋ฅผ ํฌ์ฐฉํฉ๋๋ค:
fD_n = (fn - fn-1-I) * Softmax(fn - fn-1-I)
์ฌ๊ธฐ์:
I๋ ์ฐจ๋ถ ๊ฐ๊ฒฉ์ผ๋ก, ์ฐจ๋ถ์ ๋ฒ์๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. Softmax ํจ์๋ ๋ถ์ฐ์ ํํ์ ๊ฐ๋๋ฅผ ์ฆ๊ฐํฉ๋๋ค. n โค I์ผ ๋, fD_n = 0์
๋๋ค. 3. Temporal Fusion(TF) ๋ชจ๋
TF ๋ชจ๋์ ๋จผ์ TS์ TD์ ์ถ๋ ฅ์ ์ตํฉํฉ๋๋ค:
fT_n = (1-ฮฑ)fS_n + ฮฑ*fD_n
๊ทธ ๋ค์ ๋ ๋จ๊ณ์ ๊ต์ฐจ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ํตํฉ๋๋ค:
์ง๋ฌธ ์ ๋ ํน์ง ์ตํฉ:
{fQ_n}1:N = Cross-Att*q({fn}1:N, {ql}1:L)
์๊ฐ์ ํน์ง ์ตํฉ:
{fC_n}1:N = Cross-Att*t({fT_n}1:N, {fQ_n}1:N)
Brownian Bridge ๋ชจ๋ธ๋ง : ๋น๋์ค ์๊ฐ์ ๋ชจ๋ธ๋ง์ Brownian Bridge๋ฅผ ์ฒ์์ผ๋ก ๋์
ํ์ฌ ์ด๋ก ์ ๊ธฐ์ด๊ฐ ํํํ ์ฐ์ ์๊ฐ์ ํํ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.์ฐจ๋ถ ๊ฐํ ๋ฉ์ปค๋์ฆ : ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ธ ํ๋ ์ ์ฐจ๋ถ ์ฐ์ฐ์ ํตํด ๊ตญ์์ ์ค์ ๋ณํ๋ฅผ ๋ณด์กดํ๋ฉฐ, ์ถ๊ฐ ํ์ต ๋งค๊ฐ๋ณ์๊ฐ ํ์ ์์ต๋๋ค.๊ท ํ ์ตํฉ ์ ๋ต : ์ด๋งค๊ฐ๋ณ์ ฮฑ๋ฅผ ํตํด ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ๋ณ๋์ฑ์ ๋์ ์ผ๋ก ๊ท ํ ์๊ฒ ์กฐ์ ํ์ฌ ๋ค์ํ ๋ฐ์ดํฐ์
ํน์ฑ์ ์ ์ํฉ๋๋ค.๊ณต์ ๋งค๊ฐ๋ณ์ ์ค๊ณ : TF ๋ชจ๋์ ๊ณต์ ๋งค๊ฐ๋ณ์ ๊ต์ฐจ ์ฃผ์๋ฅผ ์ฑํํ์ฌ ๋น๋์ค ํํ ๊ฐ์ ์ ์ฌ์ ๊ณตํต์ฑ์ ๋ฐ๊ฒฌํฉ๋๋ค.NExT-QA : ์๊ฐ์ ๋ฐ ์ธ๊ณผ ์ถ๋ก ์ ์ค์ ์ ๋๋ ๋ค์ค ์ ํ ์ง๋ฌธ ๋ฐ์ดํฐ์
์ผ๋ก, ์ฃผ๋ก ์ฌ์ธต ์๊ฑฐ ๊ฒ์ฆ์ ์ฌ์ฉ๋ฉ๋๋ค.MSVD : ๊ฐ๋ฐฉํ ๋น๋์ค ์ค๋ช
์ง๋ฌธ ๋ต๋ณ ๋ฐ์ดํฐ์
MSRVTT : ์๊ฐ์ ๋จ์๋ฅผ ํฌํจํ๋ ๋๊ท๋ชจ ๋น๋์ค-ํ
์คํธ ๊ฒ์ ๋ฐ์ดํฐ์
์ ํ๋(Accuracy)๋ฅผ ์ฃผ์ ํ๊ฐ ์งํ๋ก ์ฌ์ฉํ๋ฉฐ, NExT-QA๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ๋ถํ๋ฉ๋๋ค:
์ธ๊ณผ ์ถ๋ก (@C) ์๊ฐ์ ์ถ๋ก (@T) ์ค๋ช
์ (@D) ์ต๊ทผ์ ๊ณ ๊ธ VideoQA ๋ฐฉ๋ฒ์ ํฌํจํฉ๋๋ค:
๊ทธ๋ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ: HQGA, KPI, VA3, MHN ๋ฑ Transformer ๊ธฐ๋ฐ ๋ฐฉ๋ฒ: VGT, VCSR, PMT, TIGV, V-CAT ๋ฑ ์ต์ ๋ฐฉ๋ฒ: PAXION, MIST ๋ฑ ๋น๋์ค ํ๋ ์ ์: N=16 ํน์ง ์ฐจ์: D=768 ์๊ฐ ์ธ์ฝ๋: ์ฌ์ ํ์ต๋ ViT-L (๋๊ฒฐ) ํ
์คํธ ์ธ์ฝ๋: DeBerta-base (๋ฏธ์ธ ์กฐ์ ) ํ๋์จ์ด: ๋จ์ผ NVIDIA GeForce RTX 4090 ๋ชจ๋ธ NExT-QA MSVD MSRVTT HQGA 51.8 41.2 38.6 TIGV 56.7 43.1 41.1 PAXION 57.0 - - MIST 57.2 - - V-CAT - 45.2 43.3 T3T (์ ์ ๋ฐฉ๋ฒ) 61.0 47.3 42.9
์ฃผ์ ๋ฐ๊ฒฌ :
NExT-QA์์ 61.0% ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ฌ ์ต๊ณ ๊ธฐ์ค์ ๋๋น 3.8% ํฅ์ MSVD์์ 47.3%์ ๋๋ฌํ์ฌ ๋ชจ๋ ๋น๊ต ๋ฐฉ๋ฒ์ ์ด๊ณผ ๋ณต์กํ ์๊ฐ์ ์ถ๋ก ์ด ํ์ํ NExT-QA์์ ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ ๋ฐํ 1. ๊ท ํ ๋งค๊ฐ๋ณ์ ฮฑ์ ์ํฅ
NExT-QA์ MSVD๋ ๋ถ๋๋ฝ๊ณ ์ฐ์์ ์ธ ์๊ฐ์ ๋จ์๋ฅผ ์ ํธํฉ๋๋ค(ฮฑ=0.3 ์ต์ ). MSRVTT๋ ์ค์ํ ์ฐจ์ด ๋ณํ์ ๋ ์์กดํฉ๋๋ค(ฮฑ=0.7 ์ต์ ). ๋ค์ํ ๋ฐ์ดํฐ์
์ด ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ๋ณ๋์ฑ์ ๋ํด ์๋ก ๋ค๋ฅธ ๋ฏผ๊ฐ๋๋ฅผ ๊ฐ์ง์ ์
์ฆํฉ๋๋ค. 2. T3T ๊ตฌ์ฑ ์์ ๋ถ์
๊ตฌ์ฑ ์์ NExT-QA MSVD MSRVTT TF๋ง 59.3 46.7 42.5 TS+TD๋ง 50.8 32.2 35.4 TS+TD+TF 61.0 47.3 42.9
3. TF ๋ชจ๋ ๊ณต์ ๋งค๊ฐ๋ณ์ ๋ถ์
๊ณต์ ๋งค๊ฐ๋ณ์ ์ค๊ณ๋ ๋
๋ฆฝ์ ์ธ ์ฃผ์ ๋ชจ๋ ๋๋น 3.8% ํฅ์ ์๊ฐ์ ์ถ๋ก (@T) ์์
์์ ๊ฐ์ฅ ํ์ ํ ๊ฐ์ ๋
ผ๋ฌธ์ ๊ตฌ์ฒด์ ์ธ ๋น๋์ค ์ง๋ฌธ์์ TS์ TD ๋ชจ๋์ ์ํธ ๋ณด์์ ์ญํ ์ ๋ณด์ฌ์ค๋๋ค:
์ง๋ฌธ : "์ฌ์๊ฐ ํ์ ํ ํ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๊ฑธ์๋๋ฐ, ๊ทธ ๋ค์์ ๋ฌด์์ ํ๋์?"TS ๋ชจ๋ : "ํ์ ๋ฐ ๋ณต๊ท"์ ๊ด๋ จ๋ ํ๋ ์์์ ๋์ ๊ฐ์ ์ ๊ณตํ์ฌ ์ผ๊ด์ฑ์ ํฌ์ฐฉํฉ๋๋ค.TD ๋ชจ๋ : "ํ์ " ๋ฑ ๊ธ๊ฒฉํ ๋์์ ๊ตญ์ ํน์ง ๋ณํ์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์
๋๋ค.์๊ฐ์ ๋ชจ๋ธ๋ง์ ์ค์์ฑ : ์์ ์๊ฐ์ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ์ ์๊ฐ์ ์ถ๋ก ์์
์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.๋ชจ๋ ์ํธ ๋ณด์์ฑ : TS์ TD ๋ชจ๋์ ๊ฐ๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ์กด์ฌํ ๋๋ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ ์ ์์ต๋๋ค.๋ฐ์ดํฐ์
ํน์ด์ฑ : ๋ค์ํ ๋ฐ์ดํฐ์
์ ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ๋ณ๋์ฑ์ ๋ํ ์๋ก ๋ค๋ฅธ ์๊ตฌ๋ฅผ ๊ฐ์ง๋๋ค.ํด์ ๊ฐ๋ฅ์ฑ : TS์ TD์ ๋ถํฌ ๊ท๋ชจ๋ ๋ช
ํํ๊ฒ ๋ค๋ฅธ ํจํด์ ๋ํ๋ด์ด ๋ชจ๋ธ๋ง์ ์ ํจ์ฑ์ ๊ฒ์ฆํฉ๋๋ค.๊ทธ๋ํ ๊ธฐ๋ฐ ์ถ๋ก ๋ฐฉ๋ฒ : ๊ฐ์ฒด ์์ค ํํ, ๊ด๊ณ ๋ฐ ์ญํ์ ๋ช
์์ ์ผ๋ก ํฌ์ฐฉํ์ฌ ๋น๋์ค๋ฅผ ์ธ์ฝ๋ฉํฉ๋๋ค.์๊ธฐ ๊ฐ๋
์ฌ์ ํ์ต : ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๊ณผ ๊ฒฐํฉํ Transformer ์ํคํ
์ฒ ๋ฐฉ๋ฒ์๊ฐ์ ํ์ต : ๋น๋์ค ์ด๋ฒคํธ์ ํ๋ฆ๊ณผ ์งํ๋ฅผ ํฌ์ฐฉํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.์ํ์ค ํน์ฑ ํฌ์ฐฉ : ๋น๋์ค์ ์ํ์ค ๋ณธ์ง์ ์ด์ ์ ๋ง์ถ ๊ธฐ์กด ๋ฐฉ๋ฒํ๋ ์ ์ ํ ๋ฐฉ๋ฒ : ๋ค์ด์คํธ๋ฆผ ์์
์ ์ํ ํต์ฌ ํ๋ ์ ์ ํ๋ฌด์์ ํ๋ก์ธ์ค ๋ชจ๋ธ๋ง : ๋น๋์ค๋ฅผ ๋ฌด์์ ํ๋ก์ธ์ค๋ก ๊ทผ์ฌํ๊ณ ์ํ์ค ๋์กฐ ํ์ต์ ์ฌ์ฉํฉ๋๋ค.๊ธฐ์กด ์ฐ๊ตฌ์ ๋น๊ตํ์ฌ, ๋ณธ ๋
ผ๋ฌธ์ ์๊ฐ์ ์ผ๊ด์ฑ๊ณผ ์๊ฐ์ ๋ณ๋์ฑ์ ๋์์ ์ฒด๊ณ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์ฒ์์ผ๋ก ์๋ํ์ฌ ๋ ํฌ๊ด์ ์ธ ์๊ฐ์ ํํ์ ์ ๊ณตํฉ๋๋ค.
๋ฐฉ๋ฒ์ ์ ํจ์ฑ : T3T๋ ์ฌ๋ฌ VideoQA ๋ฒค์น๋งํฌ์์ ํ์ ํ ๊ฐ์ ์ ๋ฌ์ฑํ์ฌ ์ ๊ตํ ์๊ฐ์ ๋ชจ๋ธ๋ง์ ์ค์์ฑ์ ๊ฒ์ฆํฉ๋๋ค.์ด๋ก ์ ๊ธฐ์ฌ : ๋น๋์ค ํ๋ฆ์ ์๊ณ์ด๋ก ๋ชจ๋ธ๋งํ๋ ์๋ก์ด ๊ด์ ์ ๋น๋์ค ์ดํด ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ๊ณตํฉ๋๋ค.์ค์ฉ์ ๊ฐ์น : ๊ท ํ ๋งค๊ฐ๋ณ์ ฮฑ์ ์ค๊ณ๋ ๋ฐฉ๋ฒ์ด ๋ค์ํ ์ ํ์ VideoQA ์์
์ ์ ์ํ ์ ์๊ฒ ํฉ๋๋ค.๊ณ์ฐ ๋ณต์ก๋ : Brownian Bridge ํ๋ก์ธ์ค์ ๋ค์ค ๊ต์ฐจ ์ฃผ์๋ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ฆ๊ฐ์ํฌ ์ ์์ต๋๋ค.์ด๋งค๊ฐ๋ณ์ ๋ฏผ๊ฐ์ฑ : ๊ท ํ ๋งค๊ฐ๋ณ์ ฮฑ๋ ๋ค์ํ ๋ฐ์ดํฐ์
์ ๋ํด ์กฐ์ ์ด ํ์ํฉ๋๋ค.ํ๋ ์ ์ํ๋ง ์ ํ : ๊ณ ์ ๋ 16ํ๋ ์ ์ํ๋ง์ ๋ชจ๋ ๋น๋์ค ๊ธธ์ด ๋ฐ ๋ณต์ก๋์ ์ ํฉํ์ง ์์ ์ ์์ต๋๋ค.์๋ ๊ท ํ ํ์ต : ฮฑ ๋งค๊ฐ๋ณ์๋ฅผ ์๋์ผ๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ์ฌ ์๋ ์กฐ์ ์ ์ค์
๋๋ค.์ฅ์๊ฐ ๋น๋์ค ์ฒ๋ฆฌ : ๋ ๊ธด ๋น๋์ค ์ํ์ค ์ฒ๋ฆฌ๋ก ํ์ฅํฉ๋๋ค.๋ค๋ฅธ ์์ฉ ๋ถ์ผ : ์๊ฐ์ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ์ ๋ค๋ฅธ ๋น๋์ค-์ธ์ด ์์
์ผ๋ก ํ์ฅํฉ๋๋ค.์ด๋ก ์ ํ์ ์ฑ ๊ฐํจ : Brownian Bridge๋ฅผ ๋น๋์ค ์๊ฐ์ ๋ชจ๋ธ๋ง์ ๋์
ํ๋ ๊ฒ์ ์ด๋ก ์ ์ผ๋ก ์๋กญ์ต๋๋ค.๋ฐฉ๋ฒ ์ค๊ณ ํฉ๋ฆฌ์ : TS์ TD ๋ชจ๋ ์ค๊ณ๋ ์ํธ ๋ณด์์ ์ด๋ฉฐ, TF ๋ชจ๋์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ตํฉํฉ๋๋ค.์คํ ์ถฉ๋ถํจ : ์ฌ๋ฌ ๋ฐ์ดํฐ์
์ ๋ํ ํฌ๊ด์ ์ธ ์คํ๊ณผ ์์ธํ ์๊ฑฐ ์ฐ๊ตฌํด์ ๊ฐ๋ฅ์ฑ ์ฐ์ : ์๊ฐํ๋ฅผ ํตํด ๋ค์ํ ๋ชจ๋์ ์์ฉ ๋ฉ์ปค๋์ฆ์ ๋ช
ํํ๊ฒ ๋ณด์ฌ์ค๋๋ค.์ฑ๋ฅ ํฅ์ ํ์ ํจ : ์ฃผ์ ๋ฒค์น๋งํฌ์์ ๋ช
๋ฐฑํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํฉ๋๋ค.๋ฐฉ๋ฒ ๋ณต์ก๋ : ์ธ ๋ชจ๋์ ์กฐํฉ์ ๋ฐฉ๋ฒ์ ๋ณต์ก์ฑ์ ์ฆ๊ฐ์ํต๋๋ค.์ด๋ก ์ ๋ถ์ ๋ถ์กฑ : Brownian Bridge์ ๋น๋์ค ๋ชจ๋ธ๋ง์์์ ์ด๋ก ์ ์๋ ด์ฑ ๋ถ์์ด ๋ถ์กฑํฉ๋๋ค.์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์กฑ : VideoQA ์์
์์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ, ๋ค๋ฅธ ๋น๋์ค ์ดํด ์์
์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ฏธ์ง์์
๋๋ค.ํจ์จ์ฑ ๋ถ์ ๋๋ฝ : ์์ธํ ๊ณ์ฐ ๋ณต์ก๋ ๋ฐ ์ถ๋ก ์๊ฐ ๋ถ์์ด ์ ๊ณต๋์ง ์์ต๋๋ค.ํ์ ์ ๊ธฐ์ฌ : ๋น๋์ค ์๊ฐ์ ๋ชจ๋ธ๋ง์ ์๋ก์ด ์ด๋ก ์ ๊ด์ ๊ณผ ๋ฐฉ๋ฒ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.์ค์ฉ์ ๊ฐ์น : VideoQA ์์
์์์ ํ์ ํ ๊ฐ์ ์ ๋ฐฉ๋ฒ์ ์ค์ฉ์ฑ์ ์
์ฆํฉ๋๋ค.์ฌํ์ฑ : ์์ธํ ๊ตฌํ ์ธ๋ถ์ฌํญ์ ์ ๊ณตํ์ฌ ์ฌํ์ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.์๊ฐ ์ ๊ณต : ์๊ณ์ด ๊ด์ ์ ๋ ๋ง์ ๋น๋์ค ์ดํด ๋ฐฉ๋ฒ ์ฐ๊ตฌ์ ์๊ฐ์ ์ค ์ ์์ต๋๋ค.๋ณต์กํ ์๊ฐ์ ์ถ๋ก : ๋ณต์กํ ์๊ฐ์ ์ถ๋ก ์ด ํ์ํ VideoQA ์์
์ ํนํ ์ ํฉํฉ๋๋ค.๋ฉํฐ๋ชจ๋ฌ ์ดํด : ์๊ฐ-ํ
์คํธ ๊น์ด ์ตํฉ์ด ํ์ํ ์์ฉ์ ์ ํฉํฉ๋๋ค.๊ต์ก ๋ฐ ๊ฐ์ : ์ง๋ฅํ ๊ต์ก ์์คํ
๋ฐ ๋น๋์ค ๊ฐ์ ๋ถ์์ ์์ฉ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.์ฝํ
์ธ ์ดํด : ๋น๋์ค ์ฝํ
์ธ ๋ถ์ ๋ฐ ์๋ ํ๊น
์์คํ
๋
ผ๋ฌธ์ 58๊ฐ์ ๊ด๋ จ ๋ฌธํ์ ์ธ์ฉํ๋ฉฐ, ์ฃผ๋ก ๋ค์์ ํฌํจํฉ๋๋ค:
VideoQA ๊ธฐ์ด ๋ฐฉ๋ฒ ๋ฐ ์ต์ ์ง์ ์๊ฐ์ ํ์ต ๋ฐ ๋น๋์ค ๋ถ์ ๋ฐฉ๋ฒ Transformer ์ํคํ
์ฒ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ ๊ธฐ์ ๊ด๋ จ ๋ฐ์ดํฐ์
๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ ์ข
ํฉ ํ๊ฐ : ์ด๋ VideoQA ๋ถ์ผ์์ ํ์ ์ฑ์ ๊ฐ์ง ๊ณ ํ์ง ๋
ผ๋ฌธ์ผ๋ก, ๋น๋์ค ํ๋ฆ์ ์๊ณ์ด๋ก ๋ชจ๋ธ๋งํ๋ ์๋ก์ด ๊ด์ ์ ํตํด ํจ๊ณผ์ ์ธ ์๊ฐ์ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๋ฐฉ๋ฒ ์ค๊ณ๊ฐ ํฉ๋ฆฌ์ ์ด๊ณ ์คํ์ด ์ถฉ๋ถํ๋ฉฐ ๊ฒฐ๊ณผ๊ฐ ์ค๋๋ ฅ ์์ต๋๋ค. ์ผ๋ถ ํ๊ณ๊ฐ ์์ง๋ง, ์ด๋ก ์ ๊ธฐ์ฌ์ ์ค์ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ธํด ํด๋น ๋ถ์ผ์ ์ค์ํ ์ฐ๊ตฌ๊ฐ ๋์์ต๋๋ค.