Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
๋
ผ๋ฌธ ID : 2510.12195์ ๋ชฉ : DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation์ ์ : Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)๋ถ๋ฅ : cs.CL (๊ณ์ฐ ์ธ์ดํ)๋ฐํ ์๊ฐ : 2025๋
10์ 14์ผ (arXiv ์ฌ์ ์ธ์๋ณธ)๋
ผ๋ฌธ ๋งํฌ : https://arxiv.org/abs/2510.12195 ๋์ ์์ฑ ๋ฒ์ญ์ ๋ฒ์ญ ํ์ง๊ณผ ์ง์ฐ ์๊ฐ์ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ํด ์ ํํ ๋ถํ ์ด ํ์ํฉ๋๋ค. SHAS์ ๊ฐ์ ์ฌ์ ํ์ต๋ ๋ถํ ๋ชจ๋ธ์ด ํด๋ฆฌ์คํฑ ๊ท์น๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ์ง๋ง, ์ฌ์ ํ ์ง๋ ํ์ต ๋ชฉํ์ ์ ์ฝ์ ๋ฐ์ผ๋ฉฐ ์ธ๊ฐ์ ์ ํธ๋ ์ ๋ ฌ์ด ๋ถ์กฑํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ์ง์ ์ ํธ๋ ์ต์ ํ(DPO) ํ์ต์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ๋ถํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ ํธ๋ ์ ๋ ฌ์ ํตํด LLM์ด ๋ ์์ฐ์ค๋ฌ์ด ๋ถํ ์ ์ ์์ธกํ ์ ์๋๋ก ํฉ๋๋ค. ACL 60/60 ์ฝํผ์ค์์ ์ธ ๊ฐ์ ์ธ์ด ์์ ๋ํด ํ๊ฐํ๊ณ , SeamlessM4T v2๋ฅผ ๋ฒ์ญ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ DPO ์กฐ์ ๋ LLM์ด ๋ถํ ์ ํ๋์์ SHAS๋ฅผ ๋ฅ๊ฐํ๋ฉฐ, ๋ฒ์ญ ํ์ง(BLEU, COMET)๊ณผ ์ง์ฐ ์๊ฐ(ํ๊ท ์ง์ฐ) ์ธก๋ฉด์์ ์ง์์ ์ธ ๊ฐ์ ์ ๋ณด์ฌ์ค๋๋ค.
๋์ ์์ฑ ๋ฒ์ญ(SimulST)์ด ์ง๋ฉดํ ํต์ฌ ๊ณผ์ ๋ ๋ฒ์ญ ํ์ง์ ๋ณด์ฅํ๋ฉด์ ๋์์ ์ง์ฐ ์๊ฐ์ ์ต์ํํ๋ ๊ฒ์
๋๋ค. ์ด๋ ์์คํ
์ด ์
๋ ฅ ์คํธ๋ฆผ์ ์ธ์ ๋ถํ ํ๊ณ ๋ฒ์ญ์ ์ถ๋ ฅํ ์ง๋ฅผ ์ ํํ ๊ฒฐ์ ํ ์ ์์ด์ผ ํจ์ ์๊ตฌํฉ๋๋ค. ๋ถ์ ์ ํ ๋ถํ ์ ๋ถ์์ ํ๊ฑฐ๋ ์ค๋ณต๋ ๋ฒ์ญ ๋จ์๋ก ์ด์ด์ ธ ์ ํ๋์ ์ฌ์ฉ์ ๊ฒฝํ์ ์ฌ๊ฐํ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
๋ถํ ์ ์ค์ฉ์ ์ธ SimulST ์์คํ
์ ํต์ฌ ๊ตฌ์ฑ ์์๋ก ๊ฐ์ฃผ๋๋ฉฐ, ํนํ ์คํธ๋ฆฌ๋ฐ SimulST์์ ๋ถ์ ์ ํ ๊ฒฝ๊ณ๋ ๋ฒ์ญ ํ์ง๊ณผ ์ง์ฐ ์๊ฐ์ ํฌ๊ฒ ์์์ํต๋๋ค. ์ ํต์ ์ธ ํด๋ฆฌ์คํฑ ๊ท์น(์: ๊ตฌ๋์ ์์ธก, ๊ณ ์ ๊ธธ์ด ์ฒญํน)์ ๋จ์ํ๊ณ ํจ์จ์ ์ด์ง๋ง ๋ค์ํ ์ธ์ด ๊ตฌ์กฐ์ ๋งํ๊ธฐ ์คํ์ผ์ ์ ์ํ๊ธฐ ์ด๋ ต์ต๋๋ค.
ํด๋ฆฌ์คํฑ ๋ฐฉ๋ฒ : ๊ณ ์ wait-k ์ ๋ต ๋ฑ์ ๋ฐฉ๋ฒ์ ์ธ์ด ๋ณํ์ ๋ํ ์ ์์ฑ์ด ์ ํ๋จ์ฌ์ ํ์ต๋ ๋ชจ๋ธ : SHAS์ ๊ฐ์ ๋ชจ๋ธ์ ํด๋ฆฌ์คํฑ ๋ฐฉ๋ฒ๋ณด๋ค ๊ฒฌ๊ณ ํ์ง๋ง ์ฌ์ ํ ์ง๋ ํ์ต ๋ชฉํ์ ์ ์ฝ์ ๋ฐ์ผ๋ฉฐ ์ํฅ ํน์ฑ์๋ง ์์กด์ธ๊ฐ ์ ํธ๋ ์ ๋ ฌ ๋ถ์กฑ : ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๊ธฐ๊ณ ๋ฒ์ญ ์ฑ๋ฅ ์ ๋ ฌ์ ํฌํจํ์ง ์์ผ๋ฉฐ, ์ด๋ ์์ฐ์ค๋ฝ๊ณ ์ ์์ ๋ฒ์ญ์ ํ์์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์์ฑ ๋ฐ ๋ฒ์ญ ์์
์์ ๋ฐ์ด๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, SimulST ๋ถํ ์์์ ์ ์ฌ๋ ฅ์ ์์ง ์ถฉ๋ถํ ํ๊ตฌ๋์ง ์์์ต๋๋ค. ์ง์ ์ ํธ๋ ์ต์ ํ(DPO)๋ ๋ชจ๋ธ์ ์ธ๊ฐ ํผ๋๋ฐฑ๊ณผ ์ ๋ ฌํ๋ ์ ๋งํ ๋ฐฉํฅ์ ์ ๊ณตํ๋ฉฐ, ์ง๋ ํ์ต์ ์ด๊ณผํ๋ ์ ํธ๋ ๊ธฐ๋ฐ ์์ฌ ๊ฒฐ์ ์ ์คํํ ์ ์์ต๋๋ค.
DPO ์ต์ ํ ๊ธฐ๋ฐ LLM ๋ถํ ํ๋ ์์ํฌ ์ ์ : SimulST ๋ถํ ์์
์ ์ ํธ๋ ์ต์ ํ๋ฅผ ์ฒ์ ์ ์ฉํฌ๊ด์ ์ธ ์คํ ํ๊ฐ ๊ตฌ์ถ : ACL 60/60 ๋ฐ์ดํฐ์
์์ ์ธ ๊ฐ์ ์ธ์ด ์์ ๋ํด ํ๊ฐํ๊ณ , SeamlessM4T v2๋ฅผ ๋ฒ์ญ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉ์ ํธ๋ ์กฐ์ ๋ LLM์ ์ฐ์์ฑ ์
์ฆ : ์ฌ์ ํ์ต๋ ๋ถํ ๋ชจ๋ธ SHAS์ ๋น๊ตํ์ฌ ๋ฒ์ญ ํ์ง๊ณผ ์ง์ฐ ์๊ฐ ์ธก๋ฉด์์ ๊ฐ์ ์์ ํ ์๋-ํฌ-์๋ ์์คํ
์ ๊ณต : ๋ถํ ๋ชจ๋์ ๋ฒ์ญ ์์คํ
๊ณผ ํตํฉํ์ฌ ์ค์๊ฐ ๋์ ์์ฑ ๋ฒ์ญ ๊ตฌํSimulST์ ๋ถํ ์์
์ ๋ค์ด์ค๋ ์์ฑ ์คํธ๋ฆผ์์ ๋ฌธ์ฅ ๋จ์ ์ ์ ์์ธกํ๋ ์์
์ผ๋ก ์ ์ํ๋ฉฐ, ๋ชฉํ๋ ๋ฒ์ญ ํ์ง๊ณผ ์ง์ฐ ์๊ฐ์ ๊ท ํ์ ๋ง์ถ๋ ๊ฒ์
๋๋ค. ์คํธ๋ฆฌ๋ฐ ์
๋ ฅ ์์ฑ ์ํ์ค x๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ์ ๋ถํ ๊ฒฐ์ ์ํ์ค {sโ, sโ, ..., sโ}๋ฅผ ์์ฑํ๋ฉฐ, ์ฌ๊ธฐ์ ๊ฐ sโ๋ ์์ธก๋ ๊ฒฝ๊ณ ์์น๋ฅผ ๋ํ๋
๋๋ค. ์ด์ง ๋ถ๋ฅ ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ, ๋ณธ ๋
ผ๋ฌธ์ ๋ถํ ์ ๋ค์ ๋จ์ ์ ์์ธก ๋ฌธ์ ๋ก ์ ์ํฉ๋๋ค.
Qwen2.5-Omni-3B๋ฅผ ๋ถํ ๋ฐฑ๋ณธ ๋ชจ๋ธ๋ก ์ฑํํ๋ฉฐ, ์์ฑ ์
๋ ฅ์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์คํธ๋ฆฌ๋ฐ ๋ฐฉ์์ผ๋ก ์คํํฉ๋๋ค. ๋ชจ๋ธ์ ํ ํฐ ์์ค ASR ์ ์ฌ ๋์ ์์ฑ์ ์ฒญํฌ ์์ค ์ํฅ ํน์ฑ์ ์ง์ ์ฒ๋ฆฌํ๋ฉฐ, ํ์ฌ ์์ฑ ์ปจํ
์คํธ๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ ๋ค์ ๋ถํ ์ ์ ์ฆ๋ถ์ ์ผ๋ก ์์ธกํฉ๋๋ค.
์ธ๊ฐ ์ ๋ ฌ ์ ํธ๋ฅผ ํตํฉํ๊ธฐ ์ํด ํ๋ณด ๋ถํ ์ ์ ํธ๋ ์์ ๊ตฌ์ฑํฉ๋๋ค:
๋ค์ํ ํด๋ฆฌ์คํฑ ๋ฐ ์ฌ์ ํ์ต๋ ์ ๋ต(VAD, ๊ณ ์ ๊ธธ์ด ๋ถํ , SHAS ์ถ๋ ฅ)์ ๊ฒฐํฉํ์ฌ ํ๋ณด ๊ฒฝ๊ณ ์์ฑ BLEU ๋ฐ ์ง์ฐ ์๊ฐ(ํ๊ท ์ง์ฐ)์ ์ฌ์ฉํ์ฌ ๊ฐ ํ๋ณด ๋ถํ ํ๊ฐ ์ด๋ฌํ ์งํ์์ ์์ ์ ํธ ๋์ถ, ์ฑ๋ฅ์ด ๋ ์ข์ ๋ถํ ์ ์ ํธ ํ๋ณด๋ก ์ค์ ์ด ์ฝ 8,000๊ฐ์ ์ ํธ๋ ์์ ํ์ต์ฉ์ผ๋ก ํ๋ ์ง์ ์ ํธ๋ ์ต์ ํ๋ฅผ ์ฌ์ฉํ์ฌ LLM์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค:
์
๋ ฅ ๋ฐํ x๊ฐ ์ฃผ์ด์ง๋ฉด, ์ฌ๋ฌ ํ๋ณด ๋ถํ ์ ์์ฑํ๋ฉฐ, ๊ฐ ๋ถํ y๋ ์
๋ ฅ ์คํธ๋ฆผ์ ๊ฒฝ๊ณ ์ธ๋ฑ์ค ์ํ์ค๋ก ํํ๋ฉ๋๋ค. ์ ํธ๋ ์(y_pref, y_dispref)์ ๊ตฌ์ฑํ๋ฉฐ, ์ฌ๊ธฐ์ y_pref๋ ๋ ๋์ ๋ฒ์ญ ํ์ง๊ณผ ๋ ๋ฎ์ ์ง์ฐ ์๊ฐ์ ์์ฑํ๋ ์ ํธ ๋ถํ ์ ๋ํ๋
๋๋ค.
DPO ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
L(ฮธ) = -E_{(x,y_pref,y_dispref)} [log ฯ(ฮฒ ยท (log ฯ_ฮธ(y_pref | x) - log ฯ_ฮธ(y_dispref | x)))]
์ฌ๊ธฐ์ ฯ_ฮธ๋ LLM์ด ์ ๋ํ ์ ์ฑ
์ ๋ํ๋ด๊ณ , ฮฒ๋ ์ค์ผ์ผ๋ง ํ์ดํผํ๋ผ๋ฏธํฐ์
๋๋ค. 5๊ฐ ์ํฌํฌ ๋์ ํ์ตํ๋ฉฐ ํ์ค ํ์ต๋ฅ ์ค์ผ์ค์ ์ฌ์ฉํฉ๋๋ค.
์ ํธ๋ ์ ๋ ฌ ๋ฉ์ปค๋์ฆ : ๋ถํ ์์
์ DPO๋ฅผ ์ฒ์ ์ ์ฉํ๋ฉฐ, ์ธ๊ฐ ์ ํธ๋ ์ ํธ๋ฅผ ํตํด ๋ชจ๋ธ ํ์ต ์ง๋์๋-ํฌ-์๋ ์ต์ ํ : ์ํฅ ํน์ฑ์๋ง ์์กดํ์ง ์๊ณ ๋ฒ์ญ ํ์ง๊ณผ ์ง์ฐ ์๊ฐ์ ๊ฒฐํฉ ๋ชฉํ๋ฅผ ์ง์ ์ต์ ํ์คํธ๋ฆฌ๋ฐ ์ฒ๋ฆฌ ์ํคํ
์ฒ : ์ค์๊ฐ ์ฒ๋ฆฌ์ ์ ํฉํ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฉ์ปค๋์ฆ ์ค๊ณ๋ค์ค ๋ชจ๋ฌ ์ตํฉ : ์ํฅ ํน์ฑ๊ณผ ์ธ์ด ๋ชจ๋ธ ๋ฅ๋ ฅ์ ๊ฒฐํฉํ์ฌ ๋ถํ ๊ฒฐ์ ํ์ต ๋ฐ์ดํฐ : CoVoST2 ์ฝํผ์ค, DPO ํ์ต์ ์ํ ์ ํธ๋ ์ ๊ตฌ์ฑ์ ์ฌ์ฉํ๊ฐ ๋ฐ์ดํฐ : ACL 60/60 ํ
์คํธ ์ธํธ, ACL 2022 ๊ธฐ์ ๊ฐ์ฐ ํฌํจ์ธ์ด ์ : ์์ดโ์ผ๋ณธ์ด, ์์ดโ์ค๊ตญ์ด, ์์ดโ๋
์ผ์ด๋ฒ์ญ ํ์ง : BLEU ์ ์์ง์ฐ ์๊ฐ : ์คํธ๋ฆฌ๋ฐ LAAL(Streaming Long Average Lagging), ์ค์ ์คํธ๋ฆฌ๋ฐ ์กฐ๊ฑด์์์ ์์คํ
์ง์ฐ ๋ฐ์IWSLT ๊ธฐ์ค์ : ๊ณ ์ ๊ธธ์ด ์ฒญํน ๋ฐ VAD ๊ธฐ๋ฐ ๋ถํ SHAS : ์ฌ๊ตฌํ๋ ์ฌ์ ํ์ต๋ ๋ถํ ๋ชจ๋ธ๋ชจ๋ธ : Qwen2.5-Omni-3B๋ฅผ ๋ถํ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ์ต ์ค์ : 5๊ฐ ์ํฌํฌ, ๋ฐฐ์น ํฌ๊ธฐ 1, AdamW ์ต์ ํ๊ธฐ, ํ์ต๋ฅ 5ร10โปโตํ๋์จ์ด : 4๊ฐ์ NVIDIA A100 GPU์ถ๋ก ์ค์ : ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ํฌ๊ธฐ 4์ด, ์ ํ ํฌ๊ธฐ 2์ด๋ฐฉ๋ฒ EnโDe EnโJa EnโZh Fixed 18.2/~3000 -/- 17.0/3000 VAD 21.8/3030 16.0/3010 20.5/3020 SHAS 23.6/3100 17.2/3050 22.0/3090 Ours (LLM+DPO) 25.5/3078 18.6/3120 23.4/3160
์ฃผ: ํ์์ BLEU(โ)/์ง์ฐ ์๊ฐ(ms, โ)
์ผ๊ด๋ ๊ฐ์ : ์ธ ๊ฐ์ง ๋ฒ์ญ ๋ฐฉํฅ ๋ชจ๋์์ ํด๋ฆฌ์คํฑ ๊ธฐ์ค์ ๊ณผ SHAS ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ง ํฅ์ ํ์ : SHAS์ ๋น๊ตํ์ฌ ํ๊ท ์ฝ 1.5 BLEU ํฅ์, ์ง์ฐ ์๊ฐ์ ์ฝ 100ms๋ง ์ฆ๊ฐ์ธ์ด ์ ์ฐจ์ด : EnโDe๊ฐ ์ต๊ณ BLEU ๋ฌ์ฑ, EnโZh๋ ์ค๊ฐ ์ ๋์ ์ฆ๊ฐ ๋ณด์, EnโJa๋ ์ฌ์ ํ ๊ฐ์ฅ ๋์ ์ ์ง์ฐ ์๊ฐ-ํ์ง ํธ๋ ์ด๋์คํ ๊ณก์ ๋ถ์์ DPO ํ์ต๋ LLM์ด ์ ์ฒด ์๋ ๋ฒ์์์ ๋ค๋ฅธ ๋ถํ ์ ๋ต์ ์ง์์ ์ผ๋ก ๋ฅ๊ฐํ๋ฉฐ, ์ ์ฌํ๊ฑฐ๋ ๋ ๋ฎ์ ์ง์ฐ ์๊ฐ์์ ๋ ๋์ BLEU ์ ์๋ฅผ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ค๋๋ค.
ํด๋ฆฌ์คํฑ ๋ฐฉ๋ฒ : ๊ณ ์ wait-k ์ ๋ต ๋ฑ์ด์ง๋ง ์ธ์ด ๋ณํ์ ๋ํ ์ ์์ฑ์ด ์ ํ๋จํ์ต ๊ฐ๋ฅํ ๋ฐฉ๋ฒ : DiSeg๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ถํ ๋ชจ๋์ ๋์
ํ์ฌ ๋ฒ์ญ ๋ชจ๋ธ๊ณผ ํจ๊ป ๊ณต๋ ํ์ต์ฌ์ ํ์ต๋ ๋ชจ๋ธ : SHAS ๋ฑ์ ๋ชจ๋ธ์ ๋๊ท๋ชจ ํ์ต์ ํตํด ๊ฒฌ๊ณ ์ฑ ํฅ์SeamlessM4T์ ๊ฐ์ ๋๊ท๋ชจ ๋ค์ค ์ธ์ด ๋ค์ค ๋ชจ๋ฌ ๋ฒ์ญ ์์คํ
์ ์์ฑ ๋ฒ์ญ ์์
์ ์ํ ๊ฐ๋ ฅํ ๋ฐฑ๋ณธ์ ์ ๊ณตํ๋ฉฐ ๋ค์ํ ์ธ์ด์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
์ ์์ ์ง์์ผ๋ก๋, ์ด์ ์ ์ ํธ๋ ๊ธฐ๋ฐ ์ต์ ํ๋ฅผ SimulST์ ๋ถํ ์์
์ ์ ์ฉํ ์์
์ด ์์ผ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ๊ฐ ์ด ๊ณต๋ฐฑ์ ์ฑ์๋๋ค.
DPO์ ํจ๊ณผ์ฑ : ์ ํธ๋ ์ต์ ํ๋ ๋ชจ๋ธ์ด ์ธ๊ฐ ์ ํธ๋์ ์ ๋ ฌ๋ ๋ถํ ์ ํ์ตํ๊ฒ ํ๋ฉฐ, ๋ ์์ฐ์ค๋ฌ์ด ๊ฒฝ๊ณ์ ๋ ๋์ ํ์ง-์ง์ฐ ํธ๋ ์ด๋์คํ๋ฅผ ์์ฑ์ฑ๋ฅ ํฅ์ : ์ฝ 3์ด ์ง์ฐ์์ ์ธ ๊ฐ์ง ์ธ์ด ๋ฐฉํฅ ๋ชจ๋์์ SHAS์ ๋น๊ตํ์ฌ ์ผ๊ด๋ ๊ฐ์ ์ค์ฉ์ ๊ฐ์น : ์ค์๊ฐ ๋์ ํด์์์ ์ ํธ๋ ์กฐ์ ๋ LLM์ ์ ์ฌ๋ ฅ ์
์ฆํ๊ฐ ๋ฒ์ ์ ํ : ์ธ ๊ฐ์ ์ธ์ด ์์ผ๋ก๋ง ์ ํ๋๋ฉฐ, ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ์ ์ํด ๋ ๋ค์ํ ๋ฐฉํฅ ํ์๊ณ์ฐ ์ค๋ฒํค๋ : 3B ํ๋ผ๋ฏธํฐ LLM์ ์ถ๊ฐ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ๋์
ํ๋ฉฐ, ๋ฆฌ์์ค ์ ์ฝ ์ฅ์น์์์ ๋ฐฐํฌ๋ฅผ ์ ํํ ์ ์์์์ ์ฑ ๋ฌธ์ : ํน์ ์ง์ฐ ์๊ฐ ์๊ณ๊ฐ์์ BLEU ๋ณ๋ ๊ด์ฐฐ, ๋ถํ ์์ ์ฑ ๊ฐ์ ํ์ํ๊ฐ ์งํ์ ํ๊ณ : BLEU์ ์ง์ฐ ์๊ฐ์ ์๋ ์งํ๋ก ์์กดํ๋ฉฐ, ์ธ๊ฐ ํ๊ฐ ๋ถ์กฑ๋ ๋ง์ ์ธ์ด ์ ๋ฐ ๋๋ฉ์ธ์ผ๋ก ํ์ฅ ์ค์๊ฐ ๋ฐฐํฌ์ ์ ํฉํ๋๋ก ๋ชจ๋ธ ํจ์จ์ฑ ์ต์ ํ ์๋ ์งํ ๊ฒ์ฆ์ ์ํด ์ธ๊ฐ ํ๊ฐ ๋์
๋ ๋ณต์กํ ์ ํธ๋ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ ํ์ ๋์ ํ์ ์ฑ : SimulST ๋ถํ ์ DPO๋ฅผ ์ฒ์ ์ ์ฉํ์ฌ ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ ๊ฐ์ฒํฉ๋ฆฌ์ ์ธ ๋ฐฉ๋ฒ๋ก : ์ ํธ๋ ์ ๋ ฌ์ ์์ด๋์ด๋ ์ค์ ์์ฉ ์๊ตฌ์ฌํญ๊ณผ ๋ถํฉํ๋ฉฐ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ํต์ฌ ๋ฌธ์ ํด๊ฒฐ์ถฉ๋ถํ ์คํ : ์ฌ๋ฌ ์ธ์ด ์์์ ํฌ๊ด์ ์ธ ํ๊ฐ ์ํ, ๊ฒฐ๊ณผ ์ผ๊ด์ฑ ์๊ณ ์ค๋๋ ฅ ์์๋์ ์ค์ฉ์ ๊ฐ์น : ์์ ํ ์๋-ํฌ-์๋ ์์คํ
์ ๊ณต, ์ค์ ๋ฐฐํฌ ์ ์ฌ๋ ฅ ๋ณด์ ์ด๋ก ๋ถ์ ๋ถ์กฑ : DPO๊ฐ ๋ถํ ์์
์์ ํจ๊ณผ์ ์ธ ์ด์ ์ ๋ํ ์ฌ์ธต ์ด๋ก ๋ถ์ ๋ถ์ฌ์ ํธ๋ ์ ๊ตฌ์ฑ์ ๋จ์์ฑ : BLEU์ ์ง์ฐ ์๊ฐ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์ ํธ๋ ์์ ๊ตฌ์ฑํ๋ฉฐ, ์ถฉ๋ถํ ํฌ๊ด์ ์ด์ง ์์ ์ ์์๊ณ์ฐ ํจ์จ ๋ฌธ์ : 3B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ์ค์๊ฐ ์ฑ๋ฅ์ด ์ค์ ์์ฉ์ ๋ณ๋ชฉ์ด ๋ ์ ์์ํ๊ฐ ์งํ์ ๋จ์ผ์ฑ : ์ฃผ๋ก ์๋ ์งํ์ ์์กดํ๋ฉฐ, ์ฃผ๊ด์ ํ์ง ํ๊ฐ ๋ถ์กฑํ์ ์ ๊ธฐ์ฌ : SimulST ๋ถํ ๋ถ์ผ์ ์๋ก์ด ์ต์ ํ ํจ๋ฌ๋ค์ ๋์
์ค์ฉ์ ๊ฐ์น : ์ค์๊ฐ ์์ฑ ๋ฒ์ญ ์์คํ
์ ์ํ ๋ ๋์ ๋ถํ ์๋ฃจ์
์ ๊ณต์๊ฐ ์ ๊ณต : ์์ฐจ ๊ฒฐ์ ์์
์์ ์ ํธ๋ ํ์ต์ ์์ฉ ์ ์ฌ๋ ฅ ์์ฐ์ค์๊ฐ ํ์ ๋ฒ์ญ : ๋ฎ์ ์ง์ฐ ์๊ฐ๊ณผ ๋์ ํ์ง์ ๋์ ๋ฒ์ญ์ด ํ์ํ ์๋๋ฆฌ์ค๋ผ์ด๋ธ ์๋ง ์์ฑ : ๋ถํ ํ์ง์ ๋ํ ์๊ตฌ์ฌํญ์ด ๋์ ์์ฉ๋ค์ค ์ธ์ด ๊ณ ๊ฐ ์๋น์ค ์์คํ
: ์์ฐ์ค๋ฝ๊ณ ์ ์ฐฝํ ์ค์๊ฐ ๋ฒ์ญ ์ํธ์์ฉ์ด ํ์ํ ๊ฒฝ์ฐ๋
ผ๋ฌธ์ ๊ด๋ จ ๋ถ์ผ์ ์ค์ํ ์์
์ ์ธ์ฉํ๊ณ ์์ต๋๋ค:
SHAS ๋ถํ ๋ชจ๋ธ Tsiamas et al., 2022 SeamlessM4T ๋ฒ์ญ ์์คํ
Meta AI, 2023-2024 DPO ์ต์ ํ ๋ฐฉ๋ฒ Rafailov et al., 2023 ACL 60/60 ํ๊ฐ ๋ฒค์น๋งํฌ Salesky et al., 2023 ์ข
ํฉ ํ๊ฐ : ์ด๋ ๊ธฐ์ ํ์ ์ฑ์ด ๋์ ๋
ผ๋ฌธ์ผ๋ก, ์ ํธ๋ ์ต์ ํ๋ฅผ SimulST ๋ถํ ์์
์ ์ฒ์ ๋์
ํ๋ฉฐ, ๋ฐฉ๋ฒ๋ก ์ด ํฉ๋ฆฌ์ ์ด๊ณ ์คํ ๊ฒฐ๊ณผ๊ฐ ์ค๋๋ ฅ ์์ต๋๋ค. ์ด๋ก ๋ถ์๊ณผ ๊ณ์ฐ ํจ์จ์ฑ ์ธก๋ฉด์์ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์ง๋ง, ํด๋น ๋ถ์ผ์ ๋ฐ์ ์ ๊ฐ์น ์๋ ๊ธฐ์ฌ์ ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ๊ณตํฉ๋๋ค.