2025-11-17T22:49:13.940899

Towards Interactive Deepfake Analysis

Qin, Jiang, Zhang et al.
Existing deepfake analysis methods are primarily based on discriminative models, which significantly limit their application scenarios. This paper aims to explore interactive deepfake analysis by performing instruction tuning on multi-modal large language models (MLLMs). This will face challenges such as the lack of datasets and benchmarks, and low training efficiency. To address these issues, we introduce (1) a GPT-assisted data construction process resulting in an instruction-following dataset called DFA-Instruct, (2) a benchmark named DFA-Bench, designed to comprehensively evaluate the capabilities of MLLMs in deepfake detection, deepfake classification, and artifact description, and (3) construct an interactive deepfake analysis system called DFA-GPT, as a strong baseline for the community, with the Low-Rank Adaptation (LoRA) module. The dataset and code will be made available at https://github.com/lxq1000/DFA-Instruct to facilitate further research.
academic

๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„์„ ํ–ฅํ•˜์—ฌ

๊ธฐ๋ณธ ์ •๋ณด

  • ๋…ผ๋ฌธ ID: 2501.01164
  • ์ œ๋ชฉ: Towards Interactive Deepfake Analysis
  • ์ €์ž: Lixiong Qin, Ning Jiang, Yang Zhang, Yuhan Qiu, Dingheng Zeng, Jiani Hu, Weihong Deng
  • ๋ถ„๋ฅ˜: cs.CV (์ปดํ“จํ„ฐ ๋น„์ „)
  • ๋ฐœํ‘œ ์‹œ๊ฐ„: 2025๋…„ 1์›” 2์ผ (arXiv ์‚ฌ์ „์ธ์‡„๋ณธ)
  • ๋…ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/2501.01164

์ดˆ๋ก

๊ธฐ์กด์˜ ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ๋ฐฉ๋ฒ•์€ ์ฃผ๋กœ ํŒ๋ณ„ ๋ชจ๋ธ์— ๊ธฐ๋ฐ˜ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํฌ๊ฒŒ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค์ค‘๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLMs)์— ๋Œ€ํ•œ ์ง€์‹œ ์กฐ์ •(instruction tuning)์„ ํ†ตํ•ด ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„์„ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๋ถ€์กฑ๊ณผ ํ›ˆ๋ จ ํšจ์œจ์„ฑ ์ €ํ•˜๋ผ๋Š” ๊ณผ์ œ์— ์ง๋ฉดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ๋‹ค์Œ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค: (1) GPT ๋ณด์กฐ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ DFA-Instruct ์ง€์‹œ ์ถ”์ข… ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ; (2) ๋”ฅํŽ˜์ดํฌ ํƒ์ง€, ๋ถ„๋ฅ˜ ๋ฐ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช…์—์„œ MLLMs์˜ ๋Šฅ๋ ฅ์„ ํฌ๊ด„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ DFA-Bench ๋ฒค์น˜๋งˆํฌ; (3) ์ €์ˆœ์œ„ ์ ์‘(LoRA) ๋ชจ๋“ˆ์„ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ๊ฐ•๋ ฅํ•œ ๊ธฐ์ค€์„ ์œผ๋กœ ์ฑ„ํƒํ•œ DFA-GPT ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์‹œ์Šคํ…œ ๊ตฌ์ถ•.

์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

๋ฌธ์ œ ์ •์˜

์ธ๊ณต์ง€๋Šฅ ์ƒ์„ฑ ์ฝ˜ํ…์ธ (AIGC)์˜ ๋น ๋ฅธ ๋ฐœ์ „์œผ๋กœ ํ—ˆ๊ตฌ์™€ ํ˜„์‹ค ์‚ฌ์ด์˜ ๊ฒฝ๊ณ„๊ฐ€ ๋ชจํ˜ธํ•ด์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฌด๋‹จ ๋”ฅํŽ˜์ดํฌ ์ด๋ฏธ์ง€ ๋˜๋Š” ๋น„๋””์˜ค๋Š” ์—ฌ๋ก  ์กฐ์ž‘, ์‚ฌ์ด๋ฒ„ ๊ดด๋กญํž˜, ํ˜‘๋ฐ•, ์œ„์กฐ ์ฆ๊ฑฐ ๋“ฑ ์•…์˜์ ์ธ ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฅํŽ˜์ดํฌ ๋ถ„์„(DFA)์€ ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ ์˜ ์ž ์žฌ์  ๋ถ€์ •์  ์˜ํ–ฅ์„ ๊ทœ์ œํ•˜๊ณ  ์™„ํ™”ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„

๊ธฐ์กด ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ๋ฐฉ๋ฒ•์€ ์ฃผ๋กœ ํŒ๋ณ„ ๋ชจ๋ธ์— ์˜์กดํ•˜์—ฌ ๋”ฅํŽ˜์ดํฌ ํƒ์ง€ ๋ฐ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ด๋Š” ์‘์šฉ ๋ฒ”์œ„๋ฅผ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ์ „ํ†ต์  ๋ฐฉ๋ฒ•์€ ๋‹จ์ˆœํ•œ ์ด์ง„ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ(์ง„์งœ/๊ฐ€์งœ) ๋˜๋Š” ๊ธฐ์ˆ  ์นดํ…Œ๊ณ ๋ฆฌ๋งŒ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ƒ์„ธํ•œ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช…์ด๋‚˜ ๋Œ€ํ™”ํ˜• ์ƒํ˜ธ์ž‘์šฉ์„ ์ œ๊ณตํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๋™๊ธฐ

์‚ฌํšŒ ์•ˆ์ „, ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ ๋ฐ ์‚ฌ๋ฒ• ์กฐ์‚ฌ ๋“ฑ ํ•ต์‹ฌ ๋ถ„์•ผ์—์„œ ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์‹œ์Šคํ…œ์€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์—๊ฒŒ ์ถ”๊ฐ€ ์ธ์  ๊ฒ€์‚ฌ๊ฐ€ ํ•„์š”ํ•œ ๋‹จ์„œ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์—…๋ฌด ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์ค‘๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์€ ์„ธ๋ฐ€ํ•œ ๋ณต์žกํ•œ ์‹œ๊ฐ์  ๋‹จ์„œ์˜ ์„ค๋ช… ๋ฐ ์ถ”๋ก ์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์œผ๋ฉฐ, ์ง€์‹œ ์กฐ์ • ํ›„ ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์‹œ์Šคํ…œ์œผ๋กœ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ธฐ์—ฌ

  1. ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ๊ฐœ๋… ์ตœ์ดˆ ์ œ์•ˆ: ๋„ค ๊ฐ€์ง€ ํ•ต์‹ฌ ๋Šฅ๋ ฅ ์ •์˜ - ๋”ฅํŽ˜์ดํฌ ํƒ์ง€(DF-D), ๋”ฅํŽ˜์ดํฌ ๋ถ„๋ฅ˜(DF-C), ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช…(AD) ๋ฐ ์ž์œ  ๋Œ€ํ™”(FC)
  2. ๋Œ€๊ทœ๋ชจ ์ง€์‹œ ์ถ”์ข… ๋ฐ์ดํ„ฐ์…‹ DFA-Instruct ๊ตฌ์ถ•: 127.3K ์ •๋ ฌ ์–ผ๊ตด ์ด๋ฏธ์ง€ ๋ฐ 891.6K ์งˆ์˜์‘๋‹ต ์Œ ํฌํ•จ, GPT ๋ณด์กฐ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ํ”„๋กœ์„ธ์Šค ์ฑ„ํƒ
  3. ํฌ๊ด„์  ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ DFA-Bench ์ˆ˜๋ฆฝ: ๋”ฅํŽ˜์ดํฌ ๋ถ„์„์—์„œ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช… ์ž‘์—…์— ๋Œ€ํ•œ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์ตœ์ดˆ ์ œ๊ณต
  4. DFA-GPT ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ: LoRA ๊ธฐ๋ฐ˜ ํšจ์œจ์  ํ›ˆ๋ จ ์ „๋žต, ์ œํ•œ๋œ ๊ณ„์‚ฐ ์ž์› ํ•˜์—์„œ ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์‹œ์Šคํ…œ ์„ฑ๊ณต์  ๊ตฌ์ถ•

๋ฐฉ๋ฒ•๋ก  ์ƒ์„ธ ์„ค๋ช…

์ž‘์—… ์ •์˜

๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์‹œ์Šคํ…œ์€ ๋„ค ๊ฐ€์ง€ ๊ธฐ๋ณธ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถฐ์•ผ ํ•ฉ๋‹ˆ๋‹ค:

  • ๋”ฅํŽ˜์ดํฌ ํƒ์ง€(DF-D): ์ž…๋ ฅ ์–ผ๊ตด ์ด๋ฏธ์ง€๊ฐ€ ์œ„์กฐ์ธ์ง€ ํŒ๋‹จ
  • ๋”ฅํŽ˜์ดํฌ ๋ถ„๋ฅ˜(DF-C): ์‚ฌ์šฉ๋œ ํŠน์ • ์œ„์กฐ ๊ธฐ์ˆ  ์นดํ…Œ๊ณ ๋ฆฌ ์‹๋ณ„
  • ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช…(AD): ์œ„์กฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ด๋ฏธ์ง€์˜ ์•„ํ‹ฐํŒฉํŠธ ํŠน์„ฑ ์„ค๋ช…
  • ์ž์œ  ๋Œ€ํ™”(FC): ์•„ํ‹ฐํŒฉํŠธ์— ๊ด€ํ•œ ํ›„์† ์งˆ๋ฌธ์„ ํฌํ•จํ•˜์—ฌ ์œ„์กฐ์™€ ๊ด€๋ จ๋œ ๋ชจ๋“  ์งˆ๋ฌธ์— ๋‹ต๋ณ€

๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ํ”„๋กœ์„ธ์Šค

๋‹จ๊ณ„ 1: ์ง„์งœ ๋ฐ ์œ„์กฐ ์–ผ๊ตด ์ด๋ฏธ์ง€ ํš๋“

  • DF-40 ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜, 40๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ  ํฌํ•จ
  • ๋„ค ๊ฐ€์ง€ ์ฃผ์š” ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ  ์นดํ…Œ๊ณ ๋ฆฌ: ์–ผ๊ตด ๊ตํ™˜(FS), ์–ผ๊ตด ์žฌ์—ฐ(FR), ์–ผ๊ตด ํŽธ์ง‘(FE), ์™„์ „ ์–ผ๊ตด ํ•ฉ์„ฑ(EFS)
  • ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ๊ท ํ˜•์„ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์–ผ๊ตด ํŽธ์ง‘ ๊ธฐ์ˆ ์„ ์ถ”๊ฐ€๋กœ ๋ณต์ œํ•˜์—ฌ ๋” ๋งŽ์€ ์œ„์กฐ ์ด๋ฏธ์ง€ ์ƒ์„ฑ
  • ๋ชจ๋“  ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ์–ผ๊ตด ์ •๋ ฌ ์ˆ˜ํ–‰ ๋ฐ ์‹ ์›๋ณ„๋กœ ํ›ˆ๋ จ/๊ฒ€์ฆ/ํ…Œ์ŠคํŠธ ์„ธํŠธ ๋ถ„ํ• 

๋‹จ๊ณ„ 2: ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช… ์ฃผ์„ ์ƒ์„ฑ

GPT-4o ์ฟผ๋ฆฌ๋ฅผ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„:

  • ์ฒซ ๋ฒˆ์งธ ์œ ํ˜•: ์œ„์กฐ ์ด๋ฏธ์ง€๋งŒ ์ž…๋ ฅ, ํŠน์ • ์–ผ๊ตด ์˜์—ญ์˜ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช… ์š”์ฒญ
  • ๋‘ ๋ฒˆ์งธ ์œ ํ˜•: ์œ„์กฐ ๋ฐ ์ง„์งœ ์ด๋ฏธ์ง€ ๋™์‹œ ์ž…๋ ฅ, ์ฐจ์ด ๋น„๊ต๋ฅผ ํ†ตํ•œ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช…

๋‹จ๊ณ„ 3: ์ง€์‹œ ์ถ”์ข… ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

  • DF-D, DF-C, AD ์ฃผ์„์„ ์งˆ์˜์‘๋‹ต ์Œ์œผ๋กœ ๋ณ€ํ™˜
  • ์ง€์‹œ ํ…œํ”Œ๋ฆฟ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ ๊ฐ•ํ™”
  • ChatGPT ๊ธฐ๋ฐ˜ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๋กœ ๊ธฐ์กด ์ฃผ์„์„ ๋ฐ”ํƒ•์œผ๋กœ ์ž์œ  ๋Œ€ํ™” ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

DFA-GPT๋Š” ๋„ค ๊ฐ€์ง€ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. ์‹œ๊ฐ ์ธ์ฝ”๋”: CLIP-L/14๋ฅผ ์‚ฌ์šฉํ•œ ์‹œ๊ฐ ํŠน์„ฑ ์ถ”์ถœ
  2. ํ”„๋กœ์ ํ„ฐ: ์ด์ค‘์ธต MLP๋กœ ์‹œ๊ฐ ํŠน์„ฑ์„ ์–ธ์–ด ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘
  3. ์–ธ์–ด ํ† ํฌ๋‚˜์ด์ €: ์ง€์‹œ๋ฅผ ์–ธ์–ด ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜
  4. ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ: Vicuna๋ฅผ ๋””์ฝ”๋”๋กœ ์‚ฌ์šฉ, LoRA ๋ชจ๋“ˆ ํ†ตํ•ฉ

๊ธฐ์ˆ  ํ˜์‹  ํฌ์ธํŠธ

LoRA ์ €์ˆœ์œ„ ์ ์‘

  • ๊ณ ์ฐจ์› ๋งค๊ฐœ๋ณ€์ˆ˜ ํ–‰๋ ฌ W์˜ ์ž”์ฐจ โˆ†W๋ฅผ ๋‘ ๊ฐœ์˜ ์ €์ˆœ์œ„ ํ–‰๋ ฌ A์™€ B์˜ ๊ณฑ์œผ๋กœ ๋ถ„ํ•ด
  • ํ›ˆ๋ จ ์‹œ A์™€ B์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋งŒ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ ๋Œ€ํญ ๊ฐ์†Œ
  • ์ถ”๋ก  ์‹œ ์ถœ๋ ฅ ๊ณ„์‚ฐ: h = Wx + BAx

์ž๊ธฐํšŒ๊ท€ ํ›ˆ๋ จ ์ „๋žต

์ž๊ธฐํšŒ๊ท€ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋งค๊ฐœ๋ณ€์ˆ˜ ์—…๋ฐ์ดํŠธ, ๋‹ต๋ณ€ ์ƒ์„ฑ์˜ ์šฐ๋„:

P(Xa|Xv,Xq) = โˆ(i=1 to L) pฮธ(xi|Xv,Xq,Xa,<i)

์—ฌ๊ธฐ์„œ ฮธ๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜(ํ”„๋กœ์ ํ„ฐ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฐ LoRA ํ–‰๋ ฌ ํฌํ•จ)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

์‹คํ—˜ ์„ค์ •

๋ฐ์ดํ„ฐ์…‹

DFA-Instruct ๋ฐ์ดํ„ฐ์…‹ ํ†ต๊ณ„:

  • ์ด 127.3K ์ •๋ ฌ ์–ผ๊ตด ์ด๋ฏธ์ง€ ๋ฐ 891.6K ์งˆ์˜์‘๋‹ต ์Œ
  • DF-D, DF-C, AD ๊ฐ 127.3K ์งˆ์˜์‘๋‹ต ์Œ, FC 509.7K ์งˆ์˜์‘๋‹ต ์Œ
  • ํ›ˆ๋ จ ์„ธํŠธ 94.0%, ๊ฒ€์ฆ ์„ธํŠธ 5.8%, ํ…Œ์ŠคํŠธ ์„ธํŠธ 0.2%
  • ์ง„์งœ ์ด๋ฏธ์ง€ 45.0%, FS 8.1%, FR 11.4%, FE 11.2%, EFS 24.1%

ํ‰๊ฐ€ ์ง€ํ‘œ

  • DF-D ๋Šฅ๋ ฅ: ์ •ํ™•๋„(ACC), ์˜ค๋ฅ˜์œจ(ERR), ํ‰๊ท  ๋ถ„๋ฅ˜ ์˜ค๋ฅ˜์œจ(ACER)
  • DF-C ๋Šฅ๋ ฅ: ์ •ํ™•๋„(ACC)
  • AD ๋Šฅ๋ ฅ: ROUGE-L ์ ์ˆ˜

๋น„๊ต ๋ฐฉ๋ฒ•

๋‹ค์–‘ํ•œ ์‹œ๊ฐ ๋ชจ๋ธ๊ณผ์˜ ๋น„๊ต: ResNet101, DeiT-B/16, DeiT-L/14, CLIP-B/16, CLIP-L/14

๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ

  • LLaVA-1.5-7B ๊ธฐ๋ฐ˜ ์ดˆ๊ธฐํ™”, ์‚ฌ์ „ํ›ˆ๋ จ ๊ฐ€์ค‘์น˜ ๊ณ ์ •
  • ํ”„๋กœ์ ํ„ฐ ๋ฐ LoRA ๋งค๊ฐœ๋ณ€์ˆ˜๋งŒ ์กฐ์ •
  • AdamW ์ตœ์ ํ™”๊ธฐ, ํ•™์Šต๋ฅ  2e-4, LoRA ์ˆœ์œ„ 128
  • 2๊ฐœ NVIDIA H800 GPU์—์„œ 1 ์—ํฌํฌ ํ›ˆ๋ จ

์‹คํ—˜ ๊ฒฐ๊ณผ

์ฃผ์š” ๊ฒฐ๊ณผ

์‹œ๊ฐ ๋ชจ๋ธ๊ณผ์˜ ๋น„๊ต:

  • DFA-GPT๋Š” DF-D ์ž‘์—…์—์„œ 95.22% ACC ๋‹ฌ์„ฑ, ACER์€ 5.04%๋งŒ
  • ์ตœ๊ณ  ์„ฑ๋Šฅ ์‹œ๊ฐ ๋ชจ๋ธ CLIP-L/14 ๋Œ€๋น„ ACER 6.77% ๊ฐ์†Œ
  • DF-C ์ž‘์—… ์ •ํ™•๋„ 92.74%, CLIP-L/14 ๋Œ€๋น„ 11.23% ํ–ฅ์ƒ
  • ๊ณ ์œ ํ•œ AD ๋Šฅ๋ ฅ ROUGE-L ์ ์ˆ˜ 42.54%

๊ธฐ์กด MLLMs ์„ฑ๋Šฅ ํ‰๊ฐ€: ์ฃผ๋ฅ˜ MLLMs๋Š” ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์ž‘์—…์—์„œ ์ €์กฐํ•œ ์„ฑ๋Šฅ:

  • LLaVA-1.5-7B: DF-D ์ •ํ™•๋„ 54.78%, DF-C ์ •ํ™•๋„ 13.95%
  • GPT-4V: DF-D ์ •ํ™•๋„ 59.84%, DF-C ์ •ํ™•๋„ 20.06%
  • ๊ธฐ์กด ๋ฒ”์šฉ MLLMs์ด ์ถฉ๋ถ„ํ•œ ์–ผ๊ตด ์œ„์กฐ ์ดํ•ด ๋Šฅ๋ ฅ ๋ถ€์กฑ์„ ์‹œ์‚ฌ

์†Œ๊ฑฐ ์‹คํ—˜

๋‹ค์–‘ํ•œ ์ฃผ์„ ์œ ํ˜•์˜ ์˜ํ–ฅ:

  • DF-C ์ฃผ์„ ์ถ”๊ฐ€๋กœ DF-D ์„ฑ๋Šฅ ํ–ฅ์ƒ (ACER 0.87% ๊ฐ์†Œ)
  • AD ์ฃผ์„ ํฌํ•จ์œผ๋กœ DF-D ๋ฐ DF-C ๋ชจ๋‘ ์ด๋“ (ACER 0.39% ๊ฐ์†Œ, ACC 0.40% ํ–ฅ์ƒ)
  • ์ž์œ  ๋Œ€ํ™” ์ฃผ์„์€ ์„ฑ๋Šฅ ์ถ”๊ฐ€ ํ–ฅ์ƒ ์—†์Œ, ์ฃผ๋กœ ์ƒํ˜ธ์ž‘์šฉ ๋Šฅ๋ ฅ ๊ฐ•ํ™”์šฉ

์‹คํ—˜ ๋ฐœ๊ฒฌ

  1. ์–ธ์–ด ๊ฐ๋…์˜ ํšจ๊ณผ์„ฑ: LLM ๋ฐ ์ž์—ฐ์–ด ๊ฐ๋… ๋„์ž…์œผ๋กœ ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์‹œ์Šคํ…œ์˜ ๊ฒฌ๊ณ ์„ฑ ๋Œ€ํญ ํ–ฅ์ƒ
  2. ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต์˜ ์ด์ : ๋” ๋งŽ์€ ๊ฐ๋… ์‹ ํ˜ธ๊ฐ€ ๋”์šฑ ๊ฒฌ๊ณ ํ•œ ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์— ๋„์›€
  3. ๋ฒ”์šฉ MLLMs์˜ ๋ถ€์กฑ: ๊ธฐ์กด ์„ ์ง„ MLLMs์ด ๋”ฅํŽ˜์ดํฌ ์ดํ•ด ์ธก๋ฉด์—์„œ ์ƒ๋‹นํ•œ ๋ถ€์กฑ

๊ด€๋ จ ์—ฐ๊ตฌ

๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ  ๋ถ„๋ฅ˜

  1. ์–ผ๊ตด ๊ตํ™˜(FS): ๋Œ€์ƒ ์–ผ๊ตด์˜ ์‹ ์›์„ ์†Œ์Šค ์–ผ๊ตด ์‹ ์›์œผ๋กœ ๊ต์ฒด
  2. ์–ผ๊ตด ์žฌ์—ฐ(FR): ์†Œ์Šค ์–ผ๊ตด์„ ์ˆ˜์ •ํ•˜์—ฌ ๋‹ค๋ฅธ ์–ผ๊ตด์˜ ๋™์ž‘ ๋˜๋Š” ํ‘œ์ • ๋ชจ๋ฐฉ
  3. ์–ผ๊ตด ํŽธ์ง‘(FE): ๋‚˜์ด, ์„ฑ๋ณ„, ๋จธ๋ฆฌ ์ƒ‰๊น” ๋“ฑ ํŠน์ • ์–ผ๊ตด ์†์„ฑ ์ˆ˜์ •
  4. ์™„์ „ ์–ผ๊ตด ํ•ฉ์„ฑ(EFS): GAN ๋˜๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ์–ผ๊ตด ์ƒ์„ฑ

๊ธฐ์กด ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ๋ฐฉ๋ฒ•

์ „ํ†ต์  ๋ฐฉ๋ฒ•์€ ์ฃผ๋กœ ํŒ๋ณ„ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€๊ฐ€ ์œ„์กฐ์ธ์ง€ ํŒ๋‹จํ•˜์ง€๋งŒ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช…์„ ์ œ๊ณตํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

์ง€์‹œ ์กฐ์ • ๋ฐ MLLMs

  • ์ง€์‹œ ์กฐ์ •์€ ์›๋ž˜ NLP ๋ถ„์•ผ์—์„œ ์ œ์•ˆ๋˜์–ด ์‚ฌ์ „ํ›ˆ๋ จ์˜ ๊ฐ•๋ ฅํ•œ ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ™œ์šฉ
  • ์‹œ๊ฐ ์ง€์‹œ ์กฐ์ •์€ LLaVA์— ์˜ํ•ด MLLMs์— ๋„์ž…๋˜์–ด ์‹œ๊ฐ ๊ฐœ๋…๊ณผ ์–ธ์–ด ๋„๋ฉ”์ธ ์ •๋ ฌ ๋ชฉํ‘œ
  • LoRA์™€ ๊ฐ™์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ํšจ์œจ์  ๋ฏธ์„ธ์กฐ์ • ๊ธฐ์ˆ ์ด ํŠน์ • ์ž‘์—…์˜ MLLM ์ ์‘์— ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์‚ฌ์šฉ

๊ฒฐ๋ก  ๋ฐ ํ† ๋ก 

์ฃผ์š” ๊ฒฐ๋ก 

  1. ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„์„ ์ตœ์ดˆ๋กœ ํƒ์ƒ‰ํ•˜์—ฌ ์ •๋ณด ํฌ๋ Œ์‹ ๋ฐ ๋ณด์•ˆ ๋ถ„์•ผ์— ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์‹œ
  2. ๋Œ€๊ทœ๋ชจ ์ง€์‹œ ์ถ”์ข… ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํฌ๊ด„์  ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ์„ฑ๊ณต์  ๊ตฌ์ถ•
  3. MLLMs์ด ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ์ž‘์—…์—์„œ์˜ ํšจ๊ณผ์„ฑ ๋ฐ ์šฐ์›”์„ฑ ์ž…์ฆ
  4. ๊ธฐ์กด ๋ฒ”์šฉ MLLMs์˜ ๋”ฅํŽ˜์ดํฌ ์ดํ•ด ์ธก๋ฉด ๋ถ€์กฑ ๋“œ๋Ÿฌ๋ƒ„

ํ•œ๊ณ„

  1. ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ ์ œํ•œ: 127.3K ์ด๋ฏธ์ง€ ํฌํ•จํ•˜์ง€๋งŒ ๋ฒ”์šฉ ์‹œ๊ฐ ์ž‘์—… ๋ฐ์ดํ„ฐ์…‹ ๋Œ€๋น„ ์—ฌ์ „ํžˆ ์†Œ๊ทœ๋ชจ
  2. ๊ธฐ์ˆ  ๋ฒ”์œ„ ์ œํ•œ: ์ฃผ๋กœ DF-40 ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋“  ์ตœ์‹  ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ  ์ปค๋ฒ„ ๋ถˆ๊ฐ€๋Šฅ
  3. ํ‰๊ฐ€ ์ง€ํ‘œ ํ•œ๊ณ„: AD ์ž‘์—…์˜ ROUGE-L ํ‰๊ฐ€๊ฐ€ ์ถฉ๋ถ„ํžˆ ํฌ๊ด„์ ์ด์ง€ ์•Š์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋” ๋งŽ์€ ์ธ์  ํ‰๊ฐ€ ํ•„์š”
  4. ๊ณ„์‚ฐ ์ž์› ์š”๊ตฌ: LoRA ์‚ฌ์šฉ์œผ๋กœ ํ›ˆ๋ จ ๋น„์šฉ ๊ฐ์†Œํ•˜์ง€๋งŒ ์—ฌ์ „ํžˆ ๊ณ ๊ธ‰ GPU ์ž์› ํ•„์š”

ํ–ฅํ›„ ๋ฐฉํ–ฅ

  1. ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ ํ™•์žฅ: ๋” ๋งŽ์€ ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ  ๋ฐ ๋Œ€๊ทœ๋ชจ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ํฌํ•จ
  2. ํ‰๊ฐ€ ๋ฐฉ๋ฒ• ๊ฐœ์„ : ๋”์šฑ ํฌ๊ด„์ ์ธ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช… ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ
  3. ๋ชจ๋ธ ๋Šฅ๋ ฅ ๊ฐ•ํ™”: ๋”์šฑ ์„ ์ง„์ ์ธ ๋‹ค์ค‘๋ชจ๋‹ฌ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ›ˆ๋ จ ์ „๋žต ํƒ์ƒ‰
  4. ์‹ค์ œ ์‘์šฉ ๋ฐฐํฌ: ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์‹œ์Šคํ…œ์˜ ์‹ค์šฉ์„ฑ ๋ฐ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ

์‹ฌ์ธต ํ‰๊ฐ€

์žฅ์ 

  1. ๊ฐœ์ฒ™์  ์—ฐ๊ตฌ: ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ๊ฐœ๋… ์ตœ์ดˆ ์ œ์•ˆ์œผ๋กœ ๋ถ„์•ผ ๊ณต๋ฐฑ ๋ฉ”์›€
  2. ์ฒด๊ณ„์  ๊ธฐ์—ฌ: ๋ฐ์ดํ„ฐ์…‹, ๋ฒค์น˜๋งˆํฌ ๋ฐ ๋ชจ๋ธ์„ ๋™์‹œ์— ์ œ๊ณตํ•˜์—ฌ ์™„์ „ํ•œ ์—ฐ๊ตฌ ํ”„๋ ˆ์ž„์›Œํฌ ํ˜•์„ฑ
  3. ๊ธฐ์ˆ  ํ˜์‹ : GPT ๋ณด์กฐ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ๋ฐ LoRA ํšจ์œจ์  ํ›ˆ๋ จ ์ „๋žต์„ ๊ต๋ฌ˜ํ•˜๊ฒŒ ๊ฒฐํ•ฉ
  4. ์ถฉ๋ถ„ํ•œ ์‹คํ—˜: ํฌ๊ด„์ ์ธ ๋น„๊ต ์‹คํ—˜, ์†Œ๊ฑฐ ์‹คํ—˜ ๋ฐ ๊ธฐ์กด MLLMs ํ‰๊ฐ€ ํฌํ•จ
  5. ์‹ค์šฉ์  ๊ฐ€์น˜: ์‚ฌํšŒ ์•ˆ์ „, ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ ๋“ฑ ํ•ต์‹ฌ ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์‘์šฉ ์ „๋ง

๋ถ€์กฑ

  1. ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ์˜์กด์„ฑ: GPT ๋ณด์กฐ ์ƒ์„ฑ ์•„ํ‹ฐํŒฉํŠธ ์„ค๋ช…์˜ ํ’ˆ์งˆ์ด ์ผ๊ด€์„ฑ ์žˆ์„ ์ˆ˜ ์žˆ์Œ
  2. ํ‰๊ฐ€ ํ•œ๊ณ„: ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•˜๋Š” ์ธ์  ํ‰๊ฐ€ ๋ถ€์žฌ
  3. ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ: ์ฃผ๋กœ DF-40 ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ฒ€์ฆ๋˜์–ด ์‹ ํฅ ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ฏธ์ง€์ˆ˜
  4. ๊ณ„์‚ฐ ํšจ์œจ์„ฑ: LoRA ์‚ฌ์šฉํ•˜์ง€๋งŒ ์ถ”๋ก  ์‹œ ์—ฌ์ „ํžˆ ์™„์ „ํ•œ MLLM ํ•„์š”๋กœ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ ์ƒ๋‹น

์˜ํ–ฅ๋ ฅ

  1. ํ•™์ˆ ์  ์˜ํ–ฅ: ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ๋ถ„์•ผ์— ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ๊ฐœ์ฒ™์œผ๋กœ ํ›„์† ๋Œ€๋Ÿ‰ ์—ฐ๊ตฌ ์œ ๋ฐœ ๊ฐ€๋Šฅ
  2. ์‹ค์šฉ์  ๊ฐ€์น˜: ์‹ค์ œ ๋”ฅํŽ˜์ดํฌ ํƒ์ง€ ์‘์šฉ์— ๋”์šฑ ์œ ์—ฐํ•˜๊ณ  ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์†”๋ฃจ์…˜ ์ œ๊ณต
  3. ๊ธฐ์ˆ  ๋ณด๊ธ‰: ํŠน์ • ๋ถ„์•ผ ์‘์šฉ์—์„œ MLLMs์˜ ์ž ์žฌ๋ ฅ ์‹œ์—ฐ์œผ๋กœ ๋‹ค๋ฅธ ํฌ๋ Œ์‹ ์ž‘์—…์— ๋ณด๊ธ‰ ๊ฐ€๋Šฅ
  4. ์‚ฌํšŒ์  ์˜์˜: ๊ณต์ค‘์˜ ๋”ฅํŽ˜์ดํฌ ์ฝ˜ํ…์ธ  ์‹๋ณ„ ๋ฐ ๋ฐฉ์–ด ๋Šฅ๋ ฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌ

์ ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค

  1. ์‚ฌ๋ฒ• ํฌ๋ Œ์‹: ๋ฒ•๋ฅ  ์ „๋ฌธ๊ฐ€์—๊ฒŒ ์ƒ์„ธํ•œ ์œ„์กฐ ์ฆ๊ฑฐ ๋ถ„์„ ์ œ๊ณต
  2. ๋ฏธ๋””์–ด ์‹ฌ์‚ฌ: ํ”Œ๋žซํผ์ด ์•…์˜์  ๋”ฅํŽ˜์ดํฌ ์ฝ˜ํ…์ธ  ์‹๋ณ„ ๋ฐ ์ฒ˜๋ฆฌ ์ง€์›
  3. ๊ต์œก ํ›ˆ๋ จ: ๋”ฅํŽ˜์ดํฌ ์‹๋ณ„ ๊ต์œก ๋„๊ตฌ๋กœ ํ™œ์šฉ
  4. ์—ฐ๊ตฌ ๋„๊ตฌ: ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ  ์—ฐ๊ตฌ์— ๋ถ„์„ ๋ฐ ํ‰๊ฐ€ ํ”Œ๋žซํผ ์ œ๊ณต

์ฐธ๊ณ ๋ฌธํ—Œ

๋…ผ๋ฌธ์€ ๋”ฅํŽ˜์ดํฌ ๊ธฐ์ˆ , ํƒ์ง€ ๋ฐฉ๋ฒ•, ๋‹ค์ค‘๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ, ์ง€์‹œ ์กฐ์ • ๋“ฑ ํ•ต์‹ฌ ๋ถ„์•ผ์˜ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ๋ฅผ ํฌํ•จํ•œ 48ํŽธ์˜ ๊ด€๋ จ ๋ฌธํ—Œ์„ ์ธ์šฉํ•˜์—ฌ ๊ฒฌ๊ณ ํ•œ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


์ข…ํ•ฉ ํ‰๊ฐ€: ์ด๋Š” ๋Œ€ํ™”ํ˜• ๋”ฅํŽ˜์ดํฌ ๋ถ„์„์ด๋ผ๋Š” ์ค‘์š”ํ•œ ๋ฐฉํ–ฅ์„ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ํƒ์ƒ‰ํ•œ ๊ฐœ์ฒ™์  ์˜์˜๋ฅผ ์ง€๋‹Œ ๊ณ ํ’ˆ์งˆ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์ˆ  ํ˜์‹ , ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ์‹ค์šฉ์  ๊ฐ€์น˜ ์ธก๋ฉด์—์„œ ๋ชจ๋‘ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ ๋”ฅํŽ˜์ดํฌ ๋ถ„์„ ๋ถ„์•ผ์˜ ๋ฐœ์ „์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ถ€ ํ•œ๊ณ„๊ฐ€ ์žˆ์ง€๋งŒ ๊ฐœ์ฒ™์ ์ธ ์—ฐ๊ตฌ ์‚ฌ๊ณ ์™€ ์ฒด๊ณ„์ ์ธ ํ•ด๊ฒฐ ๋ฐฉ์•ˆ์œผ๋กœ ์ธํ•ด ์ค‘์š”ํ•œ ํ•™์ˆ ์  ๋ฐ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ์ง€๋‹™๋‹ˆ๋‹ค.