2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.

Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.

academic

비전-언어 모델에서 동적 사고의 연쇄를 통한 다중모달 핵심구 예측 강화

기본 정보

논문 ID: 2510.09358
제목: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
저자: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
소속: ByteDance Douyin Content Group
분류: cs.CV
발표일: 2025년 10월 10일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09358
코드: https://github.com/bytedance/DynamicCoT

초록

다중모달 핵심구 예측(MMKP)은 다중모달 입력 정보를 통합하여 순수 텍스트 방법을 초월하는 결론적 구문 집합을 생성하는 것을 목표로 한다. 전통적인 다중모달 방법은 누락 시나리오와 미학습 시나리오 처리에 있어 상당한 한계를 보인다. 또한 기존 벤치마크는 훈련-테스트 집합의 심각한 중복으로 인해 모델 능력을 과대평가한다. 본 논문은 비전-언어 모델(VLMs)을 활용하여 MMKP 작업을 해결할 것을 제안한다. 먼저 영샷(zero-shot) 및 감독형 미세조정(SFT) 두 가지 전략으로 VLMs의 하한 성능을 평가한다. 다음으로 교사 모델이 생성한 고품질 사고의 연쇄(CoT) 추론 데이터를 사용하여 소형 모델을 미세조정하는 Fine-tune-CoT 방법을 채택한다. 마지막으로 "과도한 사고" 현상을 해결하기 위해 동적 CoT 전략을 제안하며, 이는 훈련 중에 CoT 데이터를 적응적으로 주입하여 모델이 추론 단계에서 추론 능력을 유연하게 활용할 수 있도록 한다.

연구 배경 및 동기

문제 정의 및 중요성

다중모달 핵심구 예측(MMKP) 작업은 텍스트와 이미지를 포함하는 소셜 미디어 콘텐츠에 대해 간결하고 정보가 풍부한 핵심 구문(예: 해시태그)을 생성하는 것을 목표로 한다. 이 작업은 소셜 미디어 콘텐츠 이해, 추천 시스템 및 콘텐츠 분류 등의 응용에서 중요한 가치를 가진다.

기존 방법의 한계

전통적 다중모달 방법의 제한：M3H-ATT 및 MM-MKP와 같은 기존 방법은 주로 교차모달 융합 아키텍처 설계에 의존하지만 복잡한 시나리오에서 성능이 저조하다. 특히:
- 누락 시나리오(Absence Scenario): 예측된 핵심구가 입력 텍스트에 존재하지 않으며, 강력한 교차모달 상호작용 능력이 필요함
- 미학습 시나리오(Unseen Scenario): 예측된 핵심구가 훈련 집합에 나타나지 않으며, 모델의 강력한 일반화 능력이 필요함
데이터셋 문제: 공개 MMKP 데이터셋은 심각한 훈련-테스트 중복 문제를 가지고 있으며, 테스트 집합 핵심구의 97.32%가 훈련 집합에 나타나는 반면, 실제 운영 환경에서는 이 비율이 45.28%에 불과함
모델 능력 제한: 전통적 방법은 제한된 모델 용량과 세계 지식에 의해 제약을 받으며, 밈, 시사 등 외부 지식이 필요한 콘텐츠를 처리하기 어려움

핵심 기여

최초 체계적 연구: 저자의 지식으로는 다중모달 핵심구 예측 작업에서 VLMs의 잠재력을 포괄적으로 연구한 첫 번째 작업임
동적 CoT 전략: VLMs가 어려운 미학습 샘플에 대해 CoT 추론을 적응적으로 선택할 수 있도록 하는 동적 사고의 연쇄 전략을 제안하며, 효율적인 디코딩이 필요한 운영 환경에 더 적합함
데이터셋 재구성: 실제 분포에 더 부합하는 MMKP-V2 및 MMKP-360k 데이터셋 구축
포괄적 실험 검증: 여러 데이터셋에서 엄격한 분석을 수행하여 방법의 유효성과 견고성 검증

방법론 상세 설명

작업 정의

다중모달 입력(텍스트 T 및 이미지 I)이 주어졌을 때, MMKP 작업은 입력 콘텐츠의 핵심 정보를 요약할 수 있는 핵심 구문 집합 K = {k₁, k₂, ..., kₙ}을 생성하도록 요구한다.

전통적 방법 분석

전통적 다중모달 모델은 다중작업 손실 함수를 채택한다:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

여기서 첫 번째 항은 분류 손실이고 두 번째 항은 핵심구 생성 손실이다. 이 방법은 개방형 집합 생성 능력을 제한한다.

VLMs 기초 방법

1. 감독형 미세조정(SFT)

다중모달 콘텐츠를 입력 프롬프트로, 실제 핵심구를 응답으로 사용하며, 다음 토큰 예측 손실을 채택한다:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

다중모달 CoT 데이터를 구축하고 GPT-4o를 사용하여 추론 과정을 생성하며, 형식은 다음과 같다:

<think>thinking process</think><answer>keyphrases</answer>

손실 함수는:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

핵심 혁신: 동적 CoT 전략

동기

Fine-tune-CoT는 두 가지 문제를 가지고 있다:

과도한 사고 현상: 간단한 샘플에 대해 과도하게 일반적인 핵심구 생성
콘텐츠 중복: 동일한 핵심구를 가진 게시물이 매우 유사한 추론 경로를 획득함

방법 설계

동적 CoT는 SFT 손실에 따라 샘플을 간단한 것과 어려운 것으로 분류한다:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

여기서:

y^d = {
  y^c  if L_sft < γ
  y^s  if L_sft ≥ γ
}

샘플 손실이 임계값 γ보다 낮을 때 CoT 감독으로 전환되고, 그렇지 않으면 표준 SFT 감독을 사용한다.

실험 설정

데이터셋

MMKP 데이터셋: 53,701개의 영문 샘플, 훈련-테스트 중복률 97.32%
MMKP-V2 데이터셋: 재구성된 MMKP 데이터셋, 중복률 44.92%로 감소
MMKP-360k 데이터셋: 330,614개 훈련 샘플, 36,736개 테스트 샘플, 중복률 45.28%

평가 지표

MMKP 및 MMKP-V2: F1@1
MMKP-360k: F1@M (M은 모델이 예측한 핵심구의 수)

실험 구성

최적화기: AdamW
학습률: 5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
훈련 에포크: 2B/3B 매개변수 모델 5 에포크, 더 큰 모델 3 에포크
동적 CoT 임계값: γ = 0.4
CoT 데이터 생성: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

실험 결과

주요 결과 비교

모델	MMKP All	MMKP-V2 All	MMKP-V2 Absent	MMKP-V2 Unseen	MMKP-360k All	평균
MM-MKP (SOTA)	48.19	-	-	-	-	-
Qwen2.5-VL-7B 영샷	6.61	7.75	2.75	8.38	14.34	9.57
Qwen2.5-VL-7B SFT	60.83	30.49	20.90	7.90	43.70	45.01
Qwen2.5-VL-7B 동적 CoT	63.58	33.56	22.32	13.36	50.66	49.27

주요 발견

VLMs는 전통적 방법을 크게 능가함: SFT의 VLMs는 SOTA 다중모달 방법보다 20% 이상 향상됨
동적 CoT는 일반화를 효과적으로 향상시킴: 미학습 시나리오에서 20-30% 향상되며, 동시에 전체 성능 유지
추론 길이 대폭 감소: Fine-tune-CoT와 비교하여 동적 CoT는 38.48%의 계산 오버헤드 감소

소거 실험 결과

방법	MMKP-V2 All	MMKP-V2 Unseen	미학습 시나리오 향상
SFT 기준선	30.49	7.90	-
Fine-tune-CoT	33.53	13.42	+69.87%
다중작업	31.87	9.48	+20.00%
동적 CoT	33.56	12.24	+54.94%

결론 및 논의

주요 결론

VLMs는 다중모달 핵심구 예측 작업에서 강력한 잠재력을 보여주며, 전통적 방법을 크게 능가함
동적 CoT 전략은 공통 학습과 일반화 능력을 효과적으로 균형 있게 유지하며, 특히 미학습 시나리오에서 우수한 성능을 보임
실제 데이터 분포와 기존 벤치마크 간에 상당한 차이가 있으며, 더 현실적인 평가 방법이 필요함

한계

임계값 결정의 경험성: 동적 CoT의 임계값 γ는 여전히 경험적 설정이 필요하며, 자적응 전략의 효과가 미흡함
높은 계산 오버헤드: VLMs의 매개변수 수가 크며(2B+), 추론 오버헤드가 전통적 방법보다 높음
CoT 데이터 생성 비용: 고품질 CoT 데이터 생성에는 대량의 계산 리소스가 필요함

향후 방향

더 지능형의 동적 임계값 선택 전략 탐색
모델 압축 기술을 통한 추론 오버헤드 감소 연구
더 효율적인 CoT 데이터 생성 방법 개발

심층 평가

장점

정확한 문제 식별: 기존 벤치마크의 문제와 실제 시나리오의 과제를 정확히 파악함
영리한 방법 설계: 동적 CoT 전략은 추론 능력을 유지하면서 과도한 사고를 피함
포괄적이고 충분한 실험: 여러 데이터셋과 다양한 모델의 비교를 통해 방법의 견고성을 검증함
높은 실용 가치: 방법이 이미 ByteDance 운영 환경에 적용됨

부족한 점

이론적 분석 부족: 동적 CoT 전략에 대한 이론적 설명과 수렴성 분석이 부족함
제한된 인간 평가: 인간 평가 샘플이 적으며(각 데이터셋당 20개 샘플), 충분하지 않을 수 있음
교차 도메인 일반화 미검증: 학술 논문, 뉴스 등 다른 영역에서 방법의 유효성을 검증하지 않음

영향력

학술적 기여: VLMs의 MMKP 작업 적용을 최초로 체계적으로 연구하여 후속 연구의 기초를 마련함
실용적 가치: 운영 환경에 직접 적용 가능한 솔루션 제공
방법론적 영감: 동적 CoT 전략은 효율성과 성능의 균형이 필요한 다른 작업으로 확대 가능함

적용 시나리오

소셜 미디어 플랫폼: 자동 해시태그 및 라벨 생성
콘텐츠 추천 시스템: 다중모달 콘텐츠 이해를 통한 정확한 추천
광고 배치: 콘텐츠 핵심구 자동 추출을 통한 타겟 배치
콘텐츠 검수: 다중모달 콘텐츠 식별 및 분류 보조

참고문헌

본 논문은 다중모달 학습, 비전-언어 모델, 추론 능력 등 분야의 중요 연구를 인용하며, 연구에 견고한 이론적 기초를 제공한다. 특히 주목할 만한 것은 CLIP, GPT-4V, InternVL 등 대표적 모델과 CoT 추론 관련 최신 진전이다.

종합 평가: 이는 실제 문제를 정확히 식별하고 효과적인 해결책을 제시하며 여러 데이터셋에서 방법의 유효성을 검증한 고품질의 응용 연구 논문이다. 동적 CoT 전략의 설계는 영리하며, 모델의 추론 능력을 유지하면서 추론 효율성을 향상시키므로 매우 높은 실용 가치를 가진다. 논문의 주요 기여는 VLMs를 다중모달 핵심구 예측 작업에 성공적으로 적용하고 운영 환경에 적합한 최적화 전략을 제시한 것이다.