Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
다중모달 핵심구 예측(MMKP)은 다중모달 입력 정보를 통합하여 순수 텍스트 방법을 초월하는 결론적 구문 집합을 생성하는 것을 목표로 한다. 전통적인 다중모달 방법은 누락 시나리오와 미학습 시나리오 처리에 있어 상당한 한계를 보인다. 또한 기존 벤치마크는 훈련-테스트 집합의 심각한 중복으로 인해 모델 능력을 과대평가한다. 본 논문은 비전-언어 모델(VLMs)을 활용하여 MMKP 작업을 해결할 것을 제안한다. 먼저 영샷(zero-shot) 및 감독형 미세조정(SFT) 두 가지 전략으로 VLMs의 하한 성능을 평가한다. 다음으로 교사 모델이 생성한 고품질 사고의 연쇄(CoT) 추론 데이터를 사용하여 소형 모델을 미세조정하는 Fine-tune-CoT 방법을 채택한다. 마지막으로 "과도한 사고" 현상을 해결하기 위해 동적 CoT 전략을 제안하며, 이는 훈련 중에 CoT 데이터를 적응적으로 주입하여 모델이 추론 단계에서 추론 능력을 유연하게 활용할 수 있도록 한다.
다중모달 핵심구 예측(MMKP) 작업은 텍스트와 이미지를 포함하는 소셜 미디어 콘텐츠에 대해 간결하고 정보가 풍부한 핵심 구문(예: 해시태그)을 생성하는 것을 목표로 한다. 이 작업은 소셜 미디어 콘텐츠 이해, 추천 시스템 및 콘텐츠 분류 등의 응용에서 중요한 가치를 가진다.
본 논문은 다중모달 학습, 비전-언어 모델, 추론 능력 등 분야의 중요 연구를 인용하며, 연구에 견고한 이론적 기초를 제공한다. 특히 주목할 만한 것은 CLIP, GPT-4V, InternVL 등 대표적 모델과 CoT 추론 관련 최신 진전이다.
종합 평가: 이는 실제 문제를 정확히 식별하고 효과적인 해결책을 제시하며 여러 데이터셋에서 방법의 유효성을 검증한 고품질의 응용 연구 논문이다. 동적 CoT 전략의 설계는 영리하며, 모델의 추론 능력을 유지하면서 추론 효율성을 향상시키므로 매우 높은 실용 가치를 가진다. 논문의 주요 기여는 VLMs를 다중모달 핵심구 예측 작업에 성공적으로 적용하고 운영 환경에 적합한 최적화 전략을 제시한 것이다.