2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic

দৃষ্টি-ভাষা মডেলে গতিশীল চিন্তা-শৃঙ্খল দিয়ে বহুমোডাল কীওয়ার্ড পূর্বাভাস বৃদ্ধি করা

মৌলিক তথ্য

  • পেপার আইডি: 2510.09358
  • শিরোনাম: দৃষ্টি-ভাষা মডেলে গতিশীল চিন্তা-শৃঙ্খল দিয়ে বহুমোডাল কীওয়ার্ড পূর্বাভাস বৃদ্ধি করা
  • লেখক: কিহাং মা, শেংইউ লি, জিয়ে তাং, ডিংকাং ইয়াং, শাওডং চেন, ইংগিই ঝাং, চাও ফেং, জিয়াও রান
  • প্রতিষ্ঠান: বাইটডান্স ডাউইন কন্টেন্ট গ্রুপ
  • শ্রেণীবিভাগ: cs.CV
  • প্রকাশনার সময়: ২০২৫ সালের ১০ অক্টোবর (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.09358
  • কোড: https://github.com/bytedance/DynamicCoT

সারসংক্ষেপ

বহুমোডাল কীওয়ার্ড পূর্বাভাস (MMKP) বহুমোডাল ইনপুট তথ্য সমন্বয় করে বিশুদ্ধ পাঠ্য পদ্ধতির চেয়ে উন্নত, সিদ্ধান্তমূলক বাক্যাংশের একটি সেট তৈরি করার লক্ষ্য রাখে। ঐতিহ্যবাহী বহুমোডাল পদ্ধতিগুলি অনুপস্থিত দৃশ্য এবং অদেখা দৃশ্য পরিচালনায় উল্লেখযোগ্য সীমাবদ্ধতা রয়েছে। অধিকন্তু, বিদ্যমান বেঞ্চমার্কগুলি প্রশিক্ষণ পরীক্ষা সেট ওভারল্যাপের কারণে মডেল ক্ষমতা অতিরিক্ত মূল্যায়ন করে। এই পত্রটি MMKP কাজ সমাধানের জন্য দৃষ্টি-ভাষা মডেল (VLM) ব্যবহার করার প্রস্তাব দেয়। প্রথমে শূন্য-শট এবং তত্ত্বাবধানকৃত সূক্ষ্ম-সুর (SFT) উভয় কৌশল ব্যবহার করে VLM-এর নিম্ন সীমা কর্মক্ষমতা মূল্যায়ন করা হয়। এরপর Fine-tune-CoT পদ্ধতি গ্রহণ করা হয়, শিক্ষক মডেল দ্বারা উৎপাদিত উচ্চ-মানের CoT অনুমান ডেটা ব্যবহার করে ছোট মডেলগুলি সূক্ষ্ম-সুর করতে। অবশেষে, "অত্যধিক চিন্তা" ঘটনা সমাধানের জন্য, গতিশীল CoT কৌশল প্রস্তাব করা হয়, প্রশিক্ষণের সময় CoT ডেটা স্বয়ংক্রিয়ভাবে ইনজেক্ট করে, যাতে মডেল অনুমান পর্যায়ে অনুমান ক্ষমতা নমনীয়ভাবে প্রয়োগ করতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা এবং গুরুত্ব

বহুমোডাল কীওয়ার্ড পূর্বাভাস (MMKP) কাজটি পাঠ্য এবং চিত্র সমন্বিত সামাজিক মাধ্যম সামগ্রীর জন্য সংক্ষিপ্ত, তথ্যপূর্ণ কীওয়ার্ড বাক্যাংশ (যেমন হ্যাশট্যাগ) তৈরি করার লক্ষ্য রাখে। এই কাজটি সামাজিক মাধ্যম সামগ্রী বোঝা, সুপারিশ সিস্টেম এবং সামগ্রী শ্রেণীবিভাগ অ্যাপ্লিকেশনে গুরুত্বপূর্ণ মূল্য রয়েছে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. ঐতিহ্যবাহী বহুমোডাল পদ্ধতির সীমাবদ্ধতা: M3H-ATT এবং MM-MKP-এর মতো বিদ্যমান পদ্ধতিগুলি প্রধানত ক্রস-মোডাল ফিউশন আর্কিটেকচার ডিজাইনের উপর নির্ভর করে, কিন্তু জটিল দৃশ্যে খারাপ কর্মক্ষমতা প্রদর্শন করে, বিশেষত:
    • অনুপস্থিত দৃশ্য (Absence Scenario): পূর্বাভাসিত কীওয়ার্ডগুলি ইনপুট পাঠ্যে বিদ্যমান নেই, শক্তিশালী ক্রস-মোডাল মিথস্ক্রিয়া ক্ষমতা প্রয়োজন
    • অদেখা দৃশ্য (Unseen Scenario): পূর্বাভাসিত কীওয়ার্ডগুলি প্রশিক্ষণ সেটে উপস্থিত নেই, মডেলের শক্তিশালী সাধারণীকরণ ক্ষমতা প্রয়োজন
  2. ডেটাসেট সমস্যা: জনসাধারণের MMKP ডেটাসেটগুলিতে গুরুতর প্রশিক্ষণ-পরীক্ষা ওভারল্যাপ সমস্যা রয়েছে, ৯৭.৩২% পরীক্ষা সেট কীওয়ার্ড প্রশিক্ষণ সেটে উপস্থিত, যখন বাস্তব উৎপাদন পরিবেশে এই অনুপাত মাত্র ৪৫.২৮%
  3. মডেল ক্ষমতা সীমাবদ্ধতা: ঐতিহ্যবাহী পদ্ধতিগুলি সীমিত মডেল ক্ষমতা এবং বিশ্ব জ্ঞান দ্বারা সীমাবদ্ধ, মেম, সময়োপযোগী ঘটনা ইত্যাদি জড়িত সামগ্রী পরিচালনা করা কঠিন যা বাহ্যিক জ্ঞান প্রয়োজন

মূল অবদান

  1. প্রথম সিস্টেমেটিক গবেষণা: লেখকদের জ্ঞান অনুযায়ী, এটি বহুমোডাল কীওয়ার্ড পূর্বাভাস কাজে VLM-এর সম্ভাবনা সম্পূর্ণভাবে অধ্যয়ন করা প্রথম কাজ
  2. গতিশীল CoT কৌশল: গতিশীল চিন্তা-শৃঙ্খল কৌশল প্রস্তাব করা হয়েছে, যা VLM-গুলিকে কঠিন অদেখা নমুনাগুলির জন্য স্বয়ংক্রিয়ভাবে CoT অনুমান নির্বাচন করতে সক্ষম করে, উচ্চ-দক্ষ ডিকোডিং প্রয়োজনীয় উৎপাদন পরিবেশের জন্য আরও উপযুক্ত
  3. ডেটাসেট পুনর্নির্মাণ: আরও বাস্তব বিতরণের সাথে সামঞ্জস্যপূর্ণ MMKP-V2 এবং MMKP-360k ডেটাসেট তৈরি করা হয়েছে
  4. ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক ডেটাসেটে কঠোর বিশ্লেষণ পরিচালনা করা হয়েছে, পদ্ধতির কার্যকারিতা এবং দৃঢ়তা যাচাই করতে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

বহুমোডাল ইনপুট (পাঠ্য T এবং চিত্র I) দেওয়া, MMKP কাজটি কীওয়ার্ড বাক্যাংশের একটি সেট K = {k₁, k₂, ..., kₙ} তৈরি করার প্রয়োজন, যা ইনপুট সামগ্রীর মূল তথ্য সংক্ষিপ্ত করতে পারে।

ঐতিহ্যবাহী পদ্ধতি বিশ্লেষণ

ঐতিহ্যবাহী বহুমোডাল মডেলগুলি মাল্টি-টাস্ক লস ফাংশন ব্যবহার করে:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

যেখানে প্রথম পদটি শ্রেণীবিভাগ লস, দ্বিতীয় পদটি কীওয়ার্ড উৎপাদন লস। এই পদ্ধতি খোলা সেট উৎপাদন ক্ষমতা সীমাবদ্ধ করে।

VLM মৌলিক পদ্ধতি

১. তত্ত্বাবধানকৃত সূক্ষ্ম-সুর (SFT)

বহুমোডাল সামগ্রী ইনপুট প্রম্পট হিসাবে, প্রকৃত কীওয়ার্ড প্রতিক্রিয়া হিসাবে ব্যবহার করা হয়, পরবর্তী টোকেন পূর্বাভাস লস ব্যবহার করে:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

২. Fine-tune-CoT

বহুমোডাল CoT ডেটা তৈরি করা হয়, GPT-4o ব্যবহার করে অনুমান প্রক্রিয়া উৎপাদন করা হয়, বিন্যাস:

<think>thinking process</think><answer>keyphrases</answer>

লস ফাংশন:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

মূল উদ্ভাবন: গতিশীল CoT কৌশল

প্রেরণা

Fine-tune-CoT দুটি সমস্যা রয়েছে:

  1. অত্যধিক চিন্তা ঘটনা: সহজ নমুনাগুলির জন্য অত্যন্ত সাধারণ কীওয়ার্ড উৎপাদন করা
  2. সামগ্রী অপ্রয়োজনীয়তা: একই কীওয়ার্ডের পোস্টগুলি অত্যন্ত অনুরূপ অনুমান পথ পায়

পদ্ধতি ডিজাইন

গতিশীল CoT SFT লস অনুযায়ী নমুনাগুলিকে সহজ এবং কঠিন দুটি শ্রেণীতে বিভক্ত করে:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

যেখানে:

y^d = {
  y^c  if L_sft < γ
  y^s  if L_sft ≥ γ
}

যখন নমুনা লস থ্রেশহোল্ডের নিচে থাকে, তখন CoT তত্ত্বাবধানে স্যুইচ করা হয়; অন্যথায় মান SFT তত্ত্বাবধান ব্যবহার করা হয়।

পরীক্ষামূলক সেটআপ

ডেটাসেট

  1. MMKP ডেটাসেট: ৫৩,৭০১টি ইংরেজি নমুনা, প্রশিক্ষণ-পরীক্ষা ওভারল্যাপ হার ৯৭.৩২%
  2. MMKP-V2 ডেটাসেট: পুনর্নির্মিত MMKP ডেটাসেট, ওভারল্যাপ হার ৪৪.৯২%-এ হ্রাস
  3. MMKP-360k ডেটাসেট: ৩৩০,৬১৪ প্রশিক্ষণ নমুনা, ৩৬,৭৩৬ পরীক্ষা নমুনা, ওভারল্যাপ হার ৪৫.২৮%

মূল্যায়ন মেট্রিক্স

  • MMKP এবং MMKP-V2: F1@1
  • MMKP-360k: F1@M (M হল মডেল দ্বারা পূর্বাভাসিত কীওয়ার্ডের সংখ্যা)

পরীক্ষামূলক কনফিগারেশন

  • অপ্টিমাইজার: AdamW
  • শিক্ষার হার: ৫×10⁻⁵ (MMKP), ৩×10⁻⁵ (MMKP-360k)
  • প্রশিক্ষণ পর্যায়: 2B/3B প্যারামিটার মডেল 5 পর্যায়, বৃহত্তর মডেল 3 পর্যায়
  • গতিশীল CoT থ্রেশহোল্ড: γ = 0.4
  • CoT ডেটা উৎপাদন: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল তুলনা

মডেলMMKP AllMMKP-V2 AllMMKP-V2 AbsentMMKP-V2 UnseenMMKP-360k Allগড়
MM-MKP (SOTA)48.19-----
Qwen2.5-VL-7B শূন্য-শট6.617.752.758.3814.349.57
Qwen2.5-VL-7B SFT60.8330.4920.907.9043.7045.01
Qwen2.5-VL-7B গতিশীল CoT63.5833.5622.3213.3650.6649.27

মূল আবিষ্কার

  1. VLM-গুলি ঐতিহ্যবাহী পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত: SFT-এর VLM-গুলি SOTA বহুমোডাল পদ্ধতির চেয়ে ২০% এর বেশি উন্নতি করে
  2. গতিশীল CoT কার্যকরভাবে সাধারণীকরণ উন্নত করে: অদেখা দৃশ্যে ২০-৩০% উন্নতি, একই সাথে সামগ্রিক কর্মক্ষমতা বজায় রাখে
  3. অনুমান দৈর্ঘ্য উল্লেখযোগ্যভাবে হ্রাস: Fine-tune-CoT-এর তুলনায়, গতিশীল CoT ৩৮.৪৮% গণনা ওভারহেড হ্রাস করে

অ্যাবলেশন পরীক্ষার ফলাফল

পদ্ধতিMMKP-V2 AllMMKP-V2 Unseenঅদেখা দৃশ্য উন্নতি
SFT বেসলাইন30.497.90-
Fine-tune-CoT33.5313.42+69.87%
মাল্টি-টাস্ক31.879.48+20.00%
গতিশীল CoT33.5612.24+54.94%

সম্পর্কিত কাজ

সামাজিক মাধ্যম কীওয়ার্ড পূর্বাভাস

প্রাথমিক পদ্ধতিগুলি নিষ্কাশন, শ্রেণীবিভাগ এবং উৎপাদন তিনটি শ্রেণীতে বিভক্ত। LLM-গুলির উপস্থিতির পরে, বেশিরভাগ পদ্ধতি এখনও পাঠ্য ইনপুটের মধ্যে সীমাবদ্ধ। NoteLLM2 শূন্য-শট সংকোচনের জন্য MLLM ব্যবহার করে, কিন্তু আরও ব্যাপক এবং নির্ভুল কীওয়ার্ড উৎপাদন অন্বেষণ করেনি।

দৃষ্টি-ভাষা মডেল

প্রাথমিক যৌথ এম্বেডিং স্পেস (CLIP) থেকে উৎপাদনশীল মডেল (Flamingo, BLIP-2), তারপর বৃহৎ-স্কেল মডেল (GPT-4V, Qwen-VL, InternVL), VLM-গুলি ক্রস-মোডাল বোঝায় ক্রমাগত অগ্রগতি করছে।

অনুমান ক্ষমতা

অনুমান মডেলগুলি মনোযোগ আকর্ষণ করার সাথে সাথে, অনুমান সময় গণনা LLM-এর সম্ভাবনা মুক্ত করার একটি কার্যকর পদ্ধতি হিসাবে বিবেচিত হয়, ক্রমবর্ধমান গবেষণা অনুমান ক্ষমতা VLM-এ একীভূত করছে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. VLM-গুলি বহুমোডাল কীওয়ার্ড পূর্বাভাস কাজে শক্তিশালী সম্ভাবনা প্রদর্শন করে, ঐতিহ্যবাহী পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত
  2. গতিশীল CoT কৌশল কার্যকরভাবে সাধারণ শিক্ষা এবং সাধারণীকরণ ক্ষমতা ভারসাম্য রাখে, বিশেষত অদেখা দৃশ্যে চমৎকার কর্মক্ষমতা
  3. বাস্তব ডেটা বিতরণ বিদ্যমান বেঞ্চমার্ক থেকে উল্লেখযোগ্যভাবে আলাদা, আরও বাস্তব-ভিত্তিক মূল্যায়ন পদ্ধতির প্রয়োজন

সীমাবদ্ধতা

  1. থ্রেশহোল্ড নির্ধারণ অভিজ্ঞতামূলক: গতিশীল CoT-এ থ্রেশহোল্ড γ এখনও অভিজ্ঞতামূলক সেটিং প্রয়োজন, স্বয়ংক্রিয় কৌশল খারাপ ফলাফল দেয়
  2. গণনা ওভারহেড বড়: VLM-গুলির বড় প্যারামিটার (2B+), অনুমান ওভারহেড ঐতিহ্যবাহী পদ্ধতির চেয়ে বেশি
  3. CoT ডেটা খরচ বেশি: উচ্চ-মানের CoT ডেটা উৎপাদন বিশাল গণনা সম্পদ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

  1. আরও বুদ্ধিমান গতিশীল থ্রেশহোল্ড নির্বাচন কৌশল অন্বেষণ করা
  2. মডেল সংকোচন প্রযুক্তি অনুমান ওভারহেড হ্রাস করতে গবেষণা করা
  3. আরও দক্ষ CoT ডেটা উৎপাদন পদ্ধতি বিকাশ করা

গভীর মূল্যায়ন

শক্তি

  1. সমস্যা সনাক্তকরণ নির্ভুল: বিদ্যমান বেঞ্চমার্ক পরীক্ষার সমস্যা এবং বাস্তব দৃশ্যের চ্যালেঞ্জ সঠিকভাবে সনাক্ত করা
  2. পদ্ধতি ডিজাইন চতুর: গতিশীল CoT কৌশল অনুমান ক্ষমতা বজায় রাখে এবং অত্যধিক চিন্তা এড়ায়
  3. পরীক্ষা ব্যাপক এবং পর্যাপ্ত: একাধিক ডেটাসেট, একাধিক মডেলের তুলনা পদ্ধতির দৃঢ়তা যাচাই করে
  4. ব্যবহারিক মূল্য উচ্চ: পদ্ধতি ByteDance উৎপাদন পরিবেশে প্রয়োগ করা হয়েছে

অপূর্ণতা

  1. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: গতিশীল CoT কৌশলের তাত্ত্বিক ব্যাখ্যা এবং সংগ্রহ বিশ্লেষণ অভাব
  2. মানব মূল্যায়ন সীমিত: মানব মূল্যায়ন নমুনা কম (প্রতি ডেটাসেট ২০টি নমুনা), যথেষ্ট নাও হতে পারে
  3. ক্রস-ডোমেইন সাধারণীকরণ যাচাই করা হয়নি: অন্যান্য ক্ষেত্রে (যেমন একাডেমিক পেপার, সংবাদ) পদ্ধতির কার্যকারিতা যাচাই করা হয়নি

প্রভাব

  1. একাডেমিক অবদান: MMKP কাজে VLM-এর প্রয়োগ প্রথমবারের মতো সিস্টেমেটিকভাবে অধ্যয়ন করা, পরবর্তী গবেষণার ভিত্তি স্থাপন করা
  2. ব্যবহারিক মূল্য: উৎপাদন পরিবেশে সরাসরি প্রয়োগযোগ্য সমাধান প্রদান করা
  3. পদ্ধতি অনুপ্রেরণা: গতিশীল CoT কৌশল দক্ষতা এবং কর্মক্ষমতা ভারসাম্য প্রয়োজনীয় অন্যান্য কাজে প্রসারিত করা যায়

প্রযোজ্য দৃশ্য

  1. সামাজিক মাধ্যম প্ল্যাটফর্ম: স্বয়ংক্রিয়ভাবে হ্যাশট্যাগ এবং লেবেল উৎপাদন করা
  2. সামগ্রী সুপারিশ সিস্টেম: নির্ভুল সুপারিশের জন্য বহুমোডাল সামগ্রী বোঝা
  3. বিজ্ঞাপন প্রচার: লক্ষ্যবস্তু প্রচারের জন্য স্বয়ংক্রিয়ভাবে সামগ্রী কীওয়ার্ড নিষ্কাশন করা
  4. সামগ্রী পর্যালোচনা: বহুমোডাল সামগ্রী সনাক্ত এবং শ্রেণীবিভাগ সহায়তা করা

রেফারেন্স

এই পত্রটি বহুমোডাল শিক্ষা, দৃষ্টি-ভাষা মডেল, অনুমান ক্ষমতা এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে। বিশেষভাবে মনোযোগ দেওয়ার যোগ্য CLIP, GPT-4V, InternVL-এর মতো প্রতিনিধিত্বশীল মডেল, এবং CoT অনুমান সম্পর্কিত সর্বশেষ অগ্রগতি।


সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের প্রয়োগ গবেষণা পত্র, যা বাস্তব সমস্যা সঠিকভাবে সনাক্ত করে, কার্যকর সমাধান প্রস্তাব করে এবং একাধিক ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করে। গতিশীল CoT কৌশলের ডিজাইন চতুর, মডেলের অনুমান ক্ষমতা বজায় রাখে এবং অনুমান দক্ষতা উন্নত করে, অত্যন্ত ব্যবহারিক মূল্য রয়েছে। পত্রটির প্রধান অবদান VLM-গুলিকে বহুমোডাল কীওয়ার্ড পূর্বাভাস কাজে সফলভাবে প্রয়োগ করা এবং উৎপাদন পরিবেশের জন্য অপ্টিমাইজেশন কৌশল প্রস্তাব করা।