2025-11-16T13:43:12.593063

Training-Free Personalization via Retrieval and Reasoning on Fingerprints

Das, Talon, Wang et al.

Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.

academic

প্রশিক্ষণ-মুক্ত ব্যক্তিগতকরণ: ফিঙ্গারপ্রিন্টের মাধ্যমে পুনরুদ্ধার এবং যুক্তিবিদ্যা

মৌলিক তথ্য

পেপার আইডি: 2503.18623
শিরোনাম: Training-Free Personalization via Retrieval and Reasoning on Fingerprints
লেখক: Deepayan Das, Davide Talon, Yiming Wang, Massimiliano Mancini, Elisa Ricci
শ্রেণীবিভাগ: cs.CV (কম্পিউটার দৃষ্টিভঙ্গি)
প্রকাশনা সময়/সম্মেলন: arXiv 2025 (CVPR 2025-এ জমা দেওয়া)
পেপার লিঙ্ক: https://arxiv.org/abs/2503.18623

সারসংক্ষেপ

এই পেপারটি R2P (Retrieval and Reasoning for Personalization) নামক একটি নতুন পদ্ধতি প্রস্তাব করে, যা ভিজ্যুয়াল ভাষা মডেল (VLM) ব্যক্তিগতকরণের ক্ষেত্রে প্রথমবারের মতো প্রশিক্ষণ-মুক্ত সেটিং অন্বেষণ করে। এই পদ্ধতিটি ধারণা ফিঙ্গারপ্রিন্ট (concept fingerprint) নিষ্কাশনের মাধ্যমে ব্যবহারকারী-নির্দিষ্ট ধারণাগুলিকে অনন্যভাবে সংজ্ঞায়িত করে, অনুসন্ধানের সময় সবচেয়ে অনুরূপ ফিঙ্গারপ্রিন্টগুলি পুনরুদ্ধার করে এবং চেইন-অফ-থট যুক্তিবিদ্যার মাধ্যমে স্কোর করে। হ্যালুসিনেশনের ঝুঁকি কমাতে, R2P বৈশিষ্ট্য-স্তরের ক্রস-মোডাল যাচাইকরণ প্রক্রিয়া প্রবর্তন করে এবং প্রয়োজনে ধারণা সংযোগ অপ্টিমাইজেশনের জন্য জোড়া মাল্টিমোডাল ম্যাচিং ব্যবহার করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান ভিজ্যুয়াল ভাষা মডেলগুলি মাল্টিমোডাল যুক্তিবিদ্যায় উল্লেখযোগ্য অগ্রগতি অর্জন করেছে, তবুও ব্যবহারকারী-নির্দিষ্ট ধারণাগুলি বোঝার ক্ষেত্রে অসুবিধা রয়েছে। উদাহরণস্বরূপ, "আমার চাবি কোথায়?" বা "ফ্লাফি কী করছে?" এর মতো প্রশ্নের জন্য, VLM এতে থাকা ব্যক্তিগত ধারণাগুলি বুঝতে কঠিন সময় পায়।

গবেষণার গুরুত্ব

ব্যক্তিগতকরণ হল VLM-কে ব্যবহারিক হয়ে তোলার একটি মূল পদক্ষেপ, যেখানে ব্যবহারকারীদের মডেলটি তাদের ব্যক্তিগত বস্তু, পোষা প্রাণী, বন্ধু এবং অন্যান্য নির্দিষ্ট ধারণাগুলি চিনতে এবং যুক্তি করতে সক্ষম হতে হবে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

প্রশিক্ষণ নির্ভরতা: MyVLM এবং Yo'LLaVA-এর মতো বিদ্যমান ব্যক্তিগতকরণ পদ্ধতিগুলি প্রশিক্ষণ প্রক্রিয়ার উপর অত্যন্ত নির্ভরশীল, যার জন্য একাধিক রেফারেন্স নমুনা এবং বৈপরীত্যমূলক শিক্ষার জন্য বিপুল সংখ্যক নেতিবাচক নমুনা প্রয়োজন
উচ্চ খরচ: প্রতিটি নতুন ধারণা যোগ করার জন্য ব্যয়বহুল সূক্ষ্ম-সুর প্রক্রিয়া প্রয়োজন
ডেটা সংগ্রহের অসুবিধা: বিপুল পরিমাণ প্রশিক্ষণ ডেটা সংগ্রহ করতে হয়, যা ব্যবহারকারীদের জন্য ব্যয়বহুল এবং অসুবিধাজনক উভয়ই

গবেষণার প্রেরণা

লেখকরা একটি মূল প্রশ্ন উত্থাপন করেন: যেহেতু VLM ইতিমধ্যে ওয়েব-স্কেল প্রশিক্ষণ ডেটার মাধ্যমে প্রায় সমস্ত শব্দার্থিক ধারণার সাথে যোগাযোগ করেছে, তাহলে কি VLM-এর অভ্যন্তরীণ জ্ঞান ব্যবহার করে প্রশিক্ষণ-মুক্ত ব্যক্তিগতকরণ সম্ভব?

মূল অবদান

প্রথম প্রশিক্ষণ-মুক্ত ব্যক্তিগতকরণ অন্বেষণ: VLM ব্যক্তিগতকরণের ক্ষেত্রে প্রথমবারের মতো প্রশিক্ষণ-মুক্ত সেটিং প্রস্তাব এবং বাস্তবায়ন করা
R2P ফ্রেমওয়ার্ক প্রস্তাব: পুনরুদ্ধার-যুক্তিবিদ্যা প্যারাডাইমের উপর ভিত্তি করে একটি নতুন পদ্ধতি ডিজাইন করা, যা ব্যক্তিগত ধারণাগুলিকে অনন্যভাবে চিহ্নিত করতে পাঠ্য বৈশিষ্ট্যগুলিকে ধারণা ফিঙ্গারপ্রিন্ট হিসাবে ব্যবহার করে
PerVA ডেটাসেট প্রবর্তন: ভিজ্যুয়াল অস্পষ্টতার পরিস্থিতিতে ব্যক্তিগতকরণ পদ্ধতি পরীক্ষা করার জন্য বিশেষভাবে তৈরি একটি নতুন বেঞ্চমার্ক ডেটাসেট নির্মাণ
SOTA কর্মক্ষমতা অর্জন: সমস্ত বেঞ্চমার্ক পরীক্ষায় ধারাবাহিকভাবে বিদ্যমান পদ্ধতিগুলিকে অতিক্রম করা, প্রশিক্ষণ-মুক্ত পদ্ধতির কার্যকারিতা প্রমাণ করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ব্যবহারকারী দ্বারা প্রদত্ত রেফারেন্স ইমেজ $I_i \in V$ , ধারণার নাম $c_i \in T$ এবং বিভাগ $g_i \in T$ দেওয়া হলে, ব্যবহারকারী-নির্দিষ্ট মাল্টিমোডাল ডেটাবেস $D$ তৈরি করা। পরীক্ষার সময়, অনুসন্ধান ইমেজ $Q \in V$ এবং পাঠ্য প্রম্পট $P_q \in T$ দেওয়া হলে, VLM ব্যক্তিগত ধারণার সাথে সম্পর্কিত উত্তর প্রদান করা উচিত।

মডেল আর্কিটেকচার

R2P দুটি প্রধান পর্যায় নিয়ে গঠিত:

পর্যায় এক: ব্যক্তিগত ডেটাবেস তৈরি

ধারণা ফিঙ্গারপ্রিন্ট নিষ্কাশন:
```
{A_i, d_i} = Φ_VLM(P^V_D, P^T_D)
```
যেখানে $A_i$ $A_{i}$ হল ফিঙ্গারপ্রিন্ট বৈশিষ্ট্যের তালিকা এবং $d_i$ $d_{i}$ হল সংক্ষিপ্ত বর্ণনা
মাল্টিমোডাল এনকোডিং:
- ভিজ্যুয়াল এম্বেডিং: $f^V_i = E_V(I_i)$
- পাঠ্য এম্বেডিং: $f^T_i = E_T(d_i)$

ডেটাবেস নির্মাণ:

D = {I_i, c_i, g_i, d_i, A_i, f^V_i, f^T_i}^N_{i=1}

পর্যায় দুই: পুনরুদ্ধার-যুক্তিবিদ্যা-ভিত্তিক ধারণা অনুমান

মাল্টিমোডাল ধারণা পুনরুদ্ধার:
```
s_{q,i} = \frac{1}{2}(s^{V,V}_{q,i} + s^{V,T}_{q,i})
```
শীর্ষ-K প্রার্থী ধারণা $C_K$ $C_{K}$ নির্বাচন করা
বৈশিষ্ট্য-কেন্দ্রিক CoT যুক্তিবিদ্যা:
```
{A_{q,i}, ∀i ∈ C_k}, \tilde{c} = Φ_VLM(P^V_R, P^T_R)
```

ক্রস-মোডাল বৈশিষ্ট্য যাচাইকরণ:

s^{V,A}_{q,i} = \frac{1}{|A_{q,i}|} \sum_{a_j ∈ A_{q,i}} ⟨f^V_q, f^T_{a,j}⟩

জোড়া যুক্তিবিদ্যা (যাচাইকরণ ব্যর্থ হলে):
```
p_i = \frac{λ^{Yes}_i}{λ^{Yes}_i + λ^{No}_i}
```

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ধারণা ফিঙ্গারপ্রিন্ট প্রক্রিয়া: প্রথমবারের মতো VLM দ্বারা নিষ্কাশিত সূক্ষ্ম-দানাদার বৈশিষ্ট্যগুলিকে ধারণার অনন্য শনাক্তকারী হিসাবে ব্যবহার করা
বহু-স্তরীয় যাচাইকরণ কৌশল: CoT যুক্তিবিদ্যা → বৈশিষ্ট্য যাচাইকরণ → জোড়া যুক্তিবিদ্যার ক্রমবর্ধমান যাচাইকরণ প্রক্রিয়া ডিজাইন করা
ক্রস-মোডাল সামঞ্জস্য পরীক্ষা: পাঠ্য যুক্তিবিদ্যার ফলাফলের সাথে ভিজ্যুয়াল-পাঠ্য সারিবদ্ধতা স্কোর তুলনা করে হ্যালুসিনেশন হ্রাস করা
প্রশিক্ষণ-মুক্ত প্যারাডাইম: সম্পূর্ণভাবে প্রাক-প্রশিক্ষিত VLM-এর অভ্যন্তরীণ জ্ঞানের উপর নির্ভর করা, কোনো সূক্ষ্ম-সুর প্রয়োজন নেই

পরীক্ষামূলক সেটআপ

ডেটাসেট

MyVLM: 29টি ব্যক্তিগত ধারণা
Yo'LLaVA: 40টি ধারণা, যার মধ্যে রয়েছে বস্তু, ব্যক্তি এবং স্থাপত্য
PerVA (নতুন প্রস্তাবিত): 329টি ধারণা, 21টি বিভাগ জুড়ে, 67,482টি ইমেজ, ভিজ্যুয়াল অস্পষ্টতার পরিস্থিতি পরীক্ষা করার জন্য বিশেষভাবে ডিজাইন করা

মূল্যায়ন মেট্রিক্স

শনাক্তকরণ কাজ: Recall (Pos. Acc.), Specificity (Neg. Acc.), Weighted Average (Wtd)
ক্যাপশন প্রজন্ম: Hard Recall - উৎপন্ন ক্যাপশনে ধারণার নাম উপস্থিত হওয়ার অনুপাত
ব্যক্তিগত VQA: উত্তর নির্ভুলতা

তুলনামূলক পদ্ধতি

MyVLM, Yo'LLaVA (প্রশিক্ষণ-প্রয়োজনীয় পদ্ধতি)
RAP (পুনরুদ্ধার-বর্ধিত পদ্ধতি)
GPT-4V + Vprompt
LLaVA, LLaVA + prompt
MiniCPM-o + prompt

বাস্তবায়ন বিবরণ

ভিত্তি VLM: Mini-CPM-o-2.6
পুনরুদ্ধার সিস্টেম: FAISS
এনকোডার: CLIP ViT-L/14-336
K মান সেটিং: K=3

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

MyVLM ডেটাসেট:

ওজনযুক্ত নির্ভুলতা: 97.4% (সর্বোত্তম)
ক্যাপশন রিকল হার: 91.4%

Yo'LLaVA ডেটাসেট:

ওজনযুক্ত নির্ভুলতা: 94.4% (+2.2% vs RAP)
ক্যাপশন রিকল হার: 87.1% (+5.5% দ্বিতীয় সেরা পদ্ধতির চেয়ে)
VQA নির্ভুলতা: 96.5% (+3.3% vs RAP)

PerVA ডেটাসেট:

ওজনযুক্ত নির্ভুলতা: 91.8% (+2.8% vs RAP)
ক্যাপশন রিকল হার: 72.5%
প্রশিক্ষণ পদ্ধতির তুলনায় উল্লেখযোগ্য সুবিধা: +29.6% vs MyVLM, +19.8% vs Yo'LLaVA

অ্যাবলেশন পরীক্ষা

প্রধান উপাদান বিশ্লেষণ (PerVA ডেটাসেট):

সম্পূর্ণ R2P: 91.8% Wtd, 72.5% Recall
ফিঙ্গারপ্রিন্ট বৈশিষ্ট্য ছাড়া: 86.5% Wtd, 62.2% Recall
শুধুমাত্র CoT যুক্তিবিদ্যা: 84.7% Wtd, 62.8% Recall
মানব-সংজ্ঞায়িত বৈশিষ্ট্য: 92.5% Wtd, 72.8% Recall

যাচাইকরণ কৌশল তুলনা:

বৈশিষ্ট্য যাচাইকরণ (এই পেপার): 72.5%
জোড়া যুক্তিবিদ্যা: 72.3%
অনুমান ছাড়া: 71.2%
পরিত্যাগ কৌশল: 70.7%

কেস বিশ্লেষণ

পেপারটি ভিজ্যুয়ালি অনুরূপ ধারণাগুলি পরিচালনায় R2P-এর কার্যকারিতা প্রদর্শন করে, যেমন বিভিন্ন টি-শার্ট (CVPR বনাম ICCV লোগো), নির্দিষ্ট পশম খেলনা চিনতে ইত্যাদি। মডেল মূল বৈশিষ্ট্যগুলির মাধ্যমে (যেমন "CVPR লোগো", "গোল নেক" ইত্যাদি) লক্ষ্য ধারণা সঠিকভাবে চিহ্নিত করতে পারে।

পরীক্ষামূলক অনুসন্ধান

ফিঙ্গারপ্রিন্ট বৈশিষ্ট্যের গুরুত্ব: VLM দ্বারা উৎপন্ন বৈশিষ্ট্যগুলি মানব-সংজ্ঞায়িত বৈশিষ্ট্যগুলির সাথে প্রায় সমান কার্যকর
মাল্টিমোডাল পুনরুদ্ধারের সুবিধা: ভিজ্যুয়াল এবং পাঠ্য এম্বেডিং সংমিশ্রণ করা পুনরুদ্ধার কৌশল একক-মোডাল পদ্ধতির চেয়ে উন্নত
যাচাইকরণ প্রক্রিয়ার কার্যকারিতা: ক্রস-মোডাল বৈশিষ্ট্য যাচাইকরণ কার্যকরভাবে হ্যালুসিনেশন হ্রাস করতে এবং নির্ভুলতা বৃদ্ধি করতে পারে

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

প্রথমবারের মতো প্রমাণ করা হয়েছে যে VLM ব্যক্তিগতকরণের প্রশিক্ষণ-মুক্ত সেটিং সম্ভব
R2P ধারণা ফিঙ্গারপ্রিন্ট এবং পুনরুদ্ধার-যুক্তিবিদ্যা প্যারাডাইমের মাধ্যমে ব্যক্তিগত ধারণা শনাক্তকরণ সমস্যা কার্যকরভাবে সমাধান করে
একাধিক বেঞ্চমার্ক পরীক্ষায় অত্যাধুনিক কর্মক্ষমতা অর্জন করা

সীমাবদ্ধতা

গণনামূলক ওভারহেড: যদিও প্রশিক্ষণের প্রয়োজন নেই, অনুমানের সময়ের বহু-পদক্ষেপ যাচাইকরণ প্রক্রিয়া এখনও নির্দিষ্ট গণনামূলক খরচ রয়েছে
দৃশ্য সীমাবদ্ধতা: একাধিক অনুরূপ ধারণা সহ জটিল দৃশ্যে কর্মক্ষমতা সীমাবদ্ধ হতে পারে
একক-ইমেজ সীমাবদ্ধতা: বর্তমানে শুধুমাত্র একক রেফারেন্স ইমেজের ব্যক্তিগতকরণ সমর্থন করে

ভবিষ্যত দিকনির্দেশনা

গণনামূলক ওভারহেড হ্রাস করা, অনুমানের দক্ষতা উন্নত করা
জটিল দৃশ্যে কর্মক্ষমতা উন্নত করা
বহু-রেফারেন্স ইমেজ সেটিংয়ে সম্প্রসারণ করা
আরও অনেক প্রয়োগ দৃশ্য অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: VLM ব্যক্তিগতকরণের প্রশিক্ষণ-মুক্ত সেটিং প্রথমবারের মতো অন্বেষণ করা, গবেষণার একটি নতুন দিক উন্মোচন করা
সম্পূর্ণ পদ্ধতি: সম্পূর্ণ পুনরুদ্ধার-যুক্তিবিদ্যা-যাচাইকরণ পাইপলাইন ডিজাইন করা, প্রযুক্তিগত সমাধান পরিপক্ক
ব্যাপক পরীক্ষা: একাধিক ডেটাসেটে ব্যাপক মূল্যায়ন পরিচালনা করা, নতুন নির্মিত চ্যালেঞ্জিং ডেটাসেট সহ
উৎকৃষ্ট কর্মক্ষমতা: সমস্ত বেঞ্চমার্ক পরীক্ষায় SOTA কর্মক্ষমতা অর্জন করা
উচ্চ ব্যবহারিক মূল্য: প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য পদ্ধতিটি আরও সহজে স্থাপন এবং ব্যবহার করা যায়

অপূর্ণতা

গণনামূলক জটিলতা: বহু-পদক্ষেপ যুক্তিবিদ্যা প্রক্রিয়া বাস্তব প্রয়োগে দক্ষতা সমস্যা সৃষ্টি করতে পারে
VLM গুণমানের উপর নির্ভরতা: পদ্ধতির কার্যকারিতা অনেকাংশে অন্তর্নিহিত VLM-এর ক্ষমতার উপর নির্ভর করে
বৈশিষ্ট্য নিষ্কাশন গুণমান: VLM দ্বারা উৎপন্ন ফিঙ্গারপ্রিন্ট বৈশিষ্ট্যের গুণমান যথেষ্ট স্থিতিশীল নাও হতে পারে
স্কেলেবিলিটি সমস্যা: ধারণার সংখ্যা বৃদ্ধির সাথে সাথে, পুনরুদ্ধার এবং যুক্তিবিদ্যার জটিলতা বৃদ্ধি পাবে

প্রভাব

একাডেমিক অবদান: VLM ব্যক্তিগতকরণ ক্ষেত্রে একটি নতুন গবেষণা প্যারাডাইম প্রদান করা
ব্যবহারিক মূল্য: ব্যক্তিগত VLM স্থাপনের প্রবেশদ্বার হ্রাস করা
পুনরুৎপাদনযোগ্যতা: পেপারটি বিস্তারিত বাস্তবায়ন বিবরণ এবং ওপেন-সোর্স প্রতিশ্রুতি প্রদান করে
অনুপ্রেরণামূলক তাৎপর্য: প্রাক-প্রশিক্ষিত মডেলের অভ্যন্তরীণ জ্ঞান ব্যবহারের সম্ভাবনা প্রমাণ করা

প্রযোজ্য দৃশ্য

ব্যক্তিগত সহায়ক সিস্টেম: ব্যবহারকারীরা প্রশিক্ষণ ছাড়াই দ্রুত ব্যক্তিগত ধারণা যোগ করতে পারে
স্মার্ট হোম: ব্যবহারকারীর ব্যক্তিগত বস্তু এবং পরিবেশ চিনতে পারা
শিক্ষা প্রয়োগ: ব্যক্তিগত শিক্ষা সামগ্রী শনাক্তকরণ
ই-কমার্স সুপারিশ: ব্যবহারকারীর ব্যক্তিগত পছন্দের উপর ভিত্তি করে পণ্য শনাক্তকরণ

রেফারেন্স

পেপারটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজগুলি উদ্ধৃত করে, যার মধ্যে রয়েছে MyVLM, Yo'LLaVA, RAP এবং অন্যান্য ব্যক্তিগতকরণ পদ্ধতি, এবং CLIP, LLaVA এবং অন্যান্য ভিত্তি মডেল, যা গবেষণার জন্য একটি শক্তিশালী তাত্ত্বিক ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, যা VLM ব্যক্তিগতকরণ ক্ষেত্রে একটি উদ্ভাবনী প্রশিক্ষণ-মুক্ত পদ্ধতি প্রস্তাব করে, সম্পূর্ণ প্রযুক্তিগত সমাধান, ব্যাপক পরীক্ষামূলক মূল্যায়ন এবং উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে। পেপারের প্রধান অবদান হল প্রমাণ করা যে VLM-এর অভ্যন্তরীণ জ্ঞান ব্যবহার করে ব্যক্তিগতকরণ সম্ভব, যা এই ক্ষেত্রে গবেষণার একটি নতুন দিক উন্মোচন করে।