2025-11-16T13:43:12.593063

Training-Free Personalization via Retrieval and Reasoning on Fingerprints

Das, Talon, Wang et al.

Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.

academic

प्रशिक्षण-मुक्त व्यक्तिगतकरण फिंगरप्रिंट्स के माध्यम से पुनर्प्राप्ति और तर्क के द्वारा

मूल जानकारी

पेपर ID: 2503.18623
शीर्षक: Training-Free Personalization via Retrieval and Reasoning on Fingerprints
लेखक: Deepayan Das, Davide Talon, Yiming Wang, Massimiliano Mancini, Elisa Ricci
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन समय/सम्मेलन: arXiv 2025 (CVPR 2025 को प्रस्तुत)
पेपर लिंक: https://arxiv.org/abs/2503.18623

सारांश

यह पेपर R2P (Retrieval and Reasoning for Personalization) नामक एक नई विधि प्रस्तावित करता है, जो दृश्य-भाषा मॉडल (VLM) व्यक्तिगतकरण के क्षेत्र में पहली बार प्रशिक्षण-मुक्त सेटिंग की खोज करता है। यह विधि अवधारणा फिंगरप्रिंट्स (concept fingerprints) निकालकर उपयोगकर्ता-विशिष्ट अवधारणाओं को विशिष्ट रूप से परिभाषित करती है, क्वेरी समय पर सबसे समान फिंगरप्रिंट्स को पुनः प्राप्त करती है और श्रृंखला-विचार तर्क के माध्यम से स्कोरिंग करती है। मतिभ्रम जोखिम को कम करने के लिए, R2P विशेषता-स्तरीय क्रॉस-मोडल सत्यापन तंत्र प्रस्तुत करता है और आवश्यकतानुसार अवधारणा संबंध अनुकूलन के लिए जोड़ी गई बहु-मोडल मिलान का उपयोग करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा दृश्य-भाषा मॉडल, हालांकि बहु-मोडल तर्क में महत्वपूर्ण प्रगति की है, उपयोगकर्ता-विशिष्ट अवधारणाओं को समझने में कठिनाई का सामना करते हैं। उदाहरण के लिए, "मेरी चाबियां कहां हैं?" या "Fluffy क्या कर रहा है?" जैसे प्रश्नों के लिए, VLM इसमें व्यक्तिगत अवधारणाओं को समझने में कठिनाई पाता है।

अनुसंधान का महत्व

व्यक्तिगतकरण VLM को व्यावहारिक अनुप्रयोगों की ओर ले जाने का एक महत्वपूर्ण कदम है, जहां उपयोगकर्ताओं को मॉडल की आवश्यकता है जो उनकी व्यक्तिगत वस्तुओं, पालतू जानवरों, दोस्तों आदि जैसी विशिष्ट अवधारणाओं को पहचान और तर्क कर सके।

मौजूदा विधियों की सीमाएं

प्रशिक्षण निर्भरता: MyVLM और Yo'LLaVA जैसी मौजूदा व्यक्तिगतकरण विधियां प्रशिक्षण प्रक्रिया पर अत्यधिक निर्भर हैं, जिन्हें कई संदर्भ नमूने और विपरीत शिक्षा के लिए बड़ी संख्या में नकारात्मक नमूनों की आवश्यकता है।
उच्च लागत: नई अवधारणा जोड़ने के लिए हर बार महंगी सूक्ष्म-ट्यूनिंग प्रक्रिया की आवश्यकता होती है।
डेटा संग्रह में कठिनाई: बड़ी मात्रा में प्रशिक्षण डेटा संग्रह की आवश्यकता होती है, जो उपयोगकर्ताओं के लिए महंगा और असुविधाजनक दोनों है।

अनुसंधान प्रेरणा

लेखक एक महत्वपूर्ण प्रश्न उठाते हैं: चूंकि VLM पहले से ही वेब-स्केल प्रशिक्षण डेटा के माध्यम से लगभग सभी शब्दार्थ अवधारणाओं के संपर्क में आ चुके हैं, क्या VLM के आंतरिक ज्ञान का उपयोग करके प्रशिक्षण-मुक्त व्यक्तिगतकरण संभव है?

मुख्य योगदान

प्रशिक्षण-मुक्त व्यक्तिगतकरण की पहली खोज: VLM व्यक्तिगतकरण के क्षेत्र में पहली बार प्रशिक्षण-मुक्त सेटिंग का प्रस्ताव और कार्यान्वयन।
R2P ढांचा प्रस्तावित: पुनर्प्राप्ति-तर्क प्रतिमान पर आधारित नई विधि डिजाइन की गई, जो व्यक्तिगत अवधारणाओं को विशिष्ट रूप से पहचानने के लिए पाठ विशेषताओं को अवधारणा फिंगरप्रिंट्स के रूप में उपयोग करती है।
PerVA डेटासेट प्रस्तुत: दृश्य अस्पष्टता परिस्थितियों में व्यक्तिगतकरण विधियों का परीक्षण करने के लिए विशेष रूप से निर्मित नया बेंचमार्क डेटासेट।
SOTA प्रदर्शन प्राप्त: सभी बेंचमार्क परीक्षणों में लगातार मौजूदा विधियों को पार करते हुए, प्रशिक्षण-मुक्त विधि की प्रभावशीलता को प्रमाणित किया।

विधि विवरण

कार्य परिभाषा

उपयोगकर्ता द्वारा प्रदान किए गए संदर्भ छवि $I_i \in V$ , अवधारणा नाम $c_i \in T$ और श्रेणी $g_i \in T$ को देखते हुए, उपयोगकर्ता-विशिष्ट बहु-मोडल डेटाबेस $D$ का निर्माण करें। परीक्षण समय पर, क्वेरी छवि $Q \in V$ और पाठ प्रॉम्प्ट $P_q \in T$ दिए गए, VLM को व्यक्तिगत अवधारणाओं से संबंधित उत्तर प्रदान करना चाहिए।

मॉडल आर्किटेक्चर

R2P में दो मुख्य चरण हैं:

चरण एक: व्यक्तिगत डेटाबेस निर्माण

अवधारणा फिंगरप्रिंट निष्कर्षण:
```
{A_i, d_i} = Φ_VLM(P^V_D, P^T_D)
```
जहां $A_i$ $A_{i}$ फिंगरप्रिंट विशेषताओं की सूची है, $d_i$ $d_{i}$ संक्षिप्त विवरण है।
बहु-मोडल एन्कोडिंग:
- दृश्य एम्बेडिंग: $f^V_i = E_V(I_i)$
- पाठ एम्बेडिंग: $f^T_i = E_T(d_i)$

डेटाबेस निर्माण:

D = {I_i, c_i, g_i, d_i, A_i, f^V_i, f^T_i}^N_{i=1}

चरण दो: पुनर्प्राप्ति-तर्क आधारित अवधारणा अनुमान

बहु-मोडल अवधारणा पुनर्प्राप्ति:
```
s_{q,i} = \frac{1}{2}(s^{V,V}_{q,i} + s^{V,T}_{q,i})
```
शीर्ष-K उम्मीदवार अवधारणाएं $C_K$ $C_{K}$ चुनें।
विशेषता-केंद्रित CoT तर्क:
```
{A_{q,i}, ∀i ∈ C_k}, \tilde{c} = Φ_VLM(P^V_R, P^T_R)
```

क्रॉस-मोडल विशेषता सत्यापन:

s^{V,A}_{q,i} = \frac{1}{|A_{q,i}|} \sum_{a_j ∈ A_{q,i}} ⟨f^V_q, f^T_{a,j}⟩

जोड़ी गई तर्क (सत्यापन विफल होने पर):
```
p_i = \frac{λ^{Yes}_i}{λ^{Yes}_i + λ^{No}_i}
```

तकनीकी नवाचार बिंदु

अवधारणा फिंगरप्रिंट तंत्र: पहली बार VLM द्वारा निकाली गई सूक्ष्म-दानेदार विशेषताओं को अवधारणा के अद्वितीय पहचानकर्ता के रूप में उपयोग करने का प्रस्ताव।
बहु-स्तरीय सत्यापन रणनीति: CoT तर्क → विशेषता सत्यापन → जोड़ी गई तर्क की प्रगतिशील सत्यापन तंत्र डिजाइन किया।
क्रॉस-मोडल सामंजस्य जांच: पाठ तर्क परिणामों की तुलना दृश्य-पाठ संरेखण स्कोर से करके मतिभ्रम को कम करें।
प्रशिक्षण-मुक्त प्रतिमान: पूरी तरह से पूर्व-प्रशिक्षित VLM के आंतरिक ज्ञान पर निर्भर, किसी भी सूक्ष्म-ट्यूनिंग की आवश्यकता नहीं।

प्रायोगिक सेटअप

डेटासेट

MyVLM: 29 व्यक्तिगत अवधारणाएं
Yo'LLaVA: 40 अवधारणाएं, जिनमें वस्तुएं, व्यक्ति और भवन शामिल हैं।
PerVA (नया प्रस्तावित): 329 अवधारणाएं, 21 श्रेणियों में, 67,482 छवियां, दृश्य अस्पष्टता परिस्थितियों का परीक्षण करने के लिए विशेष रूप से डिजाइन किया गया।

मूल्यांकन मेट्रिक्स

पहचान कार्य: Recall (Pos. Acc.), Specificity (Neg. Acc.), Weighted Average (Wtd)
कैप्शन जनरेशन: Hard Recall - उत्पन्न कैप्शन में अवधारणा नाम दिखाई देने का अनुपात।
व्यक्तिगत VQA: उत्तर सटीकता

तुलनात्मक विधियां

MyVLM, Yo'LLaVA (प्रशिक्षण-आवश्यक विधियां)
RAP (पुनर्प्राप्ति-संवर्धित विधि)
GPT-4V + Vprompt
LLaVA, LLaVA + prompt
MiniCPM-o + prompt

कार्यान्वयन विवरण

आधार VLM: Mini-CPM-o-2.6
पुनर्प्राप्ति प्रणाली: FAISS
एन्कोडर: CLIP ViT-L/14-336
K मान सेटिंग: K=3

प्रायोगिक परिणाम

मुख्य परिणाम

MyVLM डेटासेट:

भारित सटीकता: 97.4% (सर्वश्रेष्ठ)
कैप्शन रिकॉल दर: 91.4%

Yo'LLaVA डेटासेट:

भारित सटीकता: 94.4% (+2.2% vs RAP)
कैप्शन रिकॉल दर: 87.1% (+5.5% दूसरी सर्वश्रेष्ठ विधि से अधिक)
VQA सटीकता: 96.5% (+3.3% vs RAP)

PerVA डेटासेट:

भारित सटीकता: 91.8% (+2.8% vs RAP)
कैप्शन रिकॉल दर: 72.5%
प्रशिक्षण विधियों की तुलना में महत्वपूर्ण लाभ: +29.6% vs MyVLM, +19.8% vs Yo'LLaVA

विलोपन प्रयोग

मुख्य घटक विश्लेषण (PerVA डेटासेट):

पूर्ण R2P: 91.8% Wtd, 72.5% Recall
फिंगरप्रिंट विशेषताओं के बिना: 86.5% Wtd, 62.2% Recall
केवल CoT तर्क: 84.7% Wtd, 62.8% Recall
मानव-परिभाषित विशेषताएं: 92.5% Wtd, 72.8% Recall

सत्यापन रणनीति तुलना:

विशेषता सत्यापन (यह पेपर): 72.5%
जोड़ी गई तर्क: 72.3%
कोई अनुमान नहीं: 71.2%
त्याग रणनीति: 70.7%

केस विश्लेषण

पेपर दृश्य-समान अवधारणाओं को संभालने में R2P की प्रभावशीलता प्रदर्शित करता है, जैसे विभिन्न T-शर्ट (CVPR vs ICCV लोगो), विशिष्ट मखमली खिलौनों की पहचान आदि। मॉडल मुख्य विशेषताओं (जैसे "CVPR लोगो", "round neck" आदि) के माध्यम से लक्ष्य अवधारणा को सटीक रूप से पहचान सकता है।

प्रायोगिक निष्कर्ष

फिंगरप्रिंट विशेषताओं का महत्व: VLM द्वारा उत्पन्न विशेषताएं मानव-परिभाषित विशेषताओं के लगभग समान प्रभाव दिखाती हैं।
बहु-मोडल पुनर्प्राप्ति लाभ: दृश्य और पाठ एम्बेडिंग को जोड़ने वाली पुनर्प्राप्ति रणनीति एकल-मोडल विधियों से बेहतर है।
सत्यापन तंत्र प्रभावशीलता: क्रॉस-मोडल विशेषता सत्यापन मतिभ्रम को प्रभावी रूप से कम कर सकता है और सटीकता में सुधार कर सकता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पहली बार VLM व्यक्तिगतकरण की प्रशिक्षण-मुक्त सेटिंग की व्यवहार्यता प्रमाणित की।
R2P अवधारणा फिंगरप्रिंट्स और पुनर्प्राप्ति-तर्क प्रतिमान के माध्यम से व्यक्तिगत अवधारणा पहचान समस्या को प्रभावी रूप से हल करता है।
कई बेंचमार्क परीक्षणों में अत्याधुनिक प्रदर्शन प्राप्त किया।

सीमाएं

कम्प्यूटेशनल ओवरहेड: हालांकि प्रशिक्षण की आवश्यकता नहीं है, अनुमान समय पर बहु-चरणीय सत्यापन प्रक्रिया में अभी भी कुछ कम्प्यूटेशनल लागत है।
परिदृश्य सीमाएं: कई समान अवधारणाओं वाले अव्यवस्थित परिदृश्यों में प्रदर्शन सीमित हो सकता है।
एकल छवि सीमा: वर्तमान में केवल एकल संदर्भ छवि के व्यक्तिगतकरण का समर्थन करता है।

भविष्य की दिशाएं

कम्प्यूटेशनल ओवरहेड को कम करें, अनुमान दक्षता में सुधार करें।
अव्यवस्थित परिदृश्यों में प्रदर्शन में सुधार करें।
बहु-संदर्भ छवि सेटिंग तक विस्तार करें।
अधिक अनुप्रयोग परिदृश्यों की खोज करें।

गहन मूल्यांकन

लाभ

मजबूत नवाचार: VLM व्यक्तिगतकरण की प्रशिक्षण-मुक्त सेटिंग की पहली खोज, अनुसंधान की एक नई दिशा खोलता है।
पूर्ण विधि: पूर्ण पुनर्प्राप्ति-तर्क-सत्यापन पाइपलाइन डिजाइन किया गया, तकनीकी समाधान परिपक्व है।
व्यापक प्रयोग: कई डेटासेट पर व्यापक मूल्यांकन, नई निर्मित चुनौतीपूर्ण डेटासेट सहित।
उत्कृष्ट प्रदर्शन: सभी बेंचमार्क परीक्षणों में SOTA प्रदर्शन प्राप्त किया।
उच्च व्यावहारिक मूल्य: प्रशिक्षण-मुक्त विशेषता विधि को तैनात करना और उपयोग करना आसान बनाती है।

कमियां

कम्प्यूटेशनल जटिलता: बहु-चरणीय तर्क प्रक्रिया वास्तविक अनुप्रयोगों में दक्षता समस्याएं पेश कर सकती है।
VLM गुणवत्ता पर निर्भरता: विधि की प्रभावशीलता काफी हद तक अंतर्निहित VLM की क्षमता पर निर्भर करती है।
विशेषता निष्कर्षण गुणवत्ता: VLM द्वारा उत्पन्न फिंगरप्रिंट विशेषताओं की गुणवत्ता पर्याप्त रूप से स्थिर नहीं हो सकती है।
स्केलेबिलिटी समस्याएं: अवधारणाओं की संख्या बढ़ने के साथ, पुनर्प्राप्ति और तर्क की जटिलता बढ़ेगी।

प्रभाव

शैक्षणिक योगदान: VLM व्यक्तिगतकरण क्षेत्र के लिए नया अनुसंधान प्रतिमान प्रदान करता है।
व्यावहारिक मूल्य: व्यक्तिगत VLM तैनाती के लिए प्रवेश बाधा को कम करता है।
पुनरुत्पादनशीलता: पेपर विस्तृत कार्यान्वयन विवरण और खुला-स्रोत प्रतिबद्धता प्रदान करता है।
प्रेरणा मूल्य: पूर्व-प्रशिक्षित मॉडल के आंतरिक ज्ञान का उपयोग करने की क्षमता को प्रमाणित करता है।

लागू परिदृश्य

व्यक्तिगत सहायक प्रणाली: उपयोगकर्ता प्रशिक्षण के बिना व्यक्तिगत अवधारणाएं जल्दी जोड़ सकते हैं।
स्मार्ट होम: उपयोगकर्ता की व्यक्तिगत वस्तुओं और पर्यावरण की पहचान करना।
शिक्षा अनुप्रयोग: व्यक्तिगत शिक्षा सामग्री पहचान।
ई-कॉमर्स सिफारिशें: उपयोगकर्ता की व्यक्तिगत पसंद के आधार पर उत्पाद पहचान।

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें MyVLM, Yo'LLaVA, RAP जैसी व्यक्तिगतकरण विधियां, और CLIP, LLaVA जैसे आधार मॉडल शामिल हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह VLM व्यक्तिगतकरण क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है, जो एक नवीन प्रशिक्षण-मुक्त विधि प्रस्तावित करता है, पूर्ण तकनीकी समाधान, व्यापक प्रायोगिक मूल्यांकन, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व के साथ। पेपर का मुख्य योगदान VLM के आंतरिक ज्ञान का उपयोग करके व्यक्तिगतकरण की व्यवहार्यता को प्रमाणित करना है, जो इस क्षेत्र के लिए अनुसंधान की एक नई दिशा खोलता है।