2025-11-16T13:43:12.593063

Training-Free Personalization via Retrieval and Reasoning on Fingerprints

Das, Talon, Wang et al.

Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.

academic

التخصيص الخالي من التدريب عبر الاسترجاع والاستدلال على بصمات المفاهيم

المعلومات الأساسية

معرّف الورقة: 2503.18623
العنوان: Training-Free Personalization via Retrieval and Reasoning on Fingerprints
المؤلفون: Deepayan Das, Davide Talon, Yiming Wang, Massimiliano Mancini, Elisa Ricci
التصنيف: cs.CV (رؤية الحاسوب)
وقت النشر/المؤتمر: arXiv 2025 (مُرسلة إلى CVPR 2025)
رابط الورقة: https://arxiv.org/abs/2503.18623

الملخص

تقترح هذه الورقة طريقة جديدة تُسمى R2P (الاسترجاع والاستدلال للتخصيص)، وهي تستكشف لأول مرة الإعداد الخالي من التدريب في مجال تخصيص نماذج اللغة والرؤية (VLM). تعمل الطريقة على استخراج بصمات مفاهيم (concept fingerprint) لتحديد المفاهيم الخاصة بالمستخدم بشكل فريد، واسترجاع أكثر البصمات تشابهاً عند الاستعلام والتصنيف من خلال استدلال سلسلة الفكر. لتقليل مخاطر الهلوسة، يقدم R2P آلية التحقق عبر الأنماط على مستوى الخصائص، واستخدام المطابقة متعددة الأنماط الثنائية لتحسين ربط المفاهيم عند الحاجة.

الخلفية البحثية والدافع

تعريف المشكلة

على الرغم من أن نماذج اللغة والرؤية الحالية حققت تقدماً كبيراً في الاستدلال متعدد الأنماط، إلا أنها تواجه صعوبات في فهم المفاهيم الخاصة بالمستخدم. على سبيل المثال، بالنسبة لأسئلة مثل "أين مفاتيحي؟" أو "ماذا يفعل Fluffy؟"، يصعب على VLM فهم هذه المفاهيم الشخصية.

أهمية البحث

يعتبر التخصيص خطوة حاسمة نحو جعل VLM عملياً، حيث يحتاج المستخدمون إلى نماذج قادرة على التعرف والاستدلال حول مفاهيمهم الشخصية مثل الأشياء الشخصية والحيوانات الأليفة والأصدقاء.

قيود الطرق الموجودة

الاعتماد على التدريب: تعتمد الطرق الموجودة مثل MyVLM و Yo'LLaVA بشكل كبير على عملية التدريب، وتتطلب عينات مرجعية متعددة وعينات سلبية كثيرة للتعلم المقارن
التكاليف العالية: يتطلب إضافة مفهوم جديد عملية ضبط دقيق مكلفة
صعوبة جمع البيانات: يتطلب جمع كميات كبيرة من بيانات التدريب، وهو أمر مكلف وغير مريح للمستخدمين

دافع البحث

يطرح المؤلفون سؤالاً أساسياً: بما أن VLM قد تعرضت بالفعل لجميع المفاهيم الدلالية تقريباً من خلال بيانات التدريب على نطاق الويب، هل يمكن الاستفادة من المعرفة الداخلية لـ VLM لتحقيق التخصيص الخالي من التدريب؟

المساهمات الأساسية

استكشاف التخصيص الخالي من التدريب لأول مرة: تقديم وتنفيذ الإعداد الخالي من التدريب لأول مرة في مجال تخصيص VLM
اقتراح إطار عمل R2P: تصميم طريقة جديدة قائمة على نموذج الاسترجاع-الاستدلال، باستخدام الخصائص النصية كبصمات مفاهيم لتحديد المفاهيم الشخصية بشكل فريد
إدخال مجموعة بيانات PerVA: بناء مجموعة معايير جديدة مخصصة لاختبار طرق التخصيص في سيناريوهات الغموض البصري
تحقيق أداء متقدم (SOTA): تجاوز الطرق الموجودة باستمرار في جميع الاختبارات، مما يثبت فعالية الطريقة الخالية من التدريب

شرح الطريقة

تعريف المهمة

بالنظر إلى الصور المرجعية $I_i \in V$ التي يوفرها المستخدم واسم المفهوم $c_i \in T$ والفئة $g_i \in T$ ، يتم بناء قاعدة بيانات متعددة الأنماط خاصة بالمستخدم $D$ . في وقت الاختبار، بالنظر إلى صورة الاستعلام $Q \in V$ والمطالبة النصية $P_q \in T$ ، يجب أن يوفر VLM إجابات مرتبطة بالمفاهيم الشخصية.

معمارية النموذج

يتضمن R2P مرحلتين رئيسيتين:

المرحلة الأولى: إنشاء قاعدة البيانات الشخصية

استخراج بصمات المفاهيم:
```
{A_i, d_i} = Φ_VLM(P^V_D, P^T_D)
```
حيث $A_i$ $A_{i}$ هي قائمة خصائص البصمة و $d_i$ $d_{i}$ هي وصف موجز
الترميز متعدد الأنماط:
- التضمين البصري: $f^V_i = E_V(I_i)$
- التضمين النصي: $f^T_i = E_T(d_i)$

بناء قاعدة البيانات:

D = {I_i, c_i, g_i, d_i, A_i, f^V_i, f^T_i}^N_{i=1}

المرحلة الثانية: استدلال المفاهيم القائم على الاسترجاع-الاستدلال

استرجاع المفاهيم متعدد الأنماط:
```
s_{q,i} = \frac{1}{2}(s^{V,V}_{q,i} + s^{V,T}_{q,i})
```
اختيار أفضل K مفاهيم مرشحة $C_K$ $C_{K}$

استدلال CoT الموجه بالخصائص:

{A_{q,i}, ∀i ∈ C_k}, \tilde{c} = Φ_VLM(P^V_R, P^T_R)

التحقق من الخصائص عبر الأنماط:

s^{V,A}_{q,i} = \frac{1}{|A_{q,i}|} \sum_{a_j ∈ A_{q,i}} ⟨f^V_q, f^T_{a,j}⟩

الاستدلال الثنائي (عند فشل التحقق):
```
p_i = \frac{λ^{Yes}_i}{λ^{Yes}_i + λ^{No}_i}
```

نقاط الابتكار التقني

آلية بصمات المفاهيم: استخدام الخصائص الدقيقة المستخرجة من VLM كمعرّف فريد للمفهوم لأول مرة
استراتيجية التحقق متعددة الطبقات: تصميم آلية تحقق تدريجية من CoT → التحقق من الخصائص → الاستدلال الثنائي
فحص الاتساق عبر الأنماط: مقارنة نتائج الاستدلال النصي مع درجة المحاذاة البصرية-النصية لتقليل الهلوسة
نموذج خالي من التدريب: يعتمد بالكامل على المعرفة الداخلية لـ VLM المدرب مسبقاً، بدون أي ضبط دقيق

إعداد التجارب

مجموعات البيانات

MyVLM: 29 مفهوماً شخصياً
Yo'LLaVA: 40 مفهوماً، تشمل الأشياء والأشخاص والمباني
PerVA (مقترحة جديدة): 329 مفهوماً عبر 21 فئة، 67,482 صورة، مصممة خصيصاً لاختبار سيناريوهات الغموض البصري

مقاييس التقييم

مهمة التعرف: Recall (Pos. Acc.)، Specificity (Neg. Acc.)، Weighted Average (Wtd)
توليد التعليقات: Hard Recall - نسبة ظهور اسم المفهوم في التعليق المُولَّد
الإجابة على الأسئلة المرئية المخصصة: دقة الإجابة

طرق المقارنة

MyVLM و Yo'LLaVA (طرق تتطلب تدريباً)
RAP (طريقة معززة بالاسترجاع)
GPT-4V + Vprompt
LLaVA و LLaVA + prompt
MiniCPM-o + prompt

تفاصيل التنفيذ

VLM الأساسي: Mini-CPM-o-2.6
نظام الاسترجاع: FAISS
المشفر: CLIP ViT-L/14-336
قيمة K: K=3

نتائج التجارب

النتائج الرئيسية

مجموعة بيانات MyVLM:

دقة مرجحة: 97.4% (الأفضل)
استدعاء التعليقات: 91.4%

مجموعة بيانات Yo'LLaVA:

دقة مرجحة: 94.4% (+2.2% مقابل RAP)
استدعاء التعليقات: 87.1% (+5.5% أفضل من الطريقة الثانية)
دقة الإجابة على الأسئلة المرئية: 96.5% (+3.3% مقابل RAP)

مجموعة بيانات PerVA:

دقة مرجحة: 91.8% (+2.8% مقابل RAP)
استدعاء التعليقات: 72.5%
ميزة واضحة مقابل طرق التدريب: +29.6% مقابل MyVLM، +19.8% مقابل Yo'LLaVA

تجارب الاستبدال

تحليل المكونات الرئيسية (مجموعة بيانات PerVA):

R2P الكامل: 91.8% Wtd، 72.5% Recall
بدون خصائص البصمة: 86.5% Wtd، 62.2% Recall
استدلال CoT فقط: 84.7% Wtd، 62.8% Recall
خصائص معرّفة يدوياً: 92.5% Wtd، 72.8% Recall

مقارنة استراتيجيات التحقق:

التحقق من الخصائص (هذه الورقة): 72.5%
الاستدلال الثنائي: 72.3%
بدون تقدير: 71.2%
استراتيجية الامتناع: 70.7%

تحليل الحالات

تعرض الورقة فعالية R2P في التعامل مع المفاهيم المتشابهة بصرياً، مثل التمييز بين قمصان مختلفة (شعار CVPR مقابل ICCV)، والتعرف على ألعاب محشوة محددة. يمكن للنموذج التعرف بدقة على المفهوم المستهدف من خلال الخصائص الرئيسية مثل "شعار CVPR" و "رقبة مستديرة" وغيرها.

النتائج التجريبية

أهمية خصائص البصمة: الخصائص المُولَّدة من VLM تعمل بكفاءة تقريباً مثل الخصائص المعرّفة يدوياً
ميزة الاسترجاع متعدد الأنماط: استراتيجية الاسترجاع التي تجمع بين التضمينات البصرية والنصية أفضل من الطرق أحادية الأنماط
فعالية آلية التحقق: يمكن للتحقق من الخصائص عبر الأنماط تقليل الهلوسة بفعالية وتحسين الدقة

الأعمال ذات الصلة

تخصيص VLM

استخدمت الطرق المبكرة مثل MyVLM و Yo'LLaVA استراتيجيات الانعكاس، وتخصيص تمثيل كامن فريد لكل كائن. تحاول الأعمال الحديثة تقليل وقت التخصيص من خلال الضبط الدقيق على نطاق واسع والإدخال متعدد الصور.

الاستدلال القائم على الخصائص

يعتبر التعرف على الكائنات من خلال الخصائص مشكلة طويلة الأجل في رؤية الحاسوب، مع تطبيقات مهمة في التعلم بدون عينات. تتشابه هذه الورقة مع الأعمال التي تجد خصائص مفيدة أو خصائص مُولَّدة آلياً، لكنها تركز على وصف الأشياء الشخصية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

إثبات أن الإعداد الخالي من التدريب لتخصيص VLM ممكن للمرة الأولى
يحل R2P بفعالية مشكلة التعرف على المفاهيم الشخصية من خلال بصمات المفاهيم ونموذج الاسترجاع-الاستدلال
تحقيق أداء متقدمة في عدة معايير

القيود

التكلفة الحسابية: على الرغم من عدم الحاجة إلى التدريب، فإن عملية التحقق متعددة الخطوات أثناء الاستدلال لا تزال تتطلب تكلفة حسابية معينة
قيود السيناريو: قد تنخفض الأداء في المشاهد المزدحمة التي تحتوي على مفاهيم متشابهة متعددة
قيود الصورة الواحدة: يدعم حالياً فقط التخصيص من صورة مرجعية واحدة

الاتجاهات المستقبلية

تقليل التكلفة الحسابية وتحسين كفاءة الاستدلال
تحسين الأداء في المشاهد المزدحمة
التوسع إلى إعداد مراجع متعددة
استكشاف حالات تطبيق أكثر

التقييم المتعمق

المميزات

ابتكار قوي: استكشاف الإعداد الخالي من التدريب لتخصيص VLM لأول مرة، وفتح اتجاه بحثي جديد
اكتمال الطريقة: تصميم خط أنابيب استرجاع-استدلال-تحقق كامل، مع حل تقني ناضج
تجارب شاملة: تقييم شامل على عدة مجموعات بيانات، بما في ذلك مجموعة بيانات جديدة صعبة
أداء ممتازة: تحقيق أداء متقدمة في جميع الاختبارات
قيمة عملية عالية: تجعل الخاصية الخالية من التدريب الطريقة أسهل في النشر والاستخدام

أوجه القصور

التعقيد الحسابي: قد تسبب عملية الاستدلال متعددة الخطوات مشاكل في الكفاءة في التطبيقات العملية
الاعتماد على جودة VLM: تعتمد فعالية الطريقة إلى حد كبير على قدرات VLM الأساسي
جودة استخراج الخصائص: قد تكون جودة خصائص البصمة المُولَّدة من VLM غير مستقرة بما يكفي
مشاكل التوسع: ستزداد تعقيد الاسترجاع والاستدلال مع نمو عدد المفاهيم

التأثير

المساهمة الأكاديمية: توفير نموذج بحثي جديد لمجال تخصيص VLM
القيمة العملية: خفض عتبة نشر VLM المخصص
قابلية إعادة الإنتاج: توفر الورقة تفاصيل تنفيذ مفصلة والتزام بالمصدر المفتوح
الأهمية الإرشادية: إثبات إمكانية الاستفادة من المعرفة الداخلية للنماذج المدربة مسبقاً

السيناريوهات المناسبة

أنظمة المساعد الشخصي: يمكن للمستخدمين إضافة مفاهيم شخصية بسرعة بدون تدريب
المنازل الذكية: التعرف على الأشياء الشخصية والبيئة للمستخدم
التطبيقات التعليمية: التعرف على المحتوى التعليمي المخصص
التوصيات الإلكترونية: التعرف على المنتجات بناءً على التفضيلات الشخصية للمستخدم

المراجع

تستشهد الورقة بالأعمال المهمة في المجالات ذات الصلة، بما في ذلك طرق التخصيص مثل MyVLM و Yo'LLaVA و RAP، والنماذج الأساسية مثل CLIP و LLaVA، مما يوفر أساساً نظرياً قوياً للبحث.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة ابتكارية خالية من التدريب في مجال تخصيص VLM، مع حل تقني كامل وتقييم تجريبي شامل، وتتمتع بقيمة أكاديمية وعملية مهمة. تكمن المساهمة الرئيسية للورقة في إثبات جدوى الاستفادة من المعرفة الداخلية لـ VLM للتخصيص، مما يفتح اتجاهاً بحثياً جديداً في هذا المجال.