Training-Free Personalization via Retrieval and Reasoning on Fingerprints
Das, Talon, Wang et al.
Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.
academic
التخصيص الخالي من التدريب عبر الاسترجاع والاستدلال على بصمات المفاهيم
تقترح هذه الورقة طريقة جديدة تُسمى R2P (الاسترجاع والاستدلال للتخصيص)، وهي تستكشف لأول مرة الإعداد الخالي من التدريب في مجال تخصيص نماذج اللغة والرؤية (VLM). تعمل الطريقة على استخراج بصمات مفاهيم (concept fingerprint) لتحديد المفاهيم الخاصة بالمستخدم بشكل فريد، واسترجاع أكثر البصمات تشابهاً عند الاستعلام والتصنيف من خلال استدلال سلسلة الفكر. لتقليل مخاطر الهلوسة، يقدم R2P آلية التحقق عبر الأنماط على مستوى الخصائص، واستخدام المطابقة متعددة الأنماط الثنائية لتحسين ربط المفاهيم عند الحاجة.
على الرغم من أن نماذج اللغة والرؤية الحالية حققت تقدماً كبيراً في الاستدلال متعدد الأنماط، إلا أنها تواجه صعوبات في فهم المفاهيم الخاصة بالمستخدم. على سبيل المثال، بالنسبة لأسئلة مثل "أين مفاتيحي؟" أو "ماذا يفعل Fluffy؟"، يصعب على VLM فهم هذه المفاهيم الشخصية.
يعتبر التخصيص خطوة حاسمة نحو جعل VLM عملياً، حيث يحتاج المستخدمون إلى نماذج قادرة على التعرف والاستدلال حول مفاهيمهم الشخصية مثل الأشياء الشخصية والحيوانات الأليفة والأصدقاء.
الاعتماد على التدريب: تعتمد الطرق الموجودة مثل MyVLM و Yo'LLaVA بشكل كبير على عملية التدريب، وتتطلب عينات مرجعية متعددة وعينات سلبية كثيرة للتعلم المقارن
التكاليف العالية: يتطلب إضافة مفهوم جديد عملية ضبط دقيق مكلفة
صعوبة جمع البيانات: يتطلب جمع كميات كبيرة من بيانات التدريب، وهو أمر مكلف وغير مريح للمستخدمين
يطرح المؤلفون سؤالاً أساسياً: بما أن VLM قد تعرضت بالفعل لجميع المفاهيم الدلالية تقريباً من خلال بيانات التدريب على نطاق الويب، هل يمكن الاستفادة من المعرفة الداخلية لـ VLM لتحقيق التخصيص الخالي من التدريب؟
بالنظر إلى الصور المرجعية Ii∈V التي يوفرها المستخدم واسم المفهوم ci∈T والفئة gi∈T، يتم بناء قاعدة بيانات متعددة الأنماط خاصة بالمستخدم D. في وقت الاختبار، بالنظر إلى صورة الاستعلام Q∈V والمطالبة النصية Pq∈T، يجب أن يوفر VLM إجابات مرتبطة بالمفاهيم الشخصية.
تعرض الورقة فعالية R2P في التعامل مع المفاهيم المتشابهة بصرياً، مثل التمييز بين قمصان مختلفة (شعار CVPR مقابل ICCV)، والتعرف على ألعاب محشوة محددة. يمكن للنموذج التعرف بدقة على المفهوم المستهدف من خلال الخصائص الرئيسية مثل "شعار CVPR" و "رقبة مستديرة" وغيرها.
استخدمت الطرق المبكرة مثل MyVLM و Yo'LLaVA استراتيجيات الانعكاس، وتخصيص تمثيل كامن فريد لكل كائن. تحاول الأعمال الحديثة تقليل وقت التخصيص من خلال الضبط الدقيق على نطاق واسع والإدخال متعدد الصور.
يعتبر التعرف على الكائنات من خلال الخصائص مشكلة طويلة الأجل في رؤية الحاسوب، مع تطبيقات مهمة في التعلم بدون عينات. تتشابه هذه الورقة مع الأعمال التي تجد خصائص مفيدة أو خصائص مُولَّدة آلياً، لكنها تركز على وصف الأشياء الشخصية.
تستشهد الورقة بالأعمال المهمة في المجالات ذات الصلة، بما في ذلك طرق التخصيص مثل MyVLM و Yo'LLaVA و RAP، والنماذج الأساسية مثل CLIP و LLaVA، مما يوفر أساساً نظرياً قوياً للبحث.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة ابتكارية خالية من التدريب في مجال تخصيص VLM، مع حل تقني كامل وتقييم تجريبي شامل، وتتمتع بقيمة أكاديمية وعملية مهمة. تكمن المساهمة الرئيسية للورقة في إثبات جدوى الاستفادة من المعرفة الداخلية لـ VLM للتخصيص، مما يفتح اتجاهاً بحثياً جديداً في هذا المجال.