Training-Free Personalization via Retrieval and Reasoning on Fingerprints
Das, Talon, Wang et al.
Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.
academic
Personnalisation sans entraînement via récupération et raisonnement sur les empreintes digitales
Cet article propose une nouvelle méthode appelée R2P (Retrieval and Reasoning for Personalization), qui explore pour la première fois le cadre sans entraînement dans le domaine de la personnalisation des modèles de vision-langage (VLM). La méthode extrait des empreintes digitales de concepts (concept fingerprint) pour définir de manière unique les concepts spécifiques à l'utilisateur, récupère les empreintes les plus similaires au moment de la requête et les évalue par raisonnement en chaîne de pensée. Pour réduire le risque d'hallucinations, R2P introduit un mécanisme de vérification multimodale au niveau des attributs et utilise l'appariement multimodal par paires pour optimiser l'association de concepts si nécessaire.
Bien que les modèles de vision-langage actuels aient réalisé des progrès significatifs dans le raisonnement multimodal, ils rencontrent toujours des difficultés pour comprendre les concepts spécifiques à l'utilisateur. Par exemple, pour des questions comme « Où sont mes clés ? » ou « Que fait Fluffy ? », les VLM ont du mal à comprendre ces concepts personnels.
La personnalisation est une étape clé pour que les VLM deviennent pratiques. Les utilisateurs ont besoin que le modèle soit capable d'identifier et de raisonner sur leurs concepts spécifiques tels que leurs objets personnels, animaux de compagnie, amis, etc.
Dépendance à l'entraînement : Les méthodes de personnalisation existantes comme MyVLM et Yo'LLaVA dépendent fortement du processus d'entraînement, nécessitant plusieurs échantillons de référence et de nombreux échantillons négatifs pour l'apprentissage contrastif
Coûts élevés : Chaque ajout d'un nouveau concept nécessite un processus d'ajustement fin coûteux
Collecte de données difficile : Nécessite la collecte de grandes quantités de données d'entraînement, ce qui est à la fois coûteux et peu pratique pour les utilisateurs
Les auteurs posent une question clé : puisque les VLM ont été exposés à presque tous les concepts sémantiques via des données d'entraînement à l'échelle du web, est-il possible d'exploiter les connaissances internes des VLM pour réaliser une personnalisation sans entraînement ?
Première exploration de la personnalisation sans entraînement : Première proposition et implémentation d'un cadre sans entraînement dans le domaine de la personnalisation des VLM
Proposition du cadre R2P : Conception d'une nouvelle méthode basée sur le paradigme récupération-raisonnement, utilisant des attributs textuels comme empreintes digitales de concepts pour identifier de manière unique les concepts personnels
Introduction de l'ensemble de données PerVA : Construction d'un nouvel ensemble de référence spécialement conçu pour tester les méthodes de personnalisation dans des scénarios d'ambiguïté visuelle
Atteinte des performances SOTA : Surpasse systématiquement les méthodes existantes sur tous les benchmarks, prouvant l'efficacité de la méthode sans entraînement
Étant donné les images de référence Ii∈V fournies par l'utilisateur, le nom du concept ci∈T et la catégorie gi∈T, construire une base de données multimodale spécifique à l'utilisateur D. Au moment du test, étant donné une image de requête Q∈V et une invite textuelle Pq∈T, le VLM devrait fournir une réponse liée aux concepts personnels.
Mécanisme d'empreinte digitale de concepts : Première utilisation d'attributs granulaires extraits par VLM comme identifiant unique d'un concept
Stratégie de vérification multicouche : Conception d'un mécanisme de vérification progressif : raisonnement CoT → vérification d'attributs → raisonnement par paires
Vérification de cohérence multimodale : Réduction des hallucinations en comparant les résultats du raisonnement textuel avec les scores d'alignement visuel-textuel
Paradigme sans entraînement : Dépend entièrement des connaissances internes du VLM préentraîné, sans aucun ajustement fin
L'article présente l'efficacité de R2P dans le traitement de concepts visuellement similaires, tels que la distinction entre différents t-shirts (logo CVPR vs ICCV), l'identification de jouets en peluche spécifiques, etc. Le modèle peut identifier avec précision les concepts cibles grâce à des attributs clés (tels que « logo CVPR », « col rond », etc.).
Les premières méthodes comme MyVLM et Yo'LLaVA utilisent des stratégies d'inversion, attribuant une représentation latente unique à chaque objet. Les travaux récents réduisent le temps de personnalisation par un ajustement fin à grande échelle et des entrées multi-images.
L'identification d'objets à partir d'attributs est un problème de longue date en vision par ordinateur, avec des applications importantes dans l'apprentissage sans exemple. Cet article est similaire aux travaux découvrant des attributs utiles ou générés par machine, mais se concentre sur la description d'objets personnels.
Première preuve que le cadre sans entraînement pour la personnalisation des VLM est réalisable
R2P résout efficacement le problème d'identification des concepts personnels grâce aux empreintes digitales de concepts et au paradigme récupération-raisonnement
Atteint les performances les plus avancées sur plusieurs benchmarks
Surcharge de calcul : Bien que sans entraînement, le processus de vérification multi-étapes lors de l'inférence entraîne toujours un certain coût de calcul
Limitations de scène : Les performances peuvent être limitées dans les scènes encombrées contenant plusieurs concepts similaires
Limitation d'image unique : Actuellement, ne supporte que la personnalisation avec une seule image de référence
L'article cite les travaux importants dans les domaines connexes, incluant les méthodes de personnalisation comme MyVLM, Yo'LLaVA, RAP, ainsi que les modèles de base comme CLIP et LLaVA, fournissant une base théorique solide pour la recherche.
Évaluation globale : Ceci est un article de recherche de haute qualité qui propose une méthode innovante sans entraînement dans le domaine de la personnalisation des VLM, avec une solution technique complète, une évaluation expérimentale complète, et une valeur académique et pratique importante. La principale contribution de l'article réside dans la preuve de la faisabilité de l'exploitation des connaissances internes des VLM pour la personnalisation, ouvrant une nouvelle direction de recherche pour ce domaine.