2025-11-16T13:43:12.593063

Training-Free Personalization via Retrieval and Reasoning on Fingerprints

Das, Talon, Wang et al.

Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.

academic

Personnalisation sans entraînement via récupération et raisonnement sur les empreintes digitales

Informations de base

ID de l'article : 2503.18623
Titre : Training-Free Personalization via Retrieval and Reasoning on Fingerprints
Auteurs : Deepayan Das, Davide Talon, Yiming Wang, Massimiliano Mancini, Elisa Ricci
Classification : cs.CV (Vision par ordinateur)
Date de publication/Conférence : arXiv 2025 (soumis à CVPR 2025)
Lien de l'article : https://arxiv.org/abs/2503.18623

Résumé

Cet article propose une nouvelle méthode appelée R2P (Retrieval and Reasoning for Personalization), qui explore pour la première fois le cadre sans entraînement dans le domaine de la personnalisation des modèles de vision-langage (VLM). La méthode extrait des empreintes digitales de concepts (concept fingerprint) pour définir de manière unique les concepts spécifiques à l'utilisateur, récupère les empreintes les plus similaires au moment de la requête et les évalue par raisonnement en chaîne de pensée. Pour réduire le risque d'hallucinations, R2P introduit un mécanisme de vérification multimodale au niveau des attributs et utilise l'appariement multimodal par paires pour optimiser l'association de concepts si nécessaire.

Contexte et motivation de la recherche

Définition du problème

Bien que les modèles de vision-langage actuels aient réalisé des progrès significatifs dans le raisonnement multimodal, ils rencontrent toujours des difficultés pour comprendre les concepts spécifiques à l'utilisateur. Par exemple, pour des questions comme « Où sont mes clés ? » ou « Que fait Fluffy ? », les VLM ont du mal à comprendre ces concepts personnels.

Importance de la recherche

La personnalisation est une étape clé pour que les VLM deviennent pratiques. Les utilisateurs ont besoin que le modèle soit capable d'identifier et de raisonner sur leurs concepts spécifiques tels que leurs objets personnels, animaux de compagnie, amis, etc.

Limitations des méthodes existantes

Dépendance à l'entraînement : Les méthodes de personnalisation existantes comme MyVLM et Yo'LLaVA dépendent fortement du processus d'entraînement, nécessitant plusieurs échantillons de référence et de nombreux échantillons négatifs pour l'apprentissage contrastif
Coûts élevés : Chaque ajout d'un nouveau concept nécessite un processus d'ajustement fin coûteux
Collecte de données difficile : Nécessite la collecte de grandes quantités de données d'entraînement, ce qui est à la fois coûteux et peu pratique pour les utilisateurs

Motivation de la recherche

Les auteurs posent une question clé : puisque les VLM ont été exposés à presque tous les concepts sémantiques via des données d'entraînement à l'échelle du web, est-il possible d'exploiter les connaissances internes des VLM pour réaliser une personnalisation sans entraînement ?

Contributions principales

Première exploration de la personnalisation sans entraînement : Première proposition et implémentation d'un cadre sans entraînement dans le domaine de la personnalisation des VLM
Proposition du cadre R2P : Conception d'une nouvelle méthode basée sur le paradigme récupération-raisonnement, utilisant des attributs textuels comme empreintes digitales de concepts pour identifier de manière unique les concepts personnels
Introduction de l'ensemble de données PerVA : Construction d'un nouvel ensemble de référence spécialement conçu pour tester les méthodes de personnalisation dans des scénarios d'ambiguïté visuelle
Atteinte des performances SOTA : Surpasse systématiquement les méthodes existantes sur tous les benchmarks, prouvant l'efficacité de la méthode sans entraînement

Explication détaillée de la méthode

Définition de la tâche

Étant donné les images de référence $I_i \in V$ fournies par l'utilisateur, le nom du concept $c_i \in T$ et la catégorie $g_i \in T$ , construire une base de données multimodale spécifique à l'utilisateur $D$ . Au moment du test, étant donné une image de requête $Q \in V$ et une invite textuelle $P_q \in T$ , le VLM devrait fournir une réponse liée aux concepts personnels.

Architecture du modèle

R2P comprend deux phases principales :

Phase 1 : Création de la base de données personnelle

Extraction d'empreintes digitales de concepts :
```
{A_i, d_i} = Φ_VLM(P^V_D, P^T_D)
```
où $A_i$ $A_{i}$ est la liste des attributs d'empreinte digitale et $d_i$ $d_{i}$ est une brève description
Codage multimodal :
- Plongement visuel : $f^V_i = E_V(I_i)$
- Plongement textuel : $f^T_i = E_T(d_i)$

Construction de la base de données :

D = {I_i, c_i, g_i, d_i, A_i, f^V_i, f^T_i}^N_{i=1}

Phase 2 : Inférence de concepts basée sur la récupération-raisonnement

Récupération de concepts multimodaux :
```
s_{q,i} = \frac{1}{2}(s^{V,V}_{q,i} + s^{V,T}_{q,i})
```
Sélection des K meilleurs candidats de concepts $C_K$ $C_{K}$

Raisonnement CoT axé sur les attributs :

{A_{q,i}, ∀i ∈ C_k}, \tilde{c} = Φ_VLM(P^V_R, P^T_R)

Vérification d'attributs multimodaux :

s^{V,A}_{q,i} = \frac{1}{|A_{q,i}|} \sum_{a_j ∈ A_{q,i}} ⟨f^V_q, f^T_{a,j}⟩

Raisonnement par paires (en cas d'échec de la vérification) :
```
p_i = \frac{λ^{Yes}_i}{λ^{Yes}_i + λ^{No}_i}
```

Points d'innovation technique

Mécanisme d'empreinte digitale de concepts : Première utilisation d'attributs granulaires extraits par VLM comme identifiant unique d'un concept
Stratégie de vérification multicouche : Conception d'un mécanisme de vérification progressif : raisonnement CoT → vérification d'attributs → raisonnement par paires
Vérification de cohérence multimodale : Réduction des hallucinations en comparant les résultats du raisonnement textuel avec les scores d'alignement visuel-textuel
Paradigme sans entraînement : Dépend entièrement des connaissances internes du VLM préentraîné, sans aucun ajustement fin

Configuration expérimentale

Ensembles de données

MyVLM : 29 concepts personnels
Yo'LLaVA : 40 concepts, incluant des objets, des personnes et des bâtiments
PerVA (nouvellement proposé) : 329 concepts, couvrant 21 catégories, 67 482 images, spécialement conçu pour tester les scénarios d'ambiguïté visuelle

Métriques d'évaluation

Tâche d'identification : Recall (Pos. Acc.), Specificity (Neg. Acc.), Weighted Average (Wtd)
Génération de légendes : Hard Recall - proportion de noms de concepts apparaissant dans les légendes générées
VQA personnalisé : Précision des réponses

Méthodes de comparaison

MyVLM, Yo'LLaVA (méthodes nécessitant un entraînement)
RAP (méthode d'augmentation par récupération)
GPT-4V + Vprompt
LLaVA, LLaVA + prompt
MiniCPM-o + prompt

Détails d'implémentation

VLM de base : Mini-CPM-o-2.6
Système de récupération : FAISS
Encodeur : CLIP ViT-L/14-336
Valeur de K : K=3

Résultats expérimentaux

Résultats principaux

Ensemble de données MyVLM :

Précision pondérée : 97,4% (meilleure)
Rappel de légendes : 91,4%

Ensemble de données Yo'LLaVA :

Précision pondérée : 94,4% (+2,2% vs RAP)
Rappel de légendes : 87,1% (+5,5% par rapport à la deuxième meilleure méthode)
Précision VQA : 96,5% (+3,3% vs RAP)

Ensemble de données PerVA :

Précision pondérée : 91,8% (+2,8% vs RAP)
Rappel de légendes : 72,5%
Avantage significatif par rapport aux méthodes d'entraînement : +29,6% vs MyVLM, +19,8% vs Yo'LLaVA

Études d'ablation

Analyse des composants principaux (ensemble de données PerVA) :

R2P complet : 91,8% Wtd, 72,5% Recall
Sans attributs d'empreinte digitale : 86,5% Wtd, 62,2% Recall
Raisonnement CoT uniquement : 84,7% Wtd, 62,8% Recall
Attributs définis manuellement : 92,5% Wtd, 72,8% Recall

Comparaison des stratégies de vérification :

Vérification d'attributs (cet article) : 72,5%
Raisonnement par paires : 72,3%
Sans estimation : 71,2%
Stratégie d'abstention : 70,7%

Analyse de cas

L'article présente l'efficacité de R2P dans le traitement de concepts visuellement similaires, tels que la distinction entre différents t-shirts (logo CVPR vs ICCV), l'identification de jouets en peluche spécifiques, etc. Le modèle peut identifier avec précision les concepts cibles grâce à des attributs clés (tels que « logo CVPR », « col rond », etc.).

Découvertes expérimentales

Importance des attributs d'empreinte digitale : Les attributs générés par VLM fonctionnent presque aussi bien que les attributs définis manuellement
Avantage de la récupération multimodale : La stratégie de récupération combinant plongements visuels et textuels surpasse les méthodes unimodales
Efficacité du mécanisme de vérification : La vérification d'attributs multimodaux réduit efficacement les hallucinations et améliore la précision

Travaux connexes

Personnalisation des VLM

Les premières méthodes comme MyVLM et Yo'LLaVA utilisent des stratégies d'inversion, attribuant une représentation latente unique à chaque objet. Les travaux récents réduisent le temps de personnalisation par un ajustement fin à grande échelle et des entrées multi-images.

Raisonnement basé sur les attributs

L'identification d'objets à partir d'attributs est un problème de longue date en vision par ordinateur, avec des applications importantes dans l'apprentissage sans exemple. Cet article est similaire aux travaux découvrant des attributs utiles ou générés par machine, mais se concentre sur la description d'objets personnels.

Conclusion et discussion

Conclusions principales

Première preuve que le cadre sans entraînement pour la personnalisation des VLM est réalisable
R2P résout efficacement le problème d'identification des concepts personnels grâce aux empreintes digitales de concepts et au paradigme récupération-raisonnement
Atteint les performances les plus avancées sur plusieurs benchmarks

Limitations

Surcharge de calcul : Bien que sans entraînement, le processus de vérification multi-étapes lors de l'inférence entraîne toujours un certain coût de calcul
Limitations de scène : Les performances peuvent être limitées dans les scènes encombrées contenant plusieurs concepts similaires
Limitation d'image unique : Actuellement, ne supporte que la personnalisation avec une seule image de référence

Directions futures

Réduire la surcharge de calcul et améliorer l'efficacité de l'inférence
Améliorer les performances dans les scènes encombrées
Étendre à des paramètres multi-références
Explorer davantage de scénarios d'application

Évaluation approfondie

Avantages

Innovation forte : Première exploration du cadre sans entraînement pour la personnalisation des VLM, ouvrant une nouvelle direction de recherche
Méthode complète : Conception d'un pipeline complet récupération-raisonnement-vérification, avec une solution technique mature
Expériences complètes : Évaluation complète sur plusieurs ensembles de données, incluant un ensemble de données difficile nouvellement construit
Performances excellentes : Atteint les performances SOTA sur tous les benchmarks
Valeur pratique élevée : La caractéristique sans entraînement rend la méthode plus facile à déployer et utiliser

Insuffisances

Complexité de calcul : Le processus de raisonnement multi-étapes peut poser des problèmes d'efficacité dans les applications pratiques
Dépendance à la qualité du VLM : L'efficacité de la méthode dépend largement des capacités du VLM sous-jacent
Qualité d'extraction d'attributs : La qualité des attributs d'empreinte digitale générés par VLM peut ne pas être suffisamment stable
Problèmes d'extensibilité : La complexité de la récupération et du raisonnement augmente avec la croissance du nombre de concepts

Impact

Contribution académique : Fournit un nouveau paradigme de recherche pour le domaine de la personnalisation des VLM
Valeur pratique : Réduit les obstacles au déploiement des VLM personnalisés
Reproductibilité : L'article fournit des détails d'implémentation détaillés et s'engage à l'open source
Valeur inspirante : Démontre le potentiel d'exploitation des connaissances internes des modèles préentraînés

Scénarios d'application

Systèmes d'assistants personnels : Les utilisateurs peuvent ajouter rapidement des concepts personnels sans entraînement
Maisons intelligentes : Identification des objets personnels et de l'environnement de l'utilisateur
Applications éducatives : Identification de contenu d'apprentissage personnalisé
Recommandations de commerce électronique : Identification de produits basée sur les préférences personnelles de l'utilisateur

Références

L'article cite les travaux importants dans les domaines connexes, incluant les méthodes de personnalisation comme MyVLM, Yo'LLaVA, RAP, ainsi que les modèles de base comme CLIP et LLaVA, fournissant une base théorique solide pour la recherche.

Évaluation globale : Ceci est un article de recherche de haute qualité qui propose une méthode innovante sans entraînement dans le domaine de la personnalisation des VLM, avec une solution technique complète, une évaluation expérimentale complète, et une valeur académique et pratique importante. La principale contribution de l'article réside dans la preuve de la faisabilité de l'exploitation des connaissances internes des VLM pour la personnalisation, ouvrant une nouvelle direction de recherche pour ce domaine.