2025-11-16T13:43:12.593063

Training-Free Personalization via Retrieval and Reasoning on Fingerprints

Das, Talon, Wang et al.
Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.
academic

Personnalisation sans entraînement via récupération et raisonnement sur les empreintes digitales

Informations de base

  • ID de l'article : 2503.18623
  • Titre : Training-Free Personalization via Retrieval and Reasoning on Fingerprints
  • Auteurs : Deepayan Das, Davide Talon, Yiming Wang, Massimiliano Mancini, Elisa Ricci
  • Classification : cs.CV (Vision par ordinateur)
  • Date de publication/Conférence : arXiv 2025 (soumis à CVPR 2025)
  • Lien de l'article : https://arxiv.org/abs/2503.18623

Résumé

Cet article propose une nouvelle méthode appelée R2P (Retrieval and Reasoning for Personalization), qui explore pour la première fois le cadre sans entraînement dans le domaine de la personnalisation des modèles de vision-langage (VLM). La méthode extrait des empreintes digitales de concepts (concept fingerprint) pour définir de manière unique les concepts spécifiques à l'utilisateur, récupère les empreintes les plus similaires au moment de la requête et les évalue par raisonnement en chaîne de pensée. Pour réduire le risque d'hallucinations, R2P introduit un mécanisme de vérification multimodale au niveau des attributs et utilise l'appariement multimodal par paires pour optimiser l'association de concepts si nécessaire.

Contexte et motivation de la recherche

Définition du problème

Bien que les modèles de vision-langage actuels aient réalisé des progrès significatifs dans le raisonnement multimodal, ils rencontrent toujours des difficultés pour comprendre les concepts spécifiques à l'utilisateur. Par exemple, pour des questions comme « Où sont mes clés ? » ou « Que fait Fluffy ? », les VLM ont du mal à comprendre ces concepts personnels.

Importance de la recherche

La personnalisation est une étape clé pour que les VLM deviennent pratiques. Les utilisateurs ont besoin que le modèle soit capable d'identifier et de raisonner sur leurs concepts spécifiques tels que leurs objets personnels, animaux de compagnie, amis, etc.

Limitations des méthodes existantes

  1. Dépendance à l'entraînement : Les méthodes de personnalisation existantes comme MyVLM et Yo'LLaVA dépendent fortement du processus d'entraînement, nécessitant plusieurs échantillons de référence et de nombreux échantillons négatifs pour l'apprentissage contrastif
  2. Coûts élevés : Chaque ajout d'un nouveau concept nécessite un processus d'ajustement fin coûteux
  3. Collecte de données difficile : Nécessite la collecte de grandes quantités de données d'entraînement, ce qui est à la fois coûteux et peu pratique pour les utilisateurs

Motivation de la recherche

Les auteurs posent une question clé : puisque les VLM ont été exposés à presque tous les concepts sémantiques via des données d'entraînement à l'échelle du web, est-il possible d'exploiter les connaissances internes des VLM pour réaliser une personnalisation sans entraînement ?

Contributions principales

  1. Première exploration de la personnalisation sans entraînement : Première proposition et implémentation d'un cadre sans entraînement dans le domaine de la personnalisation des VLM
  2. Proposition du cadre R2P : Conception d'une nouvelle méthode basée sur le paradigme récupération-raisonnement, utilisant des attributs textuels comme empreintes digitales de concepts pour identifier de manière unique les concepts personnels
  3. Introduction de l'ensemble de données PerVA : Construction d'un nouvel ensemble de référence spécialement conçu pour tester les méthodes de personnalisation dans des scénarios d'ambiguïté visuelle
  4. Atteinte des performances SOTA : Surpasse systématiquement les méthodes existantes sur tous les benchmarks, prouvant l'efficacité de la méthode sans entraînement

Explication détaillée de la méthode

Définition de la tâche

Étant donné les images de référence IiVI_i \in V fournies par l'utilisateur, le nom du concept ciTc_i \in T et la catégorie giTg_i \in T, construire une base de données multimodale spécifique à l'utilisateur DD. Au moment du test, étant donné une image de requête QVQ \in V et une invite textuelle PqTP_q \in T, le VLM devrait fournir une réponse liée aux concepts personnels.

Architecture du modèle

R2P comprend deux phases principales :

Phase 1 : Création de la base de données personnelle

  1. Extraction d'empreintes digitales de concepts :
    {A_i, d_i} = Φ_VLM(P^V_D, P^T_D)
    

    AiA_i est la liste des attributs d'empreinte digitale et did_i est une brève description
  2. Codage multimodal :
    • Plongement visuel : fiV=EV(Ii)f^V_i = E_V(I_i)
    • Plongement textuel : fiT=ET(di)f^T_i = E_T(d_i)
  3. Construction de la base de données :
    D = {I_i, c_i, g_i, d_i, A_i, f^V_i, f^T_i}^N_{i=1}
    

Phase 2 : Inférence de concepts basée sur la récupération-raisonnement

  1. Récupération de concepts multimodaux :
    s_{q,i} = \frac{1}{2}(s^{V,V}_{q,i} + s^{V,T}_{q,i})
    

    Sélection des K meilleurs candidats de concepts CKC_K
  2. Raisonnement CoT axé sur les attributs :
    {A_{q,i}, ∀i ∈ C_k}, \tilde{c} = Φ_VLM(P^V_R, P^T_R)
    
  3. Vérification d'attributs multimodaux :
    s^{V,A}_{q,i} = \frac{1}{|A_{q,i}|} \sum_{a_j ∈ A_{q,i}} ⟨f^V_q, f^T_{a,j}⟩
    
  4. Raisonnement par paires (en cas d'échec de la vérification) :
    p_i = \frac{λ^{Yes}_i}{λ^{Yes}_i + λ^{No}_i}
    

Points d'innovation technique

  1. Mécanisme d'empreinte digitale de concepts : Première utilisation d'attributs granulaires extraits par VLM comme identifiant unique d'un concept
  2. Stratégie de vérification multicouche : Conception d'un mécanisme de vérification progressif : raisonnement CoT → vérification d'attributs → raisonnement par paires
  3. Vérification de cohérence multimodale : Réduction des hallucinations en comparant les résultats du raisonnement textuel avec les scores d'alignement visuel-textuel
  4. Paradigme sans entraînement : Dépend entièrement des connaissances internes du VLM préentraîné, sans aucun ajustement fin

Configuration expérimentale

Ensembles de données

  1. MyVLM : 29 concepts personnels
  2. Yo'LLaVA : 40 concepts, incluant des objets, des personnes et des bâtiments
  3. PerVA (nouvellement proposé) : 329 concepts, couvrant 21 catégories, 67 482 images, spécialement conçu pour tester les scénarios d'ambiguïté visuelle

Métriques d'évaluation

  1. Tâche d'identification : Recall (Pos. Acc.), Specificity (Neg. Acc.), Weighted Average (Wtd)
  2. Génération de légendes : Hard Recall - proportion de noms de concepts apparaissant dans les légendes générées
  3. VQA personnalisé : Précision des réponses

Méthodes de comparaison

  • MyVLM, Yo'LLaVA (méthodes nécessitant un entraînement)
  • RAP (méthode d'augmentation par récupération)
  • GPT-4V + Vprompt
  • LLaVA, LLaVA + prompt
  • MiniCPM-o + prompt

Détails d'implémentation

  • VLM de base : Mini-CPM-o-2.6
  • Système de récupération : FAISS
  • Encodeur : CLIP ViT-L/14-336
  • Valeur de K : K=3

Résultats expérimentaux

Résultats principaux

Ensemble de données MyVLM :

  • Précision pondérée : 97,4% (meilleure)
  • Rappel de légendes : 91,4%

Ensemble de données Yo'LLaVA :

  • Précision pondérée : 94,4% (+2,2% vs RAP)
  • Rappel de légendes : 87,1% (+5,5% par rapport à la deuxième meilleure méthode)
  • Précision VQA : 96,5% (+3,3% vs RAP)

Ensemble de données PerVA :

  • Précision pondérée : 91,8% (+2,8% vs RAP)
  • Rappel de légendes : 72,5%
  • Avantage significatif par rapport aux méthodes d'entraînement : +29,6% vs MyVLM, +19,8% vs Yo'LLaVA

Études d'ablation

Analyse des composants principaux (ensemble de données PerVA) :

  • R2P complet : 91,8% Wtd, 72,5% Recall
  • Sans attributs d'empreinte digitale : 86,5% Wtd, 62,2% Recall
  • Raisonnement CoT uniquement : 84,7% Wtd, 62,8% Recall
  • Attributs définis manuellement : 92,5% Wtd, 72,8% Recall

Comparaison des stratégies de vérification :

  • Vérification d'attributs (cet article) : 72,5%
  • Raisonnement par paires : 72,3%
  • Sans estimation : 71,2%
  • Stratégie d'abstention : 70,7%

Analyse de cas

L'article présente l'efficacité de R2P dans le traitement de concepts visuellement similaires, tels que la distinction entre différents t-shirts (logo CVPR vs ICCV), l'identification de jouets en peluche spécifiques, etc. Le modèle peut identifier avec précision les concepts cibles grâce à des attributs clés (tels que « logo CVPR », « col rond », etc.).

Découvertes expérimentales

  1. Importance des attributs d'empreinte digitale : Les attributs générés par VLM fonctionnent presque aussi bien que les attributs définis manuellement
  2. Avantage de la récupération multimodale : La stratégie de récupération combinant plongements visuels et textuels surpasse les méthodes unimodales
  3. Efficacité du mécanisme de vérification : La vérification d'attributs multimodaux réduit efficacement les hallucinations et améliore la précision

Travaux connexes

Personnalisation des VLM

Les premières méthodes comme MyVLM et Yo'LLaVA utilisent des stratégies d'inversion, attribuant une représentation latente unique à chaque objet. Les travaux récents réduisent le temps de personnalisation par un ajustement fin à grande échelle et des entrées multi-images.

Raisonnement basé sur les attributs

L'identification d'objets à partir d'attributs est un problème de longue date en vision par ordinateur, avec des applications importantes dans l'apprentissage sans exemple. Cet article est similaire aux travaux découvrant des attributs utiles ou générés par machine, mais se concentre sur la description d'objets personnels.

Conclusion et discussion

Conclusions principales

  1. Première preuve que le cadre sans entraînement pour la personnalisation des VLM est réalisable
  2. R2P résout efficacement le problème d'identification des concepts personnels grâce aux empreintes digitales de concepts et au paradigme récupération-raisonnement
  3. Atteint les performances les plus avancées sur plusieurs benchmarks

Limitations

  1. Surcharge de calcul : Bien que sans entraînement, le processus de vérification multi-étapes lors de l'inférence entraîne toujours un certain coût de calcul
  2. Limitations de scène : Les performances peuvent être limitées dans les scènes encombrées contenant plusieurs concepts similaires
  3. Limitation d'image unique : Actuellement, ne supporte que la personnalisation avec une seule image de référence

Directions futures

  1. Réduire la surcharge de calcul et améliorer l'efficacité de l'inférence
  2. Améliorer les performances dans les scènes encombrées
  3. Étendre à des paramètres multi-références
  4. Explorer davantage de scénarios d'application

Évaluation approfondie

Avantages

  1. Innovation forte : Première exploration du cadre sans entraînement pour la personnalisation des VLM, ouvrant une nouvelle direction de recherche
  2. Méthode complète : Conception d'un pipeline complet récupération-raisonnement-vérification, avec une solution technique mature
  3. Expériences complètes : Évaluation complète sur plusieurs ensembles de données, incluant un ensemble de données difficile nouvellement construit
  4. Performances excellentes : Atteint les performances SOTA sur tous les benchmarks
  5. Valeur pratique élevée : La caractéristique sans entraînement rend la méthode plus facile à déployer et utiliser

Insuffisances

  1. Complexité de calcul : Le processus de raisonnement multi-étapes peut poser des problèmes d'efficacité dans les applications pratiques
  2. Dépendance à la qualité du VLM : L'efficacité de la méthode dépend largement des capacités du VLM sous-jacent
  3. Qualité d'extraction d'attributs : La qualité des attributs d'empreinte digitale générés par VLM peut ne pas être suffisamment stable
  4. Problèmes d'extensibilité : La complexité de la récupération et du raisonnement augmente avec la croissance du nombre de concepts

Impact

  1. Contribution académique : Fournit un nouveau paradigme de recherche pour le domaine de la personnalisation des VLM
  2. Valeur pratique : Réduit les obstacles au déploiement des VLM personnalisés
  3. Reproductibilité : L'article fournit des détails d'implémentation détaillés et s'engage à l'open source
  4. Valeur inspirante : Démontre le potentiel d'exploitation des connaissances internes des modèles préentraînés

Scénarios d'application

  1. Systèmes d'assistants personnels : Les utilisateurs peuvent ajouter rapidement des concepts personnels sans entraînement
  2. Maisons intelligentes : Identification des objets personnels et de l'environnement de l'utilisateur
  3. Applications éducatives : Identification de contenu d'apprentissage personnalisé
  4. Recommandations de commerce électronique : Identification de produits basée sur les préférences personnelles de l'utilisateur

Références

L'article cite les travaux importants dans les domaines connexes, incluant les méthodes de personnalisation comme MyVLM, Yo'LLaVA, RAP, ainsi que les modèles de base comme CLIP et LLaVA, fournissant une base théorique solide pour la recherche.


Évaluation globale : Ceci est un article de recherche de haute qualité qui propose une méthode innovante sans entraînement dans le domaine de la personnalisation des VLM, avec une solution technique complète, une évaluation expérimentale complète, et une valeur académique et pratique importante. La principale contribution de l'article réside dans la preuve de la faisabilité de l'exploitation des connaissances internes des VLM pour la personnalisation, ouvrant une nouvelle direction de recherche pour ce domaine.