Training-Free Personalization via Retrieval and Reasoning on Fingerprints
Das, Talon, Wang et al.
Vision Language Models (VLMs) have lead to major improvements in multimodal reasoning, yet they still struggle to understand user-specific concepts. Existing personalization methods address this limitation but heavily rely on training procedures, that can be either costly or unpleasant to individual users. We depart from existing work, and for the first time explore the training-free setting in the context of personalization. We propose a novel method, Retrieval and Reasoning for Personalization (R2P), leveraging internal knowledge of VLMs. First, we leverage VLMs to extract the concept fingerprint, i.e., key attributes uniquely defining the concept within its semantic class. When a query arrives, the most similar fingerprints are retrieved and scored via chain-of-thought-reasoning. To reduce the risk of hallucinations, the scores are validated through cross-modal verification at the attribute level: in case of a discrepancy between the scores, R2P refines the concept association via pairwise multimodal matching, where the retrieved fingerprints and their images are directly compared with the query. We validate R2P on two publicly available benchmarks and a newly introduced dataset, Personal Concepts with Visual Ambiguity (PerVA), for concept identification highlighting challenges in visual ambiguity. R2P consistently outperforms state-of-the-art approaches on various downstream tasks across all benchmarks. Code will be available upon acceptance.
본 논문은 R2P (Retrieval and Reasoning for Personalization)라는 새로운 방법을 제안하며, 시각 언어 모델(VLM) 개인화 분야에서 처음으로 훈련 없는 설정을 탐색합니다. 이 방법은 개념 지문(concept fingerprint)을 추출하여 사용자 특정 개념을 고유하게 정의하고, 쿼리 시점에 가장 유사한 지문을 검색한 후 사슬형 사고(chain-of-thought) 추론을 통해 점수를 매깁니다. 환각 위험을 줄이기 위해 R2P는 속성 수준의 교차 모달 검증 메커니즘을 도입하며, 필요시 쌍별 다중 모달 매칭을 사용하여 개념 연관성을 최적화합니다.
기존의 시각 언어 모델은 다중 모달 추론에서 상당한 진전을 이루었지만, 사용자 특정 개념을 이해하는 데 여전히 어려움을 겪고 있습니다. 예를 들어, "내 열쇠가 어디에 있나요?" 또는 "Fluffy가 뭐 하고 있어?"와 같은 질문에서 VLM은 개인 개념을 이해하기 어렵습니다.
사용자가 제공한 참조 이미지 Ii∈V, 개념 이름 ci∈T, 범주 gi∈T가 주어졌을 때, 사용자 특정 다중 모달 데이터베이스 D를 구축합니다. 테스트 시점에 쿼리 이미지 Q∈V와 텍스트 프롬프트 Pq∈T가 주어지면, VLM은 개인 개념과 관련된 답변을 제공해야 합니다.
논문은 R2P가 시각적으로 유사한 개념을 처리할 때의 효과성을 보여줍니다. 예를 들어, 서로 다른 티셔츠 구분 (CVPR vs ICCV 로고), 특정 봉제 인형 식별 등입니다. 모델은 주요 속성 ("CVPR logo", "round neck" 등)을 통해 목표 개념을 정확하게 식별할 수 있습니다.
논문은 MyVLM, Yo'LLaVA, RAP 등 개인화 방법과 CLIP, LLaVA 등 기본 모델을 포함한 관련 분야의 중요 연구를 인용하여 연구에 견고한 이론적 기초를 제공합니다.
종합 평가: 이는 VLM 개인화 분야에서 혁신적인 훈련 없는 방법을 제안한 고품질 연구 논문입니다. 기술 방안이 완전하고 실험 평가가 충분하며 중요한 학술 가치와 실용적 의미를 지닙니다. 논문의 주요 기여는 VLM 내부 지식을 활용한 개인화의 실행 가능성을 입증하여 해당 분야에 새로운 연구 방향을 개척했다는 점입니다.