2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.

CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.

academic

Supervisione dei Dati o del Linguaggio: Cosa Rende CLIP Migliore di DINO?

Informazioni Fondamentali

ID Articolo: 2510.11835
Titolo: Data or Language Supervision: What Makes CLIP Better than DINO?
Autori: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)
Classificazione: cs.CV cs.AI cs.CL cs.LG cs.MM
Data di Pubblicazione: 13 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.11835

Riassunto

CLIP supera i modelli autosupervisionati come DINO come codificatore visivo nei modelli visione-linguaggio (VLM), ma rimane poco chiaro se il suo vantaggio derivi dalla supervisione linguistica o da dati di addestramento su scala maggiore. Per disaccoppiare questi fattori, i ricercatori hanno preaddestrato CLIP e DINO in condizioni controllate—utilizzando la stessa architettura, dataset e configurazione di addestramento—ottenendo accuratezze ImageNet simili. L'analisi degli embedding rivela che CLIP cattura semantica di alto livello (come categorie di oggetti, testo), mentre DINO è più reattivo a caratteristiche di basso livello come colore e stile. Quando integrati in VLM e valutati su 20 benchmark VQA, CLIP eccelle nei compiti ricchi di testo, mentre DINO mostra un leggero vantaggio nei compiti incentrati sulla visione. Le varianti di supervisione linguistica (come perdita sigmoid, codificatore linguistico preaddestrato) producono guadagni limitati.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale che questa ricerca affronta è: La prestazione superiore di CLIP rispetto a DINO nei modelli visione-linguaggio deriva dalla supervisione linguistica o da dati di addestramento su scala maggiore?

Importanza del Problema

Significato Pratico: Il codificatore visivo è l'"occhio" dei VLM, e la sua prestazione influisce direttamente sulla capacità di comprensione visiva dell'intero sistema
Valore Teorico: Comprendere l'impatto di diversi segnali di supervisione sull'apprendimento di rappresentazioni visive fornisce una guida scientifica per progettare codificatori visivi migliori
Ottimizzazione delle Risorse: Identificare i fattori chiave aiuta a fare scelte progettuali migliori con risorse limitate

Limitazioni dei Metodi Esistenti

Fattori Confondenti: I modelli CLIP e DINO esistenti differiscono nella scala dei dati di addestramento fino a 100 volte, rendendo difficile separare l'effetto del tipo di supervisione dalla scala dei dati
Mancanza di Esperimenti Controllati: Gli studi comparativi precedenti si basavano su modelli preaddestrati con impostazioni di addestramento diverse, impedendo confronti equi
Comprensione Meccanicistica Insufficiente: Manca un'analisi approfondita di come la supervisione linguistica modifica lo spazio di rappresentazione visiva

Motivazione della Ricerca

Attraverso un design sperimentale rigorosamente controllato, addestrare CLIP e DINO in condizioni identiche per analizzare scientificamente l'impatto reale della supervisione linguistica sulla prestazione del codificatore visivo.

Contributi Fondamentali

Primo Esperimento Controllato: Addestramento di CLIP e DINO con la stessa architettura (ViT-B/16), dataset (sottoinsieme DataComp 10M) e configurazione di addestramento, realizzando un confronto equo
Analisi dello Spazio di Embedding: Analisi approfondita di come la supervisione linguistica modifica le rappresentazioni visive, scoprendo che CLIP si concentra su semantica di alto livello mentre DINO è sensibile a caratteristiche visive di basso livello
Valutazione Prestazioni VLM: Valutazione sistematica di entrambi i codificatori su 20 benchmark VQA, scoprendo che CLIP supera significativamente DINO nei compiti OCR (miglioramento del 7,5%)
Esplorazione Varianti di Supervisione: Verifica dei benefici limitati di diverse forme di supervisione linguistica (perdita SigLIP, modelli linguistici preaddestrati)
Intuizioni Scientifiche: Fornisce principi guida basati su evidenze empiriche per la progettazione di codificatori visivi

Dettagli Metodologici

Definizione del Compito

Input: Dataset di immagini, opzionalmente con descrizioni testuali associate Output: Codificatore visivo in grado di mappare immagini a uno spazio di rappresentazione semantica Vincoli: Modificare solo il tipo di segnale di supervisione mantenendo tutte le altre variabili controllate

Design dell'Esperimento Controllato

Unificazione dell'Architettura

Rete Backbone: ViT-B/16 come architettura comune per entrambi i modelli
Scala di Parametri: Garantire coerenza della complessità del modello

Unificazione del Dataset

Fonte Dati: Sottoinsieme di 10M immagini del dataset DataComp
Preprocessing: Ritaglio centrale uniforme e ridimensionamento a 224×224
Differenza di Supervisione: CLIP utilizza coppie immagine-testo, DINO utilizza solo immagini

Unificazione della Configurazione di Addestramento

Ottimizzatore: AdamW
Tasso di Apprendimento: 1e-3, decadimento cosinusoidale
Epoche di Addestramento: 20 epoche
Hardware: 4 GPU A100, addestramento di 3 giorni

Metodo di Analisi degli Embedding

Identificazione di Coppie di Immagini Differenziate

Definizione di due classi di coppie di immagini per analizzare le divergenze del modello:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # CLIP alta similarità, DINO bassa similarità
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # DINO alta similarità, CLIP bassa similarità

Esperimenti di Verifica Quantitativa

Test di Sensibilità Semantica: Utilizzo di immagini contenenti lettere/numeri diversi per testare la capacità di discriminazione semantica
Test di Sensibilità ai Modelli Visivi: Utilizzo di semplici modelli visivi ripetitivi per testare la sensibilità alle caratteristiche di basso livello

Schema di Integrazione VLM

Scelta del Framework

Architettura di Base: LLaVA-1.5
Componente Sostituito: Solo la parte del codificatore visivo
Flusso di Addestramento: Preaddestramento + fine-tuning di istruzioni visive

Benchmark di Valutazione

VMCBench: Benchmark unificato di domande e risposte visive a scelta multipla contenente 20 dataset
Tipi di Compiti: VQA generale, ragionamento, comprensione di documenti e grafici, OCR, ecc.

Impostazione Sperimentale

Dataset

Dati di Addestramento: Sottoinsieme DataComp 10M
- Scala: 10 milioni di coppie immagine-testo
- Preprocessing: Ritaglio centrale, risoluzione 224×224
Dataset di Valutazione:
- Compiti di Classificazione: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
- Compiti VQA: 20 sottoinsiemi di VMCBench, inclusi OCRVQA, TextVQA, ecc.

Metriche di Valutazione

Accuratezza di Sondaggio Lineare: Metodo standard per valutare la qualità del codificatore visivo
Accuratezza VQA: Tasso di correttezza per domande a scelta multipla
Similarità del Coseno: Metrica di analisi dello spazio di embedding

Metodi di Confronto

Modelli Ufficiali: Modelli CLIP e DINO preaddestrati rilasciati ufficialmente
Modelli Controllati: CLIP e DINO addestrati in condizioni identiche
Varianti di Supervisione: Versione con perdita SigLIP, versione con modello linguistico preaddestrato

Dettagli di Implementazione

Selezione del Checkpoint: Selezione del miglior checkpoint basata sulla prestazione del set di validazione
Frequenza di Valutazione: Salvataggio e valutazione ogni 500 step
Significatività Statistica: Verifica della stabilità dei risultati su più seed casuali

Risultati Sperimentali

Risultati Principali

Prestazioni nei Compiti di Classificazione

Modello	ImageNet	CIFAR-10	Stanford Cars	Flowers	CUB
CLIP Controllato	65,8%	90,7%	74,7%	78,7%	52,3%
DINO Controllato	66,4%	92,1%	54,1%	80,7%	43,0%

Scoperte Chiave:

Prestazioni comparabili nei compiti di classificazione generale
CLIP supera significativamente DINO nei compiti di classificazione fine-grained (Stanford Cars: +20,6%, CUB: +9,3%)

Prestazioni nei Compiti VLM

Tipo di Compito	LLaVA-CLIP	LLaVA-DINO	Differenza
VQA Generale	46,2%	46,0%	+0,2%
Ragionamento	41,2%	41,5%	-0,3%
Documenti e Grafici	33,2%	33,1%	+0,1%
Compiti OCR	47,5%	40,0%	+7,5%

Scoperte Chiave:

Prestazioni comparabili nella maggior parte dei compiti
CLIP supera significativamente DINO nei compiti correlati a OCR

Risultati dell'Analisi degli Embedding

Verifica Quantitativa

Sensibilità ai Contenuti Semantici:
- Similarità media DINO: 0,877
- Similarità media CLIP: 0,713 (più bassa, indicando migliore discriminazione semantica)
Sensibilità ai Modelli Visivi:
- Similarità media DINO: 0,478 (più bassa, indicando migliore discriminazione dei dettagli visivi)
- Similarità media CLIP: 0,497

Analisi Qualitativa

Vantaggi di CLIP: Migliore cattura di categorie di oggetti e testo incorporato e altre semantiche di alto livello
Vantaggi di DINO: Più sensibile a colore, stile e altre caratteristiche visive di basso livello

Esperimenti su Varianti di Supervisione

Variante	Accuratezza Media VMCBench
CLIP Standard	41,4%
Perdita SigLIP	40,8%
Modello Linguistico Preaddestrato	40,5%

Conclusione: I miglioramenti da diverse forme di supervisione linguistica sono limitati.

Esperimento su Backbone del Modello Linguistico

Risultati utilizzando Qwen2-7B al posto di Vicuna-7B:

Combinazione di Modelli	VQA Generale	OCR	Media
CLIP + Qwen2	57,90%	51,40%	49,69%
DINO + Qwen2	54,02%	47,59%	47,72%

Lavori Correlati

Modelli Visione-Linguaggio

Lavori Rappresentativi: LLaVA, Qwen2.5-VL, ecc.
Caratteristiche Architettoniche: Codificatore visivo + modello linguistico + modulo di connessione
Contributo di questo Articolo: Focalizzato su analisi sistematica della componente del codificatore visivo

Apprendimento di Rappresentazioni Visive

Metodi Autosupervisionati: DINO, SimCLR, ecc., che apprendono rappresentazioni attraverso previsione di relazioni con aumenti di immagini
Metodi con Supervisione Linguistica: CLIP, EVA-CLIP, SigLIP, ecc., che sfruttano l'allineamento immagine-testo
Innovazione di questo Articolo: Primo confronto sistematico di due paradigmi in condizioni controllate

Ricerca su Scelte Progettuali VLM

Ricerca Esistente: Principalmente focalizzata su componenti architettoniche, strategie di dati, configurazioni di addestramento
Limitazioni: Basate su modelli preaddestrati con impostazioni di addestramento diverse, mancanza di controllo delle variabili
Vantaggio di questo Articolo: Design sperimentale rigorosamente controllato

Conclusioni e Discussione

Conclusioni Principali

Scala dei Dati vs Tipo di Supervisione: Controllando la scala dei dati, la supervisione linguistica porta effettivamente vantaggi specifici
Differenze di Rappresentazione: CLIP apprende rappresentazioni semantiche di alto livello, DINO si concentra su caratteristiche visive di basso livello
Specificità del Compito: CLIP mostra vantaggi evidenti nei compiti ricchi di testo, mentre i due sono comparabili nei compiti incentrati sulla visione
Forma di Supervisione: I miglioramenti da diverse varianti di supervisione linguistica sono limitati

Limitazioni

Limitazione della Scala dei Dati: Gli esperimenti sono condotti solo su un sottoinsieme di 10M immagini, necessitando di estensione a dati su scala di miliardi per verifica
Architettura Singola: Solo ViT-B/16 è testato, le conclusioni su altre architetture potrebbero differire
Copertura dei Compiti: Principalmente focalizzato su compiti VQA, le conclusioni su altri compiti visione-linguaggio rimangono da verificare

Direzioni Future

Verifica su Larga Scala: Ripetere esperimenti controllati su dati su scala di miliardi
Metodi Ibridi: Esplorare strategie di addestramento ibrido che combinano supervisione autosupervisionata e linguistica
Esplorazione Architetturale: Verificare l'universalità delle conclusioni su diverse architetture visive

Valutazione Approfondita

Punti di Forza

Design Sperimentale Rigoroso: Primo esperimento veramente controllato, eliminando fattori confondenti
Analisi Profonda e Completa: Analisi multilivello dallo spazio di embedding ai compiti downstream
Alto Valore Scientifico: Fornisce una guida progettuale basata su evidenze empiriche al campo
Forte Riproducibilità: Impostazioni sperimentali dettagliate e codice open-source
Scrittura Chiara: Struttura logica chiara, conclusioni espresse accuratamente

Insufficienze

Limitazione di Scala: Il dataset di 10M è relativamente piccolo, potrebbe non riflettere completamente la situazione dell'addestramento su larga scala
Limitazione dei Compiti: Principalmente focalizzato su compiti VQA, la generalizzabilità ad altri compiti visione-linguaggio non è completamente verificata
Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché la supervisione linguistica produce queste differenze

Impatto

Contributo Accademico: Fornisce una base scientifica per la progettazione di codificatori visivi, colmando un vuoto nel campo
Valore Pratico: Guida la scelta del codificatore visivo nei sistemi VLM effettivi
Contributo Metodologico: L'approccio di design dell'esperimento controllato può essere applicato ad altre ricerche comparative

Scenari Applicabili

Sviluppo VLM: Fornisce evidenze per la scelta di codificatori visivi appropriati
Guida della Ricerca: Fornisce direzioni per la ricerca sull'apprendimento di rappresentazioni visive
Ottimizzazione delle Risorse: Consente scelte progettuali migliori con risorse limitate

Riferimenti Bibliografici

Questo articolo cita importanti lavori nei campi dei modelli visione-linguaggio e dell'apprendimento di rappresentazioni visive, inclusi:

CLIP (Radford et al., 2021)
DINO (Caron et al., 2021)
LLaVA (Liu et al., 2023)
SigLIP (Zhai et al., 2023)
DataComp (Gadre et al., 2023)

Valutazione Complessiva: Questo è un articolo di ricerca empirica di alta qualità che risponde a importanti questioni scientifiche nel campo attraverso un design sperimentale rigorosamente controllato. Il metodo di ricerca è scientificamente rigoroso, le conclusioni hanno importante valore teorico e pratico, fornendo una guida preziosa per lo sviluppo di modelli visione-linguaggio.