2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.
CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic

Supervisione dei Dati o del Linguaggio: Cosa Rende CLIP Migliore di DINO?

Informazioni Fondamentali

  • ID Articolo: 2510.11835
  • Titolo: Data or Language Supervision: What Makes CLIP Better than DINO?
  • Autori: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)
  • Classificazione: cs.CV cs.AI cs.CL cs.LG cs.MM
  • Data di Pubblicazione: 13 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.11835

Riassunto

CLIP supera i modelli autosupervisionati come DINO come codificatore visivo nei modelli visione-linguaggio (VLM), ma rimane poco chiaro se il suo vantaggio derivi dalla supervisione linguistica o da dati di addestramento su scala maggiore. Per disaccoppiare questi fattori, i ricercatori hanno preaddestrato CLIP e DINO in condizioni controllate—utilizzando la stessa architettura, dataset e configurazione di addestramento—ottenendo accuratezze ImageNet simili. L'analisi degli embedding rivela che CLIP cattura semantica di alto livello (come categorie di oggetti, testo), mentre DINO è più reattivo a caratteristiche di basso livello come colore e stile. Quando integrati in VLM e valutati su 20 benchmark VQA, CLIP eccelle nei compiti ricchi di testo, mentre DINO mostra un leggero vantaggio nei compiti incentrati sulla visione. Le varianti di supervisione linguistica (come perdita sigmoid, codificatore linguistico preaddestrato) producono guadagni limitati.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale che questa ricerca affronta è: La prestazione superiore di CLIP rispetto a DINO nei modelli visione-linguaggio deriva dalla supervisione linguistica o da dati di addestramento su scala maggiore?

Importanza del Problema

  1. Significato Pratico: Il codificatore visivo è l'"occhio" dei VLM, e la sua prestazione influisce direttamente sulla capacità di comprensione visiva dell'intero sistema
  2. Valore Teorico: Comprendere l'impatto di diversi segnali di supervisione sull'apprendimento di rappresentazioni visive fornisce una guida scientifica per progettare codificatori visivi migliori
  3. Ottimizzazione delle Risorse: Identificare i fattori chiave aiuta a fare scelte progettuali migliori con risorse limitate

Limitazioni dei Metodi Esistenti

  1. Fattori Confondenti: I modelli CLIP e DINO esistenti differiscono nella scala dei dati di addestramento fino a 100 volte, rendendo difficile separare l'effetto del tipo di supervisione dalla scala dei dati
  2. Mancanza di Esperimenti Controllati: Gli studi comparativi precedenti si basavano su modelli preaddestrati con impostazioni di addestramento diverse, impedendo confronti equi
  3. Comprensione Meccanicistica Insufficiente: Manca un'analisi approfondita di come la supervisione linguistica modifica lo spazio di rappresentazione visiva

Motivazione della Ricerca

Attraverso un design sperimentale rigorosamente controllato, addestrare CLIP e DINO in condizioni identiche per analizzare scientificamente l'impatto reale della supervisione linguistica sulla prestazione del codificatore visivo.

Contributi Fondamentali

  1. Primo Esperimento Controllato: Addestramento di CLIP e DINO con la stessa architettura (ViT-B/16), dataset (sottoinsieme DataComp 10M) e configurazione di addestramento, realizzando un confronto equo
  2. Analisi dello Spazio di Embedding: Analisi approfondita di come la supervisione linguistica modifica le rappresentazioni visive, scoprendo che CLIP si concentra su semantica di alto livello mentre DINO è sensibile a caratteristiche visive di basso livello
  3. Valutazione Prestazioni VLM: Valutazione sistematica di entrambi i codificatori su 20 benchmark VQA, scoprendo che CLIP supera significativamente DINO nei compiti OCR (miglioramento del 7,5%)
  4. Esplorazione Varianti di Supervisione: Verifica dei benefici limitati di diverse forme di supervisione linguistica (perdita SigLIP, modelli linguistici preaddestrati)
  5. Intuizioni Scientifiche: Fornisce principi guida basati su evidenze empiriche per la progettazione di codificatori visivi

Dettagli Metodologici

Definizione del Compito

Input: Dataset di immagini, opzionalmente con descrizioni testuali associate Output: Codificatore visivo in grado di mappare immagini a uno spazio di rappresentazione semantica Vincoli: Modificare solo il tipo di segnale di supervisione mantenendo tutte le altre variabili controllate

Design dell'Esperimento Controllato

Unificazione dell'Architettura

  • Rete Backbone: ViT-B/16 come architettura comune per entrambi i modelli
  • Scala di Parametri: Garantire coerenza della complessità del modello

Unificazione del Dataset

  • Fonte Dati: Sottoinsieme di 10M immagini del dataset DataComp
  • Preprocessing: Ritaglio centrale uniforme e ridimensionamento a 224×224
  • Differenza di Supervisione: CLIP utilizza coppie immagine-testo, DINO utilizza solo immagini

Unificazione della Configurazione di Addestramento

  • Ottimizzatore: AdamW
  • Tasso di Apprendimento: 1e-3, decadimento cosinusoidale
  • Epoche di Addestramento: 20 epoche
  • Hardware: 4 GPU A100, addestramento di 3 giorni

Metodo di Analisi degli Embedding

Identificazione di Coppie di Immagini Differenziate

Definizione di due classi di coppie di immagini per analizzare le divergenze del modello:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # CLIP alta similarità, DINO bassa similarità
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # DINO alta similarità, CLIP bassa similarità

Esperimenti di Verifica Quantitativa

  1. Test di Sensibilità Semantica: Utilizzo di immagini contenenti lettere/numeri diversi per testare la capacità di discriminazione semantica
  2. Test di Sensibilità ai Modelli Visivi: Utilizzo di semplici modelli visivi ripetitivi per testare la sensibilità alle caratteristiche di basso livello

Schema di Integrazione VLM

Scelta del Framework

  • Architettura di Base: LLaVA-1.5
  • Componente Sostituito: Solo la parte del codificatore visivo
  • Flusso di Addestramento: Preaddestramento + fine-tuning di istruzioni visive

Benchmark di Valutazione

  • VMCBench: Benchmark unificato di domande e risposte visive a scelta multipla contenente 20 dataset
  • Tipi di Compiti: VQA generale, ragionamento, comprensione di documenti e grafici, OCR, ecc.

Impostazione Sperimentale

Dataset

  1. Dati di Addestramento: Sottoinsieme DataComp 10M
    • Scala: 10 milioni di coppie immagine-testo
    • Preprocessing: Ritaglio centrale, risoluzione 224×224
  2. Dataset di Valutazione:
    • Compiti di Classificazione: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
    • Compiti VQA: 20 sottoinsiemi di VMCBench, inclusi OCRVQA, TextVQA, ecc.

Metriche di Valutazione

  • Accuratezza di Sondaggio Lineare: Metodo standard per valutare la qualità del codificatore visivo
  • Accuratezza VQA: Tasso di correttezza per domande a scelta multipla
  • Similarità del Coseno: Metrica di analisi dello spazio di embedding

Metodi di Confronto

  • Modelli Ufficiali: Modelli CLIP e DINO preaddestrati rilasciati ufficialmente
  • Modelli Controllati: CLIP e DINO addestrati in condizioni identiche
  • Varianti di Supervisione: Versione con perdita SigLIP, versione con modello linguistico preaddestrato

Dettagli di Implementazione

  • Selezione del Checkpoint: Selezione del miglior checkpoint basata sulla prestazione del set di validazione
  • Frequenza di Valutazione: Salvataggio e valutazione ogni 500 step
  • Significatività Statistica: Verifica della stabilità dei risultati su più seed casuali

Risultati Sperimentali

Risultati Principali

Prestazioni nei Compiti di Classificazione

ModelloImageNetCIFAR-10Stanford CarsFlowersCUB
CLIP Controllato65,8%90,7%74,7%78,7%52,3%
DINO Controllato66,4%92,1%54,1%80,7%43,0%

Scoperte Chiave:

  • Prestazioni comparabili nei compiti di classificazione generale
  • CLIP supera significativamente DINO nei compiti di classificazione fine-grained (Stanford Cars: +20,6%, CUB: +9,3%)

Prestazioni nei Compiti VLM

Tipo di CompitoLLaVA-CLIPLLaVA-DINODifferenza
VQA Generale46,2%46,0%+0,2%
Ragionamento41,2%41,5%-0,3%
Documenti e Grafici33,2%33,1%+0,1%
Compiti OCR47,5%40,0%+7,5%

Scoperte Chiave:

  • Prestazioni comparabili nella maggior parte dei compiti
  • CLIP supera significativamente DINO nei compiti correlati a OCR

Risultati dell'Analisi degli Embedding

Verifica Quantitativa

  1. Sensibilità ai Contenuti Semantici:
    • Similarità media DINO: 0,877
    • Similarità media CLIP: 0,713 (più bassa, indicando migliore discriminazione semantica)
  2. Sensibilità ai Modelli Visivi:
    • Similarità media DINO: 0,478 (più bassa, indicando migliore discriminazione dei dettagli visivi)
    • Similarità media CLIP: 0,497

Analisi Qualitativa

  • Vantaggi di CLIP: Migliore cattura di categorie di oggetti e testo incorporato e altre semantiche di alto livello
  • Vantaggi di DINO: Più sensibile a colore, stile e altre caratteristiche visive di basso livello

Esperimenti su Varianti di Supervisione

VarianteAccuratezza Media VMCBench
CLIP Standard41,4%
Perdita SigLIP40,8%
Modello Linguistico Preaddestrato40,5%

Conclusione: I miglioramenti da diverse forme di supervisione linguistica sono limitati.

Esperimento su Backbone del Modello Linguistico

Risultati utilizzando Qwen2-7B al posto di Vicuna-7B:

Combinazione di ModelliVQA GeneraleOCRMedia
CLIP + Qwen257,90%51,40%49,69%
DINO + Qwen254,02%47,59%47,72%

Lavori Correlati

Modelli Visione-Linguaggio

  • Lavori Rappresentativi: LLaVA, Qwen2.5-VL, ecc.
  • Caratteristiche Architettoniche: Codificatore visivo + modello linguistico + modulo di connessione
  • Contributo di questo Articolo: Focalizzato su analisi sistematica della componente del codificatore visivo

Apprendimento di Rappresentazioni Visive

  1. Metodi Autosupervisionati: DINO, SimCLR, ecc., che apprendono rappresentazioni attraverso previsione di relazioni con aumenti di immagini
  2. Metodi con Supervisione Linguistica: CLIP, EVA-CLIP, SigLIP, ecc., che sfruttano l'allineamento immagine-testo
  3. Innovazione di questo Articolo: Primo confronto sistematico di due paradigmi in condizioni controllate

Ricerca su Scelte Progettuali VLM

  • Ricerca Esistente: Principalmente focalizzata su componenti architettoniche, strategie di dati, configurazioni di addestramento
  • Limitazioni: Basate su modelli preaddestrati con impostazioni di addestramento diverse, mancanza di controllo delle variabili
  • Vantaggio di questo Articolo: Design sperimentale rigorosamente controllato

Conclusioni e Discussione

Conclusioni Principali

  1. Scala dei Dati vs Tipo di Supervisione: Controllando la scala dei dati, la supervisione linguistica porta effettivamente vantaggi specifici
  2. Differenze di Rappresentazione: CLIP apprende rappresentazioni semantiche di alto livello, DINO si concentra su caratteristiche visive di basso livello
  3. Specificità del Compito: CLIP mostra vantaggi evidenti nei compiti ricchi di testo, mentre i due sono comparabili nei compiti incentrati sulla visione
  4. Forma di Supervisione: I miglioramenti da diverse varianti di supervisione linguistica sono limitati

Limitazioni

  1. Limitazione della Scala dei Dati: Gli esperimenti sono condotti solo su un sottoinsieme di 10M immagini, necessitando di estensione a dati su scala di miliardi per verifica
  2. Architettura Singola: Solo ViT-B/16 è testato, le conclusioni su altre architetture potrebbero differire
  3. Copertura dei Compiti: Principalmente focalizzato su compiti VQA, le conclusioni su altri compiti visione-linguaggio rimangono da verificare

Direzioni Future

  1. Verifica su Larga Scala: Ripetere esperimenti controllati su dati su scala di miliardi
  2. Metodi Ibridi: Esplorare strategie di addestramento ibrido che combinano supervisione autosupervisionata e linguistica
  3. Esplorazione Architetturale: Verificare l'universalità delle conclusioni su diverse architetture visive

Valutazione Approfondita

Punti di Forza

  1. Design Sperimentale Rigoroso: Primo esperimento veramente controllato, eliminando fattori confondenti
  2. Analisi Profonda e Completa: Analisi multilivello dallo spazio di embedding ai compiti downstream
  3. Alto Valore Scientifico: Fornisce una guida progettuale basata su evidenze empiriche al campo
  4. Forte Riproducibilità: Impostazioni sperimentali dettagliate e codice open-source
  5. Scrittura Chiara: Struttura logica chiara, conclusioni espresse accuratamente

Insufficienze

  1. Limitazione di Scala: Il dataset di 10M è relativamente piccolo, potrebbe non riflettere completamente la situazione dell'addestramento su larga scala
  2. Limitazione dei Compiti: Principalmente focalizzato su compiti VQA, la generalizzabilità ad altri compiti visione-linguaggio non è completamente verificata
  3. Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché la supervisione linguistica produce queste differenze

Impatto

  1. Contributo Accademico: Fornisce una base scientifica per la progettazione di codificatori visivi, colmando un vuoto nel campo
  2. Valore Pratico: Guida la scelta del codificatore visivo nei sistemi VLM effettivi
  3. Contributo Metodologico: L'approccio di design dell'esperimento controllato può essere applicato ad altre ricerche comparative

Scenari Applicabili

  1. Sviluppo VLM: Fornisce evidenze per la scelta di codificatori visivi appropriati
  2. Guida della Ricerca: Fornisce direzioni per la ricerca sull'apprendimento di rappresentazioni visive
  3. Ottimizzazione delle Risorse: Consente scelte progettuali migliori con risorse limitate

Riferimenti Bibliografici

Questo articolo cita importanti lavori nei campi dei modelli visione-linguaggio e dell'apprendimento di rappresentazioni visive, inclusi:

  • CLIP (Radford et al., 2021)
  • DINO (Caron et al., 2021)
  • LLaVA (Liu et al., 2023)
  • SigLIP (Zhai et al., 2023)
  • DataComp (Gadre et al., 2023)

Valutazione Complessiva: Questo è un articolo di ricerca empirica di alta qualità che risponde a importanti questioni scientifiche nel campo attraverso un design sperimentale rigorosamente controllato. Il metodo di ricerca è scientificamente rigoroso, le conclusioni hanno importante valore teorico e pratico, fornendo una guida preziosa per lo sviluppo di modelli visione-linguaggio.