2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.
CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic

Daten oder Sprachüberwachung: Was macht CLIP besser als DINO?

Grundlegende Informationen

  • Paper-ID: 2510.11835
  • Titel: Data or Language Supervision: What Makes CLIP Better than DINO?
  • Autoren: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)
  • Klassifizierung: cs.CV cs.AI cs.CL cs.LG cs.MM
  • Veröffentlichungsdatum: 13. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.11835

Zusammenfassung

CLIP übertrifft als visueller Encoder in Vision-Language-Modellen (VLMs) selbstüberwachte Modelle wie DINO, doch bleibt unklar, ob dieser Vorteil aus Sprachüberwachung oder größeren Trainings-Datenmengen stammt. Um diese Faktoren zu entkoppeln, trainieren die Forscher CLIP und DINO unter kontrollierten Bedingungen vor – unter Verwendung derselben Architektur, desselben Datensatzes und derselben Trainingskonfiguration – und erhalten ähnliche ImageNet-Genauigkeiten. Die Embedding-Analyse zeigt, dass CLIP hochrangige Semantik (wie Objektklassen, Text) erfasst, während DINO stärker auf niedrigrangige Merkmale wie Farbe und Stil reagiert. Bei Integration in VLMs und Bewertung auf 20 VQA-Benchmarks zeigt CLIP Überlegenheit bei textdichten Aufgaben, während DINO bei visuellen Aufgaben leichte Vorteile hat. Varianten der Sprachüberwachung (wie Sigmoid-Verlust, vortrainierte Sprach-Encoder) bringen begrenzte Gewinne.

Forschungshintergrund und Motivation

Kernfrage

Die Kernfrage dieser Forschung lautet: Stammt die überlegene Leistung von CLIP gegenüber DINO in Vision-Language-Modellen aus Sprachüberwachung oder größeren Trainings-Datenmengen?

Bedeutung der Frage

  1. Praktische Bedeutung: Der visuelle Encoder ist das "Auge" von VLMs; seine Leistung beeinflusst direkt die visuelle Verständnisfähigkeit des gesamten Systems
  2. Theoretischer Wert: Das Verständnis der Auswirkungen verschiedener Überwachungssignale auf das Lernen visueller Repräsentationen bietet wissenschaftliche Orientierung für die Gestaltung besserer visueller Encoder
  3. Ressourcenoptimierung: Die Klärung kritischer Faktoren hilft bei besseren Designentscheidungen unter begrenzten Ressourcen

Einschränkungen bestehender Methoden

  1. Verwirrende Faktoren: Bestehende CLIP- und DINO-Modelle unterscheiden sich in der Trainings-Datenmenge um bis zu 100-fach, was es schwierig macht, die Auswirkungen von Überwachungstyp und Datenmenge zu trennen
  2. Mangel an kontrollierten Experimenten: Bisherige Vergleichsstudien basieren auf vortrainierten Modellen mit unterschiedlichen Trainingseinstellungen und ermöglichen keinen fairen Vergleich
  3. Unzureichendes Mechanismusverständnis: Es fehlt eine tiefgreifende Analyse, wie Sprachüberwachung den visuellen Repräsentationsraum verändert

Forschungsmotivation

Durch streng kontrollierte experimentelle Designs wird CLIP und DINO unter identischen Bedingungen trainiert, um die tatsächliche Auswirkung der Sprachüberwachung auf die Leistung visueller Encoder wissenschaftlich zu analysieren.

Kernbeiträge

  1. Erstes kontrolliertes Experiment: Training von CLIP und DINO mit identischer Architektur (ViT-B/16), Datensatz (DataComp 10M-Teilmenge) und Trainingskonfiguration für fairen Vergleich
  2. Embedding-Space-Analyse: Tiefgreifende Analyse, wie Sprachüberwachung visuelle Repräsentationen verändert; zeigt, dass CLIP sich auf hochrangige Semantik konzentriert, während DINO empfindlicher auf niedrigrangige visuelle Merkmale reagiert
  3. VLM-Leistungsbewertung: Systematische Bewertung beider Encoder auf 20 VQA-Benchmarks; zeigt signifikante CLIP-Überlegenheit bei OCR-Aufgaben (7,5% Verbesserung)
  4. Erkundung von Überwachungsvarianten: Verifikation begrenzter Gewinne verschiedener Sprachüberwachungsformen (SigLIP-Verlust, vortrainierte Sprachmodelle)
  5. Wissenschaftliche Erkenntnisse: Bietet empirisch fundierte Designprinzipien für visuelle Encoder

Methodische Details

Aufgabendefinition

Eingabe: Bilddatensatz, optional gepaarte Textbeschreibungen Ausgabe: Visueller Encoder, der Bilder in einen semantischen Repräsentationsraum abbildet Einschränkungen: Änderung nur des Überwachungssignaltyps bei Kontrolle aller anderen Variablen

Kontrolliertes Experimentdesign

Architektur-Vereinheitlichung

  • Backbone-Netzwerk: ViT-B/16 als gemeinsame Architektur für beide Modelle
  • Parametergröße: Sicherstellung konsistenter Modellkomplexität

Datensatz-Vereinheitlichung

  • Datenquelle: 10M-Bild-Teilmenge des DataComp-Datensatzes
  • Vorverarbeitung: Einheitliches Center-Cropping und 224×224-Größenänderung
  • Überwachungsunterschiede: CLIP verwendet Bild-Text-Paare, DINO nur Bilder

Trainings-Konfiguration-Vereinheitlichung

  • Optimierer: AdamW
  • Lernrate: 1e-3, Kosinus-Annealing
  • Trainings-Epochen: 20
  • Hardware: 4 A100 GPUs, 3 Tage Training

Embedding-Analysemethoden

Differenzierte Bildpaar-Identifikation

Definition zweier Bildpaarklassen zur Analyse von Modellabweichungen:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # CLIP hohe Ähnlichkeit, DINO niedrig
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # DINO hohe Ähnlichkeit, CLIP niedrig

Quantitative Validierungsexperimente

  1. Semantische Sensitivitätstests: Verwendung von Bildern mit unterschiedlichen Buchstaben/Zahlen zum Testen der semantischen Unterscheidungsfähigkeit
  2. Visuelle Muster-Sensitivitätstests: Verwendung einfacher wiederholter visueller Muster zum Testen der Empfindlichkeit gegenüber niedrigrangigen Merkmalen

VLM-Integrationsstrategie

Framework-Auswahl

  • Basis-Architektur: LLaVA-1.5
  • Ersetzte Komponente: Nur der visuelle Encoder-Teil
  • Trainings-Pipeline: Vortraining + visuelle Instruction-Feinabstimmung

Evaluierungs-Benchmarks

  • VMCBench: Einheitlicher Multi-Choice-VQA-Benchmark mit 20 Datensätzen
  • Aufgabentypen: Allgemeines VQA, Reasoning, Dokument-Diagramm-Verständnis, OCR usw.

Experimentelle Einrichtung

Datensätze

  1. Trainingsdaten: DataComp 10M-Teilmenge
    • Umfang: 10 Millionen Bild-Text-Paare
    • Vorverarbeitung: Center-Cropping, 224×224-Auflösung
  2. Evaluierungs-Datensätze:
    • Klassifizierungsaufgaben: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
    • VQA-Aufgaben: 20 Teilmengen von VMCBench, einschließlich OCRVQA, TextVQA usw.

Bewertungsmetriken

  • Lineare Probe-Genauigkeit: Standardmethode zur Bewertung der Qualität visueller Encoder
  • VQA-Genauigkeit: Korrektheit bei Multiple-Choice-Fragen
  • Kosinus-Ähnlichkeit: Embedding-Space-Analysemetrik

Vergleichsmethoden

  • Offizielle Modelle: Offiziell veröffentlichte vortrainierte CLIP- und DINO-Modelle
  • Kontrollmodelle: Unter identischen Bedingungen trainierte CLIP- und DINO-Modelle
  • Überwachungsvarianten: SigLIP-Verlust-Version, vortrainierte Sprachmodell-Version

Implementierungsdetails

  • Checkpoint-Auswahl: Beste Checkpoints basierend auf Validierungsset-Leistung
  • Evaluierungs-Häufigkeit: Speichern und Bewertung alle 500 Schritte
  • Statistische Signifikanz: Verifikation der Ergebnisstabilität über mehrere zufällige Seeds

Experimentelle Ergebnisse

Hauptergebnisse

Klassifizierungs-Task-Leistung

ModellImageNetCIFAR-10Stanford CarsFlowersCUB
Kontroll-CLIP65,8%90,7%74,7%78,7%52,3%
Kontroll-DINO66,4%92,1%54,1%80,7%43,0%

Schlüsselfunde:

  • Vergleichbare Leistung bei allgemeinen Klassifizierungsaufgaben
  • CLIP signifikant überlegen bei Feinklassifizierungsaufgaben (Stanford Cars: +20,6%, CUB: +9,3%)

VLM-Task-Leistung

AufgabentypLLaVA-CLIPLLaVA-DINODifferenz
Allgemeines VQA46,2%46,0%+0,2%
Reasoning41,2%41,5%-0,3%
Dokument-Diagramm33,2%33,1%+0,1%
OCR-Aufgaben47,5%40,0%+7,5%

Schlüsselfunde:

  • Vergleichbare Leistung bei den meisten Aufgaben
  • CLIP signifikant überlegen bei OCR-bezogenen Aufgaben

Embedding-Analyseergebnisse

Quantitative Validierung

  1. Semantische Inhalts-Sensitivität:
    • DINO durchschnittliche Ähnlichkeit: 0,877
    • CLIP durchschnittliche Ähnlichkeit: 0,713 (niedriger, bessere semantische Unterscheidung)
  2. Visuelle Muster-Sensitivität:
    • DINO durchschnittliche Ähnlichkeit: 0,478 (niedriger, bessere visuelle Detail-Unterscheidung)
    • CLIP durchschnittliche Ähnlichkeit: 0,497

Qualitative Analyse

  • CLIP-Vorteile: Bessere Erfassung von Objektklassen und eingebettetem Text als hochrangige Semantik
  • DINO-Vorteile: Empfindlicher gegenüber Farbe, Stil und anderen niedrigrangigen visuellen Merkmalen

Überwachungsvarianten-Experimente

VarianteVMCBench durchschnittliche Genauigkeit
Standard-CLIP41,4%
SigLIP-Verlust40,8%
Vortrainiertes Sprachmodell40,5%

Schlussfolgerung: Begrenzte Verbesserungen durch verschiedene Formen der Sprachüberwachung.

Sprachmodell-Backbone-Experimente

Ergebnisse mit Qwen2-7B statt Vicuna-7B:

ModellkombinationAllgemeines VQAOCRDurchschnitt
CLIP + Qwen257,90%51,40%49,69%
DINO + Qwen254,02%47,59%47,72%

Verwandte Arbeiten

Vision-Language-Modelle

  • Repräsentative Arbeiten: LLaVA, Qwen2.5-VL usw.
  • Architektur-Merkmale: Visueller Encoder + Sprachmodell + Verbindungsmodul
  • Beitrag dieses Papers: Fokus auf systematische Analyse der visuellen Encoder-Komponente

Visuelles Repräsentationslernens

  1. Selbstüberwachte Methoden: DINO, SimCLR usw., lernen Repräsentationen durch Bildaugmentierungs-Beziehungsvorhersage
  2. Sprachüberwachte Methoden: CLIP, EVA-CLIP, SigLIP usw., nutzen Bild-Text-Alignment
  3. Innovation dieses Papers: Erste systematische Vergleichsstudie beider Paradigmen unter kontrollierten Bedingungen

VLM-Design-Entscheidungsforschung

  • Bestehende Forschung: Fokus hauptsächlich auf Architektur-Komponenten, Datenstrategien, Trainingskonfigurationen
  • Einschränkungen: Basierend auf vortrainierten Modellen mit unterschiedlichen Trainingseinstellungen, mangelnde Variablenkontrolle
  • Vorteil dieses Papers: Streng kontrolliertes experimentelles Design

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Datenmenge vs. Überwachungstyp: Bei Kontrolle der Datenmenge bringt Sprachüberwachung tatsächlich spezifische Vorteile
  2. Repräsentations-Unterschiede: CLIP lernt hochrangige semantische Repräsentationen, DINO konzentriert sich auf niedrigrangige visuelle Merkmale
  3. Task-Spezifität: CLIP zeigt klare Vorteile bei textdichten Aufgaben, bei visuellen Aufgaben sind beide vergleichbar
  4. Überwachungsform: Begrenzte Verbesserungen durch verschiedene Sprachüberwachungsvarianten

Einschränkungen

  1. Datenmenge-Einschränkung: Experimente nur auf 10M-Bild-Teilmenge; Verifikation auf Milliarden-Skala erforderlich
  2. Architektur-Einschränkung: Nur ViT-B/16 getestet; Schlussfolgerungen für andere Architekturen möglicherweise unterschiedlich
  3. Task-Abdeckung: Hauptfokus auf VQA-Aufgaben; Verallgemeinerung auf andere Vision-Language-Aufgaben zu verifizieren

Zukünftige Richtungen

  1. Großskalige Verifikation: Wiederholung kontrollierter Experimente auf Milliarden-Skala-Daten
  2. Hybrid-Methoden: Erkundung hybrider Trainingsstrategien, die Selbstüberwachung und Sprachüberwachung kombinieren
  3. Architektur-Erkundung: Verifikation der Universalität von Schlussfolgerungen über verschiedene visuelle Architekturen

Tiefgreifende Bewertung

Stärken

  1. Strenge experimentelle Gestaltung: Erstes echtes kontrolliertes Experiment, das verwirrende Faktoren eliminiert
  2. Tiefgreifende und umfassende Analyse: Mehrschichtige Analyse vom Embedding-Space bis zu nachgelagerten Aufgaben
  3. Hoher wissenschaftlicher Wert: Bietet empirisch fundierte Designorientierung für das Feld
  4. Starke Reproduzierbarkeit: Detaillierte experimentelle Einrichtung und Open-Source-Code
  5. Klare Schreibweise: Klare logische Struktur, präzise Schlussfolgerungsformulierung

Mängel

  1. Skalierungs-Einschränkung: 10M-Datensatz relativ klein; kann großskalige Trainings-Situationen möglicherweise nicht vollständig widerspiegeln
  2. Task-Einschränkung: Hauptfokus auf VQA-Aufgaben; Verallgemeinerung auf andere Vision-Language-Aufgaben nicht vollständig verifiziert
  3. Unzureichende theoretische Analyse: Mangelnde theoretische Erklärung, warum Sprachüberwachung diese Unterschiede erzeugt

Einfluss

  1. Akademischer Beitrag: Bietet wissenschaftliche Grundlagen für visuelle Encoder-Gestaltung, füllt Feldlücke
  2. Praktischer Wert: Leitet die Auswahl visueller Encoder in praktischen VLM-Systemen
  3. Methodologischer Beitrag: Kontrolliertes Experimentdesign anwendbar auf andere Vergleichsstudien

Anwendungsszenarien

  1. VLM-Entwicklung: Bietet Grundlagen für die Auswahl geeigneter visueller Encoder
  2. Forschungsorientierung: Bietet Richtung für Forschung zum visuellen Repräsentationslernens
  3. Ressourcenoptimierung: Ermöglicht bessere Designentscheidungen unter begrenzten Ressourcen

Referenzen

Dieses Paper zitiert wichtige Arbeiten in Vision-Language-Modellen und visuellem Repräsentationslernens, einschließlich:

  • CLIP (Radford et al., 2021)
  • DINO (Caron et al., 2021)
  • LLaVA (Liu et al., 2023)
  • SigLIP (Zhai et al., 2023)
  • DataComp (Gadre et al., 2023)

Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das durch streng kontrolliertes experimentelles Design eine wichtige wissenschaftliche Frage des Feldes beantwortet. Die Forschungsmethodik ist wissenschaftlich rigoros, die Schlussfolgerungen haben wichtigen theoretischen und praktischen Wert und bieten wertvolle Orientierung für die Entwicklung von Vision-Language-Modellen.