2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.

CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.

academic

Daten oder Sprachüberwachung: Was macht CLIP besser als DINO?

Grundlegende Informationen

Paper-ID: 2510.11835
Titel: Data or Language Supervision: What Makes CLIP Better than DINO?
Autoren: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)
Klassifizierung: cs.CV cs.AI cs.CL cs.LG cs.MM
Veröffentlichungsdatum: 13. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.11835

Zusammenfassung

CLIP übertrifft als visueller Encoder in Vision-Language-Modellen (VLMs) selbstüberwachte Modelle wie DINO, doch bleibt unklar, ob dieser Vorteil aus Sprachüberwachung oder größeren Trainings-Datenmengen stammt. Um diese Faktoren zu entkoppeln, trainieren die Forscher CLIP und DINO unter kontrollierten Bedingungen vor – unter Verwendung derselben Architektur, desselben Datensatzes und derselben Trainingskonfiguration – und erhalten ähnliche ImageNet-Genauigkeiten. Die Embedding-Analyse zeigt, dass CLIP hochrangige Semantik (wie Objektklassen, Text) erfasst, während DINO stärker auf niedrigrangige Merkmale wie Farbe und Stil reagiert. Bei Integration in VLMs und Bewertung auf 20 VQA-Benchmarks zeigt CLIP Überlegenheit bei textdichten Aufgaben, während DINO bei visuellen Aufgaben leichte Vorteile hat. Varianten der Sprachüberwachung (wie Sigmoid-Verlust, vortrainierte Sprach-Encoder) bringen begrenzte Gewinne.

Forschungshintergrund und Motivation

Kernfrage

Die Kernfrage dieser Forschung lautet: Stammt die überlegene Leistung von CLIP gegenüber DINO in Vision-Language-Modellen aus Sprachüberwachung oder größeren Trainings-Datenmengen?

Bedeutung der Frage

Praktische Bedeutung: Der visuelle Encoder ist das "Auge" von VLMs; seine Leistung beeinflusst direkt die visuelle Verständnisfähigkeit des gesamten Systems
Theoretischer Wert: Das Verständnis der Auswirkungen verschiedener Überwachungssignale auf das Lernen visueller Repräsentationen bietet wissenschaftliche Orientierung für die Gestaltung besserer visueller Encoder
Ressourcenoptimierung: Die Klärung kritischer Faktoren hilft bei besseren Designentscheidungen unter begrenzten Ressourcen

Einschränkungen bestehender Methoden

Verwirrende Faktoren: Bestehende CLIP- und DINO-Modelle unterscheiden sich in der Trainings-Datenmenge um bis zu 100-fach, was es schwierig macht, die Auswirkungen von Überwachungstyp und Datenmenge zu trennen
Mangel an kontrollierten Experimenten: Bisherige Vergleichsstudien basieren auf vortrainierten Modellen mit unterschiedlichen Trainingseinstellungen und ermöglichen keinen fairen Vergleich
Unzureichendes Mechanismusverständnis: Es fehlt eine tiefgreifende Analyse, wie Sprachüberwachung den visuellen Repräsentationsraum verändert

Forschungsmotivation

Durch streng kontrollierte experimentelle Designs wird CLIP und DINO unter identischen Bedingungen trainiert, um die tatsächliche Auswirkung der Sprachüberwachung auf die Leistung visueller Encoder wissenschaftlich zu analysieren.

Kernbeiträge

Erstes kontrolliertes Experiment: Training von CLIP und DINO mit identischer Architektur (ViT-B/16), Datensatz (DataComp 10M-Teilmenge) und Trainingskonfiguration für fairen Vergleich
Embedding-Space-Analyse: Tiefgreifende Analyse, wie Sprachüberwachung visuelle Repräsentationen verändert; zeigt, dass CLIP sich auf hochrangige Semantik konzentriert, während DINO empfindlicher auf niedrigrangige visuelle Merkmale reagiert
VLM-Leistungsbewertung: Systematische Bewertung beider Encoder auf 20 VQA-Benchmarks; zeigt signifikante CLIP-Überlegenheit bei OCR-Aufgaben (7,5% Verbesserung)
Erkundung von Überwachungsvarianten: Verifikation begrenzter Gewinne verschiedener Sprachüberwachungsformen (SigLIP-Verlust, vortrainierte Sprachmodelle)
Wissenschaftliche Erkenntnisse: Bietet empirisch fundierte Designprinzipien für visuelle Encoder

Methodische Details

Aufgabendefinition

Eingabe: Bilddatensatz, optional gepaarte Textbeschreibungen Ausgabe: Visueller Encoder, der Bilder in einen semantischen Repräsentationsraum abbildet Einschränkungen: Änderung nur des Überwachungssignaltyps bei Kontrolle aller anderen Variablen

Kontrolliertes Experimentdesign

Architektur-Vereinheitlichung

Backbone-Netzwerk: ViT-B/16 als gemeinsame Architektur für beide Modelle
Parametergröße: Sicherstellung konsistenter Modellkomplexität

Datensatz-Vereinheitlichung

Datenquelle: 10M-Bild-Teilmenge des DataComp-Datensatzes
Vorverarbeitung: Einheitliches Center-Cropping und 224×224-Größenänderung
Überwachungsunterschiede: CLIP verwendet Bild-Text-Paare, DINO nur Bilder

Trainings-Konfiguration-Vereinheitlichung

Optimierer: AdamW
Lernrate: 1e-3, Kosinus-Annealing
Trainings-Epochen: 20
Hardware: 4 A100 GPUs, 3 Tage Training

Embedding-Analysemethoden

Differenzierte Bildpaar-Identifikation

Definition zweier Bildpaarklassen zur Analyse von Modellabweichungen:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # CLIP hohe Ähnlichkeit, DINO niedrig
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # DINO hohe Ähnlichkeit, CLIP niedrig

Quantitative Validierungsexperimente

Semantische Sensitivitätstests: Verwendung von Bildern mit unterschiedlichen Buchstaben/Zahlen zum Testen der semantischen Unterscheidungsfähigkeit
Visuelle Muster-Sensitivitätstests: Verwendung einfacher wiederholter visueller Muster zum Testen der Empfindlichkeit gegenüber niedrigrangigen Merkmalen

VLM-Integrationsstrategie

Framework-Auswahl

Basis-Architektur: LLaVA-1.5
Ersetzte Komponente: Nur der visuelle Encoder-Teil
Trainings-Pipeline: Vortraining + visuelle Instruction-Feinabstimmung

Evaluierungs-Benchmarks

VMCBench: Einheitlicher Multi-Choice-VQA-Benchmark mit 20 Datensätzen
Aufgabentypen: Allgemeines VQA, Reasoning, Dokument-Diagramm-Verständnis, OCR usw.

Experimentelle Einrichtung

Datensätze

Trainingsdaten: DataComp 10M-Teilmenge
- Umfang: 10 Millionen Bild-Text-Paare
- Vorverarbeitung: Center-Cropping, 224×224-Auflösung
Evaluierungs-Datensätze:
- Klassifizierungsaufgaben: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
- VQA-Aufgaben: 20 Teilmengen von VMCBench, einschließlich OCRVQA, TextVQA usw.

Bewertungsmetriken

Lineare Probe-Genauigkeit: Standardmethode zur Bewertung der Qualität visueller Encoder
VQA-Genauigkeit: Korrektheit bei Multiple-Choice-Fragen
Kosinus-Ähnlichkeit: Embedding-Space-Analysemetrik

Vergleichsmethoden

Offizielle Modelle: Offiziell veröffentlichte vortrainierte CLIP- und DINO-Modelle
Kontrollmodelle: Unter identischen Bedingungen trainierte CLIP- und DINO-Modelle
Überwachungsvarianten: SigLIP-Verlust-Version, vortrainierte Sprachmodell-Version

Implementierungsdetails

Checkpoint-Auswahl: Beste Checkpoints basierend auf Validierungsset-Leistung
Evaluierungs-Häufigkeit: Speichern und Bewertung alle 500 Schritte
Statistische Signifikanz: Verifikation der Ergebnisstabilität über mehrere zufällige Seeds

Experimentelle Ergebnisse

Hauptergebnisse

Klassifizierungs-Task-Leistung

Modell	ImageNet	CIFAR-10	Stanford Cars	Flowers	CUB
Kontroll-CLIP	65,8%	90,7%	74,7%	78,7%	52,3%
Kontroll-DINO	66,4%	92,1%	54,1%	80,7%	43,0%

Schlüsselfunde:

Vergleichbare Leistung bei allgemeinen Klassifizierungsaufgaben
CLIP signifikant überlegen bei Feinklassifizierungsaufgaben (Stanford Cars: +20,6%, CUB: +9,3%)

VLM-Task-Leistung

Aufgabentyp	LLaVA-CLIP	LLaVA-DINO	Differenz
Allgemeines VQA	46,2%	46,0%	+0,2%
Reasoning	41,2%	41,5%	-0,3%
Dokument-Diagramm	33,2%	33,1%	+0,1%
OCR-Aufgaben	47,5%	40,0%	+7,5%

Schlüsselfunde:

Vergleichbare Leistung bei den meisten Aufgaben
CLIP signifikant überlegen bei OCR-bezogenen Aufgaben

Embedding-Analyseergebnisse

Quantitative Validierung

Semantische Inhalts-Sensitivität:
- DINO durchschnittliche Ähnlichkeit: 0,877
- CLIP durchschnittliche Ähnlichkeit: 0,713 (niedriger, bessere semantische Unterscheidung)
Visuelle Muster-Sensitivität:
- DINO durchschnittliche Ähnlichkeit: 0,478 (niedriger, bessere visuelle Detail-Unterscheidung)
- CLIP durchschnittliche Ähnlichkeit: 0,497

Qualitative Analyse

CLIP-Vorteile: Bessere Erfassung von Objektklassen und eingebettetem Text als hochrangige Semantik
DINO-Vorteile: Empfindlicher gegenüber Farbe, Stil und anderen niedrigrangigen visuellen Merkmalen

Überwachungsvarianten-Experimente

Variante	VMCBench durchschnittliche Genauigkeit
Standard-CLIP	41,4%
SigLIP-Verlust	40,8%
Vortrainiertes Sprachmodell	40,5%

Schlussfolgerung: Begrenzte Verbesserungen durch verschiedene Formen der Sprachüberwachung.

Sprachmodell-Backbone-Experimente

Ergebnisse mit Qwen2-7B statt Vicuna-7B:

Modellkombination	Allgemeines VQA	OCR	Durchschnitt
CLIP + Qwen2	57,90%	51,40%	49,69%
DINO + Qwen2	54,02%	47,59%	47,72%

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Datenmenge vs. Überwachungstyp: Bei Kontrolle der Datenmenge bringt Sprachüberwachung tatsächlich spezifische Vorteile
Repräsentations-Unterschiede: CLIP lernt hochrangige semantische Repräsentationen, DINO konzentriert sich auf niedrigrangige visuelle Merkmale
Task-Spezifität: CLIP zeigt klare Vorteile bei textdichten Aufgaben, bei visuellen Aufgaben sind beide vergleichbar
Überwachungsform: Begrenzte Verbesserungen durch verschiedene Sprachüberwachungsvarianten

Einschränkungen

Datenmenge-Einschränkung: Experimente nur auf 10M-Bild-Teilmenge; Verifikation auf Milliarden-Skala erforderlich
Architektur-Einschränkung: Nur ViT-B/16 getestet; Schlussfolgerungen für andere Architekturen möglicherweise unterschiedlich
Task-Abdeckung: Hauptfokus auf VQA-Aufgaben; Verallgemeinerung auf andere Vision-Language-Aufgaben zu verifizieren

Zukünftige Richtungen

Großskalige Verifikation: Wiederholung kontrollierter Experimente auf Milliarden-Skala-Daten
Hybrid-Methoden: Erkundung hybrider Trainingsstrategien, die Selbstüberwachung und Sprachüberwachung kombinieren
Architektur-Erkundung: Verifikation der Universalität von Schlussfolgerungen über verschiedene visuelle Architekturen

Tiefgreifende Bewertung

Stärken

Strenge experimentelle Gestaltung: Erstes echtes kontrolliertes Experiment, das verwirrende Faktoren eliminiert
Tiefgreifende und umfassende Analyse: Mehrschichtige Analyse vom Embedding-Space bis zu nachgelagerten Aufgaben
Hoher wissenschaftlicher Wert: Bietet empirisch fundierte Designorientierung für das Feld
Starke Reproduzierbarkeit: Detaillierte experimentelle Einrichtung und Open-Source-Code
Klare Schreibweise: Klare logische Struktur, präzise Schlussfolgerungsformulierung

Mängel

Skalierungs-Einschränkung: 10M-Datensatz relativ klein; kann großskalige Trainings-Situationen möglicherweise nicht vollständig widerspiegeln
Task-Einschränkung: Hauptfokus auf VQA-Aufgaben; Verallgemeinerung auf andere Vision-Language-Aufgaben nicht vollständig verifiziert
Unzureichende theoretische Analyse: Mangelnde theoretische Erklärung, warum Sprachüberwachung diese Unterschiede erzeugt

Einfluss

Akademischer Beitrag: Bietet wissenschaftliche Grundlagen für visuelle Encoder-Gestaltung, füllt Feldlücke
Praktischer Wert: Leitet die Auswahl visueller Encoder in praktischen VLM-Systemen
Methodologischer Beitrag: Kontrolliertes Experimentdesign anwendbar auf andere Vergleichsstudien

Anwendungsszenarien

VLM-Entwicklung: Bietet Grundlagen für die Auswahl geeigneter visueller Encoder
Forschungsorientierung: Bietet Richtung für Forschung zum visuellen Repräsentationslernens
Ressourcenoptimierung: Ermöglicht bessere Designentscheidungen unter begrenzten Ressourcen

Referenzen

Dieses Paper zitiert wichtige Arbeiten in Vision-Language-Modellen und visuellem Repräsentationslernens, einschließlich:

CLIP (Radford et al., 2021)
DINO (Caron et al., 2021)
LLaVA (Liu et al., 2023)
SigLIP (Zhai et al., 2023)
DataComp (Gadre et al., 2023)

Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das durch streng kontrolliertes experimentelles Design eine wichtige wissenschaftliche Frage des Feldes beantwortet. Die Forschungsmethodik ist wissenschaftlich rigoros, die Schlussfolgerungen haben wichtigen theoretischen und praktischen Wert und bieten wertvolle Orientierung für die Entwicklung von Vision-Language-Modellen.