2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.

CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.

academic

Данные или языковой надзор: что делает CLIP лучше, чем DINO?

Основная информация

ID статьи: 2510.11835
Название: Data or Language Supervision: What Makes CLIP Better than DINO?
Авторы: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Стэнфордский университет, Университет Цинхуа)
Классификация: cs.CV cs.AI cs.CL cs.LG cs.MM
Дата публикации: 13 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.11835

Аннотация

CLIP превосходит самоконтролируемые модели, такие как DINO, в качестве визуального кодировщика в моделях зрения-языка (VLM), однако остается неясным, является ли его преимущество результатом языкового надзора или более крупного масштаба обучающих данных. Для разделения этих факторов исследователи предварительно обучили CLIP и DINO в контролируемых условиях — используя одинаковую архитектуру, набор данных и конфигурацию обучения — и получили сопоставимую точность ImageNet. Анализ встраивания показывает, что CLIP захватывает высокоуровневую семантику (такую как категории объектов и текст), тогда как DINO более чувствителен к низкоуровневым признакам, таким как цвет и стиль. При интеграции в VLM и оценке на 20 эталонах VQA CLIP демонстрирует превосходство в текстоёмких задачах, тогда как DINO показывает небольшое преимущество в визуально-ориентированных задачах. Варианты с языковым надзором (такие как потеря сигмоида и предварительно обученный языковой кодировщик) дают ограниченные улучшения.

Исследовательский контекст и мотивация

Основной вопрос исследования

Основной вопрос, который решает данное исследование: Является ли превосходство CLIP над DINO в моделях зрения-языка результатом языкового надзора или более крупного масштаба обучающих данных?

Значимость проблемы

Практическое значение: Визуальный кодировщик является "глазами" VLM, и его производительность напрямую влияет на способность всей системы к визуальному пониманию
Теоретическая ценность: Понимание влияния различных сигналов надзора на обучение визуальных представлений обеспечивает научное руководство для разработки улучшенных визуальных кодировщиков
Оптимизация ресурсов: Уточнение ключевых факторов помогает принимать более обоснованные решения при ограниченных ресурсах

Ограничения существующих методов

Смешивающие факторы: Существующие модели CLIP и DINO различаются по масштабу обучающих данных в 100 раз, что затрудняет разделение влияния типа надзора и масштаба данных
Отсутствие контролируемых экспериментов: Предыдущие сравнительные исследования основаны на предварительно обученных моделях с различными параметрами обучения, что не позволяет провести справедливое сравнение
Недостаточное понимание механизмов: Отсутствует глубокий анализ того, как языковой надзор изменяет пространство визуальных представлений

Исследовательская мотивация

Посредством строго контролируемого экспериментального дизайна обучить CLIP и DINO в одинаковых условиях для научного анализа истинного влияния языкового надзора на производительность визуального кодировщика.

Основные вклады

Первый контролируемый эксперимент: Обучение CLIP и DINO с одинаковой архитектурой (ViT-B/16), набором данных (подмножество DataComp 10M) и конфигурацией обучения для справедливого сравнения
Анализ пространства встраивания: Глубокий анализ того, как языковой надзор изменяет визуальные представления, выявляя, что CLIP больше внимания уделяет высокоуровневой семантике, а DINO более чувствителен к низкоуровневым визуальным признакам
Оценка производительности VLM: Систематическая оценка обоих кодировщиков на 20 эталонах VQA, выявляющая значительное превосходство CLIP в задачах OCR (улучшение на 7,5%)
Исследование вариантов надзора: Проверка ограниченных преимуществ различных форм языкового надзора (потеря SigLIP, предварительно обученные языковые модели)
Научные выводы: Предоставление эмпирически обоснованных принципов руководства для разработки визуальных кодировщиков

Подробное описание методов

Определение задачи

Входные данные: Набор данных изображений с опциональными связанными текстовыми описаниями Выходные данные: Визуальный кодировщик, способный отображать изображения в пространство семантических представлений Ограничения: При контроле всех остальных переменных изменяется только тип сигнала надзора

Дизайн контролируемого эксперимента

Унификация архитектуры

Основная сеть: ViT-B/16 как общая архитектура для обеих моделей
Масштаб параметров: Обеспечение одинаковой сложности модели

Унификация набора данных

Источник данных: Подмножество из 10 млн изображений набора данных DataComp
Предварительная обработка: Унифицированное центральное обрезание и изменение размера до 224×224
Различие в надзоре: CLIP использует пары изображение-текст, DINO использует только изображения

Унификация конфигурации обучения

Оптимизатор: AdamW
Скорость обучения: 1e-3 с косинусным затуханием
Количество эпох: 20 эпох
Оборудование: 4 GPU A100, обучение в течение 3 дней

Методы анализа встраивания

Идентификация дифференцированных пар изображений

Определение двух классов пар изображений для анализа расхождений моделей:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # Высокое сходство CLIP, низкое сходство DINO
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # Высокое сходство DINO, низкое сходство CLIP

Количественные проверочные эксперименты

Тест чувствительности к семантике: Использование изображений с различными буквами/цифрами для проверки способности семантического различения
Тест чувствительности к визуальным паттернам: Использование простых повторяющихся визуальных паттернов для проверки чувствительности к низкоуровневым признакам

Схема интеграции VLM

Выбор фреймворка

Базовая архитектура: LLaVA-1.5
Заменяемый компонент: Только часть визуального кодировщика
Процесс обучения: Предварительное обучение + визуальная инструкционная тонкая настройка

Эталонные показатели оценки

VMCBench: Унифицированный эталон визуального вопросно-ответного взаимодействия с множественным выбором, включающий 20 наборов данных
Типы задач: Общее VQA, рассуждение, понимание документов и диаграмм, OCR и другие

Экспериментальная установка

Наборы данных

Обучающие данные: Подмножество DataComp 10M
- Масштаб: 10 млн пар изображение-текст
- Предварительная обработка: Центральное обрезание, разрешение 224×224
Наборы данных оценки:
- Задачи классификации: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
- Задачи VQA: 20 подмножеств VMCBench, включая OCRVQA, TextVQA и другие

Метрики оценки

Точность линейного зондирования: Стандартный метод оценки качества визуального кодировщика
Точность VQA: Правильность ответов с множественным выбором
Косинусное сходство: Метрика анализа пространства встраивания

Методы сравнения

Официальные модели: Официально выпущенные предварительно обученные модели CLIP и DINO
Контролируемые модели: CLIP и DINO, обученные в одинаковых условиях
Варианты надзора: Версия с потерей SigLIP, версия с предварительно обученной языковой моделью

Детали реализации

Выбор контрольной точки: Выбор оптимальной контрольной точки на основе производительности на наборе валидации
Частота оценки: Сохранение и оценка каждые 500 шагов
Статистическая значимость: Проверка стабильности результатов при различных случайных начальных значениях

Результаты экспериментов

Основные результаты

Производительность задач классификации

Модель	ImageNet	CIFAR-10	Stanford Cars	Flowers	CUB
Контролируемый CLIP	65,8%	90,7%	74,7%	78,7%	52,3%
Контролируемый DINO	66,4%	92,1%	54,1%	80,7%	43,0%

Ключевые выводы:

Сопоставимая производительность в задачах общей классификации
Значительное превосходство CLIP в задачах тонкозернистой классификации (Stanford Cars: +20,6%, CUB: +9,3%)

Производительность задач VLM

Тип задачи	LLaVA-CLIP	LLaVA-DINO	Разница
Общее VQA	46,2%	46,0%	+0,2%
Рассуждение	41,2%	41,5%	-0,3%
Документы и диаграммы	33,2%	33,1%	+0,1%
Задачи OCR	47,5%	40,0%	+7,5%

Ключевые выводы:

Сопоставимая производительность в большинстве задач
Значительное превосходство CLIP в задачах, связанных с OCR

Результаты анализа встраивания

Количественная проверка

Чувствительность к семантическому содержанию:
- Среднее сходство DINO: 0,877
- Среднее сходство CLIP: 0,713 (ниже, указывает на лучшее семантическое различение)
Чувствительность к визуальным паттернам:
- Среднее сходство DINO: 0,478 (ниже, указывает на лучшее различение визуальных деталей)
- Среднее сходство CLIP: 0,497

Качественный анализ

Преимущества CLIP: Лучше захватывает категории объектов и встроенный текст и другую высокоуровневую семантику
Преимущества DINO: Более чувствителен к цвету, стилю и другим низкоуровневым визуальным признакам

Эксперименты с вариантами надзора

Вариант	Средняя точность VMCBench
Стандартный CLIP	41,4%
Потеря SigLIP	40,8%
Предварительно обученная языковая модель	40,5%

Вывод: Улучшения от различных форм языкового надзора ограничены.

Эксперимент с различными языковыми моделями

Результаты использования Qwen2-7B вместо Vicuna-7B:

Комбинация моделей	Общее VQA	OCR	Среднее
CLIP + Qwen2	57,90%	51,40%	49,69%
DINO + Qwen2	54,02%	47,59%	47,72%

Связанные работы

Модели зрения-языка

Репрезентативные работы: LLaVA, Qwen2.5-VL и другие
Характеристики архитектуры: Визуальный кодировщик + языковая модель + модуль соединения
Вклад данной работы: Сосредоточение на систематическом анализе компонента визуального кодировщика

Обучение визуальным представлениям

Методы самоконтроля: DINO, SimCLR и другие, обучающиеся представлениям посредством предсказания отношений с увеличением изображений
Методы с языковым надзором: CLIP, EVA-CLIP, SigLIP и другие, использующие выравнивание пар изображение-текст
Инновация данной работы: Первое систематическое сравнение двух парадигм в контролируемых условиях

Исследование выборов дизайна VLM

Существующие исследования: Многие сосредоточены на компонентах архитектуры, стратегиях данных и конфигурациях обучения
Ограничения: Основаны на предварительно обученных моделях с различными параметрами обучения, отсутствует контроль переменных
Преимущество данной работы: Строгий дизайн контролируемого эксперимента

Выводы и обсуждение

Основные выводы

Масштаб данных vs тип надзора: При контроле масштаба данных языковой надзор действительно приносит специфические преимущества
Различия в представлениях: CLIP обучается высокоуровневым семантическим представлениям, DINO сосредоточен на низкоуровневых визуальных признаках
Специфичность задачи: Преимущество CLIP явно в текстоёмких задачах, в визуально-ориентированных задачах оба метода сопоставимы
Форма надзора: Улучшения от различных вариантов языкового надзора ограничены

Ограничения

Ограничение масштаба данных: Эксперименты проводились только на подмножестве из 10 млн изображений, требуется расширение на данные миллиардного масштаба для проверки
Единственная архитектура: Тестировалась только ViT-B/16, выводы для других архитектур могут отличаться
Охват задач: Основное внимание уделяется задачам VQA, выводы для других задач зрения-языка требуют проверки

Направления будущих исследований

Проверка в большом масштабе: Повторение контролируемых экспериментов на данных миллиардного масштаба
Гибридные методы: Исследование смешанных стратегий обучения, объединяющих самоконтроль и языковой надзор
Исследование архитектур: Проверка универсальности выводов на различных визуальных архитектурах

Глубокая оценка

Сильные стороны

Строгий дизайн экспериментов: Первая реализация истинно контролируемого эксперимента, исключающая смешивающие факторы
Глубокий и всесторонний анализ: Многоуровневый анализ от пространства встраивания до нижестоящих задач
Высокая научная ценность: Предоставление эмпирически обоснованного руководства по дизайну для области
Сильная воспроизводимость: Подробные параметры экспериментов и открытый исходный код
Ясное изложение: Четкая логическая структура и точное выражение выводов

Недостатки

Ограничение масштаба: Набор данных из 10 млн изображений относительно небольшой, может не полностью отражать ситуацию при крупномасштабном обучении
Ограничение задач: Основное внимание уделяется задачам VQA, универсальность для других задач зрения-языка недостаточно проверена
Недостаток теоретического анализа: Отсутствует теоретическое объяснение того, почему языковой надзор производит эти различия

Влияние

Академический вклад: Предоставление научной основы для разработки визуальных кодировщиков, заполнение пробела в области
Практическая ценность: Руководство по выбору подходящего визуального кодировщика для практических систем VLM
Методологический вклад: Подход к дизайну контролируемых экспериментов может быть применен к другим сравнительным исследованиям

Применимые сценарии

Разработка VLM: Предоставление основы для выбора подходящего визуального кодировщика
Руководство исследованиями: Предоставление направлений для исследований в области обучения визуальным представлениям
Оптимизация ресурсов: Принятие более обоснованных решений по дизайну при ограниченных ресурсах

Библиография

Данная работа ссылается на важные работы в области моделей зрения-языка и обучения визуальным представлениям, включая:

CLIP (Radford et al., 2021)
DINO (Caron et al., 2021)
LLaVA (Liu et al., 2023)
SigLIP (Zhai et al., 2023)
DataComp (Gadre et al., 2023)

Общая оценка: Это высококачественная эмпирическая исследовательская работа, которая посредством строго контролируемого экспериментального дизайна отвечает на важный научный вопрос в области. Методология исследования научно обоснована и строга, выводы имеют важную теоретическую и практическую ценность, предоставляя ценное руководство для развития моделей зрения-языка.