2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.
CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic

Данные или языковой надзор: что делает CLIP лучше, чем DINO?

Основная информация

  • ID статьи: 2510.11835
  • Название: Data or Language Supervision: What Makes CLIP Better than DINO?
  • Авторы: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Стэнфордский университет, Университет Цинхуа)
  • Классификация: cs.CV cs.AI cs.CL cs.LG cs.MM
  • Дата публикации: 13 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.11835

Аннотация

CLIP превосходит самоконтролируемые модели, такие как DINO, в качестве визуального кодировщика в моделях зрения-языка (VLM), однако остается неясным, является ли его преимущество результатом языкового надзора или более крупного масштаба обучающих данных. Для разделения этих факторов исследователи предварительно обучили CLIP и DINO в контролируемых условиях — используя одинаковую архитектуру, набор данных и конфигурацию обучения — и получили сопоставимую точность ImageNet. Анализ встраивания показывает, что CLIP захватывает высокоуровневую семантику (такую как категории объектов и текст), тогда как DINO более чувствителен к низкоуровневым признакам, таким как цвет и стиль. При интеграции в VLM и оценке на 20 эталонах VQA CLIP демонстрирует превосходство в текстоёмких задачах, тогда как DINO показывает небольшое преимущество в визуально-ориентированных задачах. Варианты с языковым надзором (такие как потеря сигмоида и предварительно обученный языковой кодировщик) дают ограниченные улучшения.

Исследовательский контекст и мотивация

Основной вопрос исследования

Основной вопрос, который решает данное исследование: Является ли превосходство CLIP над DINO в моделях зрения-языка результатом языкового надзора или более крупного масштаба обучающих данных?

Значимость проблемы

  1. Практическое значение: Визуальный кодировщик является "глазами" VLM, и его производительность напрямую влияет на способность всей системы к визуальному пониманию
  2. Теоретическая ценность: Понимание влияния различных сигналов надзора на обучение визуальных представлений обеспечивает научное руководство для разработки улучшенных визуальных кодировщиков
  3. Оптимизация ресурсов: Уточнение ключевых факторов помогает принимать более обоснованные решения при ограниченных ресурсах

Ограничения существующих методов

  1. Смешивающие факторы: Существующие модели CLIP и DINO различаются по масштабу обучающих данных в 100 раз, что затрудняет разделение влияния типа надзора и масштаба данных
  2. Отсутствие контролируемых экспериментов: Предыдущие сравнительные исследования основаны на предварительно обученных моделях с различными параметрами обучения, что не позволяет провести справедливое сравнение
  3. Недостаточное понимание механизмов: Отсутствует глубокий анализ того, как языковой надзор изменяет пространство визуальных представлений

Исследовательская мотивация

Посредством строго контролируемого экспериментального дизайна обучить CLIP и DINO в одинаковых условиях для научного анализа истинного влияния языкового надзора на производительность визуального кодировщика.

Основные вклады

  1. Первый контролируемый эксперимент: Обучение CLIP и DINO с одинаковой архитектурой (ViT-B/16), набором данных (подмножество DataComp 10M) и конфигурацией обучения для справедливого сравнения
  2. Анализ пространства встраивания: Глубокий анализ того, как языковой надзор изменяет визуальные представления, выявляя, что CLIP больше внимания уделяет высокоуровневой семантике, а DINO более чувствителен к низкоуровневым визуальным признакам
  3. Оценка производительности VLM: Систематическая оценка обоих кодировщиков на 20 эталонах VQA, выявляющая значительное превосходство CLIP в задачах OCR (улучшение на 7,5%)
  4. Исследование вариантов надзора: Проверка ограниченных преимуществ различных форм языкового надзора (потеря SigLIP, предварительно обученные языковые модели)
  5. Научные выводы: Предоставление эмпирически обоснованных принципов руководства для разработки визуальных кодировщиков

Подробное описание методов

Определение задачи

Входные данные: Набор данных изображений с опциональными связанными текстовыми описаниями Выходные данные: Визуальный кодировщик, способный отображать изображения в пространство семантических представлений Ограничения: При контроле всех остальных переменных изменяется только тип сигнала надзора

Дизайн контролируемого эксперимента

Унификация архитектуры

  • Основная сеть: ViT-B/16 как общая архитектура для обеих моделей
  • Масштаб параметров: Обеспечение одинаковой сложности модели

Унификация набора данных

  • Источник данных: Подмножество из 10 млн изображений набора данных DataComp
  • Предварительная обработка: Унифицированное центральное обрезание и изменение размера до 224×224
  • Различие в надзоре: CLIP использует пары изображение-текст, DINO использует только изображения

Унификация конфигурации обучения

  • Оптимизатор: AdamW
  • Скорость обучения: 1e-3 с косинусным затуханием
  • Количество эпох: 20 эпох
  • Оборудование: 4 GPU A100, обучение в течение 3 дней

Методы анализа встраивания

Идентификация дифференцированных пар изображений

Определение двух классов пар изображений для анализа расхождений моделей:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # Высокое сходство CLIP, низкое сходство DINO
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # Высокое сходство DINO, низкое сходство CLIP

Количественные проверочные эксперименты

  1. Тест чувствительности к семантике: Использование изображений с различными буквами/цифрами для проверки способности семантического различения
  2. Тест чувствительности к визуальным паттернам: Использование простых повторяющихся визуальных паттернов для проверки чувствительности к низкоуровневым признакам

Схема интеграции VLM

Выбор фреймворка

  • Базовая архитектура: LLaVA-1.5
  • Заменяемый компонент: Только часть визуального кодировщика
  • Процесс обучения: Предварительное обучение + визуальная инструкционная тонкая настройка

Эталонные показатели оценки

  • VMCBench: Унифицированный эталон визуального вопросно-ответного взаимодействия с множественным выбором, включающий 20 наборов данных
  • Типы задач: Общее VQA, рассуждение, понимание документов и диаграмм, OCR и другие

Экспериментальная установка

Наборы данных

  1. Обучающие данные: Подмножество DataComp 10M
    • Масштаб: 10 млн пар изображение-текст
    • Предварительная обработка: Центральное обрезание, разрешение 224×224
  2. Наборы данных оценки:
    • Задачи классификации: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
    • Задачи VQA: 20 подмножеств VMCBench, включая OCRVQA, TextVQA и другие

Метрики оценки

  • Точность линейного зондирования: Стандартный метод оценки качества визуального кодировщика
  • Точность VQA: Правильность ответов с множественным выбором
  • Косинусное сходство: Метрика анализа пространства встраивания

Методы сравнения

  • Официальные модели: Официально выпущенные предварительно обученные модели CLIP и DINO
  • Контролируемые модели: CLIP и DINO, обученные в одинаковых условиях
  • Варианты надзора: Версия с потерей SigLIP, версия с предварительно обученной языковой моделью

Детали реализации

  • Выбор контрольной точки: Выбор оптимальной контрольной точки на основе производительности на наборе валидации
  • Частота оценки: Сохранение и оценка каждые 500 шагов
  • Статистическая значимость: Проверка стабильности результатов при различных случайных начальных значениях

Результаты экспериментов

Основные результаты

Производительность задач классификации

МодельImageNetCIFAR-10Stanford CarsFlowersCUB
Контролируемый CLIP65,8%90,7%74,7%78,7%52,3%
Контролируемый DINO66,4%92,1%54,1%80,7%43,0%

Ключевые выводы:

  • Сопоставимая производительность в задачах общей классификации
  • Значительное превосходство CLIP в задачах тонкозернистой классификации (Stanford Cars: +20,6%, CUB: +9,3%)

Производительность задач VLM

Тип задачиLLaVA-CLIPLLaVA-DINOРазница
Общее VQA46,2%46,0%+0,2%
Рассуждение41,2%41,5%-0,3%
Документы и диаграммы33,2%33,1%+0,1%
Задачи OCR47,5%40,0%+7,5%

Ключевые выводы:

  • Сопоставимая производительность в большинстве задач
  • Значительное превосходство CLIP в задачах, связанных с OCR

Результаты анализа встраивания

Количественная проверка

  1. Чувствительность к семантическому содержанию:
    • Среднее сходство DINO: 0,877
    • Среднее сходство CLIP: 0,713 (ниже, указывает на лучшее семантическое различение)
  2. Чувствительность к визуальным паттернам:
    • Среднее сходство DINO: 0,478 (ниже, указывает на лучшее различение визуальных деталей)
    • Среднее сходство CLIP: 0,497

Качественный анализ

  • Преимущества CLIP: Лучше захватывает категории объектов и встроенный текст и другую высокоуровневую семантику
  • Преимущества DINO: Более чувствителен к цвету, стилю и другим низкоуровневым визуальным признакам

Эксперименты с вариантами надзора

ВариантСредняя точность VMCBench
Стандартный CLIP41,4%
Потеря SigLIP40,8%
Предварительно обученная языковая модель40,5%

Вывод: Улучшения от различных форм языкового надзора ограничены.

Эксперимент с различными языковыми моделями

Результаты использования Qwen2-7B вместо Vicuna-7B:

Комбинация моделейОбщее VQAOCRСреднее
CLIP + Qwen257,90%51,40%49,69%
DINO + Qwen254,02%47,59%47,72%

Связанные работы

Модели зрения-языка

  • Репрезентативные работы: LLaVA, Qwen2.5-VL и другие
  • Характеристики архитектуры: Визуальный кодировщик + языковая модель + модуль соединения
  • Вклад данной работы: Сосредоточение на систематическом анализе компонента визуального кодировщика

Обучение визуальным представлениям

  1. Методы самоконтроля: DINO, SimCLR и другие, обучающиеся представлениям посредством предсказания отношений с увеличением изображений
  2. Методы с языковым надзором: CLIP, EVA-CLIP, SigLIP и другие, использующие выравнивание пар изображение-текст
  3. Инновация данной работы: Первое систематическое сравнение двух парадигм в контролируемых условиях

Исследование выборов дизайна VLM

  • Существующие исследования: Многие сосредоточены на компонентах архитектуры, стратегиях данных и конфигурациях обучения
  • Ограничения: Основаны на предварительно обученных моделях с различными параметрами обучения, отсутствует контроль переменных
  • Преимущество данной работы: Строгий дизайн контролируемого эксперимента

Выводы и обсуждение

Основные выводы

  1. Масштаб данных vs тип надзора: При контроле масштаба данных языковой надзор действительно приносит специфические преимущества
  2. Различия в представлениях: CLIP обучается высокоуровневым семантическим представлениям, DINO сосредоточен на низкоуровневых визуальных признаках
  3. Специфичность задачи: Преимущество CLIP явно в текстоёмких задачах, в визуально-ориентированных задачах оба метода сопоставимы
  4. Форма надзора: Улучшения от различных вариантов языкового надзора ограничены

Ограничения

  1. Ограничение масштаба данных: Эксперименты проводились только на подмножестве из 10 млн изображений, требуется расширение на данные миллиардного масштаба для проверки
  2. Единственная архитектура: Тестировалась только ViT-B/16, выводы для других архитектур могут отличаться
  3. Охват задач: Основное внимание уделяется задачам VQA, выводы для других задач зрения-языка требуют проверки

Направления будущих исследований

  1. Проверка в большом масштабе: Повторение контролируемых экспериментов на данных миллиардного масштаба
  2. Гибридные методы: Исследование смешанных стратегий обучения, объединяющих самоконтроль и языковой надзор
  3. Исследование архитектур: Проверка универсальности выводов на различных визуальных архитектурах

Глубокая оценка

Сильные стороны

  1. Строгий дизайн экспериментов: Первая реализация истинно контролируемого эксперимента, исключающая смешивающие факторы
  2. Глубокий и всесторонний анализ: Многоуровневый анализ от пространства встраивания до нижестоящих задач
  3. Высокая научная ценность: Предоставление эмпирически обоснованного руководства по дизайну для области
  4. Сильная воспроизводимость: Подробные параметры экспериментов и открытый исходный код
  5. Ясное изложение: Четкая логическая структура и точное выражение выводов

Недостатки

  1. Ограничение масштаба: Набор данных из 10 млн изображений относительно небольшой, может не полностью отражать ситуацию при крупномасштабном обучении
  2. Ограничение задач: Основное внимание уделяется задачам VQA, универсальность для других задач зрения-языка недостаточно проверена
  3. Недостаток теоретического анализа: Отсутствует теоретическое объяснение того, почему языковой надзор производит эти различия

Влияние

  1. Академический вклад: Предоставление научной основы для разработки визуальных кодировщиков, заполнение пробела в области
  2. Практическая ценность: Руководство по выбору подходящего визуального кодировщика для практических систем VLM
  3. Методологический вклад: Подход к дизайну контролируемых экспериментов может быть применен к другим сравнительным исследованиям

Применимые сценарии

  1. Разработка VLM: Предоставление основы для выбора подходящего визуального кодировщика
  2. Руководство исследованиями: Предоставление направлений для исследований в области обучения визуальным представлениям
  3. Оптимизация ресурсов: Принятие более обоснованных решений по дизайну при ограниченных ресурсах

Библиография

Данная работа ссылается на важные работы в области моделей зрения-языка и обучения визуальным представлениям, включая:

  • CLIP (Radford et al., 2021)
  • DINO (Caron et al., 2021)
  • LLaVA (Liu et al., 2023)
  • SigLIP (Zhai et al., 2023)
  • DataComp (Gadre et al., 2023)

Общая оценка: Это высококачественная эмпирическая исследовательская работа, которая посредством строго контролируемого экспериментального дизайна отвечает на важный научный вопрос в области. Методология исследования научно обоснована и строга, выводы имеют важную теоретическую и практическую ценность, предоставляя ценное руководство для развития моделей зрения-языка.