2025-11-16T15:07:12.519849

Data or Language Supervision: What Makes CLIP Better than DINO?

Liu, Zhang, Ghosh et al.
CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
academic

데이터 또는 언어 감독: CLIP이 DINO보다 우수한 이유는 무엇인가?

기본 정보

  • 논문 ID: 2510.11835
  • 제목: Data or Language Supervision: What Makes CLIP Better than DINO?
  • 저자: Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)
  • 분류: cs.CV cs.AI cs.CL cs.LG cs.MM
  • 발표 시간: 2025년 10월 13일
  • 논문 링크: https://arxiv.org/abs/2510.11835

초록

CLIP은 시각-언어 모델(VLMs)에서 시각 인코더로서 DINO 등의 자기감독 모델을 능가하지만, 그 우월성이 언어 감독에서 비롯되었는지 아니면 더 큰 규모의 훈련 데이터에서 비롯되었는지는 여전히 불명확하다. 이러한 요인들을 분리하기 위해 연구자들은 동일한 아키텍처, 데이터셋 및 훈련 구성을 사용하여 제어된 설정에서 CLIP과 DINO를 사전훈련했으며, 유사한 ImageNet 정확도를 얻었다. 임베딩 분석은 CLIP이 객체 범주, 텍스트 같은 고수준 의미론을 포착하는 반면, DINO는 색상 및 스타일 같은 저수준 특징에 더 반응함을 보여준다. VLMs에 통합되어 20개의 VQA 벤치마크에서 평가될 때, CLIP은 텍스트 밀집형 작업에서 우수한 성능을 보이는 반면, DINO는 시각 중심 작업에서 약간의 우위를 보인다. 언어 감독의 변형(예: sigmoid 손실, 사전훈련된 언어 인코더)은 제한된 이득을 산출한다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는: 시각-언어 모델에서 CLIP이 DINO에 비해 보이는 우수한 성능은 언어 감독에서 비롯되었는가, 아니면 더 큰 규모의 훈련 데이터에서 비롯되었는가?

문제의 중요성

  1. 실무적 의의: 시각 인코더는 VLMs의 "눈"이며, 그 성능은 전체 시스템의 시각 이해 능력에 직접적인 영향을 미친다
  2. 이론적 가치: 서로 다른 감독 신호가 시각 표현 학습에 미치는 영향을 이해하여 더 나은 시각 인코더 설계에 대한 과학적 지침을 제공한다
  3. 자원 최적화: 핵심 요인을 명확히 함으로써 제한된 자원 하에서 더 나은 설계 선택을 하는 데 도움이 된다

기존 방법의 한계

  1. 혼재된 요인: 기존의 CLIP과 DINO 모델은 훈련 데이터 규모에서 최대 100배 차이가 나므로, 감독 유형과 데이터 규모의 영향을 분리하기 어렵다
  2. 제어 실험 부재: 이전의 비교 연구는 서로 다른 훈련 설정의 사전훈련 모델을 기반으로 하여 공정한 비교를 수행할 수 없다
  3. 메커니즘 이해 부족: 언어 감독이 시각 표현 공간을 어떻게 변경하는지에 대한 심층 분석이 부족하다

연구 동기

엄격하게 제어된 실험 설계를 통해 동일한 조건에서 CLIP과 DINO를 훈련함으로써, 언어 감독이 시각 인코더 성능에 미치는 실제 영향을 과학적으로 분석한다.

핵심 기여

  1. 최초의 제어 실험: 동일한 아키텍처(ViT-B/16), 데이터셋(DataComp 10M 부분집합) 및 훈련 구성에서 CLIP과 DINO를 훈련하여 공정한 비교를 실현
  2. 임베딩 공간 분석: 언어 감독이 시각 표현을 어떻게 변경하는지 심층 분석하여, CLIP은 고수준 의미론에 더 집중하고 DINO는 저수준 시각 특징에 더 민감함을 발견
  3. VLM 성능 평가: 20개의 VQA 벤치마크에서 두 인코더를 체계적으로 평가하여, CLIP이 OCR 작업에서 DINO보다 현저히 우수함(7.5% 향상)을 발견
  4. 감독 변형 탐색: 서로 다른 언어 감독 형태(SigLIP 손실, 사전훈련된 언어 모델)의 제한된 이득을 검증
  5. 과학적 통찰: 시각 인코더 설계에 대한 실증 기반의 지침 원칙 제공

방법 상세 설명

작업 정의

입력: 이미지 데이터셋, 선택적으로 쌍을 이룬 텍스트 설명 출력: 이미지를 의미론적 표현 공간으로 매핑할 수 있는 시각 인코더 제약: 다른 모든 변수를 제어하는 전제 하에, 감독 신호 유형만 변경

제어 실험 설계

아키텍처 통일

  • 백본 네트워크: ViT-B/16을 두 모델의 공통 아키텍처로 사용
  • 매개변수 규모: 모델 복잡도 일치 보장

데이터셋 통일

  • 데이터 출처: DataComp 데이터셋의 1000만 이미지 부분집합
  • 전처리: 통일된 중앙 자르기 및 224×224 크기 조정
  • 감독 차이: CLIP은 이미지-텍스트 쌍 사용, DINO는 이미지만 사용

훈련 구성 통일

  • 최적화기: AdamW
  • 학습률: 1e-3, 코사인 감쇠
  • 훈련 에포크: 20 에포크
  • 하드웨어: 4개의 A100 GPU, 3일 훈련

임베딩 분석 방법

차별화된 이미지 쌍 식별

모델 간 차이를 분석하기 위해 두 가지 이미지 쌍 유형 정의:

g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5)  # CLIP 높은 유사도, DINO 낮은 유사도
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5)  # DINO 높은 유사도, CLIP 낮은 유사도

정량적 검증 실험

  1. 의미론적 민감도 테스트: 서로 다른 문자/숫자를 포함하는 이미지를 사용하여 의미론적 구분 능력 테스트
  2. 시각 패턴 민감도 테스트: 단순 반복 시각 패턴을 사용하여 저수준 특징 민감도 테스트

VLM 통합 방안

프레임워크 선택

  • 기본 아키텍처: LLaVA-1.5
  • 교체 구성요소: 시각 인코더 부분만 교체
  • 훈련 흐름: 사전훈련 + 시각 지시 미세조정

평가 벤치마크

  • VMCBench: 20개 데이터셋을 포함하는 통합 다중선택 시각 질문 응답 벤치마크
  • 작업 유형: 일반 VQA, 추론, 문서 차트 이해, OCR 등

실험 설정

데이터셋

  1. 훈련 데이터: DataComp 10M 부분집합
    • 규모: 1000만 이미지-텍스트 쌍
    • 전처리: 중앙 자르기, 224×224 해상도
  2. 평가 데이터셋:
    • 분류 작업: ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1
    • VQA 작업: VMCBench의 20개 부분집합, OCRVQA, TextVQA 등 포함

평가 지표

  • 선형 프로브 정확도: 시각 인코더 품질 평가의 표준 방법
  • VQA 정확도: 다중선택 질문 응답의 정확률
  • 코사인 유사도: 임베딩 공간 분석 지표

비교 방법

  • 공식 모델: 공식 발표된 CLIP 및 DINO 사전훈련 모델
  • 제어 모델: 동일한 조건에서 훈련된 CLIP 및 DINO
  • 감독 변형: SigLIP 손실 버전, 사전훈련된 언어 모델 버전

구현 세부사항

  • 체크포인트 선택: 검증 세트 성능을 기반으로 최적 체크포인트 선택
  • 평가 빈도: 500 스텝마다 저장 및 평가
  • 통계적 유의성: 여러 무작위 시드에서 결과 안정성 검증

실험 결과

주요 결과

분류 작업 성능

모델ImageNetCIFAR-10Stanford CarsFlowersCUB
제어 CLIP65.8%90.7%74.7%78.7%52.3%
제어 DINO66.4%92.1%54.1%80.7%43.0%

주요 발견:

  • 일반 분류 작업에서 성능이 비슷함
  • CLIP은 세밀한 분류 작업에서 DINO보다 현저히 우수(Stanford Cars: +20.6%, CUB: +9.3%)

VLM 작업 성능

작업 유형LLaVA-CLIPLLaVA-DINO차이
일반 VQA46.2%46.0%+0.2%
추론41.2%41.5%-0.3%
문서 차트33.2%33.1%+0.1%
OCR 작업47.5%40.0%+7.5%

주요 발견:

  • 대부분의 작업에서 성능이 비슷함
  • CLIP은 OCR 관련 작업에서 DINO보다 현저히 우수

임베딩 분석 결과

정량적 검증

  1. 의미론적 내용 민감도:
    • DINO 평균 유사도: 0.877
    • CLIP 평균 유사도: 0.713 (더 낮음, 의미론적 구분이 더 나음을 나타냄)
  2. 시각 패턴 민감도:
    • DINO 평균 유사도: 0.478 (더 낮음, 시각 세부사항 구분이 더 나음을 나타냄)
    • CLIP 평균 유사도: 0.497

정성적 분석

  • CLIP 우위: 객체 범주 및 임베딩된 텍스트 같은 고수준 의미론을 더 잘 포착
  • DINO 우위: 색상, 스타일 같은 저수준 시각 특징에 더 민감

감독 변형 실험

변형VMCBench 평균 정확도
표준 CLIP41.4%
SigLIP 손실40.8%
사전훈련된 언어 모델40.5%

결론: 서로 다른 형태의 언어 감독 개선은 제한적이다.

언어 모델 백본 실험

Vicuna-7B를 Qwen2-7B로 대체한 결과:

모델 조합일반 VQAOCR평균
CLIP + Qwen257.90%51.40%49.69%
DINO + Qwen254.02%47.59%47.72%

관련 연구

시각-언어 모델

  • 대표 연구: LLaVA, Qwen2.5-VL 등
  • 아키텍처 특성: 시각 인코더 + 언어 모델 + 연결 모듈
  • 본 논문의 기여: 시각 인코더 구성요소의 체계적 분석에 집중

시각 표현 학습

  1. 자기감독 방법: DINO, SimCLR 등, 이미지 증강의 관계 예측을 통해 표현 학습
  2. 언어 감독 방법: CLIP, EVA-CLIP, SigLIP 등, 이미지-텍스트 정렬을 활용한 학습
  3. 본 논문의 혁신: 제어된 조건에서 두 패러다임을 처음으로 체계적으로 비교

VLM 설계 선택 연구

  • 기존 연구: 주로 아키텍처 구성요소, 데이터 전략, 훈련 구성에 집중
  • 한계: 서로 다른 훈련 설정의 사전훈련 모델을 기반으로 하여 제어 변수 부재
  • 본 논문의 장점: 엄격한 제어 실험 설계

결론 및 논의

주요 결론

  1. 데이터 규모 vs 감독 유형: 데이터 규모를 제어할 경우, 언어 감독은 실제로 특정 우위를 가져온다
  2. 표현 차이: CLIP은 고수준 의미론 표현을 학습하고, DINO는 저수준 시각 특징에 집중한다
  3. 작업 특이성: CLIP은 텍스트 밀집형 작업에서 명백한 우위를 보이고, 시각 중심 작업에서는 두 모델이 비슷하다
  4. 감독 형태: 서로 다른 언어 감독 변형의 개선은 제한적이다

한계

  1. 데이터 규모 제한: 실험은 1000만 이미지 부분집합에서만 수행되었으며, 십억 규모 데이터에서의 검증이 필요하다
  2. 아키텍처 단일성: ViT-B/16만 테스트되었으며, 다른 아키텍처의 결론은 다를 수 있다
  3. 작업 범위: 주로 VQA 작업에 집중하며, 다른 시각-언어 작업의 결론은 검증 필요

향후 방향

  1. 대규모 검증: 십억 규모 데이터에서 제어 실험 반복
  2. 혼합 방법: 자기감독과 언어 감독을 결합한 혼합 훈련 전략 탐색
  3. 아키텍처 탐색: 서로 다른 시각 아키텍처에서 결론의 보편성 검증

심층 평가

장점

  1. 실험 설계의 엄격성: 최초의 진정한 제어 실험으로 혼재된 요인 제거
  2. 분석의 깊이와 포괄성: 임베딩 공간에서 하위 작업까지의 다층적 분석
  3. 과학적 가치: 영역에 실증 기반의 설계 지침 제공
  4. 재현성: 상세한 실험 설정 및 오픈소스 코드
  5. 명확한 작성: 논리 구조가 명확하고 결론 표현이 정확함

부족한 점

  1. 규모 제한: 1000만 이미지 데이터셋은 상대적으로 작으며, 대규모 훈련의 상황을 완전히 반영하지 못할 수 있다
  2. 작업 제한: 주로 VQA 작업에 집중하며, 다른 시각-언어 작업에 대한 일반화 가능성이 충분히 검증되지 않았다
  3. 이론적 분석 부족: 언어 감독이 이러한 차이를 야기하는 이유에 대한 이론적 설명이 부족하다

영향력

  1. 학술적 기여: 시각 인코더 설계에 과학적 기초를 제공하여 영역의 공백을 메움
  2. 실무적 가치: 실제 VLM 시스템의 시각 인코더 선택을 지도함
  3. 방법론적 기여: 제어 실험의 설계 사고는 다른 비교 연구에 적용 가능

적용 시나리오

  1. VLM 개발: 적절한 시각 인코더 선택에 근거 제공
  2. 연구 지도: 시각 표현 학습 연구에 방향 제시
  3. 자원 최적화: 제한된 자원 하에서 더 나은 설계 선택

참고문헌

본 논문은 시각-언어 모델, 시각 표현 학습 등 영역의 중요한 연구를 인용하고 있으며, 다음을 포함한다:

  • CLIP (Radford et al., 2021)
  • DINO (Caron et al., 2021)
  • LLaVA (Liu et al., 2023)
  • SigLIP (Zhai et al., 2023)
  • DataComp (Gadre et al., 2023)

종합 평가: 이것은 엄격한 제어 실험 설계를 통해 영역 내의 중요한 과학적 질문에 답하는 고품질의 실증 연구 논문이다. 연구 방법은 과학적으로 엄격하며, 결론은 중요한 이론적 및 실무적 가치를 가지고 있으며, 시각-언어 모델의 발전에 가치 있는 지침을 제공한다.