CLIP outperforms self-supervised models like DINO as vision encoders for vision-language models (VLMs), but it remains unclear whether this advantage stems from CLIP's language supervision or its much larger training data. To disentangle these factors, we pre-train CLIP and DINO under controlled settings -- using the same architecture, dataset, and training configuration -- achieving similar ImageNet accuracy. Embedding analysis shows that CLIP captures high-level semantics (e.g., object categories, text), while DINO is more responsive to low-level features like colors and styles. When integrated into VLMs and evaluated on 20 VQA benchmarks, CLIP excels at text-intensive tasks, while DINO slightly outperforms on vision-centric ones. Variants of language supervision (e.g., sigmoid loss, pre-trained language encoders) yield limited gains. Our findings provide scientific insights into vision encoder design and its impact on VLM performance.
논문 ID : 2510.11835제목 : Data or Language Supervision: What Makes CLIP Better than DINO?저자 : Yiming Liu, Yuhui Zhang, Dhruba Ghosh, Ludwig Schmidt, Serena Yeung-Levy (Stanford University, Tsinghua University)분류 : cs.CV cs.AI cs.CL cs.LG cs.MM발표 시간 : 2025년 10월 13일논문 링크 : https://arxiv.org/abs/2510.11835 CLIP은 시각-언어 모델(VLMs)에서 시각 인코더로서 DINO 등의 자기감독 모델을 능가하지만, 그 우월성이 언어 감독에서 비롯되었는지 아니면 더 큰 규모의 훈련 데이터에서 비롯되었는지는 여전히 불명확하다. 이러한 요인들을 분리하기 위해 연구자들은 동일한 아키텍처, 데이터셋 및 훈련 구성을 사용하여 제어된 설정에서 CLIP과 DINO를 사전훈련했으며, 유사한 ImageNet 정확도를 얻었다. 임베딩 분석은 CLIP이 객체 범주, 텍스트 같은 고수준 의미론을 포착하는 반면, DINO는 색상 및 스타일 같은 저수준 특징에 더 반응함을 보여준다. VLMs에 통합되어 20개의 VQA 벤치마크에서 평가될 때, CLIP은 텍스트 밀집형 작업에서 우수한 성능을 보이는 반면, DINO는 시각 중심 작업에서 약간의 우위를 보인다. 언어 감독의 변형(예: sigmoid 손실, 사전훈련된 언어 인코더)은 제한된 이득을 산출한다.
본 연구가 해결하고자 하는 핵심 문제는: 시각-언어 모델에서 CLIP이 DINO에 비해 보이는 우수한 성능은 언어 감독에서 비롯되었는가, 아니면 더 큰 규모의 훈련 데이터에서 비롯되었는가?
실무적 의의 : 시각 인코더는 VLMs의 "눈"이며, 그 성능은 전체 시스템의 시각 이해 능력에 직접적인 영향을 미친다이론적 가치 : 서로 다른 감독 신호가 시각 표현 학습에 미치는 영향을 이해하여 더 나은 시각 인코더 설계에 대한 과학적 지침을 제공한다자원 최적화 : 핵심 요인을 명확히 함으로써 제한된 자원 하에서 더 나은 설계 선택을 하는 데 도움이 된다혼재된 요인 : 기존의 CLIP과 DINO 모델은 훈련 데이터 규모에서 최대 100배 차이가 나므로, 감독 유형과 데이터 규모의 영향을 분리하기 어렵다제어 실험 부재 : 이전의 비교 연구는 서로 다른 훈련 설정의 사전훈련 모델을 기반으로 하여 공정한 비교를 수행할 수 없다메커니즘 이해 부족 : 언어 감독이 시각 표현 공간을 어떻게 변경하는지에 대한 심층 분석이 부족하다엄격하게 제어된 실험 설계를 통해 동일한 조건에서 CLIP과 DINO를 훈련함으로써, 언어 감독이 시각 인코더 성능에 미치는 실제 영향을 과학적으로 분석한다.
최초의 제어 실험 : 동일한 아키텍처(ViT-B/16), 데이터셋(DataComp 10M 부분집합) 및 훈련 구성에서 CLIP과 DINO를 훈련하여 공정한 비교를 실현임베딩 공간 분석 : 언어 감독이 시각 표현을 어떻게 변경하는지 심층 분석하여, CLIP은 고수준 의미론에 더 집중하고 DINO는 저수준 시각 특징에 더 민감함을 발견VLM 성능 평가 : 20개의 VQA 벤치마크에서 두 인코더를 체계적으로 평가하여, CLIP이 OCR 작업에서 DINO보다 현저히 우수함(7.5% 향상)을 발견감독 변형 탐색 : 서로 다른 언어 감독 형태(SigLIP 손실, 사전훈련된 언어 모델)의 제한된 이득을 검증과학적 통찰 : 시각 인코더 설계에 대한 실증 기반의 지침 원칙 제공입력 : 이미지 데이터셋, 선택적으로 쌍을 이룬 텍스트 설명
출력 : 이미지를 의미론적 표현 공간으로 매핑할 수 있는 시각 인코더
제약 : 다른 모든 변수를 제어하는 전제 하에, 감독 신호 유형만 변경
백본 네트워크 : ViT-B/16을 두 모델의 공통 아키텍처로 사용매개변수 규모 : 모델 복잡도 일치 보장데이터 출처 : DataComp 데이터셋의 1000만 이미지 부분집합전처리 : 통일된 중앙 자르기 및 224×224 크기 조정감독 차이 : CLIP은 이미지-텍스트 쌍 사용, DINO는 이미지만 사용최적화기 : AdamW학습률 : 1e-3, 코사인 감쇠훈련 에포크 : 20 에포크하드웨어 : 4개의 A100 GPU, 3일 훈련모델 간 차이를 분석하기 위해 두 가지 이미지 쌍 유형 정의:
g1 = (clip_sim > 0.8) ∧ (dino_sim < 0.5) # CLIP 높은 유사도, DINO 낮은 유사도
g2 = (dino_sim > 0.8) ∧ (clip_sim < 0.5) # DINO 높은 유사도, CLIP 낮은 유사도
의미론적 민감도 테스트 : 서로 다른 문자/숫자를 포함하는 이미지를 사용하여 의미론적 구분 능력 테스트시각 패턴 민감도 테스트 : 단순 반복 시각 패턴을 사용하여 저수준 특징 민감도 테스트기본 아키텍처 : LLaVA-1.5교체 구성요소 : 시각 인코더 부분만 교체훈련 흐름 : 사전훈련 + 시각 지시 미세조정VMCBench : 20개 데이터셋을 포함하는 통합 다중선택 시각 질문 응답 벤치마크작업 유형 : 일반 VQA, 추론, 문서 차트 이해, OCR 등훈련 데이터 : DataComp 10M 부분집합규모: 1000만 이미지-텍스트 쌍 전처리: 중앙 자르기, 224×224 해상도 평가 데이터셋 :분류 작업 : ImageNet, CIFAR-10, Stanford Cars, Flowers, CUB, ImageNetV2, CIFAR-10.1VQA 작업 : VMCBench의 20개 부분집합, OCRVQA, TextVQA 등 포함선형 프로브 정확도 : 시각 인코더 품질 평가의 표준 방법VQA 정확도 : 다중선택 질문 응답의 정확률코사인 유사도 : 임베딩 공간 분석 지표공식 모델 : 공식 발표된 CLIP 및 DINO 사전훈련 모델제어 모델 : 동일한 조건에서 훈련된 CLIP 및 DINO감독 변형 : SigLIP 손실 버전, 사전훈련된 언어 모델 버전체크포인트 선택 : 검증 세트 성능을 기반으로 최적 체크포인트 선택평가 빈도 : 500 스텝마다 저장 및 평가통계적 유의성 : 여러 무작위 시드에서 결과 안정성 검증모델 ImageNet CIFAR-10 Stanford Cars Flowers CUB 제어 CLIP 65.8% 90.7% 74.7% 78.7% 52.3% 제어 DINO 66.4% 92.1% 54.1% 80.7% 43.0%
주요 발견 :
일반 분류 작업에서 성능이 비슷함 CLIP은 세밀한 분류 작업에서 DINO보다 현저히 우수(Stanford Cars: +20.6%, CUB: +9.3%) 작업 유형 LLaVA-CLIP LLaVA-DINO 차이 일반 VQA 46.2% 46.0% +0.2% 추론 41.2% 41.5% -0.3% 문서 차트 33.2% 33.1% +0.1% OCR 작업 47.5% 40.0% +7.5%
주요 발견 :
대부분의 작업에서 성능이 비슷함 CLIP은 OCR 관련 작업에서 DINO보다 현저히 우수 의미론적 내용 민감도 :DINO 평균 유사도: 0.877 CLIP 평균 유사도: 0.713 (더 낮음, 의미론적 구분이 더 나음을 나타냄) 시각 패턴 민감도 :DINO 평균 유사도: 0.478 (더 낮음, 시각 세부사항 구분이 더 나음을 나타냄) CLIP 평균 유사도: 0.497 CLIP 우위 : 객체 범주 및 임베딩된 텍스트 같은 고수준 의미론을 더 잘 포착DINO 우위 : 색상, 스타일 같은 저수준 시각 특징에 더 민감변형 VMCBench 평균 정확도 표준 CLIP 41.4% SigLIP 손실 40.8% 사전훈련된 언어 모델 40.5%
결론 : 서로 다른 형태의 언어 감독 개선은 제한적이다.
Vicuna-7B를 Qwen2-7B로 대체한 결과:
모델 조합 일반 VQA OCR 평균 CLIP + Qwen2 57.90% 51.40% 49.69% DINO + Qwen2 54.02% 47.59% 47.72%
대표 연구 : LLaVA, Qwen2.5-VL 등아키텍처 특성 : 시각 인코더 + 언어 모델 + 연결 모듈본 논문의 기여 : 시각 인코더 구성요소의 체계적 분석에 집중자기감독 방법 : DINO, SimCLR 등, 이미지 증강의 관계 예측을 통해 표현 학습언어 감독 방법 : CLIP, EVA-CLIP, SigLIP 등, 이미지-텍스트 정렬을 활용한 학습본 논문의 혁신 : 제어된 조건에서 두 패러다임을 처음으로 체계적으로 비교기존 연구 : 주로 아키텍처 구성요소, 데이터 전략, 훈련 구성에 집중한계 : 서로 다른 훈련 설정의 사전훈련 모델을 기반으로 하여 제어 변수 부재본 논문의 장점 : 엄격한 제어 실험 설계데이터 규모 vs 감독 유형 : 데이터 규모를 제어할 경우, 언어 감독은 실제로 특정 우위를 가져온다표현 차이 : CLIP은 고수준 의미론 표현을 학습하고, DINO는 저수준 시각 특징에 집중한다작업 특이성 : CLIP은 텍스트 밀집형 작업에서 명백한 우위를 보이고, 시각 중심 작업에서는 두 모델이 비슷하다감독 형태 : 서로 다른 언어 감독 변형의 개선은 제한적이다데이터 규모 제한 : 실험은 1000만 이미지 부분집합에서만 수행되었으며, 십억 규모 데이터에서의 검증이 필요하다아키텍처 단일성 : ViT-B/16만 테스트되었으며, 다른 아키텍처의 결론은 다를 수 있다작업 범위 : 주로 VQA 작업에 집중하며, 다른 시각-언어 작업의 결론은 검증 필요대규모 검증 : 십억 규모 데이터에서 제어 실험 반복혼합 방법 : 자기감독과 언어 감독을 결합한 혼합 훈련 전략 탐색아키텍처 탐색 : 서로 다른 시각 아키텍처에서 결론의 보편성 검증실험 설계의 엄격성 : 최초의 진정한 제어 실험으로 혼재된 요인 제거분석의 깊이와 포괄성 : 임베딩 공간에서 하위 작업까지의 다층적 분석과학적 가치 : 영역에 실증 기반의 설계 지침 제공재현성 : 상세한 실험 설정 및 오픈소스 코드명확한 작성 : 논리 구조가 명확하고 결론 표현이 정확함규모 제한 : 1000만 이미지 데이터셋은 상대적으로 작으며, 대규모 훈련의 상황을 완전히 반영하지 못할 수 있다작업 제한 : 주로 VQA 작업에 집중하며, 다른 시각-언어 작업에 대한 일반화 가능성이 충분히 검증되지 않았다이론적 분석 부족 : 언어 감독이 이러한 차이를 야기하는 이유에 대한 이론적 설명이 부족하다학술적 기여 : 시각 인코더 설계에 과학적 기초를 제공하여 영역의 공백을 메움실무적 가치 : 실제 VLM 시스템의 시각 인코더 선택을 지도함방법론적 기여 : 제어 실험의 설계 사고는 다른 비교 연구에 적용 가능VLM 개발 : 적절한 시각 인코더 선택에 근거 제공연구 지도 : 시각 표현 학습 연구에 방향 제시자원 최적화 : 제한된 자원 하에서 더 나은 설계 선택본 논문은 시각-언어 모델, 시각 표현 학습 등 영역의 중요한 연구를 인용하고 있으며, 다음을 포함한다:
CLIP (Radford et al., 2021) DINO (Caron et al., 2021) LLaVA (Liu et al., 2023) SigLIP (Zhai et al., 2023) DataComp (Gadre et al., 2023) 종합 평가 : 이것은 엄격한 제어 실험 설계를 통해 영역 내의 중요한 과학적 질문에 답하는 고품질의 실증 연구 논문이다. 연구 방법은 과학적으로 엄격하며, 결론은 중요한 이론적 및 실무적 가치를 가지고 있으며, 시각-언어 모델의 발전에 가치 있는 지침을 제공한다.