2025-11-24T15:22:16.851016

Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets

Glazner, Tsfaty, Shalev et al.

We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.

academic

누수 찾기, 분할 수정: 비디오 파생 데이터셋의 누수 방지를 위한 클러스터 기반 방법

기본 정보

논문 ID: 2511.13944
제목: Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
저자: Noam Glazner (Bar-Ilan University), Noam Tsfaty (Afeka College of Engineering), Sharon Shalev (Independent Researcher), Avishai Weizman (Ben-Gurion University of the Negev)
분류: cs.CV (컴퓨터 비전)
제출 시간: 2025년 11월 17일 arXiv 제출
논문 링크: https://arxiv.org/abs/2511.13944v1

초록

본 논문은 비디오 파생 프레임 데이터셋의 정보 누수 문제를 완화하기 위한 클러스터 기반 프레임 선택 전략을 제안한다. 훈련 집합, 검증 집합, 테스트 집합으로 분할하기 전에 시각적으로 유사한 프레임을 그룹화함으로써, 본 방법은 더욱 대표성 있고, 균형 잡히고, 신뢰할 수 있는 데이터셋 분할을 생성할 수 있다.

연구 배경 및 동기

핵심 문제

심층 학습 연구에서 비디오 데이터에서 프레임을 추출하여 데이터셋을 구축하는 것은 일반적인 관행이다. 그러나 기존의 무작위 분할 방법은 심각한 정보 누수 문제를 야기한다: 비디오의 연속 프레임 사이에 높은 시공간 상관성이 존재하기 때문에(예: 동일한 배경, 약간 다른 위치의 동일한 객체), 이러한 관련 프레임이 훈련 집합, 검증 집합, 테스트 집합에 분산되면, 모델은 훈련 집합의 장면 특징을 "기억"하여 검증 및 테스트 집합에서 과장된 성능 평가를 얻을 수 있다.

문제의 중요성

모델 평가 왜곡: 정보 누수로 인해 테스트 집합에서의 모델 성능이 실제 일반화 능력을 반영하지 못함
과적합 위험: 모델이 일반적 특징을 학습하기보다는 특정 장면에 과도하게 적합될 수 있음
연구 신뢰성: 객체 탐지 등 컴퓨터 비전 작업의 연구 결론 신뢰도에 영향
실제 응용 격차: 실험실 성능과 실제 배포 성능 사이의 거대한 격차

기존 방법의 한계

무작위 분할: 프레임 간 시공간 상관성을 완전히 무시
비디오 수준 분할: 너무 거친 입도로 데이터 분포 불균형 초래 가능
수동 분할: 노동 집약적이며 대규모 데이터셋으로 확장하기 어려움

연구 동기

본 논문은 시각적으로 유사한 프레임을 지능적으로 그룹화하여 관련 이미지가 동일 데이터 분할에 유지되도록 함으로써, 데이터셋 분할의 공정성과 모델 평가의 견고성을 향상시키는 간단하고 확장 가능하며 기존 데이터셋 준비 워크플로우에 통합 가능한 솔루션을 제공하는 것을 목표로 한다.

핵심 기여

클러스터 기반 데이터셋 분할 방법 제안: 클러스터링 기술을 비디오 파생 데이터셋 분할에 체계적으로 적용한 첫 사례로, 시각적으로 유사한 프레임을 동일 분할로 그룹화하여 정보 누수 방지
포괄적인 특징 추출기 평가: 전통적인 SIFT, HOG부터 현대적인 CLIP, DINO-V3까지 7가지 서로 다른 특징 추출 방법을 체계적으로 비교하여 실무자에게 방법 선택 지침 제공
플러그 앤 플레이 솔루션: 훈련 과정 수정 없이 데이터셋 전처리 파이프라인을 제공하며, 우수한 확장성과 실용성 보유
실증적 검증: ImageNet-VID 및 UCF101 두 벤치마크 데이터셋에서 방법의 유효성을 검증하며, DINO-V3은 0.96의 V-measure 및 AMI 점수 달성

방법 상세 설명

작업 정의

입력: 레이블이 지정되지 않은 비디오 집합 $V = \{V_1, V_2, \ldots, V_K\}$ , 여기서 K는 비디오 총 개수

출력: 추출된 모든 프레임을 훈련 집합, 검증 집합, 테스트 집합에 할당하되, 시각적으로 유사한 프레임(특히 동일 비디오의 프레임)이 동일 분할에 할당되도록 보장

제약 조건:

분할 간 정보 누수 최소화
각 분할의 데이터 분포 균형 유지
클러스터링 결과와 비디오 출처의 높은 일치도 보장

모델 아키텍처

전체 프로세스는 3가지 주요 단계를 포함한다(그림 1 참조):

1. 특징 추출 단계

각 비디오 $V_k$ 를 프레임 시퀀스 $\{I_{k,1}, I_{k,2}, \ldots, I_{k,N_k}\}$ 로 분해하며, 여기서 $N_k$ 는 비디오 $V_k$ 에서 추출된 프레임 수이다.

각 프레임 $I_{k,i}$ 에 대해 특징 벡터를 추출한다: $f_{k,i} = \Phi_{feat}(I_{k,i})$

여기서 $f_{k,i} \in \mathbb{R}^d$ 는 d차원 특징 벡터이고, $\Phi_{feat}(\cdot)$ 는 특징 추출 함수이다.

지원되는 특징 추출 방법:

전통적 기술자:
- SIFT 8,9: 스케일 불변 특징 변환, 국소 텍스처 정보 포착
- HOG 4: 방향 기울기 히스토그램, 기울기 방향 패턴 인코딩
경량 학습 특징:
- XFeat 5: 경량 합성곱 아키텍처를 통한 효율적인 키포인트 탐지 및 기술
심층 사전 훈련 모델:
- CLIP 3: 대조 언어-이미지 사전 훈련, 의미론적 이미지 표현 제공
- SigLIP 10: Sigmoid 손실을 사용한 언어-이미지 사전 훈련
- DINO-V3 11: 자기 감독 비전 Transformer
집계 방법:
- VLAD 12: 벡터 국소 집계 기술자, SIFT 및 XFeat에 적용되며, 국소 키포인트 기술자를 고정 길이의 컴팩트 특징 벡터(1024차원)로 결합

2. 차원 축소 및 클러스터링 단계

차원 축소: PaCMAP(쌍별 제어 다양체 근사 투영) 6을 사용하여 고차원 특징을 저차원 임베딩 공간으로 투영한다: $z_{k,i} = P_{PaCMAP}(f_{k,i})$

여기서 $z_{k,i} \in \mathbb{R}^m$ 은 m차원 임베딩 표현이고(본 논문에서 m=256으로 설정), $P_{PaCMAP}(\cdot)$ 는 PaCMAP 투영 연산자이다.

클러스터링: HDBSCAN(계층적 밀도 기반 공간 클러스터링) 7 알고리즘을 임베딩 표현에 적용한다.

HDBSCAN 선택 이유:

임의 형태의 클러스터 발견 가능
다양한 밀도의 데이터 분포에 적응
클러스터 개수 자동 결정
노이즈 포인트 식별 가능
K-Means 등 중심점 방법보다 비디오 데이터의 연속적이고 불균일한 특성에 더 적합

3. 클러스터 기반 데이터셋 분할

클러스터링 결과 $C_j$ (프레임 $I_{k,i}$ 에 해당하는 특징 $z_{k,i}$ 포함)를 분할의 기본 단위로 사용한다. 각 클러스터 $C_j$ 는 시각적으로 관련된 프레임을 나타내며, 전체 클러스터가 동일 데이터 분할(훈련/검증/테스트)에 할당되어 데이터 누수를 방지한다.

기술적 혁신점

밀도 클러스터링의 적용: 기존의 비디오 수준 분할이나 무작위 분할과 비교하여, 밀도 기반 클러스터링은 프레임 간 시각적 유사성을 더 세밀하게 포착하면서 구형 클러스터 가정을 강제하지 않음
특징 추출의 체계적 평가: 단일 특징 추출 방법에 의존하지 않고, 전통적 방법부터 현대적 방법까지 포괄적 비교를 제공하여 방법의 적응성 향상
2단계 차원 축소 전략: 먼저 특정 방법으로 고차원 특징을 추출한 후, PaCMAP으로 256차원으로 통일 축소하여 의미론적 정보를 보존하면서 클러스터링 효율성 향상
플러그 앤 플레이 설계: 데이터 전처리 단계로서 모델 훈련 과정 수정이 필요 없으며, 우수한 공학적 실용성 보유

실험 설정

데이터셋

ImageNet-VID (ILSVRC2015)

출처: ImageNet 대규모 시각 인식 챌린지 2015 14
사용 부분: 검증 집합
특징: 객체 synset별로 분류된 레이블 이미지 제공, 객체 탐지의 정보 누수 평가에 적합
레이블 유형: 이미지 수준 객체 범주 레이블

UCF101

출처: 101개 인간 동작 비디오 데이터셋 15
사용 부분: 모든 분할
특징: 다듬어진 비디오 클립 포함, 비디오 수준 레이블
전처리: 시각적 중복성 감소를 위해 초당 1프레임 추출, 연속 프레임이 거의 동일하지 않도록 보장
도전 과제: 시간 변동성 증가로 클러스터링 난이도 상승

평가 지표

조정된 상호 정보(Adjusted Mutual Information, AMI) 16

정의: 예측된 클러스터와 실제 레이블 간의 일치도를 측정하며, 우연의 요소를 보정
범위: 0, 1, 1은 완벽한 일치
장점: 무작위 클러스터링의 기준선 성능 고려

V-measure 17

정의: 클러스터링의 동질성(homogeneity)과 완전성(completeness) 간의 균형 평가
- 동질성: 각 클러스터의 샘플이 단일 범주에서 나온 정도
- 완전성: 동일 범주의 샘플이 동일 클러스터를 공유하는 정도
범위: 0, 1, 1은 최적
계산: 동질성과 완전성의 조화 평균

비교 방법

본 논문은 7가지 특징 추출 방법의 클러스터링 성능을 비교한다:

SIFT + VLAD
HOG (224×224)
HOG (128×128)
XFeat + VLAD
CLIP (ViT-B/32)
SigLIP (ViT-B/16)
DINO-V3 (ViT-B/16)

구현 세부사항

이미지 전처리:

XFeat, CLIP, DINO, SigLIP: 224×224로 조정
HOG: 128×128 또는 224×224(128×128이 약간 더 나은 성능과 더 낮은 차원)

특징 차원:

VLAD 벡터: 통일된 표현을 위해 1024차원으로 축소
PaCMAP 임베딩: 256차원 공간으로 투영 (m=256)

클러스터링 알고리즘: HDBSCAN(구체적 하이퍼파라미터는 논문에서 상세히 설명되지 않음)

실험 결과

주요 결과

표 I은 ImageNet-VID 및 UCF101 검증 집합에서 서로 다른 특징 추출 방법을 사용한 클러스터링 성능을 보여준다:

특징 추출 방법	데이터셋	V-measure	AMI
SIFT + VLAD	ImageNet-VID	0.81	0.80
	UCF101	0.57	0.38
HOG (224×224)	ImageNet-VID	0.82	0.81
	UCF101	0.61	0.48
HOG (128×128)	ImageNet-VID	0.87	0.86
	UCF101	0.67	0.54
XFeat + VLAD	ImageNet-VID	0.90	0.89
	UCF101	0.72	0.58
CLIP (ViT-B/32)	ImageNet-VID	0.92	0.91
	UCF101	0.75	0.66
SigLIP (ViT-B/16)	ImageNet-VID	0.93	0.92
	UCF101	0.75	0.67
DINO-V3 (ViT-B/16)	ImageNet-VID	0.96	0.96
	UCF101	0.87	0.80

주요 발견

심층 사전 훈련 모델이 전통적 방법을 크게 능가:
- DINO-V3이 두 데이터셋 모두에서 최고 점수 달성
- ImageNet-VID에서 DINO-V3은 SIFT+VLAD 대비 18.5% 향상(V-measure)
- UCF101에서 더욱 현저한 향상으로 52.6% 달성
데이터셋 난이도 차이:
- 모든 방법이 UCF101에서 ImageNet-VID보다 낮은 성능 발휘
- UCF101의 시간 변동성이 클러스터링 난이도 증가
- SIFT+VLAD가 UCF101에서 가장 약한 성능(AMI 0.38만)
특징 추출 방법 성능 계층:
- 1계층: DINO-V3 > SigLIP ≈ CLIP
- 2계층: XFeat + VLAD
- 3계층: HOG (128×128) > HOG (224×224)
- 4계층: SIFT + VLAD
경량 방법의 잠재력:
- XFeat + VLAD이 전통적 기술자 대비 명확한 개선
- ImageNet-VID에서 0.90의 V-measure 달성
- 계산 자원이 제한된 시나리오에 실행 가능한 선택지 제공
이미지 해상도의 영향:
- HOG가 128×128 해상도에서 224×224보다 우수한 성능
- 더 낮은 해상도가 더 낮은 차원의 기술자를 생성하면서 더 나은 성능 유지

실험 발견

의미론적 표현의 우월성: 심층 사전 훈련 모델(특히 DINO-V3)이 고수준 의미론적 정보를 포착하여 시각적 유사성을 더 잘 식별하며, 이는 정보 누수 탐지에 중요
자기 감독 학습의 효과성: 자기 감독 방법인 DINO-V3이 최고 성능을 발휘하여, 명시적 감독 없이도 클러스터링 작업에 적합한 표현을 학습할 수 있음을 시사
특징 집계의 중요성: VLAD가 국소 기술자(SIFT, XFeat)의 집계를 통해 성능을 크게 향상
방법의 보편성: 프레임워크가 서로 다른 특성의 두 데이터셋에서 모두 우수한 성능을 발휘하여 일반화 능력 입증

결론 및 논의

주요 결론

방법 유효성: 클러스터 기반 프레임 선택 전략이 시각적으로 유사한 프레임을 효과적으로 식별 및 그룹화하여 정보 누수 방지
최적 실무: DINO-V3 임베딩이 두 데이터셋 모두에서 최고 클러스터링 성능 달성, 실무에서 최우선 방법
실용 가치: 방법이 간단하고 확장 가능하며 기존 데이터셋 준비 워크플로우에 무결하게 통합 가능
개선 효과: 데이터셋 분할 전 프레임을 그룹화함으로써 다양성을 향상시키고 공정한 평가 환경을 제공하여 비디오 데이터셋 훈련의 객체 탐지 모델 과적합 완화

한계

하이퍼파라미터 의존성: 방법이 HDBSCAN의 하이퍼파라미터 선택에 의존하며, 다양한 설정이 클러스터링 결과에 영향 가능
계산 비용: 심층 사전 훈련 모델(예: DINO-V3)의 특징 추출이 높은 계산 자원 필요
하위 작업 검증 부재: 논문이 실제 객체 탐지 작업에서의 성능 비교 제공 부재(방법 사용 vs 미사용)
클러스터 품질 평가: AMI 및 V-measure만 사용하여 평가하며, 실제 정보 누수 정도의 정량적 분석 부재
데이터셋 규모: 초대규모 데이터셋에서 방법의 확장성 검증 부재

향후 방향

저자들이 명시적으로 제시한 연구 방향:

적응형 클러스터링 전략: HDBSCAN 하이퍼파라미터 의존성을 줄이는 하이퍼파라미터 자동 조정 클러스터링 방법 탐색
성능 격차 정량화: 해당 방법 사용/미사용 이미지 객체 탐지 모델 훈련, 정보 누수가 모델 성능에 미치는 실제 영향 정량화
교차 데이터셋 평가: 더 많은 서로 다른 특성의 데이터셋에서 방법 유효성 검증
종단 간 최적화: 클러스터링과 모델 훈련을 공동 최적화하는 방법 탐색 가능성

심층 평가

장점

1. 방법 혁신성

문제 대상성 강함: 비디오 파생 데이터셋의 핵심 문제점인 정보 누수에 직접 대응
솔루션 우아함: 클러스터링 기술을 데이터셋 분할에 교묘하게 적용, 사고 명확하고 합리적
플러그 앤 플레이 설계: 훈련 프로세스 수정 불필요, 공학적 실용성 강함

2. 실험 충분성

특징 추출 방법 포괄성: 전통적, 경량, 현대 심층 방법 7가지 포함
데이터셋 선택 합리성: ImageNet-VID 및 UCF101이 서로 다른 유형의 비디오 데이터 대표
평가 지표 적절성: AMI 및 V-measure 모두 클러스터 품질의 표준 평가 지표

3. 결과 설득력

성능 향상 현저함: DINO-V3이 두 데이터셋에서 0.80 이상의 높은 점수 달성
일관성 강함: 심층 방법이 두 데이터셋 모두에서 전통 방법을 능가, 결론 견고
수치 상세함: 모든 방법의 완전한 비교 데이터 제공

4. 작성 품질

구조 명확함: 문제-방법-실험의 조직 논리성 강함
표현 정확함: 기술 설명 정밀, 수학 기호 사용 규범적
시각화 효과: 그림 1이 전체 프로세스를 명확하게 제시

부족점

1. 방법 한계

이론적 분석 부재: DINO-V3이 최고 성능을 발휘하는 이유에 대한 이론적 설명 부재
하이퍼파라미터 민감성 미탐색: HDBSCAN의 하이퍼파라미터가 결과에 미치는 영향 미연구
클러스터 개수 제어: 분할 크기 균형을 위한 클러스터 개수 제어 방법 미논의

2. 실험 설정 결함

소거 실험 부재:
- PaCMAP 차원 축소 필요성? 고차원 공간에서 직접 클러스터링 효과?
- 256차원으로의 축소가 최적?
- 다른 클러스터링 알고리즘(K-Means, DBSCAN) 비교?
하위 작업 검증 부재: 가장 중요한 문제인 방법이 모델 일반화 성능을 실제로 개선하는지 미검증
통계적 유의성 검증 부재: 오차 막대 또는 유의성 검증 미제공

3. 분석 깊이 부족

실패 사례 분석 부재: 어떤 유형의 프레임이 올바르게 클러스터링되기 어려운가?
시각화 부족: 클러스터링 결과의 t-SNE/UMAP 시각화 미제시
계산 비용 분석: 각 방법의 실행 시간 및 메모리 소비 미보고
정보 누수 정량 분석: 전통적 방법으로 인한 누수 정도 미정량화

4. 실험 범위

데이터셋 제한: 2개 데이터셋만 사용, 더 다양한 검증 부족
작업 단일성: 객체 탐지만 초점, 다른 작업(동작 인식, 분할)에서의 효과 미탐색
규모 검증 부족: 백만 규모 대규모 데이터셋에서 테스트 미실시

영향력

영역에 대한 기여

연구 신뢰성 향상: 비디오 파생 데이터셋 사용을 위한 표준화된 전처리 방법 제공
방법론 기여: 데이터셋 분할이 모델 평가에 미치는 중요성 강조
실무 지침: 특징 추출 방법 선택에 대한 실무자 지침 제공

실용 가치

높음: 방법이 간단하고 구현 용이, 실제 프로젝트에 즉시 적용 가능
보편성 강함: 비디오에서 프레임을 추출하는 모든 시나리오에 적용 가능
비용 제어: 일회성 전처리 비용, 훈련 오버헤드 미증가

재현성

장점:
- 방법 설명 명확
- 공개 가능한 도구 및 모델 사용
- 하이퍼파라미터 설정 명확(이미지 크기, 차원 축소 차원 등)
부족점:
- 코드 또는 구현 세부사항 미제공
- HDBSCAN의 구체적 하이퍼파라미터 미명시
- 데이터셋 분할 구체적 전략(70/15/15 등) 미명확

잠재적 영향

단기: 데이터셋 구축 관련 논문에서 인용 및 채택 가능
중기: 비디오 데이터셋 발표의 표준 전처리 단계로 정착 가능
장기: 더욱 엄격한 데이터셋 품질 제어 표준 추진

적용 시나리오

최적 시나리오

비디오 객체 탐지: 논문의 주요 목표 시나리오
동작 인식: 비디오에서 프레임을 추출하여 분류
비디오 인스턴스 분할: 프레임 수준 레이블이 필요한 작업
감시 비디오 분석: 일반적으로 많은 유사 프레임 포함

신중히 사용해야 할 시나리오

비디오 이해 작업: 시간 정보 보존이 필요한 작업은 부적합할 수 있음
소규모 데이터셋: 클러스터링이 불안정할 수 있음
고도로 다양화된 비디오: 비디오 콘텐츠 차이가 극대한 경우 클러스터링이 과도하게 세밀할 수 있음

부적용 시나리오

원본 이미지 데이터셋: 정보 누수 문제 미존재
시간 모델링이 필요한 작업: 비디오 예측, 광학 흐름 추정 등
실시간 응용: 심층 특징 추출이 너무 느릴 수 있음

참고문헌

핵심 인용

1 Botache et al., 2023 - 순차 데이터 분할의 복잡성 연구
2 Figueiredo & Mendes, 2024 - 비디오 객체 탐지 데이셋의 정보 누수 분석(IEEE Access)
3 Radford et al., 2021 - CLIP: 자연어 감독에서 전이 가능한 시각 모델 학습(ICML)
7 McInnes et al., 2017 - HDBSCAN: 계층적 밀도 기반 클러스터링 알고리즘
11 Siméoni et al., 2025 - DINO-V3: 자기 감독 비전 Transformer(arXiv 사전 인쇄본)
14 Russakovsky et al., 2015 - ImageNet 대규모 시각 인식 챌린지(IJCV)

요약

본 논문은 비디오 파생 데이터셋의 정보 누수 문제에 대한 실용적 솔루션을 제안한다. 핵심 장점은 방법의 단순성과 실용성에 있다. 클러스터링을 통해 시각적으로 유사한 프레임이 동일 데이터 분할에 할당되도록 보장하는 것은 직관적이고 효과적인 전략이다. 실험 결과는 현대 심층 사전 훈련 모델(특히 DINO-V3)이 프레임 간 유사성 식별에서 전통 방법을 크게 능가함을 보여준다.

그러나 논문의 주요 결함은 하위 작업 검증 부재이다. 클러스터링 품질이 높지만(AMI 및 V-measure 0.96 달성), 이것이 실제로 더 나은 모델 일반화 성능으로 전환되는지는 여전히 미검증이다. 이는 클러스터링 품질이 수단일 뿐 모델 평가 개선이 최종 목표이기 때문에 중요한 누락이다.

그럼에도 불구하고, 본 연구는 비디오 데이터셋 구축에 중요한 방법론적 기여를 제공하며 높은 실무 가치를 보유한다. 향후 연구는 다음을 우선시할 것을 권장한다:

최우선: 실제 객체 탐지 작업에서 방법 효과 검증
적응형 하이퍼파라미터 선택 전략 탐색
더 크고 다양한 데이터셋으로 확장
오픈소스 구현 제공하여 커뮤니티 채택 촉진

추천 지수: ★★★★☆ (4/5)

문제 중요성 및 실용성 ✓
방법 단순성 및 효과성 ✓
실험 충분성 ✓
하위 작업 검증 부재 ✗
분석 깊이 개선 가능 ✗