2025-11-19T15:49:13.925681

Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling

Hu, Mussmann
Over the past couple of decades, many active learning acquisition functions have been proposed, leaving practitioners with an unclear choice of which to use. Bayesian Decision Theory (BDT) offers a universal principle to guide decision-making. In this work, we derive BDT for (Bayesian) active learning in the myopic framework, where we imagine we only have one more point to label. This derivation leads to effective algorithms such as Expected Error Reduction (EER), Expected Predictive Information Gain (EPIG), and other algorithms that appear in the literature. Furthermore, we show that BAIT (active learning based on V-optimal experimental design) can be derived from BDT and asymptotic approximations. A key challenge of such methods is the difficult scaling to large batch sizes, leading to either computational challenges (BatchBALD) or dramatic performance drops (top-$B$ selection). Here, using a particular formulation of the decision process, we derive Partial Batch Label Sampling (ParBaLS) for the EPIG algorithm. We show experimentally for several datasets that ParBaLS EPIG gives superior performance for a fixed budget and Bayesian Logistic Regression on Neural Embeddings. Our code is available at https://github.com/ADDAPT-ML/ParBaLS.
academic

부분 배치 레이블 샘플링을 이용한 배치 능동학습의 근시적 베이지안 의사결정 이론

기본 정보

  • 논문 ID: 2510.09877
  • 제목: Myopic Bayesian Decision Theory for Batch Active Learning with Partial Batch Label Sampling
  • 저자: Kangping Hu, Stephen Mussmann (조지아공과대학교)
  • 분류: cs.LG cs.AI stat.ML
  • 발표 시간: 2025년 10월 10일 (사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.09877v1

초록

지난 수십 년간 많은 능동학습 획득 함수가 제안되었으나, 실무자들은 적절한 방법을 선택하기 어려워하고 있습니다. 베이지안 의사결정 이론(BDT)은 의사결정을 지도하는 일반적인 원칙을 제공합니다. 본 논문은 근시적 프레임워크 하에서 (베이지안) 능동학습을 위한 BDT를 도출하며, 단 하나의 추가 데이터 포인트만 레이블링하면 된다고 가정합니다. 이 도출은 기댓값 오류 감소(EER), 기댓값 예측 정보 이득(EPIG) 등의 효과적인 알고리즘을 생성합니다. 또한 저자들은 BAIT가 BDT와 점근 근사를 통해 도출될 수 있음을 증명합니다. 이러한 방법들의 핵심 과제는 대규모 배치로 확장하기 어렵다는 점으로, 계산 문제(BatchBALD) 또는 성능 급격한 저하(상위-B 선택)를 초래합니다. 본 논문은 특정 의사결정 과정 표현을 통해 EPIG 알고리즘을 위한 부분 배치 레이블 샘플링(ParBaLS) 방법을 도출합니다. 실험 결과는 고정 예산 및 신경 임베딩 상의 베이지안 로지스틱 회귀 설정에서 ParBaLS EPIG가 여러 데이터셋에서 우수한 성능을 보임을 나타냅니다.

연구 배경 및 동기

문제 정의

능동학습은 대량의 레이블이 없는 데이터에서 가장 정보가 풍부한 데이터를 선택하여 레이블링함으로써 제한된 레이블링 예산 하에서 모델 성능을 최대화하는 것을 목표로 합니다. 기존 방법에는 휴리스틱 방법과 확률 방법이 포함되지만, 명확한 선택 지침 원칙이 부족합니다.

문제의 중요성

  1. 실제 필요성: 현대 기계학습에서 데이터는 일반적으로 개별적이 아닌 배치 형태로 레이블링됩니다
  2. 방법 선택의 어려움: 기존 알고리즘은 해석 가능성이 부족하여 실무자들이 언제 어떤 알고리즘이 효과적인지 판단하기 어렵습니다
  3. 확장성 문제: 기존 방법은 대규모 배치에서 계산 또는 성능 문제에 직면합니다

기존 방법의 한계

  1. 상위-B 선택: 배치 레이블 간의 의존성을 무시하여 중복 샘플을 선택할 수 있습니다
  2. 휴리스틱 다양성: 데이터셋별 초매개변수 조정이 필요하며, 능동학습에서는 불가능합니다
  3. 탐욕적 배치 획득: BatchBALD 등의 방법은 배치 크기에 따라 계산 복잡도가 지수적으로 증가합니다

연구 동기

베이지안 의사결정 이론을 통해 통일된 이론적 프레임워크를 제공하여 기존 알고리즘의 작동 원리를 설명하고 배치 선택을 효과적으로 처리할 수 있는 새로운 방법을 제안합니다.

핵심 기여

  1. 이론적 통일: 다양한 알고리즘(EER, EPIG, BAIT 등)을 근시적 베이지안 의사결정 이론(MBDT)의 도출 결과로 통일
  2. 새로운 방법 제안: 배치 능동학습의 과제를 해결하기 위해 부분 배치 레이블 샘플링(ParBaLS) 도입
  3. 이론적 분석: ParBaLS의 몬테카를로 근사 오차가 O(1/√m)이며 배치 크기에 무관함을 증명
  4. 실험 검증: 10가지 다양한 설정에서 ParBaLS EPIG의 우수한 성능 검증

방법론 상세 설명

작업 정의

입력 영역 X, 출력 영역 Y 및 레이블이 없는 풀 데이터셋 D⊂X가 주어졌을 때, 목표는 반복적으로 T개의 배치 S⊂D를 선택하여 각 배치 크기 |S|=B를 레이블링하고, 레이블링된 집합에서 훈련한 후의 테스트 손실을 최소화하는 것입니다.

근시적 베이지안 의사결정 이론(MBDT)

단일 포인트 선택 도출

근시적 프레임워크에서 단 하나의 추가 데이터 포인트 x̂만 선택한다고 가정하면, 다음 레이블링 포인트는:

argmin_{x̂∈D} E_{ŷ~Y_{x̂}|L} [min_{P∈Δ^{|V|}_Y} E_{y⃗~Y_V|Y_{x̂}=ŷ,L} [∑_{j=1}^{|V|} ℓ(y_j, P_j)]]

음의 로그 우도 손실의 경우, 최적 예측은 사후 분포이며 기댓값 손실은 엔트로피로 단순화됩니다:

argmax_{x̂∈D} ∑_{x∈V} I(Y_x; Y_{x̂}|L)

이는 EPIG 및 EER 알고리즘과 동등합니다.

배치 선택의 과제

기존 배치 전략은 세 가지로 분류됩니다:

  1. 상위-B: 점수가 가장 높은 B개 포인트를 선택하며, 의존성을 무시합니다
  2. 휴리스틱 다양성: 무작위성 또는 다양성을 추가하며, 초매개변수 조정이 필요합니다
  3. 탐욕적 배치 획득: 전체 배치를 최적화하며, 계산 복잡도가 높습니다

ParBaLS 방법

핵심 아이디어

이미 레이블링하기로 약속했지만 레이블을 아직 관찰하지 못한 부분 배치 S를 도입하면, 다음 최적 포인트는:

argmax_{x̂∈D} E_{y_S~Y_S|L} [∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S, L)]

몬테카를로 추정

몬테카를로 추정을 사용하여 지수 수준의 합을 처리합니다:

argmax_{x̂∈D} (1/m) ∑_{i=1}^m ∑_{x∈V} I(Y_x; Y_{x̂}|Y_S = y_S^{(i)}, L)

알고리즘 흐름

ParBaLS 알고리즘은 배치를 단계적으로 구축합니다:

  1. 빈 배치 S=∅로 초기화
  2. 베이지안 모델 M_L 훈련
  3. m개의 의사 레이블 버전 y^{(i)}~Y_D|L 샘플링
  4. 각 배치 위치에 대해:
    • 각 후보 포인트의 EPIG 점수 계산
    • 점수가 가장 높은 포인트를 배치에 추가
    • 의사 레이블로 m개의 병렬 모델 업데이트
  5. 완전한 배치 반환

BAIT의 도출

비공식적 점근 근사를 통해 BAIT도 MBDT 원칙에서 도출될 수 있습니다:

Tr([∇²ℓ_{L∪S}(ŵ_L)]^{-1}∇²ℓ_D(ŵ_L))

실험 설정

데이터셋

실험은 6가지 데이터셋 범주를 포함합니다:

  1. 표 형식 데이터: 항공사 승객 만족도, 신용카드 사기
  2. 표준 이미지 데이터: CIFAR-10, CIFAR-100
  3. 실제 이미지 데이터: iWildCam, fMoW (WILDS 벤치마크에서)
  4. 일대다 이미지 데이터: 다중 클래스를 이진 불균형 시나리오로 변환
  5. 부분군 이동 이미지 데이터: 3가지 클래스 설정, 처음 두 클래스에서만 테스트

모델 설정

  • 이미지 데이터: 고정 임베딩 모델 사용 (WILDS용 CLIP-ViT-B/32, CIFAR용 DINOv2-ViT-S/14)
  • 표 형식 데이터: 베이지안 로지스틱 회귀 직접 적용
  • 베이지안 설정: k=400개 사후 매개변수 샘플, NUTS 샘플러 사용

평가 지표

테스트 정확도를 주요 평가 지표로 사용

비교 방법

  • 베이지안 방법: EPIG, BALD (상위-B 또는 Gumbel 노이즈와 함께)
  • 기준 방법: Random, Confidence, BatchBALD
  • 제안 방법: ParBaLS-MAP EPIG, ParBaLS EPIG

실험 매개변수

  • T=10회 반복, 각 회당 B=10개 샘플 예산
  • 초기 무작위 샘플링 500개
  • 일부 설정에서 B=20, 초기 100개 샘플 사용하여 구분도 증가
  • 각 설정마다 5개의 다양한 시드로 실행

실험 결과

주요 결과

표 1의 완전한 실험 결과에 따르면, ParBaLS EPIG는 10가지 설정 중 9가지에서 최고 성능을 보입니다:

알고리즘최고 평균상위권 진입
ParBaLS EPIG49
ParBaLS-MAP EPIG27
SoftRankEPIG04
EPIG04
Confidence35

구체적 성능 표현

표 형식 데이터셋 (가장 두드러진 성능):

  • 항공사 승객 만족도: ParBaLS EPIG 89.42±0.41% 달성
  • 신용카드 사기: ParBaLS EPIG 93.55±0.23% 달성

부분군 이동 설정 (가장 도전적):

  • fMoW: ParBaLS EPIG 31.37±6.60% 달성, 다른 방법보다 현저히 우수
  • iWildCam: ParBaLS EPIG 84.72±1.98% 달성

학습 곡선 분석

그림 2는 표 형식 데이터셋에서 ParBaLS 방법이 전체 학습 과정 동안 지속적인 우위를 유지하며, 특히 저예산 설정에서 더욱 뛰어난 성능을 보임을 나타냅니다.

제거 실험

  • ParBaLS vs ParBaLS-MAP: 완전한 ParBaLS는 일반적으로 MAP 레이블만 사용하는 버전보다 우수합니다
  • 배치 크기 영향: ParBaLS의 우위는 더 큰 배치(B=20)에서 더욱 명확합니다
  • 단일 포인트 vs 배치: 부록 실험은 단일 포인트 선택(B=1)이 더 나은 성능을 보이지만, 배치 선택이 실제 응용에서 더 효율적임을 보여줍니다

관련 연구

능동학습 방법 분류

  1. 휴리스틱 방법: 불확실성(Confidence, Margin, Entropy), 다양성(CORESET) 또는 둘 다를 기반으로 함(BADGE, GALAXY)
  2. 확률 방법: BALD, BatchBALD, BAIT 등 정보론 또는 베이지안 원칙 기반

기댓값 오류 감소(EER)

EER은 0-1 손실 및 로그 우도 손실과 같은 성능 지표에 직접 초점을 맞추어 더 나은 해석 가능성을 제공합니다. 관련 연구에는 휴리스틱 방법을 결합한 변형 및 저예산 시나리오의 적응형 방법이 포함됩니다.

능동학습의 의사 레이블

반준지도학습과 달리, 능동학습의 의사 레이블은 주로 다음에 사용됩니다:

  1. 훈련 강화: 실제 레이블과 의사 레이블을 결합하여 훈련
  2. 배치 구축: ParBaLS의 혁신은 의사 레이블을 배치 구축에만 임시로 사용하고 최종 레이블링 데이터를 오염시키지 않는다는 점입니다

결론 및 논의

주요 결론

  1. 이론적 통일: MBDT는 다양한 능동학습 알고리즘에 통일된 이론적 기초를 제공합니다
  2. 배치 해결책: ParBaLS는 배치 능동학습의 확장성 문제를 효과적으로 해결합니다
  3. 실험 검증: ParBaLS EPIG는 다양한 설정에서 우수한 성능을 보이며, 특히 불확실성이 높은 시나리오에 적합합니다

한계

  1. 계산 복잡도: ParBaLS의 시간 복잡도는 O(TBm)이며, m개의 병렬 모델이 계산 부담을 증가시킵니다
  2. 방법 적용성: 주로 베이지안 로지스틱 회귀에서 검증되었으며, 심층 네트워크로의 확장은 추가 연구가 필요합니다
  3. 이론적 분석: BAIT의 도출은 비공식적 점근 근사에 의존하며, 이론적 엄밀성이 강화되어야 합니다

향후 방향

  1. 계산 효율성: 계산 효율적인 근사 방법을 찾아 더 큰 데이터셋 및 모델로 확장
  2. 심층학습 통합: ParBaLS를 완전한 심층 신경망 훈련으로 확장하는 방법 연구
  3. 이론 완성: 더 엄밀한 이론적 분석 및 수렴 보장 제공

심층 평가

장점

  1. 이론적 기여: 능동학습 알고리즘의 통일된 이론적 프레임워크를 제공하여 해석 가능성 증대
  2. 실용적 가치: ParBaLS는 실제 응용의 배치 선택 문제를 해결합니다
  3. 충분한 실험: 다양한 데이터 유형 및 도전적 설정을 포함하며, 결과가 설득력 있습니다
  4. 방법 혁신: 배치 구축에서 의사 레이블의 응용이 새로운 특징입니다

부족한 점

  1. 계산 오버헤드: m개의 병렬 모델 유지로 인한 계산 비용 증가
  2. 이론적 엄밀성: 일부 도출(예: BAIT)이 비공식적 근사에 의존합니다
  3. 실험 한계: 주로 상대적으로 단순한 모델(로지스틱 회귀)에서 검증됨
  4. 초매개변수 민감도: 성능과 계산의 균형에 대한 m 선택 분석이 불충분합니다

영향력

  1. 이론적 영향: 능동학습에 새로운 이론적 관점을 제공하여 후속 연구에 영감을 줄 수 있습니다
  2. 실용적 가치: ParBaLS 방법은 직접적인 응용 가치를 가지며, 특히 배치 레이블링 시나리오에서 유용합니다
  3. 재현성: 오픈소스 코드를 제공하여 재현 및 확장을 용이하게 합니다

적용 시나리오

  1. 높은 불확실성 작업: 표 형식 데이터 및 부분군 이동 등 기약할 수 없는 불확실성이 존재하는 시나리오
  2. 배치 레이블링 필요: 개별 레이블링이 아닌 대량 레이블링이 필요한 실제 응용
  3. 베이지안 설정: 베이지안 추론을 수행할 수 있는 모델 및 작업

참고문헌

본 논문은 능동학습 분야의 중요한 문헌을 인용하며, 다음을 포함합니다:

  • 고전적 불확실성 샘플링 방법 (Lewis, 1995)
  • 베이지안 능동학습 방법 (Houlsby et al., 2011; Gal et al., 2017)
  • 배치 능동학습 방법 (Kirsch et al., 2019, 2023)
  • 기댓값 오류 감소 방법 (Roy and McCallum, 2001; Mussmann et al., 2022)

종합 평가: 이는 능동학습 분야에서 중요한 이론적 및 실용적 가치를 가진 논문입니다. MBDT를 통해 기존 알고리즘을 통일하고 배치 선택 문제를 해결하기 위해 ParBaLS를 제안함으로써 해당 분야에 새로운 연구 방향을 제공합니다. 계산 효율성 및 이론적 엄밀성 측면에서 개선의 여지가 있지만, 그 기여는 상당합니다.