Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.
- 논문 ID: 2501.01248
- 제목: Bayesian Active Learning By Distribution Disagreement
- 저자: Thorben Werner, Lars Schmidt-Thieme (Hildesheim 대학교)
- 분류: cs.LG (기계학습)
- 발표 시간: 2025년 1월 2일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2501.01248
회귀 작업의 능동학습은 회귀 모델의 불확실성을 정량화하기 어려워 연구가 부족하다. 정규화 흐름(Normalizing Flow)은 점 예측이 아닌 완전한 예측 분포를 제공하여 엔트로피나 최소 신뢰도 샘플링 같은 기존 휴리스틱을 직접 적용할 수 있지만, 본 논문은 이러한 휴리스틱이 풀 기반 능동학습에서 정규화 흐름에 효과적이지 않음을 보여준다. 우연적 불확실성과 인식론적 불확실성을 구분하기 위해 더 복잡한 알고리즘이 필요하다. 본 논문은 BALD 알고리즘의 개선 버전인 BALSA 알고리즘을 제안하며, 이는 정규화 흐름을 사용하는 회귀 작업을 위해 특별히 설계되었다. 본 연구는 정규화 흐름 불확실성 정량화 연구를 실제 데이터와 다양한 획득 함수 및 쿼리 크기의 풀 기반 능동학습으로 확장한다. 4개의 서로 다른 데이터셋과 2가지 서로 다른 아키텍처에서 BALSA는 최첨단 결과를 달성했다.
- 핵심 문제: 회귀 작업의 능동학습 연구가 심각하게 부족하며, 주된 이유는 회귀 모델의 불확실성 정량화가 분류 작업보다 훨씬 어렵기 때문이다.
- 중요성: 능동학습은 강력한 모델을 훈련하는 데 필요한 주석 데이터의 양을 줄일 수 있지만, 기존 연구는 주로 분류 문제에 집중되어 있다.
- 기존 방법의 한계:
- 전통적인 회귀 모델(가우스 과정 제외)은 불확실성 정량화를 직접 제공하기 어렵다.
- 기존의 불확실성 휴리스틱(표준편차, 최소 신뢰도, 섀넌 엔트로피)은 정규화 흐름에서 성능이 좋지 않다.
- 우연적 불확실성(데이터 노이즈)과 인식론적 불확실성(모델 과소적합)을 효과적으로 구분할 수 없다.
- 연구 동기: 정규화 흐름과 가우스 신경망 같은 신흥 모델은 완전한 예측 분포를 제공하여 회귀 작업의 능동학습에 새로운 기회를 제공한다.
- BALSA 알고리즘 제안: 예측 분포를 가진 모델을 위해 설계된 BALD 알고리즘의 개선 버전으로, 두 가지 변형(BALSA_KL과 BALSA_EMD)을 포함한다.
- 포괄적 벤치마크 구축: 예측 분포를 가진 모델의 능동학습을 위해 3개의 휴리스틱 기준선과 3개의 BALD 적응 버전을 포함한 전체 벤치마크를 구성했다.
- 기술 혁신: 집계 방법에 의존하지 않고 예측 분포를 직접 활용하는 두 개의 새로운 BALD 확장 알고리즘
- 실험 검증: 4개의 실제 데이터셋과 2가지 모델 아키텍처에서 광범위한 비교를 수행하여 방법의 효과성을 입증했다.
- 입력: 훈련 데이터셋 Dtrain:={(xi,yi)}i=1N, 여기서 x∈X,y∈Y
- 목표: 능동학습 전략을 통해 주석 처리할 가장 가치 있는 샘플을 선택하여 주석 비용을 최소화
- 제약: 풀 기반 능동학습 설정, 고정된 주석 예산 B
논문은 예측 분포를 가진 두 가지 회귀 모델을 사용한다:
- 가우스 신경망(GNN): MLP 인코더를 사용하여 μ와 σ 매개변수를 생성하고 가우스 예측 분포를 구성한다.
- 정규화 흐름(NF): 가역 변환을 사용하여 자유 형태의 예측 분포를 매개변수화하며, 더 복잡한 목표 분포를 모델링할 수 있다.
BALSA는 BALD 알고리즘의 핵심 개념을 기반으로 하지만 예측 분포에 맞게 개선되었다:
원본 BALD 공식:
BALD(x)=∑i=1k(H[yˉ(x)]−H[y^θi(x)])
BALSA의 개선 전략:
BALD(x)=∑i=1kϕ(y^θi(x),yˉ(x))
여기서 φ는 예측 분포 간의 거리를 직접 측정하는 거리 함수이다.
그리드 샘플링 방법:
- 목표값을 0,1로 정규화
- 200개의 그리드 포인트에 분포된 샘플링
- 우도 벡터를 계산하고 평균화: pˉ∣x=k1∑j=1kp^θj⊣∣x
쌍별 비교 방법:
- 평균 분포 계산 회피
- k-1개의 매개변수 샘플 쌍 사용: ∑i=1k−1ϕ(p^θi∣x,p^θi+1∣x)
BALSA_KL (KL 발산):
- 그리드 버전: BALSAKLGrid(x)=∑i=1kKL(p^θi⊣∣x,pˉ∣x)
- 쌍별 버전: BALSAKLPair(x)=∑i=1k−1KL(p^θi∣x,p^θi+1∣x)
BALSA_EMD (지구 이동 거리):
BALSAEMD(x)=∑i=1k−1EMD(yθi′,yθi+1′)
여기서 yθ′∼p^θ∣x
다양한 규모와 복잡도를 포함하는 4개의 회귀 데이터셋을 사용:
| 데이터셋 | 특성 수 | 훈련 샘플 수 | 초기 주석 집합 | 예산 |
|---|
| Parkinsons | 61 | 3,760 | 200 | 800 |
| Superconductors | 81 | 13,608 | 200 | 800 |
| Sarcos | 21 | 28,470 | 200 | 1,200 |
| Diamonds | 26 | 34,522 | 200 | 1,200 |
- 주요 지표: 음의 로그 우도(NLL)
- 보조 지표: 평균 절대 오차(MAE), CRPS 점수
- 통계 방법: Wilcoxon 부호 순위 검정, CD 다이어그램을 사용한 결과 집계
- 클러스터링 방법: Coreset, CoreGCN, TypiClust
- 휴리스틱 방법: 표준편차(Std), 최소 신뢰도(LC), 섀넌 엔트로피(Entropy)
- BALD 변형: BALD_σ, BALD_LC, BALD_H
- 제안 방법: BALSA_KL Grid/Pair, BALSA_EMD
- 모델 아키텍처: MLP 인코더 + 분포 디코더
- 정규화 흐름: 유리 이차 스플라인 변환을 가진 자기회귀 신경 스플라인 흐름
- 최적화기: NAdam
- 드롭아웃 비율: 0.008-0.05 (각 데이터셋에 대해 최적화)
- 실험 반복: 각 실험 30회 반복
NLL 지표를 기반으로 한 Critical Difference 다이어그램은 다음을 보여준다:
- BALSA_KL Pairs: 평균 순위 최고, 최고 성능
- BALSA_KL Grid: 그 다음, 2위 순위
- BALD_H: 3위 순위
- Coreset: 기하학적 방법 중 최고 성능
주요 발견:
- 전통적인 휴리스틱 방법(엔트로피, 표준편차, 최소 신뢰도)은 정규화 흐름에서 성능이 매우 좋지 않다.
- BALSA 방법은 정규화 흐름 아키텍처에서 명확한 우위를 보인다.
- Coreset과 CoreGCN은 GNN 아키텍처에서 더 나은 성능을 보인다.
훈련 및 평가 단계에서 서로 다른 드롭아웃 비율을 사용하는 효과 테스트:
- 결과 불일치: BALSA_EMD dual은 성능 저하, BALSA_KL Grid dual은 약간 개선
- 가설: 드롭아웃 비율 전환이 모델 예측 품질에 영향을 미칠 수 있다.
BALSA_KL Grid의 정규화 버전 테스트:
- 정규화 버전은 비정규화 버전보다 성능이 약간 낮다.
- 더 간단한 비정규화 공식 선택
τ = {50, 200}에서의 성능:
- 불확실성 샘플링 방법은 큰 쿼리 크기에서 성능 유지
- 클러스터링 알고리즘(Coreset, TypiClust)은 더 빠르게 성능 저하
- 분류 작업의 일반적인 인식과 모순
Diamonds 데이터셋의 능동학습 궤적 예시:
- BALSA 방법이 더 빠르게 수렴
- 전통적인 휴리스틱 방법은 무작위 샘플링에 가까운 성능
- NLL 및 MAE 지표에서 일관된 성능
- 기하학적 방법: Coreset, CoreGCN, TypiClust 등 데이터 기하학적 속성 기반
- 불확실성 방법: 대부분 특정 모델 아키텍처에 바인딩되어 일반성이 낮다.
- BALD 알고리즘: 모델 무관 방법 중 소수
Berry와 Meger의 연구1,2:
- 정규화 흐름 앙상블 및 MC 드롭아웃 근사 제안
- 합성 데이터에서만 검증
- 본 논문은 실제 데이터 및 다양한 획득 함수로 확장
- 간단한 -∑logŷ_θ(x) 대신 섀넌 엔트로피 사용
- 실제 데이터셋으로 확장
- 다양한 능동학습 알고리즘과 비교
- 방법 효과성: BALSA는 정규화 흐름에서 우수한 성능을 보이며, 특히 BALSA_KL Pairs 버전이 우수하다.
- 휴리스틱 실패: 전통적인 불확실성 휴리스틱은 정규화 흐름에서 효과적이지 않다.
- 아키텍처 의존성: 서로 다른 알고리즘은 서로 다른 모델 아키텍처에서 현저한 성능 차이를 보인다.
- 쿼리 크기 영향: 불확실성 방법은 큰 쿼리 크기에서 더 안정적이다.
- 이론 분석 부족: BALSA 알고리즘의 이론적 수렴성 분석이 부족하다.
- 계산 오버헤드: MC 드롭아웃 및 분포 거리 계산이 계산 비용을 증가시킨다.
- 하이퍼파라미터 민감성: 드롭아웃 비율 선택이 성능에 큰 영향을 미친다.
- 데이터셋 제한: 4개 데이터셋에서만 검증되어 일반화 가능성이 미검증이다.
- 다른 매개변수 샘플링 방법으로 확장(Langevin Dynamics, SVGD)
- BALSA의 수렴 특성에 대한 이론 분석
- 더 많은 분포 거리 측정 연구
- 더 큰 규모 데이터셋에서 검증
- 문제의 중요성: 무시되었지만 중요한 회귀 능동학습 문제 해결
- 방법의 창의성: 분포 거리를 능동학습에 직접 적용한 첫 시도로, 집계 방법의 정보 손실 회피
- 실험의 포괄성: 다중 데이터셋, 다중 아키텍처, 다중 지표의 종합 평가
- 실용적 가치: 재현 가능한 코드 및 상세한 실험 설정 제공
- 이론적 기초 약함: BALSA가 더 효과적인 이유를 설명하는 이론 분석 부족
- 계산 효율성: MC 드롭아웃 및 EMD 계산이 실제 응용에 영향을 미칠 수 있다.
- 하이퍼파라미터 조정: 드롭아웃 비율 선택에 대한 원칙적 지침 부족
- 평가 한계: 주로 NLL 기반이며, 다른 회귀 지표의 일관성이 미검증이다.
- 학술적 기여: 회귀 능동학습을 위한 새로운 연구 방향 제시
- 실용적 가치: 특히 불확실성 정량화가 필요한 회귀 응용에 적합
- 재현성: 완전한 코드 및 실험 구성으로 후속 연구 용이
- 과학 계산: 물리/화학 모델링 같은 불확실성 정량화가 필요한 분야
- 위험 평가: 금융, 의료 등 불확실성에 민감한 분야
- 공학 최적화: 탐색과 활용의 균형이 필요한 설계 최적화 문제
- 시계열: 복잡한 분포를 가진 예측 작업
본 논문은 주로 다음의 핵심 연구를 참고했다:
- Berry & Meger (2023): 정규화 흐름 앙상블의 불확실성 모델링
- Gal et al. (2017): BALD 알고리즘의 원본 제안
- Sener & Savarese (2017): Coreset 능동학습 방법
- Durkan et al. (2019): 신경 스플라인 흐름의 기술적 기초
종합 평가: 이는 무시되었지만 중요한 회귀 능동학습 문제를 다루는 고품질 연구이다. BALSA 알고리즘의 제안은 정규화 흐름의 능동학습 응용에서의 공백을 채우며, 실험 설계는 충분하고 결과는 설득력 있다. 이론 분석 및 계산 효율성 측면에서 개선의 여지가 있지만, 해당 분야의 발전에 중요한 기여를 했다.