2025-11-13T08:49:10.859507

A metrological framework for uncertainty evaluation in machine learning classification models

Bilson, Cox, Pustogvar et al.

Machine learning (ML) classification models are increasingly being used in a wide range of applications where it is important that predictions are accompanied by uncertainties, including in climate and earth observation, medical diagnosis and bioaerosol monitoring. The output of an ML classification model is a type of categorical variable known as a nominal property in the International Vocabulary of Metrology (VIM). However, concepts related to uncertainty evaluation for nominal properties are not defined in the VIM, nor is such evaluation addressed by the Guide to the Expression of Uncertainty in Measurement (GUM). In this paper we propose a metrological conceptual uncertainty evaluation framework for nominal properties. This framework is based on probability mass functions and summary statistics thereof, and it is applicable to ML classification. We also illustrate its use in the context of two applications that exemplify the issues and have significant societal impact, namely, climate and earth observation and medical diagnosis. Our framework would enable an extension of the GUM to uncertainty for nominal properties, which would make both applicable to ML classification models.

academic

기계학습 분류 모델의 불확실성 평가를 위한 계량학적 프레임워크

기본 정보

논문 ID: 2504.03359
제목: A metrological framework for uncertainty evaluation in machine learning classification models
저자: Samuel Bilson, Maurice Cox, Anna Pustogvar, Andrew Thompson (영국 국립물리연구소)
분류: cs.LG (기계학습)
발표 시간: 2025년 10월 15일 (arXiv v3)
논문 링크: https://arxiv.org/abs/2504.03359

초록

기계학습 분류 모델은 기후 관측, 의료 진단, 생물 에어로졸 모니터링 등 중요한 응용 분야에서 점점 더 많이 사용되고 있으며, 이러한 응용 분야에서는 예측 결과에 불확실성 평가가 반드시 수반되어야 한다. ML 분류 모델의 출력은 국제계량학어휘(VIM)에서 명목 속성(nominal property)이라고 불리는 분류 변수이다. 그러나 VIM과 측정 불확실도 표현 지침(GUM) 모두 명목 속성의 불확실성 평가 개념을 정의하지 않고 있다. 본 논문은 확률질량함수(PMF) 및 그 요약 통계량을 기반으로 한 명목 속성의 계량학적 불확실성 평가 프레임워크를 제안하며, 이는 ML 분류에 적용 가능하다. 기후 관측과 의료 진단이라는 사회적 영향이 큰 두 가지 응용 사례를 통해 본 프레임워크의 사용을 설명한다. 본 프레임워크는 GUM이 명목 속성의 불확실성 평가로 확장되도록 하여, 양쪽 모두 ML 분류 모델에 적용 가능하게 만들 것이다.

연구 배경 및 동기

문제 배경

응용 수요 증가: ML 분류 모델이 기후 관측, 의료 진단, 생물 에어로졸 모니터링 등 핵심 분야에서 광범위하게 적용되고 있으며, 이러한 응용 분야에서는 예측 결과에 신뢰할 수 있는 불확실성 평가가 반드시 수반되어야 한다.
계량학적 표준 부재: 기존의 계량학적 표준(VIM 및 GUM)은 주로 정량 변수를 위해 설계되었으며, 분류 모델 출력의 명목 속성(nominal properties)에 대한 불확실성 평가 프레임워크가 부족하다.
다중 불확실성 원인: ML 분류 모델은 훈련 데이터 불확실성, 범주 할당 불확실성, 모델 선택 불확실성, 모델 매개변수 불확실성, 새로운 입력 데이터 불확실성 등 여러 원인을 포함한다.

연구 동기

표준화된 불확실성 평가 프레임워크를 구축하여 ML 분류 모델이 계량학적 추적성 체인에 통합될 수 있도록 함
의료 진단과 같은 고위험 응용 분야에 신뢰할 수 있는 예측 불확실성 제공
기존 GUM 프레임워크를 확장하여 명목 속성을 포함하도록 함

기존 방법의 한계

GUM은 주로 연속 정량 변수에 적용되며, 분류 출력에 직접 적용될 수 없음
기존 적합성 평가 방법은 규칙 기반 이진 분류에만 적용되며, 훈련이 필요한 ML 모델에는 적합하지 않음
표준화된 명목 속성 불확실성 전파 방법 부재

핵심 기여

명목 속성의 계량학적 불확실성 평가 프레임워크 제안: 확률질량함수(PMF)와 요약 통계량을 기반으로 ML 분류 모델을 위한 체계적인 불확실성 평가 방법 제공
불확실성 전파 메커니즘 구축: 다단계 측정 모델에서 PMF를 통한 명목 속성의 불확실성 전파 방법을 제시하며, 해석적 방법과 몬테카를로 방법을 모두 지원
불확실성 통계량의 체계적 비교: Wilcox 변동비(WVR), 정보 엔트로피, 정성 변동 지수(IQV) 등 다양한 불확실성 표현 방식의 특성과 적용성 평가
프레임워크의 실용성 검증: 토지 피복 분류 및 심방세동 검출이라는 두 가지 중요한 응용 사례를 통해 실제 문제에서의 프레임워크 효과성 입증
GUM 확장의 기초 마련: 본 프레임워크는 GUM이 명목 속성의 불확실성 평가로 확장되도록 하여 계량학적 표준 체계를 완성

방법 상세 설명

작업 정의

본 논문은 ML 분류 모델의 불확실성 평가 작업을 연구한다:

입력: 입력 변수 집합 X (정량 및 분류 변수 포함 가능)
출력: 분류 변수 Y ∈ CK = {c1, ..., cK}, 여기서 K는 범주 수
목표: 분류 예측 y = f(x)의 불확실성 평가

이론적 프레임워크

1. 확률질량함수(PMF)

명목 변수의 경우, 완전한 불확실성 정보는 PMF로 표현된다:

p : CK → [0,1]
ck ↦ pk := p(ck)

정규화 조건을 만족: ∑pk = 1

2. 불확실성 통계량

논문은 7가지 불확실성 통계량을 체계적으로 평가한다:

Wilcox 변동비(WVR):

uWVR(p) = 1 - (Kp̂-1)/(K-1)

정보 엔트로피:

H(p) = -∑pk logK pk

정성 변동 지수(IQV):

uIQV(p) = K/(K-1)(1-∑pk²)

여기서 p̂는 최빈 확률(최고 범주 확률)이다.

3. 불확실성 전파

명목 입력을 가진 측정 모델 z = g(x,y)의 경우, 출력의 기댓값과 분산은 다음과 같이 표현될 수 있다:

E[z] = ∑pk μk
Var[z] = ∑pk(σk² + μk²) - (∑pkμk)²

불확실성 원인 식별

논문은 ML 분류에서 5가지 주요 불확실성 원인을 식별했다:

훈련 데이터 불확실성: 훈련 데이터 자체의 측정 불확실성
범주 할당 불확실성: 작업 고유의 분류 모호성
모델 선택 불확실성: 모델 유형 선택의 불확실성
모델 매개변수 불확실성: 매개변수 추정 및 최적화의 불확실성
새로운 입력 데이터 불확실성: 예측 단계에서 입력 데이터의 측정 불확실성

실험 설정

사례 연구 1: 토지 피복 분류

데이터셋:

Sentinel-2 위성 영상 데이터
스코틀랜드 20km×20km 지역
189,142개 픽셀, 숲, 농경지, 초지, 주거지 4개 범주 포함
2020년 및 2021년 데이터

방법: 베이지안 이차 판별 분석(BQDA)

생성 모델링 방법
다양한 불확실성 원인의 명시적 모델링
다변량 가우스 분포 가정

평가 지표:

분류 손실(오분류율)
기댓값 교차 엔트로피 손실(EXE)
기댓값 Brier 점수(EBS)

사례 연구 2: 심방세동 검출

데이터셋:

DeepBeat PPG 데이터셋
134명의 환자, 100,000개 이상의 신호 세그먼트
25초 길이, 32Hz 샘플링 레이트
이진 분류 작업(AF/비AF)

방법: 합성곱 신경망 + Monte Carlo Dropout

판별 모델링 방법
xresnet1d50 변형 아키텍처
인식론적 및 우연적 불확실성 포착

실험 결과

토지 피복 분류 결과

분류 성능:

2020년 테스트: 손실=0.012, EXE=0.079, EBS=0.031
2021년 테스트: 손실=0.057, EXE=0.567, EBS=0.151
연도 간 성능 저하가 현저하며, 분포 편이의 영향을 반영

불확실성 통계량 성능(2020년):

중앙값과 평균의 차이가 매우 크며(수량급 차이), 분포가 심하게 왼쪽으로 치우침을 나타냄
정보 엔트로피 H는 작은 값 변화에 가장 민감
UVR은 작은 값 변화에 가장 둔감
WVR, SDM, CNV는 높은 신뢰도 예측에서 동등한 성능 발휘

심방세동 검출 결과

분류 성능:

분류 손실: 0.209
EXE: 0.874
EBS: 0.622

불확실성 통계량:

토지 피복 작업보다 분류 성능이 낮으므로, 불확실성 통계량 값이 전반적으로 더 높음
이진 분류에서 WVR, SDM, CNV는 완전히 동등
정보 엔트로피는 여전히 가장 민감한 통계량

주요 발견

통계량 민감도 순서: 정보 엔트로피 > IQV > WVR/SDM/CNV > UVR
이진 분류 동등성: WVR, SDM, CNV는 이진 분류에서 수학적으로 동등
높은 신뢰도 근사: 높은 신뢰도의 다중 범주 예측의 경우, 여러 통계량이 근사적으로 동등
성능-불확실성 관계: 분류 성능이 낮을수록 불확실성 통계량 값이 높음

PMF는 명목 속성 불확실성의 완전한 표현: 연속 변수의 PDF와 유사하게, PMF는 분류 예측 불확실성의 완전한 정보를 제공한다.
다양한 통계량 각각의 장점: 정보 엔트로피는 가장 민감하지만 과도하게 민감할 수 있으며, WVR 등 최빈 확률 기반 통계량은 더 직관적이며, 선택은 구체적인 응용 요구에 기반해야 한다.
프레임워크의 실용성: 두 가지 사례 연구는 서로 다른 분야 및 모델 유형에서 프레임워크의 적용 가능성을 입증한다.
불확실성 전파 지원: PMF를 통해 다단계 모델에서 명목 속성의 불확실성 전파를 실현할 수 있다.

한계

i.i.d. 가정: 프레임워크는 훈련 및 테스트 데이터가 독립동일분포를 따른다고 가정하며, 분포 편이는 신뢰성에 영향을 미친다.
계산 복잡성: 일부 방법(예: 완전 베이지안 추론)의 계산 비용이 높다.
모델 선택 불확실성: 대부분의 방법은 모델 아키텍처 선택의 불확실성을 충분히 고려하지 않는다.
입력 불확실성 모델링: 심층학습 방법에서 입력 불확실성의 명시적 모델링은 여전히 어렵다.

향후 방향

GUM 확장: 명목 속성 불확실성 평가를 GUM 프레임워크에 공식적으로 통합
표준화: ML 분류 모델 불확실성 평가에 대한 국제 표준 제정
방법 개선: 더 효율적인 불확실성 정량화 방법 개발
응용 확대: 더 많은 핵심 응용 분야에서 프레임워크 효과성 검증

심층 평가

장점

중요한 공백 해결: ML 분류 모델을 위한 계량학적 불확실성 평가 프레임워크를 처음으로 체계적으로 구축하여 GUM/VIM 표준의 중요한 공백을 메운다.
이론적 엄밀성: 확률론 기초에 기반하여 PMF에서 요약 통계량까지의 완전한 이론 체계를 구축하며, 기존 계량학적 표준과의 일관성을 유지한다.
높은 실용성: 두 가지 사례 연구는 서로 다른 응용 분야, 데이터 유형, 모델 아키텍처를 포함하며, 프레임워크의 광범위한 적용 가능성을 입증한다.
체계적 비교: 7가지 불확실성 통계량에 대한 포괄적 비교를 수행하여 실제 응용을 위한 선택 지침을 제공한다.
전망성: ML 기술이 고위험 응용에서 신뢰할 수 있게 배포되도록 중요한 지원을 제공한다.

부족한 점

제한된 불확실성 원인: 5가지 불확실성 원인을 식별했지만, 실제 사례에서 모두 모델링되지 않았으며, 특히 모델 선택 불확실성이 그렇다.
가정 조건: i.i.d. 가정은 실제 응용에서 자주 위반되지만, 논문에서 이에 대한 논의가 충분하지 않다.
계산 효율성: 일부 방법(예: 완전 베이지안 추론)의 계산 복잡성은 실제 응용을 제한한다.
제한된 검증: 2가지 사례 연구만 있으며, 더 많은 분야와 시나리오에서 프레임워크의 효과성을 검증해야 한다.

영향력

표준 제정: 국제 계량학 표준 업데이트를 추진하여 ML 분류를 공식 프레임워크에 포함시킬 가능성
산업 응용: 의료, 환경 모니터링 등 핵심 분야의 ML 응용에 신뢰성 보장 제공
학술 가치: 계량학과 기계학습 두 분야를 연결하여 학제 간 협력 촉진
재현성: 명확한 이론 프레임워크와 구현 세부사항을 제공하여 다른 연구자의 채택을 용이하게 함

적용 시나리오

고위험 응용: 의료 진단, 안전 모니터링 등 신뢰성 요구가 극히 높은 시나리오
규제 환경: 계량학 표준 준수가 필요한 산업 및 과학 응용
다단계 시스템: 분류 결과가 후속 처리 단계로 전파되어야 하는 복잡한 시스템
품질 보증: 예측 신뢰성을 정량화해야 하는 생산 및 서비스 시스템

참고문헌

논문은 86개의 참고문헌을 인용하며, 계량학 표준, 기계학습 이론, 불확실성 정량화 방법, 구체적인 응용 분야를 포함하여 본 연구에 견고한 이론적 기초와 광범위한 응용 배경을 제공한다. 주요 참고문헌에는 GUM 시리즈 문서, VIM 어휘, 베이지안 기계학습 방법, 불확실성 정량화 기술 등이 포함된다.