2025-11-26T20:43:18.584587

Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models

Arora, Narayanswamy, Patel et al.

Heart rate estimation from photoplethysmography (PPG) signals generated by wearable devices such as smartwatches and fitness trackers has significant implications for the health and well-being of individuals. Although prior work has demonstrated deep learning models with strong performance in the heart rate estimation task, in order to deploy these models on wearable devices, these models must also adhere to strict memory and latency constraints. In this work, we explore and characterize how large pre-trained PPG models may be distilled to smaller models appropriate for real-time inference on the edge. We evaluate four distillation strategies through comprehensive sweeps of teacher and student model capacities: (1) hard distillation, (2) soft distillation, (3) decoupled knowledge distillation (DKD), and (4) feature distillation. We present a characterization of the resulting scaling laws describing the relationship between model size and performance. This early investigation lays the groundwork for practical and predictable methods for building edge-deployable models for physiological sensing.

academic

PPG 심박수 추정 모델의 지식 증류 특성화 연구

기본 정보

논문 ID: 2511.18829
제목: Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models
저자: Kanav Arora, Girish Narayanswamy, Shwetak Patel, Richard Li (워싱턴 대학교)
분류: cs.LG (머신러닝)
발표 시간/학회: NeurIPS 2025 Workshop: Learning from Time Series for Health
논문 링크: https://arxiv.org/abs/2511.18829

초록

심박수 추정은 광전용적맥파(PPG) 신호를 통해 스마트워치 및 피트니스 트래커와 같은 웨어러블 기기에서 구현되는 중요한 건강 모니터링 기능입니다. 심층 학습 모델이 심박수 추정 작업에서 우수한 성능을 보이지만, 이러한 모델을 웨어러블 기기에 배포하려면 엄격한 메모리 및 지연 시간 제약을 충족해야 합니다. 본 연구는 대규모 사전 학습된 PPG 모델을 에지 실시간 추론에 적합한 소형 모델로 증류하는 방법을 탐색하고 특성화합니다. 본 연구는 교사 및 학생 모델 용량의 전체 범위에 걸쳐 네 가지 증류 전략을 평가합니다: (1) 하드 증류, (2) 소프트 증류, (3) 분리된 지식 증류(DKD), (4) 특징 증류. 본 논문은 모델 크기와 성능 관계를 설명하는 스케일링 법칙의 특성을 제시합니다. 이 초기 연구는 에지 기기에 배포 가능한 생리 신호 감지 모델을 구축하기 위한 실용적이고 예측 가능한 방법론적 기초를 마련합니다.

연구 배경 및 동기

1. 해결해야 할 핵심 문제

웨어러블 기기의 대규모 심층 학습 모델은 제한된 계산 자원의 도전에 직면합니다. 대규모 PPG 심박수 추정 모델이 우수한 성능을 보이지만, 상당한 계산 요구사항(메모리 점유 및 추론 지연)은 에지 기기에서의 실제 배포를 제한하여 실시간 피드백 및 개인정보 보호 등의 이점 실현을 방해합니다.

2. 문제의 중요성

건강 모니터링 필요성: PPG 신호는 심혈관 건강 평가에 사용될 수 있으며, 운동 피드백 및 고혈압과 같은 질병 선별 응용 분야에서 중요한 가치를 가집니다
에지 배포 이점: 에지 모델은 개인정보 보호를 더 잘 보호하고 실시간 피드백을 지원합니다
실용성 병목: 대규모 센서 모델은 자원이 제한된 웨어러블 기기에서 실행하기 어렵습니다

3. 기존 방법의 한계

지식 증류 적용 부족: 지식 증류가 언어 모델(예: DistilBERT) 및 오디오/가속도계 모델에서 성공을 거두었지만, 생리 신호 감지 분야에서의 탐색은 제한적입니다
예측 가능성 부족: 기존 증류 방법은 체계적 특성화가 부족하여 증류 모델의 성능을 예측하기 어렵습니다
스케일링 법칙 연구 공백: 최근에야 언어 모델 증류의 스케일링 법칙이 확립되었으며, 생리 신호 감지 분야에는 유사한 연구가 없습니다

4. 연구 동기

본 논문은 생리 신호 감지 분야에서 예측 가능한 증류 성능 특성화를 처음으로 시도하여, PPG 심박수 추정 작업에 대한 체계적인 증류 전략 평가 및 스케일링 법칙 분석을 제공합니다.

핵심 기여

체계적 증류 전략 평가: PPG 심박수 추정 작업에서 네 가지 지식 증류 전략(하드 증류, 소프트 증류, DKD, 특징 증류)을 처음으로 포괄적으로 평가하며, 다양한 교사 및 학생 모델 용량 구성에 걸쳐 평가합니다
스케일링 법칙 특성화: 증류 모델 성능이 예측 가능한 지수 스케일링 곡선을 따르며, 모델 크기와 성능 간의 관계를 드러냅니다
최적 전략 식별: 분리된 지식 증류(DKD)가 평가된 모든 전략 중에서 최고의 성능을 보이며, 특히 의미론적으로 정렬된 분류 작업에 적합함을 증명합니다
아키텍처 영향 분석: 모델 아키텍처 선택(ResNet 대 MLP)이 증류 스케일링 동작에 상당한 영향을 미치며, ResNet 학생 모델이 더 강한 귀납 편향을 나타냅니다
실용성 검증: 증류가 약 90%의 추론 시간 감소 및 60%의 메모리 사용 감소를 달성할 수 있으며, 동시에 성능은 30% 정도만 저하됨을 증명합니다

방법론 상세 설명

작업 정의

입력: 8초 윈도우의 PPG 신호(녹색 채널, 25Hz 샘플링 레이트, 2초 스텝)
출력: 순간 심박수 분류(180개 클래스, 30-210 BPM에 해당)
평가 지표: 평균 절대 오차(MAE, BPM 단위)
제약 조건: 모델은 웨어러블 기기의 메모리 및 지연 시간 제약을 충족해야 합니다

모델 아키텍처

기본 아키텍처: 1D-ResNet

Meier 등이 사용한 1D-ResNet 변형을 백본 네트워크로 채택하며, 잔차 블록 수를 조정하여 모델 용량을 제어합니다:

교사 모델: 2-12개 잔차 블록(33K-864K 매개변수)
학생 모델: 1-10개 잔차 블록(23K-534K 매개변수)

네 가지 증류 전략

1. 하드 증류(Hard Distillation)

교사 모델의 최종 예측(argmax 출력)을 학생 모델의 학습 레이블로 사용합니다
학생 모델이 교사의 이산 결정 경계를 모방하도록 도와줍니다
정보량이 가장 적으며, 성능이 가장 낮습니다

2. 소프트 증류(Soft Distillation)

학생 모델은 교사 모델의 출력 확률 분포에서 학습합니다
클래스 간 관계 및 불확실성의 풍부한 정보를 인코딩합니다
Hinton 등의 고전적 방법을 기반으로 합니다

3. 분리된 지식 증류(DKD)

교사 출력을 목표 클래스(TCKD) 및 비목표 클래스(NCKD) 증류 구성요소로 분해합니다
학생 손실 함수에서 참 레이블 및 오류 레이블 확률을 유연하게 가중치 부여합니다
최적 하이퍼파라미터: α=1, β=8, 온도 τ=2, 교차 엔트로피 가중치 CE=1
NCKD 확률 가중치는 TCKD의 8배이며, 특히 의미론적으로 정렬된 분류 작업에 적합합니다

4. 특징 증류(Feature Distillation)

출력 계층을 넘어 학생 모델을 교사의 중간 특징 맵과 일치하도록 학습합니다
내부 표현 공간을 정렬합니다
성능은 소프트 증류와 DKD 사이입니다

기술 혁신 포인트

1. 생리 신호에 대한 증류 특성화

PPG 신호 분야에서 증류 스케일링 법칙을 처음으로 체계적으로 연구합니다
지수 스케일링 곡선이 생리 신호 감지 작업에 적용됨을 발견합니다

2. DKD의 우수성 메커니즘

분류 빈이 의미론적으로 정렬된 시나리오에서, 비목표 클래스 확률은 중요한 정보를 포함합니다
8:1의 가중치 비율을 통해 학생 모델은 더 풍부한 확률 레이블을 학습할 수 있습니다
소형 모델은 처음부터 풍부한 표현을 학습할 수 없지만, 교사의 확률 레이블에 회귀하여 효과적으로 학습할 수 있습니다

3. 아키텍처 귀납 편향의 중요성

합성곱 계층의 고유 귀납 편향(예: 신호를 평활화하는 자연스러운 경향)
잔차 연결 등 목표 지향적 아키텍처 설계는 더 효율적인 샘플 학습을 실현합니다
ResNet 학생은 MLP 학생에 비해 더 낮은 오류 하한을 나타냅니다

실험 설정

데이터셋

총 107시간의 센서 신호를 포함하는 세 개의 자유 생활 PPG 데이터셋을 사용합니다:

WildPPG: 실제 세계의 장시간 연속 기록
PPG-DaLiA: UCI 머신러닝 저장소 데이터셋
GalaxyPPG: 반자연 설정에서 Galaxy Watch로 수집한 데이터

전처리 절차:

PPG 센서 녹색 채널만 사용합니다
25Hz로 리샘플링합니다
8초 윈도우로 분할하며, 2초 스텝입니다
ECG 신호를 통해 심박수 진실값(BPM) 제공합니다

데이터 분할:

참여자 독립적 훈련-테스트 분할(80%-20%)
2-폴드 교차 검증

평가 지표

평균 절대 오차(MAE): BPM 단위의 심박수 예측 오차

비교 방법

처음부터 훈련 기준선: 동일한 크기의 모델을 처음부터 훈련(증류 없음)
다양한 증류 전략: 하드 증류, 소프트 증류, DKD, 특징 증류
다양한 아키텍처: ResNet 대 MLP 학생 모델

구현 세부사항

훈련 에포크: 300 에포크
학습률: 5×10⁻⁴
손실 함수: 교차 엔트로피 손실
분류 설정: 180개 클래스(30-210 BPM)
하드웨어: Nvidia RTX 2080-Ti GPU(벤치마크용)

실험 결과

주요 결과

1. 증류 모델이 처음부터 훈련한 모델을 능가합니다

그림 1에서 보이는 바와 같습니다(소프트 증류 결과):

기준선 성능: 처음부터 훈련한 모델은 Meier 등이 보고한 결과와 일치합니다(8블록 모델 MAE 유사)
증류 이점: 모든 증류 구성이 동일한 크기의 처음부터 훈련한 모델을 능가합니다
교사 규모 영향: 더 큰 교사 모델은 일반적으로 더 나은 학생 성능을 제공하지만, 과도하게 큰 모델은 과적합으로 인해 성능 저하를 초래할 수 있습니다

2. DKD 전략이 최고의 성능을 보입니다

표 2는 고정된 12블록 교사 모델에서의 성능 비교를 보여줍니다:

학생 모델 크기	하드 증류	소프트 증류	DKD	특징 증류
1블록 (23K)	11.734	10.380	8.899	9.397
2블록 (34K)	10.418	7.703	6.772	7.200
6블록 (139K)	6.983	6.801	6.291	6.800
10블록 (534K)	6.493	6.327	5.759	6.409

성능 순위: DKD > 특징 증류 > 소프트 증류 > 하드 증류

주요 발견:

DKD는 모든 모델 구성에서 최고의 성능을 보입니다
하드 증류는 이산 레이블 정보 부족으로 인해 최악의 성능을 보입니다
DKD의 우수성은 참 레이블 및 오류 레이블 확률의 유연한 가중치 부여에서 비롯됩니다

3. 예측 가능한 스케일링 법칙

그림 2는 DKD 전략에서의 스케일링 동작을 보여줍니다:

지수 곡선 적합: 언어 모델 증류 스케일링 법칙과 일치하며, 성능은 예측 가능한 지수 곡선을 따릅니다
성능 포화점: 학생 모델은 6개 잔차 블록(139K 매개변수)에서 포화되기 시작합니다
전략 차이: 소프트 증류 및 특징 증류도 이 곡선을 따르지만, 하드 증류는 더 작은 모델에서 더 급격한 포화를 보입니다

4. 스케일링에 대한 아키텍처의 영향

그림 3은 ResNet 및 MLP 학생 아키텍처를 비교합니다:

ResNet 이점: 모든 매개변수 규모에서 ResNet 학생은 MLP 학생을 크게 능가합니다
오류 하한: ResNet은 더 낮은 성능 하한을 나타냅니다
스케일링 효율: ResNet은 더 우수한 스케일링 효율을 보여줍니다
보편성: MLP도 예측 가능한 스케일링을 보이지만, 구체적인 동작은 아키텍처에 따라 다릅니다

절제 실험

교사 모델 크기 영향

더 큰 교사(222K → 534K → 864K 매개변수)는 일반적으로 더 나은 학생 성능을 제공합니다
그러나 수익 감소 효과가 존재하며, 과도하게 큰 교사는 과적합을 초래할 수 있습니다

DKD 하이퍼파라미터 분석

하이퍼파라미터 검색을 통해 다음을 확인합니다:

α=1, β=8: NCKD 가중치는 TCKD의 8배입니다
온도 τ=2: 확률 분포의 평활도를 제어합니다
CE 가중치=1: 증류 손실과 원래 작업 손실의 균형을 맞춥니다

계산 효율 분석

표 3은 시스템 벤치마크 결과를 보여줍니다:

모델 크기	추론 시간(s)	메모리 사용(MB)
1블록	0.512±0.025	9.468
6블록	2.622±0.167	11.275
12블록	4.758±0.130	23.483

증류 이득(12블록→1블록):

추론 시간 감소: ~90%(4.758s → 0.512s)
메모리 사용 감소: ~60%(23.483MB → 9.468MB)
성능 손실: ~30% MAE 증가(구체적 수치 참조 필요)

실험 발견

증류의 보편적 효과성: 모든 구성에서 증류는 처음부터 훈련한 것을 능가합니다
전략 선택의 중요성: DKD는 하드 증류에 비해 약 30%의 성능 향상을 가져올 수 있습니다
스케일링 법칙의 존재: 생리 신호 감지 작업도 예측 가능한 지수 스케일링 곡선을 따릅니다
아키텍처 설계의 핵심 역할: 귀납 편향은 증류 효과에 상당한 영향을 미칩니다
실용성 권형: 증류를 통해 적절한 성능 손실로 거대한 계산 효율 향상을 얻을 수 있습니다

결론 및 논의

주요 결론

증류 효과성: 지식 증류는 대규모 PPG 심박수 추정 모델을 에지 배포에 적합한 소형 모델로 성공적으로 압축할 수 있습니다
전략 우열: DKD는 평가된 모든 전략 중에서 최고의 성능을 보이며, 특히 의미론적으로 정렬된 분류 작업에 적합합니다
스케일링 예측 가능성: 증류 모델 성능은 지수 스케일링 곡선을 따르며, 언어 모델 발견과 일치합니다
실용성 권형: 90% 추론 시간 및 60% 메모리 감소를 달성할 수 있으며, 성능 손실은 적절합니다
아키텍처 중요성: 모델 아키텍처 선택은 증류 스케일링 동작에 상당한 영향을 미칩니다

한계

1. 데이터셋 일반화 가능성

현재 방식: 간단한 교차 검증을 사용하며, 세 데이터셋의 샘플을 혼합합니다
한계: 교차 데이터셋 일반화 능력을 충분히 평가하지 않습니다(한 데이터셋에서 훈련, 다른 데이터셋에서 테스트)
참고 방향: Kasnesis 등(2025)의 교차 데이터셋 연구 방법

2. 모델 아키텍처 한계

현재 선택: 간단한 ResNet 백본 및 지도 학습을 사용합니다
개선 공간:
- 더 큰 자가 지도 학습 사전 훈련 모델 탐색
- 대조 학습 방법으로 학습한 더 풍부한 특징 활용
- 저자가 언급한 곧 공개될 모델을 후속 연구에 사용 가능

3. 증류 전략 탐색

현재 작업: 문헌의 네 가지 기준선 전략 평가
향후 방향: 생리 신호 감지 작업에 특별히 최적화된 새로운 증류 방법 개발

4. 하드웨어 평가 한계

벤치마크 플랫폼: Nvidia RTX 2080-Ti GPU에서 테스트
실제 시나리오: 웨어러블 기기는 마이크로프로세서를 사용하며, 성능 특성이 다릅니다
필요성: 실제 목표 하드웨어에서 평가

향후 방향

교차 데이터셋 일반화 연구: 다양한 데이터셋 간 증류 모델의 전이 능력을 체계적으로 평가
자가 지도 학습 교사 모델: 대조 학습 등의 방법으로 훈련한 더 강력한 교사 모델 활용
맞춤형 증류 전략: PPG 신호 특성에 특별히 맞춘 증류 방법 개발
실제 하드웨어 배포: 실제 웨어러블 기기에서 모델 검증 및 최적화
다중 작업 확장: 심박수 변동성 등 다른 생리 지표 추정 작업으로 연구 확장

심층 평가

장점

1. 높은 연구 가치

공백 채우기: 생리 신호 감지 분야의 증류 스케일링 법칙을 처음으로 체계적으로 연구
실용 지향: 웨어러블 기기 배포의 실제 필요에 직접 대응
이론적 기여: 스케일링 법칙 연구를 언어 모델에서 시계열 건강 데이터로 확장

2. 엄격한 실험 설계

포괄적 비교: 네 가지 증류 전략을 평가하며, 다양한 모델 용량 구성에 걸쳐 평가
다중 데이터셋 검증: 세 개의 독립적 PPG 데이터셋 사용(107시간 데이터)
교차 검증: 2-폴드 교차 검증으로 결과 신뢰성 강화
참여자 독립 분할: 데이터 누수 방지, 일반화 평가 보장

3. 통찰력 있는 발견

DKD 우수성 메커니즘: 8:1 가중치 비율이 정렬된 분류에 적합한 이유를 깊이 있게 설명
아키텍처 귀납 편향: ResNet 대 MLP의 본질적 차이 규명
스케일링 법칙 검증: 지수 곡선이 새로운 분야에 적용됨을 증명
포화점 식별: 139K 매개변수가 성능-효율의 핵심 균형점

4. 명확한 작성

합리적 구조: 논리가 명확하며, 동기에서 방법에서 결과로 단계적으로 진행
효과적 시각화: 그림 1의 히트맵, 그림 2와 3의 스케일링 곡선이 직관적이고 이해하기 쉬움
정직한 표현: "초기 연구"(preliminary investigation)로 명확히 표시

부족한 점

1. 제한된 실험 규모

교사 모델 용량: 최대 864K 매개변수에 불과하며, 더 큰 규모 모델 탐색 미흡
데이터량: 107시간 데이터는 현대 대규모 연구에 비해 상대적으로 적음
아키텍처 다양성: ResNet과 MLP만 비교하며, Transformer 등 현대 아키텍처 미포함

2. 이론적 분석 부족

스케일링 법칙 형식: 구체적인 수학 공식 표현 미제시
적합 매개변수: 지수 곡선의 구체적 매개변수 및 적합 우도 미보고
이론적 설명: 지수 곡선을 따르는 이유에 대한 이론적 유도 부족

3. 실용성 검증 불완전

하드웨어 플랫폼: GPU에서만 테스트하며, 실제 웨어러블 기기 평가 부족
전력 소비 분석: 에지 기기의 핵심 지표인 에너지 소비 미고려
실시간성 검증: 실제 응용 시나리오에서 실시간 성능 검증 미흡

4. 일반화 가능성 분석 부족

교차 데이터셋 평가: 저자 자신도 이를 주요 한계로 인정
다양한 생리 작업: 심박수 추정만 다루며, 다른 생리 지표로 확장 미흡
인구 다양성: 연령, 건강 상태 등 다양한 인구 집단의 성능 차이 분석 미흡

5. DKD 하이퍼파라미터 민감성

하이퍼파라미터 선택: β=8 선택에 대한 충분한 절제 부족
작업 의존성: 다양한 작업 설정에서 해당 매개변수의 견고성 미탐색
자동 조정: 하이퍼파라미터 선택의 체계적 방법 미제시

영향력

1. 학술적 기여

개척적: 생리 신호 감지 분야에서 증류 스케일링 법칙을 처음으로 확립
방법론적 가치: 후속 연구를 위한 체계적 평가 프레임워크 제공
교차 분야 영감: 다른 시계열 건강 데이터 작업으로 일반화 가능

2. 실용적 가치

산업 응용: 스마트워치, 피트니스 트래커 등 제품 개발 직접 지원
성능-효율 권형: 90% 추론 시간 감소는 실제 배포를 위한 실행 가능한 경로 제공
예측 가능성: 스케일링 법칙으로 모델 설계를 더욱 과학화

3. 한계

초기 연구: 저자가 "early investigation"으로 명확히 정의하며, 추가 검증 필요
재현성 도전: 공개 데이터셋 사용하지만, 코드 공개 약속 미흡
실제 배포 격차: GPU 벤치마크에서 웨어러블 기기까지 거리 존재

적용 시나리오

최적 적용 시나리오

자원 제한 웨어러블 기기: 스마트워치, 피트니스 트래커 등
실시간 심박수 모니터링: 운동 피트니스, 건강 추적 응용
개인정보 민감 시나리오: 에지 추론으로 데이터 클라우드 업로드 방지
모델 설계 초기 단계: 스케일링 법칙으로 모델 용량 예측 및 계획

신중해야 할 시나리오

의료 수준 정확도 요구: 현재 성능은 임상 진단 지원에 부족할 수 있음
극한 환경: 격렬한 운동, 저온 등 충분히 테스트되지 않은 시나리오
교차 기기 일반화: 다양한 센서 하드웨어는 재훈련 필요 가능
다중 모달 융합: 단일 PPG 모달만 고려

확장 잠재력

다른 생리 신호: 심박수 변동성, 혈중 산소 포화도, 혈압 추정
다중 모달 감지: 가속도계, 자이로스코프 등 센서 결합
개인화 모델: 특정 사용자 맞춤형 모델 미세 조정
질병 선별: 부정맥, 수면 무호흡증 등 응용

참고 문헌

주요 인용 문헌

Busbridge 등(2025) - 증류 스케일링 법칙: 언어 모델 증류의 수학적 스케일링 법칙을 처음으로 확립하며, 본 논문의 중요한 이론적 기초
Hinton 등(2015) - 지식 증류 기초 연구: 소프트 증류 방법 및 온도 매개변수 개념 제시
Zhao 등(2022) - 분리된 지식 증류(DKD): 본 논문에서 최고 성능을 보인 전략의 원본 논문
Meier 등(2024) - WildPPG 데이터셋: 본 논문이 사용한 주요 데이터셋 및 기준선 모델 출처
Sanh 등(2019) - DistilBERT: 언어 모델 증류의 성공 사례로, 대규모 모델에서 증류의 실행 가능성 증명
Kasnesis 등(2025) - PPG 지식 증류 응용: 저자가 언급한 교차 데이터셋 일반화 연구 참고

이러한 문헌들은 본 논문의 이론적 기초 및 방법론적 참고를 구성하며, 연구 맥락 이해에 필수적입니다.

종합 평가: 이것은 정위가 명확하고 실행이 엄격한 초기 연구 논문입니다. 실험 규모 및 이론적 깊이의 한계가 있지만, 스케일링 법칙 연구를 생리 신호 감지 분야에 개척적으로 도입하여 웨어러블 기기 모델 최적화를 위한 실용적이고 예측 가능한 방법론적 기초를 제공합니다. DKD 전략의 우수한 성능과 지수 스케일링 곡선의 발견은 중요한 실무 지도 가치를 가집니다. 향후 더 큰 규모 데이터, 더 다양한 아키텍처, 실제 하드웨어에서 추가 검증된다면 웨어러블 건강 모니터링 기술에 심원한 영향을 미칠 것입니다.