2025-11-26T20:43:18.584587

Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models

Arora, Narayanswamy, Patel et al.

Heart rate estimation from photoplethysmography (PPG) signals generated by wearable devices such as smartwatches and fitness trackers has significant implications for the health and well-being of individuals. Although prior work has demonstrated deep learning models with strong performance in the heart rate estimation task, in order to deploy these models on wearable devices, these models must also adhere to strict memory and latency constraints. In this work, we explore and characterize how large pre-trained PPG models may be distilled to smaller models appropriate for real-time inference on the edge. We evaluate four distillation strategies through comprehensive sweeps of teacher and student model capacities: (1) hard distillation, (2) soft distillation, (3) decoupled knowledge distillation (DKD), and (4) feature distillation. We present a characterization of the resulting scaling laws describing the relationship between model size and performance. This early investigation lays the groundwork for practical and predictable methods for building edge-deployable models for physiological sensing.

academic

Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models

基本信息

论文ID: 2511.18829
标题: Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models
作者: Kanav Arora, Girish Narayanswamy, Shwetak Patel, Richard Li (University of Washington)
分类: cs.LG (Machine Learning)
发表时间/会议: NeurIPS 2025 Workshop: Learning from Time Series for Health
论文链接: https://arxiv.org/abs/2511.18829

摘要

心率估计是可穿戴设备（如智能手表和健身追踪器）通过光电容积脉搏波（PPG）信号实现的重要健康监测功能。尽管深度学习模型在心率估计任务上表现优异，但要将这些模型部署到可穿戴设备上，必须满足严格的内存和延迟约束。本研究探索并表征了如何将大型预训练PPG模型蒸馏为适合边缘实时推理的小型模型。研究评估了四种蒸馏策略，通过全面扫描教师和学生模型容量：(1) 硬蒸馏，(2) 软蒸馏，(3) 解耦知识蒸馏（DKD），(4) 特征蒸馏。论文呈现了描述模型大小与性能关系的缩放定律特征。这项早期研究为构建可部署于边缘设备的生理感知模型奠定了实用且可预测的方法基础。

研究背景与动机

1. 要解决的核心问题

可穿戴设备上的大型深度学习模型面临计算资源受限的挑战。尽管大型PPG心率估计模型性能优异，但其显著的计算需求（内存占用和推理延迟）限制了在边缘设备上的实际部署，阻碍了实时反馈和隐私保护等优势的实现。

2. 问题的重要性

健康监测需求：PPG信号可用于评估心血管健康，在运动反馈和疾病筛查（如高血压）等应用中具有重要价值
边缘部署优势：边缘模型能更好地保护隐私并支持实时反馈
实用性瓶颈：大型传感器模型难以在资源受限的可穿戴设备上运行

3. 现有方法的局限性

知识蒸馏应用不足：虽然知识蒸馏在语言模型（如DistilBERT）和音频/加速度计模型中取得成功，但在生理感知领域探索有限
缺乏可预测性：现有蒸馏方法缺乏系统性表征，难以预测蒸馏模型的性能
缩放定律研究空白：直到最近才建立了语言模型蒸馏的缩放定律，生理感知领域尚无类似研究

4. 研究动机

本文首次尝试在生理感知领域建立可预测的蒸馏性能表征，为PPG心率估计任务提供系统性的蒸馏策略评估和缩放定律分析。

核心贡献

系统性蒸馏策略评估：首次在PPG心率估计任务上全面评估四种知识蒸馏策略（硬蒸馏、软蒸馏、DKD、特征蒸馏），跨越多种教师和学生模型容量配置
缩放定律表征：发现并表征了蒸馏模型性能遵循可预测的指数缩放曲线，揭示了模型大小与性能之间的关系
最优策略识别：证明解耦知识蒸馏（DKD）在所有评估策略中表现最佳，特别适合语义有序的分类任务
架构影响分析：展示了模型架构选择（ResNet vs MLP）对蒸馏缩放行为的显著影响，ResNet学生模型表现出更强的归纳偏置
实用性验证：证明蒸馏可实现约90%的推理时间减少和60%的内存使用减少，同时性能仅下降30%

方法详解

任务定义

输入：8秒窗口的PPG信号（绿色通道，25Hz采样率，2秒步长）
输出：瞬时心率分类（180个类别，对应30-210 BPM）
评价指标：平均绝对误差（MAE，单位BPM）
约束条件：模型需满足可穿戴设备的内存和延迟限制

模型架构

基础架构：1D-ResNet

采用Meier等人使用的1D-ResNet变体作为骨干网络，通过调整残差块数量来控制模型容量：

教师模型：2-12个残差块（33K-864K参数）
学生模型：1-10个残差块（23K-534K参数）

四种蒸馏策略

1. 硬蒸馏（Hard Distillation）

使用教师模型的最终预测（argmax输出）作为学生模型的训练标签
帮助学生模型模仿教师的离散决策边界
信息量最少，性能最差

2. 软蒸馏（Soft Distillation）

学生模型训练于教师模型的输出概率分布
编码了类别间关系和不确定性的丰富信息
基于Hinton等人的经典方法

3. 解耦知识蒸馏（DKD）

将教师输出分解为目标类别（TCKD）和非目标类别（NCKD）蒸馏组件
在学生损失函数中灵活加权真实标签和错误标签概率
最优超参数：α=1, β=8, 温度τ=2, 交叉熵权重CE=1
NCKD概率权重是TCKD的8倍，特别适合语义有序的分类任务

4. 特征蒸馏（Feature Distillation）

超越输出层面，训练学生模型匹配教师的中间特征图
对齐内部表示空间
性能介于软蒸馏和DKD之间

技术创新点

1. 针对生理信号的蒸馏表征

首次系统性研究PPG信号领域的蒸馏缩放定律
发现指数缩放曲线适用于生理感知任务

2. DKD的优势机制

在分类bin语义有序的场景下，非目标类别概率包含重要信息
通过8:1的权重比，学生模型能学习更丰富的概率标签
小模型虽无法从头学习丰富表示，但能通过回归教师的概率标签有效学习

3. 架构归纳偏置的重要性

卷积层的固有归纳偏置（如平滑滤波信号的自然倾向）
残差连接等针对性架构设计实现更高效的样本学习
ResNet学生相比MLP学生展现更低的错误下界

实验设置

数据集

使用三个自由生活PPG数据集，总计107小时传感器信号：

WildPPG：真实世界长时连续记录
PPG-DaLiA：UCI机器学习库数据集
GalaxyPPG：半自然设置下的Galaxy Watch采集数据

预处理流程：

仅使用PPG传感器绿色通道
重采样至25Hz
分割为8秒窗口，2秒步长
通过ECG信号提供心率真值（BPM）

数据划分：

参与者独立的训练-测试划分（80%-20%）
2折交叉验证

评价指标

平均绝对误差（MAE）：以BPM为单位的心率预测误差

对比方法

从头训练基线：相同大小的模型从头训练（无蒸馏）
不同蒸馏策略：硬蒸馏、软蒸馏、DKD、特征蒸馏
不同架构：ResNet vs MLP学生模型

实现细节

训练轮数：300 epochs
学习率：5×10⁻⁴
损失函数：交叉熵损失
分类设置：180个类别（30-210 BPM）
硬件：Nvidia RTX 2080-Ti GPU（用于基准测试）

实验结果

主要结果

1. 蒸馏模型优于从头训练

如图1所示（软蒸馏结果）：

基线性能：从头训练的模型与Meier等人报告的结果一致（8块模型MAE相近）
蒸馏优势：所有蒸馏配置均优于相同大小的从头训练模型
教师规模影响：更大的教师模型通常带来更好的学生性能，但过大模型可能过拟合导致性能下降

2. DKD策略表现最优

表2展示了固定12块教师模型下的性能对比：

学生模型大小	硬蒸馏	软蒸馏	DKD	特征蒸馏
1块 (23K)	11.734	10.380	8.899	9.397
2块 (34K)	10.418	7.703	6.772	7.200
6块 (139K)	6.983	6.801	6.291	6.800
10块 (534K)	6.493	6.327	5.759	6.409

性能排序：DKD > 特征蒸馏 > 软蒸馏 > 硬蒸馏

关键发现：

DKD在所有模型配置中表现最佳
硬蒸馏因离散标签信息量不足表现最差
DKD的优势源于对真实和错误标签概率的灵活加权

3. 可预测的缩放定律

图2展示了DKD策略下的缩放行为：

指数曲线拟合：与语言模型蒸馏缩放定律一致，性能遵循可预测的指数曲线
性能饱和点：学生模型在6个残差块（139K参数）时开始饱和
策略差异：软蒸馏和特征蒸馏也遵循该曲线，但硬蒸馏在更小模型处出现更急剧的饱和

4. 架构对缩放的影响

图3对比了ResNet和MLP学生架构：

ResNet优势：在所有参数规模下，ResNet学生显著优于MLP学生
错误下界：ResNet展现更低的性能下界
缩放效率：ResNet表现出更优的缩放效率
普遍性：MLP也展现可预测缩放，但具体行为因架构而异

消融实验

教师模型大小影响

更大的教师（222K → 534K → 864K参数）通常带来更好的学生性能
但存在收益递减效应，过大教师可能过拟合

DKD超参数分析

通过超参数搜索确定：

α=1, β=8：NCKD权重是TCKD的8倍
温度τ=2：控制概率分布的平滑度
CE权重=1：平衡蒸馏损失和原始任务损失

计算效率分析

表3展示了系统基准测试结果：

模型大小	推理时间(s)	内存使用(MB)
1块	0.512±0.025	9.468
6块	2.622±0.167	11.275
12块	4.758±0.130	23.483

蒸馏收益（12块→1块）：

推理时间减少：~90%（4.758s → 0.512s）
内存使用减少：~60%（23.483MB → 9.468MB）
性能损失：~30% MAE增加（需参考具体数值）

实验发现

蒸馏的普遍有效性：在所有配置下，蒸馏始终优于从头训练
策略选择的重要性：DKD相比硬蒸馏可带来约30%的性能提升
缩放定律的存在：生理感知任务也遵循可预测的指数缩放曲线
架构设计的关键作用：归纳偏置对蒸馏效果有显著影响
实用性权衡：通过蒸馏可在适度性能损失下获得巨大的计算效率提升

结论与讨论

主要结论

蒸馏有效性：知识蒸馏可成功将大型PPG心率估计模型压缩为适合边缘部署的小型模型
策略优劣：DKD在所有评估策略中表现最优，特别适合语义有序的分类任务
缩放可预测性：蒸馏模型性能遵循指数缩放曲线，与语言模型发现一致
实用性权衡：可实现90%推理时间和60%内存减少，性能损失适度
架构重要性：模型架构选择显著影响蒸馏缩放行为

局限性

1. 数据集泛化性

当前方案：使用简单的交叉验证，混合三个数据集的样本
局限：未充分评估跨数据集泛化能力（在一个数据集训练，另一个测试）
参考方向：Kasnesis等人（2025）的跨数据集研究方法

2. 模型架构局限

当前选择：使用简单的ResNet骨干和监督学习
改进空间：
- 探索更大的自监督预训练模型
- 利用对比学习方法学习的更丰富特征
- 作者提及即将开源的模型可用于后续研究

3. 蒸馏策略探索

当前工作：评估四种文献中已有的基线策略
未来方向：开发针对生理感知任务特别优化的新蒸馏方法

4. 硬件评估局限

基准平台：使用Nvidia RTX 2080-Ti GPU测试
实际场景：可穿戴设备使用微处理器，性能特征不同
需要：在实际目标硬件上进行评估

未来方向

跨数据集泛化研究：系统评估蒸馏模型在不同数据集间的迁移能力
自监督教师模型：利用对比学习等方法训练更强大的教师模型
定制蒸馏策略：开发专门针对PPG信号特性的蒸馏方法
实际硬件部署：在真实可穿戴设备上验证和优化模型
多任务扩展：将研究扩展到心率变异性等其他生理指标估计任务

深度评价

优点

1. 研究价值高

填补空白：首次系统研究生理感知领域的蒸馏缩放定律
实用导向：直接针对可穿戴设备部署的实际需求
理论贡献：将缩放定律研究从语言模型扩展到时间序列健康数据

2. 实验设计严谨

全面对比：评估四种蒸馏策略，跨越多种模型容量配置
多数据集验证：使用三个独立PPG数据集（107小时数据）
交叉验证：采用2折交叉验证增强结果可靠性
参与者独立划分：避免数据泄漏，确保泛化性评估

3. 发现有洞察力

DKD优势机制：深入解释为何8:1的权重比适合有序分类
架构归纳偏置：揭示ResNet vs MLP的本质差异
缩放定律验证：证实指数曲线在新领域的适用性
饱和点识别：139K参数是性能-效率的关键平衡点

4. 写作清晰

结构合理：逻辑清晰，从动机到方法到结果层层递进
可视化有效：图1的热力图、图2和图3的缩放曲线直观易懂
诚实表述：明确标注为"初步研究"（preliminary investigation）

不足

1. 实验规模受限

教师模型容量：最大仅864K参数，未探索更大规模模型
数据量：107小时数据相对现代大规模研究较少
架构多样性：仅对比ResNet和MLP，未涉及Transformer等现代架构

2. 理论分析不足

缩放定律形式：未给出具体的数学公式表达
拟合参数：未报告指数曲线的具体参数和拟合优度
理论解释：对为何遵循指数曲线缺乏理论推导

3. 实用性验证不完整

硬件平台：仅在GPU上测试，缺乏真实可穿戴设备评估
功耗分析：未考虑能耗这一边缘设备的关键指标
实时性验证：未在实际应用场景中验证实时性能

4. 泛化性分析欠缺

跨数据集评估：作者自己也承认这是主要局限
不同生理任务：仅关注心率估计，未扩展到其他生理指标
人群多样性：未分析不同人群（年龄、健康状况）的表现差异

5. DKD超参数敏感性

超参数选择：β=8的选择缺乏充分消融
任务依赖性：未探讨该参数在不同任务设置下的鲁棒性
自动调优：未提供超参数选择的系统方法

影响力

1. 学术贡献

开创性：首次在生理感知领域建立蒸馏缩放定律
方法论价值：为后续研究提供了系统性评估框架
跨领域启发：可推广到其他时间序列健康数据任务

2. 实用价值

产业应用：直接支持智能手表、健身追踪器等产品开发
性能-效率权衡：90%推理时间减少为实际部署提供可行路径
可预测性：缩放定律使模型设计更加科学化

3. 局限性

早期研究：作者明确定位为"early investigation"，需要更多验证
可复现性挑战：虽然使用公开数据集，但未承诺开源代码
实际部署差距：从GPU基准到可穿戴设备还有距离

适用场景

最适合场景

资源受限的可穿戴设备：智能手表、健身追踪器等
实时心率监测：运动健身、健康追踪应用
隐私敏感场景：边缘推理避免数据上传云端
模型设计初期：利用缩放定律预测和规划模型容量

需要谨慎的场景

医疗级精度要求：当前性能可能不足以支持临床诊断
极端环境：剧烈运动、低温等未充分测试的场景
跨设备泛化：不同传感器硬件可能需要重新训练
多模态融合：仅考虑PPG单一模态

扩展潜力

其他生理信号：心率变异性、血氧饱和度、血压估计
多模态感知：结合加速度计、陀螺仪等传感器
个性化模型：针对特定用户的模型微调
疾病筛查：心律失常、睡眠呼吸暂停等应用

参考文献

关键引用文献

Busbridge et al. (2025) - 蒸馏缩放定律：首次建立语言模型蒸馏的数学缩放定律，本文重要理论基础
Hinton et al. (2015) - 知识蒸馏奠基性工作：提出软蒸馏方法和温度参数概念
Zhao et al. (2022) - 解耦知识蒸馏（DKD）：本文表现最优策略的原始论文
Meier et al. (2024) - WildPPG数据集：本文使用的主要数据集和基线模型来源
Sanh et al. (2019) - DistilBERT：语言模型蒸馏的成功案例，证明蒸馏在大规模模型中的可行性
Kasnesis et al. (2025) - PPG知识蒸馏应用：作者提及的跨数据集泛化研究参考

这些文献构成了本文的理论基础和方法学参考，对理解研究脉络至关重要。

总体评价：这是一篇定位清晰、执行严谨的初步研究论文。虽然存在实验规模和理论深度的局限，但其开创性地将缩放定律研究引入生理感知领域，为可穿戴设备模型优化提供了实用且可预测的方法框架。DKD策略的优异表现和指数缩放曲线的发现具有重要的实践指导价值。未来若能在更大规模数据、更多样架构和实际硬件上进一步验证，将对可穿戴健康监测技术产生深远影响。