Heart rate estimation from photoplethysmography (PPG) signals generated by wearable devices such as smartwatches and fitness trackers has significant implications for the health and well-being of individuals. Although prior work has demonstrated deep learning models with strong performance in the heart rate estimation task, in order to deploy these models on wearable devices, these models must also adhere to strict memory and latency constraints. In this work, we explore and characterize how large pre-trained PPG models may be distilled to smaller models appropriate for real-time inference on the edge. We evaluate four distillation strategies through comprehensive sweeps of teacher and student model capacities: (1) hard distillation, (2) soft distillation, (3) decoupled knowledge distillation (DKD), and (4) feature distillation. We present a characterization of the resulting scaling laws describing the relationship between model size and performance. This early investigation lays the groundwork for practical and predictable methods for building edge-deployable models for physiological sensing.
- ID статьи: 2511.18829
- Название: Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models
- Авторы: Канав Арора, Гириш Нараянсвами, Шветак Патель, Ричард Ли (Университет Вашингтона)
- Классификация: cs.LG (Машинное обучение)
- Время публикации/конференция: NeurIPS 2025 Workshop: Learning from Time Series for Health
- Ссылка на статью: https://arxiv.org/abs/2511.18829
Оценка частоты сердечных сокращений является важной функцией мониторинга здоровья на носимых устройствах (таких как смарт-часы и фитнес-трекеры) посредством сигналов фотоплетизмографии (ФПГ). Несмотря на превосходную производительность моделей глубокого обучения в задачах оценки частоты сердечных сокращений, развертывание этих моделей на носимых устройствах требует соблюдения строгих ограничений по памяти и задержке. В данном исследовании изучается и характеризуется, как дистиллировать большие предварительно обученные модели ФПГ в небольшие модели, пригодные для вывода в реальном времени на граничных устройствах. Исследование оценивает четыре стратегии дистилляции посредством полного сканирования емкостей учителя и ученика: (1) жесткая дистилляция, (2) мягкая дистилляция, (3) разделенная дистилляция знаний (DKD), (4) дистилляция признаков. Статья представляет законы масштабирования, описывающие взаимосвязь между размером модели и производительностью. Это раннее исследование закладывает практическую и предсказуемую основу для построения физиологических моделей восприятия, развертываемых на граничных устройствах.
Большие модели глубокого обучения на носимых устройствах сталкиваются с проблемой ограниченных вычислительных ресурсов. Хотя большие модели оценки частоты сердечных сокращений ФПГ демонстрируют превосходную производительность, их значительные вычислительные требования (использование памяти и задержка вывода) ограничивают практическое развертывание на граничных устройствах, препятствуя реализации преимуществ, таких как обратная связь в реальном времени и защита конфиденциальности.
- Потребность в мониторинге здоровья: Сигналы ФПГ могут использоваться для оценки здоровья сердечно-сосудистой системы, имеют важное значение в приложениях, таких как обратная связь при упражнениях и скрининг заболеваний (например, гипертензия)
- Преимущества граничного развертывания: Граничные модели обеспечивают лучшую защиту конфиденциальности и поддерживают обратную связь в реальном времени
- Практическое узкое место: Большие модели датчиков сложно запускать на ресурсоограниченных носимых устройствах
- Недостаточное применение дистилляции знаний: Хотя дистилляция знаний добилась успеха в языковых моделях (таких как DistilBERT) и моделях аудио/акселерометра, исследования в области физиологического восприятия ограничены
- Отсутствие предсказуемости: Существующие методы дистилляции не имеют систематической характеризации, что затрудняет предсказание производительности дистиллированных моделей
- Пробел в исследованиях законов масштабирования: Законы масштабирования для дистилляции языковых моделей были установлены только недавно; в области физиологического восприятия подобные исследования отсутствуют
Данная работа представляет первую попытку установить предсказуемую характеризацию производительности дистилляции в области физиологического восприятия, обеспечивая систематическую оценку стратегий дистилляции и анализ законов масштабирования для задачи оценки частоты сердечных сокращений ФПГ.
- Систематическая оценка стратегий дистилляции: Первая полная оценка четырех стратегий дистилляции знаний (жесткая дистилляция, мягкая дистилляция, DKD, дистилляция признаков) на задаче оценки частоты сердечных сокращений ФПГ, охватывающая несколько конфигураций емкостей учителя и ученика
- Характеризация законов масштабирования: Обнаружение и характеризация того, что производительность дистиллированных моделей следует предсказуемым экспоненциальным кривым масштабирования, раскрывая взаимосвязь между размером модели и производительностью
- Идентификация оптимальной стратегии: Демонстрация того, что разделенная дистилляция знаний (DKD) показывает лучшую производительность среди всех оцениваемых стратегий, особенно подходит для задач классификации с семантически упорядоченными классами
- Анализ влияния архитектуры: Показано, что выбор архитектуры модели (ResNet vs MLP) оказывает значительное влияние на поведение масштабирования дистилляции, модели-ученики ResNet демонстрируют более сильные индуктивные смещения
- Проверка практичности: Демонстрация того, что дистилляция может достичь примерно 90% сокращения времени вывода и 60% сокращения использования памяти при снижении производительности только на 30%
Входные данные: Окно сигнала ФПГ длительностью 8 секунд (зеленый канал, частота дискретизации 25 Гц, шаг 2 секунды)
Выходные данные: Классификация мгновенной частоты сердечных сокращений (180 классов, соответствующих 30-210 ударам в минуту)
Метрика оценки: Средняя абсолютная ошибка (MAE, в ударах в минуту)
Ограничения: Модель должна соответствовать ограничениям по памяти и задержке носимых устройств
Используется вариант 1D-ResNet, применяемый Майером и соавторами, в качестве основной сети, с контролем емкости модели путем регулирования количества остаточных блоков:
- Модель-учитель: 2-12 остаточных блоков (33K-864K параметров)
- Модель-ученик: 1-10 остаточных блоков (23K-534K параметров)
1. Жесткая дистилляция (Hard Distillation)
- Использует окончательное предсказание модели-учителя (выход argmax) в качестве метки обучения для модели-ученика
- Помогает модели-ученику имитировать дискретные границы решений учителя
- Содержит наименьший объем информации, показывает наихудшую производительность
2. Мягкая дистилляция (Soft Distillation)
- Модель-ученик обучается на распределении вероятностей выходных данных модели-учителя
- Кодирует богатую информацию о взаимосвязях между классами и неопределенности
- Основана на классическом методе Хинтона и соавторов
3. Разделенная дистилляция знаний (DKD)
- Разлагает выход учителя на компоненты дистилляции целевого класса (TCKD) и нецелевого класса (NCKD)
- Гибко взвешивает истинные метки и вероятности неправильных меток в функции потерь ученика
- Оптимальные гиперпараметры: α=1, β=8, температура τ=2, вес перекрестной энтропии CE=1
- Вес вероятности NCKD в 8 раз больше TCKD, особенно подходит для задач классификации с семантически упорядоченными классами
4. Дистилляция признаков (Feature Distillation)
- Выходит за рамки выходного слоя, обучает модель-ученика соответствовать картам промежуточных признаков учителя
- Выравнивает пространства внутренних представлений
- Производительность находится между мягкой дистилляцией и DKD
1. Характеризация дистилляции для физиологических сигналов
- Первое систематическое исследование законов масштабирования дистилляции в области сигналов ФПГ
- Обнаружено, что экспоненциальные кривые масштабирования применимы к задачам физиологического восприятия
2. Механизм преимущества DKD
- В сценариях, где семантика классификационных бинов упорядочена, вероятности нецелевых классов содержат важную информацию
- Благодаря соотношению весов 8:1, модель-ученик может эффективно изучать богатые вероятностные метки
- Хотя небольшие модели не могут изучать богатые представления с нуля, они могут эффективно учиться путем регрессии на вероятностные метки учителя
3. Важность индуктивного смещения архитектуры
- Врожденное индуктивное смещение сверточных слоев (например, естественная тенденция к сглаживанию фильтруемых сигналов)
- Целевые конструкции архитектуры, такие как остаточные соединения, обеспечивают более эффективное обучение на выборках
- Модели-ученики ResNet демонстрируют более низкую нижнюю границу ошибок по сравнению с моделями-учениками MLP
Используются три набора данных ФПГ из свободной жизни, всего 107 часов сигналов датчиков:
- WildPPG: Реальные долгосрочные непрерывные записи
- PPG-DaLiA: Набор данных из библиотеки машинного обучения UCI
- GalaxyPPG: Данные, собранные Galaxy Watch в полуестественных условиях
Процесс предварительной обработки:
- Используется только зеленый канал датчика ФПГ
- Повторная дискретизация до 25 Гц
- Разделение на окна по 8 секунд с шагом 2 секунды
- Истинные значения частоты сердечных сокращений (ударов в минуту) предоставляются сигналом ЭКГ
Разделение данных:
- Разделение обучение-тест, независимое по участникам (80%-20%)
- 2-кратная перекрестная валидация
Средняя абсолютная ошибка (MAE): Ошибка предсказания частоты сердечных сокращений в ударах в минуту
- Базовое обучение с нуля: Модели того же размера, обученные с нуля (без дистилляции)
- Различные стратегии дистилляции: Жесткая дистилляция, мягкая дистилляция, DKD, дистилляция признаков
- Различные архитектуры: Модели-ученики ResNet vs MLP
- Количество эпох обучения: 300
- Скорость обучения: 5×10⁻⁴
- Функция потерь: Потеря перекрестной энтропии
- Параметр классификации: 180 классов (30-210 ударов в минуту)
- Оборудование: GPU Nvidia RTX 2080-Ti (для тестирования производительности)
Как показано на рисунке 1 (результаты мягкой дистилляции):
- Производительность базовой модели: Модели, обученные с нуля, соответствуют результатам, сообщенным Майером и соавторами (MAE 8-блочной модели сопоставим)
- Преимущество дистилляции: Все конфигурации дистилляции превосходят модели того же размера, обученные с нуля
- Влияние размера учителя: Более крупные модели-учителя обычно приводят к лучшей производительности ученика, но чрезмерно крупные модели могут привести к переобучению и снижению производительности
Таблица 2 показывает сравнение производительности с фиксированной моделью-учителем из 12 блоков:
| Размер модели-ученика | Жесткая дистилляция | Мягкая дистилляция | DKD | Дистилляция признаков |
|---|
| 1 блок (23K) | 11.734 | 10.380 | 8.899 | 9.397 |
| 2 блока (34K) | 10.418 | 7.703 | 6.772 | 7.200 |
| 6 блоков (139K) | 6.983 | 6.801 | 6.291 | 6.800 |
| 10 блоков (534K) | 6.493 | 6.327 | 5.759 | 6.409 |
Ранжирование производительности: DKD > Дистилляция признаков > Мягкая дистилляция > Жесткая дистилляция
Ключевые выводы:
- DKD показывает лучшую производительность во всех конфигурациях моделей
- Жесткая дистилляция показывает наихудшую производительность из-за недостаточного объема информации в дискретных метках
- Преимущество DKD вытекает из гибкого взвешивания вероятностей истинных и неправильных меток
На рисунке 2 показано поведение масштабирования при стратегии DKD:
- Подгонка экспоненциальной кривой: Соответствует законам масштабирования дистилляции языковых моделей, производительность следует предсказуемой экспоненциальной кривой
- Точка насыщения производительности: Модель-ученик начинает насыщаться при 6 остаточных блоках (139K параметров)
- Различия стратегий: Мягкая дистилляция и дистилляция признаков также следуют этой кривой, но жесткая дистилляция показывает более резкое насыщение на меньших моделях
На рисунке 3 сравниваются архитектуры моделей-учеников ResNet и MLP:
- Преимущество ResNet: Модели-ученики ResNet значительно превосходят модели-ученики MLP во всех диапазонах параметров
- Нижняя граница ошибок: ResNet демонстрирует более низкую нижнюю границу производительности
- Эффективность масштабирования: ResNet показывает превосходную эффективность масштабирования
- Универсальность: MLP также демонстрирует предсказуемое масштабирование, но конкретное поведение варьируется в зависимости от архитектуры
- Более крупные учителя (222K → 534K → 864K параметров) обычно приводят к лучшей производительности ученика
- Однако существует эффект убывающей отдачи, чрезмерно крупные учителя могут привести к переобучению
Путем поиска гиперпараметров определены:
- α=1, β=8: Вес NCKD в 8 раз больше TCKD
- Температура τ=2: Контролирует гладкость распределения вероятностей
- Вес CE=1: Балансирует потерю дистилляции и исходную потерю задачи
Таблица 3 показывает результаты системного тестирования производительности:
| Размер модели | Время вывода (s) | Использование памяти (MB) |
|---|
| 1 блок | 0.512±0.025 | 9.468 |
| 6 блоков | 2.622±0.167 | 11.275 |
| 12 блоков | 4.758±0.130 | 23.483 |
Выгода дистилляции (12 блоков → 1 блок):
- Сокращение времени вывода: ~90% (4.758s → 0.512s)
- Сокращение использования памяти: ~60% (23.483MB → 9.468MB)
- Потеря производительности: ~30% увеличение MAE (см. конкретные значения)
- Универсальная эффективность дистилляции: Дистилляция постоянно превосходит обучение с нуля во всех конфигурациях
- Важность выбора стратегии: DKD может обеспечить примерно 30% улучшение производительности по сравнению с жесткой дистилляцией
- Существование законов масштабирования: Задачи физиологического восприятия также следуют предсказуемым экспоненциальным кривым масштабирования
- Ключевая роль конструкции архитектуры: Индуктивное смещение оказывает значительное влияние на эффект дистилляции
- Практический компромисс: Дистилляция может обеспечить огромное повышение вычислительной эффективности при умеренной потере производительности
- Hinton et al. (2015): Предложен классический метод мягкой дистилляции с использованием параметра температуры для смягчения распределений вероятностей
- Zhao et al. (2022): Предложена разделенная дистилляция знаний (DKD), разделяющая информацию целевых и нецелевых классов
- Romero et al. (2015): Предложен метод дистилляции признаков FitNets
- Языковые модели: DistilBERT успешно оптимизирует BERT для развертывания на граничных устройствах
- Обработка аудио: Peplinski et al. (2020) дистиллируют аудиомодели для мобильных устройств
- Распознавание активности: Tang et al. (2021) дистиллируют модели акселерометра для распознавания активности человека
- Busbridge et al. (2025): Первое установление законов масштабирования для дистилляции языковых моделей
- Данная работа: Расширение исследований законов масштабирования на область физиологического восприятия
- Meier et al. (2024): Предоставляют набор данных WildPPG и базовую модель ResNet
- Narayanswamy et al. (2024): Предложено исследование масштабирования базовых моделей для носимых устройств
- Pillai et al. (2024), Saha et al. (2025): Разработка базовых моделей ФПГ
Данная работа заполняет пробел в отсутствии систематической характеризации дистилляции и предсказуемых законов масштабирования в области физиологического восприятия.
- Эффективность дистилляции: Дистилляция знаний может успешно сжимать большие модели оценки частоты сердечных сокращений ФПГ в небольшие модели, пригодные для развертывания на граничных устройствах
- Преимущества и недостатки стратегий: DKD показывает оптимальную производительность среди всех оцениваемых стратегий, особенно подходит для задач классификации с семантически упорядоченными классами
- Предсказуемость масштабирования: Производительность дистиллированных моделей следует экспоненциальным кривым масштабирования, что соответствует выводам для языковых моделей
- Практический компромисс: Может быть достигнуто 90% сокращение времени вывода и 60% сокращение использования памяти при умеренной потере производительности
- Важность выбора архитектуры: Выбор архитектуры модели значительно влияет на поведение масштабирования дистилляции
- Текущий подход: Использование простой перекрестной валидации со смешиванием образцов из трех наборов данных
- Ограничение: Недостаточная оценка способности обобщения между наборами данных (обучение на одном наборе, тестирование на другом)
- Рекомендуемое направление: Методология кросс-датасетного исследования Kasnesis et al. (2025)
- Текущий выбор: Использование простого остова ResNet и контролируемого обучения
- Пространство для улучшения:
- Исследование более крупных моделей с самоконтролируемым предварительным обучением
- Использование методов контрастного обучения для изучения более богатых признаков
- Авторы упоминают планы открытого исходного кода моделей для последующих исследований
- Текущая работа: Оценка четырех базовых стратегий из литературы
- Будущее направление: Разработка новых методов дистилляции, специально оптимизированных для задач физиологического восприятия
- Платформа тестирования: Использование GPU Nvidia RTX 2080-Ti
- Реальный сценарий: Носимые устройства используют микропроцессоры с другими характеристиками производительности
- Необходимость: Оценка на реальном целевом оборудовании
- Исследование кросс-датасетного обобщения: Систематическая оценка способности дистиллированных моделей к передаче между различными наборами данных
- Модели учителей с самоконтролируемым обучением: Использование методов контрастного обучения для обучения более мощных моделей-учителей
- Пользовательские стратегии дистилляции: Разработка методов дистилляции, специально разработанных для характеристик сигналов ФПГ
- Развертывание на реальном оборудовании: Проверка и оптимизация моделей на реальных носимых устройствах
- Расширение на многозадачность: Расширение исследований на оценку других физиологических показателей, таких как вариабельность сердечного ритма
- Заполнение пробела: Первое систематическое исследование законов масштабирования дистилляции в области физиологического восприятия
- Практическая ориентация: Прямое решение практических потребностей развертывания на носимых устройствах
- Теоретический вклад: Расширение исследований законов масштабирования от языковых моделей к данным временных рядов для здоровья
- Полное сравнение: Оценка четырех стратегий дистилляции с несколькими конфигурациями емкостей моделей
- Валидация на нескольких наборах данных: Использование трех независимых наборов данных ФПГ (107 часов данных)
- Перекрестная валидация: Применение 2-кратной перекрестной валидации для повышения надежности результатов
- Разделение по участникам: Избежание утечки данных, обеспечение надежной оценки обобщаемости
- Механизм преимущества DKD: Глубокое объяснение того, почему соотношение весов 8:1 подходит для упорядоченной классификации
- Индуктивное смещение архитектуры: Раскрытие существенных различий между ResNet и MLP
- Проверка законов масштабирования: Подтверждение применимости экспоненциальных кривых в новой области
- Идентификация точки насыщения: 139K параметров как ключевая точка баланса производительности и эффективности
- Логичная структура: Четкая логика от мотивации к методам и результатам
- Эффективная визуализация: Тепловая карта на рисунке 1, кривые масштабирования на рисунках 2 и 3 интуитивны и легко понимаемы
- Честное представление: Четкое обозначение как "предварительное исследование" (preliminary investigation)
- Емкость модели-учителя: Максимум 864K параметров, не исследованы более крупные модели
- Объем данных: 107 часов данных относительно небольшой для современных крупномасштабных исследований
- Разнообразие архитектур: Только сравнение ResNet и MLP, не включены современные архитектуры, такие как Transformer
- Форма закона масштабирования: Не предоставлена конкретная математическая формула
- Параметры подгонки: Не сообщены конкретные параметры экспоненциальной кривой и качество подгонки
- Теоретическое объяснение: Отсутствует теоретическое обоснование того, почему следуется экспоненциальная кривая
- Платформа оборудования: Только тестирование на GPU, отсутствует оценка на реальных носимых устройствах
- Анализ энергопотребления: Не рассмотрено энергопотребление, ключевой показатель для граничных устройств
- Проверка реальной производительности: Не проверена производительность в реальных сценариях применения
- Кросс-датасетная оценка: Авторы сами признают это основным ограничением
- Различные физиологические задачи: Только сосредоточение на оценке частоты сердечных сокращений, без расширения на другие физиологические показатели
- Разнообразие населения: Не проведен анализ различий в производительности для разных групп населения (возраст, состояние здоровья)
- Выбор гиперпараметров: Выбор β=8 не имеет достаточного абляционного обоснования
- Зависимость от задачи: Не исследована робастность этого параметра в различных параметрах задачи
- Автоматическая настройка: Не предоставлен систематический метод выбора гиперпараметров
- Новаторство: Первое установление законов масштабирования дистилляции в области физиологического восприятия
- Методологическая ценность: Предоставляет систематическую основу оценки для последующих исследований
- Трансдисциплинарное вдохновение: Может быть обобщено на другие задачи временных рядов для здоровья
- Применение в промышленности: Прямая поддержка разработки смарт-часов, фитнес-трекеров и других продуктов
- Компромисс производительность-эффективность: 90% сокращение времени вывода обеспечивает жизнеспособный путь практического развертывания
- Предсказуемость: Законы масштабирования делают проектирование моделей более научным
- Раннее исследование: Авторы четко позиционируют как "early investigation", требует дополнительной проверки
- Вызовы воспроизводимости: Хотя используются открытые наборы данных, код не обещан открытым
- Разрыв практического развертывания: Расстояние от GPU базовых тестов к носимым устройствам
- Ресурсоограниченные носимые устройства: Смарт-часы, фитнес-трекеры и т.д.
- Мониторинг частоты сердечных сокращений в реальном времени: Приложения для спорта и здоровья
- Сценарии, чувствительные к конфиденциальности: Граничный вывод избегает загрузки данных в облако
- Начальная фаза проектирования модели: Использование законов масштабирования для предсказания и планирования емкости модели
- Требования медицинской точности: Текущая производительность может быть недостаточна для клинической диагностики
- Экстремальные условия: Интенсивные упражнения, низкие температуры и другие недостаточно протестированные сценарии
- Кросс-устройное обобщение: Различное оборудование датчиков может требовать переобучения
- Мультимодальное слияние: Рассмотрен только одномодальный ФПГ
- Другие физиологические сигналы: Вариабельность сердечного ритма, насыщение кислородом, оценка артериального давления
- Мультимодальное восприятие: Объединение с акселерометром, гироскопом и другими датчиками
- Персонализированные модели: Микротонкая настройка моделей для конкретных пользователей
- Скрининг заболеваний: Приложения для аритмии, апноэ сна и т.д.
- Busbridge et al. (2025) - Законы масштабирования дистилляции: Первое установление математических законов масштабирования для дистилляции языковых моделей, важная теоретическая основа данной работы
- Hinton et al. (2015) - Основополагающая работа по дистилляции знаний: Предложен метод мягкой дистилляции и концепция параметра температуры
- Zhao et al. (2022) - Разделенная дистилляция знаний (DKD): Исходная статья оптимальной стратегии, показанной в данной работе
- Meier et al. (2024) - Набор данных WildPPG: Основной источник набора данных и базовой модели, используемых в данной работе
- Sanh et al. (2019) - DistilBERT: Успешный случай дистилляции языковых моделей, демонстрирующий жизнеспособность дистилляции в крупномасштабных моделях
- Kasnesis et al. (2025) - Применение дистилляции знаний ФПГ: Упомянутое авторами исследование кросс-датасетного обобщения
Эти работы составляют теоретическую основу и методологические ссылки данной работы, критически важны для понимания исследовательского контекста.
Общая оценка: Это предварительное исследование с четким позиционированием и строгой реализацией. Хотя существуют ограничения в масштабе экспериментов и глубине теории, его новаторское введение исследований законов масштабирования в область физиологического восприятия обеспечивает практическую и предсказуемую методологическую основу для оптимизации моделей носимых устройств. Превосходная производительность стратегии DKD и обнаружение экспоненциальных кривых масштабирования имеют важное практическое руководящее значение. При дальнейшей проверке на более крупных масштабах данных, более разнообразных архитектурах и реальном оборудовании это окажет глубокое влияние на технологию мониторинга здоровья на носимых устройствах.