2025-11-26T20:43:18.584587

Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models

Arora, Narayanswamy, Patel et al.
Heart rate estimation from photoplethysmography (PPG) signals generated by wearable devices such as smartwatches and fitness trackers has significant implications for the health and well-being of individuals. Although prior work has demonstrated deep learning models with strong performance in the heart rate estimation task, in order to deploy these models on wearable devices, these models must also adhere to strict memory and latency constraints. In this work, we explore and characterize how large pre-trained PPG models may be distilled to smaller models appropriate for real-time inference on the edge. We evaluate four distillation strategies through comprehensive sweeps of teacher and student model capacities: (1) hard distillation, (2) soft distillation, (3) decoupled knowledge distillation (DKD), and (4) feature distillation. We present a characterization of the resulting scaling laws describing the relationship between model size and performance. This early investigation lays the groundwork for practical and predictable methods for building edge-deployable models for physiological sensing.
academic

К характеризации дистилляции знаний моделей оценки частоты сердечных сокращений на основе ФПГ

Основная информация

  • ID статьи: 2511.18829
  • Название: Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models
  • Авторы: Канав Арора, Гириш Нараянсвами, Шветак Патель, Ричард Ли (Университет Вашингтона)
  • Классификация: cs.LG (Машинное обучение)
  • Время публикации/конференция: NeurIPS 2025 Workshop: Learning from Time Series for Health
  • Ссылка на статью: https://arxiv.org/abs/2511.18829

Аннотация

Оценка частоты сердечных сокращений является важной функцией мониторинга здоровья на носимых устройствах (таких как смарт-часы и фитнес-трекеры) посредством сигналов фотоплетизмографии (ФПГ). Несмотря на превосходную производительность моделей глубокого обучения в задачах оценки частоты сердечных сокращений, развертывание этих моделей на носимых устройствах требует соблюдения строгих ограничений по памяти и задержке. В данном исследовании изучается и характеризуется, как дистиллировать большие предварительно обученные модели ФПГ в небольшие модели, пригодные для вывода в реальном времени на граничных устройствах. Исследование оценивает четыре стратегии дистилляции посредством полного сканирования емкостей учителя и ученика: (1) жесткая дистилляция, (2) мягкая дистилляция, (3) разделенная дистилляция знаний (DKD), (4) дистилляция признаков. Статья представляет законы масштабирования, описывающие взаимосвязь между размером модели и производительностью. Это раннее исследование закладывает практическую и предсказуемую основу для построения физиологических моделей восприятия, развертываемых на граничных устройствах.

Исследовательский контекст и мотивация

1. Основная проблема, которую необходимо решить

Большие модели глубокого обучения на носимых устройствах сталкиваются с проблемой ограниченных вычислительных ресурсов. Хотя большие модели оценки частоты сердечных сокращений ФПГ демонстрируют превосходную производительность, их значительные вычислительные требования (использование памяти и задержка вывода) ограничивают практическое развертывание на граничных устройствах, препятствуя реализации преимуществ, таких как обратная связь в реальном времени и защита конфиденциальности.

2. Значимость проблемы

  • Потребность в мониторинге здоровья: Сигналы ФПГ могут использоваться для оценки здоровья сердечно-сосудистой системы, имеют важное значение в приложениях, таких как обратная связь при упражнениях и скрининг заболеваний (например, гипертензия)
  • Преимущества граничного развертывания: Граничные модели обеспечивают лучшую защиту конфиденциальности и поддерживают обратную связь в реальном времени
  • Практическое узкое место: Большие модели датчиков сложно запускать на ресурсоограниченных носимых устройствах

3. Ограничения существующих методов

  • Недостаточное применение дистилляции знаний: Хотя дистилляция знаний добилась успеха в языковых моделях (таких как DistilBERT) и моделях аудио/акселерометра, исследования в области физиологического восприятия ограничены
  • Отсутствие предсказуемости: Существующие методы дистилляции не имеют систематической характеризации, что затрудняет предсказание производительности дистиллированных моделей
  • Пробел в исследованиях законов масштабирования: Законы масштабирования для дистилляции языковых моделей были установлены только недавно; в области физиологического восприятия подобные исследования отсутствуют

4. Исследовательская мотивация

Данная работа представляет первую попытку установить предсказуемую характеризацию производительности дистилляции в области физиологического восприятия, обеспечивая систематическую оценку стратегий дистилляции и анализ законов масштабирования для задачи оценки частоты сердечных сокращений ФПГ.

Основные вклады

  1. Систематическая оценка стратегий дистилляции: Первая полная оценка четырех стратегий дистилляции знаний (жесткая дистилляция, мягкая дистилляция, DKD, дистилляция признаков) на задаче оценки частоты сердечных сокращений ФПГ, охватывающая несколько конфигураций емкостей учителя и ученика
  2. Характеризация законов масштабирования: Обнаружение и характеризация того, что производительность дистиллированных моделей следует предсказуемым экспоненциальным кривым масштабирования, раскрывая взаимосвязь между размером модели и производительностью
  3. Идентификация оптимальной стратегии: Демонстрация того, что разделенная дистилляция знаний (DKD) показывает лучшую производительность среди всех оцениваемых стратегий, особенно подходит для задач классификации с семантически упорядоченными классами
  4. Анализ влияния архитектуры: Показано, что выбор архитектуры модели (ResNet vs MLP) оказывает значительное влияние на поведение масштабирования дистилляции, модели-ученики ResNet демонстрируют более сильные индуктивные смещения
  5. Проверка практичности: Демонстрация того, что дистилляция может достичь примерно 90% сокращения времени вывода и 60% сокращения использования памяти при снижении производительности только на 30%

Подробное описание методов

Определение задачи

Входные данные: Окно сигнала ФПГ длительностью 8 секунд (зеленый канал, частота дискретизации 25 Гц, шаг 2 секунды)
Выходные данные: Классификация мгновенной частоты сердечных сокращений (180 классов, соответствующих 30-210 ударам в минуту)
Метрика оценки: Средняя абсолютная ошибка (MAE, в ударах в минуту)
Ограничения: Модель должна соответствовать ограничениям по памяти и задержке носимых устройств

Архитектуры моделей

Базовая архитектура: 1D-ResNet

Используется вариант 1D-ResNet, применяемый Майером и соавторами, в качестве основной сети, с контролем емкости модели путем регулирования количества остаточных блоков:

  • Модель-учитель: 2-12 остаточных блоков (33K-864K параметров)
  • Модель-ученик: 1-10 остаточных блоков (23K-534K параметров)

Четыре стратегии дистилляции

1. Жесткая дистилляция (Hard Distillation)

  • Использует окончательное предсказание модели-учителя (выход argmax) в качестве метки обучения для модели-ученика
  • Помогает модели-ученику имитировать дискретные границы решений учителя
  • Содержит наименьший объем информации, показывает наихудшую производительность

2. Мягкая дистилляция (Soft Distillation)

  • Модель-ученик обучается на распределении вероятностей выходных данных модели-учителя
  • Кодирует богатую информацию о взаимосвязях между классами и неопределенности
  • Основана на классическом методе Хинтона и соавторов

3. Разделенная дистилляция знаний (DKD)

  • Разлагает выход учителя на компоненты дистилляции целевого класса (TCKD) и нецелевого класса (NCKD)
  • Гибко взвешивает истинные метки и вероятности неправильных меток в функции потерь ученика
  • Оптимальные гиперпараметры: α=1, β=8, температура τ=2, вес перекрестной энтропии CE=1
  • Вес вероятности NCKD в 8 раз больше TCKD, особенно подходит для задач классификации с семантически упорядоченными классами

4. Дистилляция признаков (Feature Distillation)

  • Выходит за рамки выходного слоя, обучает модель-ученика соответствовать картам промежуточных признаков учителя
  • Выравнивает пространства внутренних представлений
  • Производительность находится между мягкой дистилляцией и DKD

Технические инновации

1. Характеризация дистилляции для физиологических сигналов

  • Первое систематическое исследование законов масштабирования дистилляции в области сигналов ФПГ
  • Обнаружено, что экспоненциальные кривые масштабирования применимы к задачам физиологического восприятия

2. Механизм преимущества DKD

  • В сценариях, где семантика классификационных бинов упорядочена, вероятности нецелевых классов содержат важную информацию
  • Благодаря соотношению весов 8:1, модель-ученик может эффективно изучать богатые вероятностные метки
  • Хотя небольшие модели не могут изучать богатые представления с нуля, они могут эффективно учиться путем регрессии на вероятностные метки учителя

3. Важность индуктивного смещения архитектуры

  • Врожденное индуктивное смещение сверточных слоев (например, естественная тенденция к сглаживанию фильтруемых сигналов)
  • Целевые конструкции архитектуры, такие как остаточные соединения, обеспечивают более эффективное обучение на выборках
  • Модели-ученики ResNet демонстрируют более низкую нижнюю границу ошибок по сравнению с моделями-учениками MLP

Экспериментальная установка

Наборы данных

Используются три набора данных ФПГ из свободной жизни, всего 107 часов сигналов датчиков:

  1. WildPPG: Реальные долгосрочные непрерывные записи
  2. PPG-DaLiA: Набор данных из библиотеки машинного обучения UCI
  3. GalaxyPPG: Данные, собранные Galaxy Watch в полуестественных условиях

Процесс предварительной обработки:

  • Используется только зеленый канал датчика ФПГ
  • Повторная дискретизация до 25 Гц
  • Разделение на окна по 8 секунд с шагом 2 секунды
  • Истинные значения частоты сердечных сокращений (ударов в минуту) предоставляются сигналом ЭКГ

Разделение данных:

  • Разделение обучение-тест, независимое по участникам (80%-20%)
  • 2-кратная перекрестная валидация

Метрики оценки

Средняя абсолютная ошибка (MAE): Ошибка предсказания частоты сердечных сокращений в ударах в минуту

Методы сравнения

  • Базовое обучение с нуля: Модели того же размера, обученные с нуля (без дистилляции)
  • Различные стратегии дистилляции: Жесткая дистилляция, мягкая дистилляция, DKD, дистилляция признаков
  • Различные архитектуры: Модели-ученики ResNet vs MLP

Детали реализации

  • Количество эпох обучения: 300
  • Скорость обучения: 5×10⁻⁴
  • Функция потерь: Потеря перекрестной энтропии
  • Параметр классификации: 180 классов (30-210 ударов в минуту)
  • Оборудование: GPU Nvidia RTX 2080-Ti (для тестирования производительности)

Результаты экспериментов

Основные результаты

1. Дистиллированные модели превосходят обучение с нуля

Как показано на рисунке 1 (результаты мягкой дистилляции):

  • Производительность базовой модели: Модели, обученные с нуля, соответствуют результатам, сообщенным Майером и соавторами (MAE 8-блочной модели сопоставим)
  • Преимущество дистилляции: Все конфигурации дистилляции превосходят модели того же размера, обученные с нуля
  • Влияние размера учителя: Более крупные модели-учителя обычно приводят к лучшей производительности ученика, но чрезмерно крупные модели могут привести к переобучению и снижению производительности

2. Стратегия DKD показывает оптимальную производительность

Таблица 2 показывает сравнение производительности с фиксированной моделью-учителем из 12 блоков:

Размер модели-ученикаЖесткая дистилляцияМягкая дистилляцияDKDДистилляция признаков
1 блок (23K)11.73410.3808.8999.397
2 блока (34K)10.4187.7036.7727.200
6 блоков (139K)6.9836.8016.2916.800
10 блоков (534K)6.4936.3275.7596.409

Ранжирование производительности: DKD > Дистилляция признаков > Мягкая дистилляция > Жесткая дистилляция

Ключевые выводы:

  • DKD показывает лучшую производительность во всех конфигурациях моделей
  • Жесткая дистилляция показывает наихудшую производительность из-за недостаточного объема информации в дискретных метках
  • Преимущество DKD вытекает из гибкого взвешивания вероятностей истинных и неправильных меток

3. Предсказуемые законы масштабирования

На рисунке 2 показано поведение масштабирования при стратегии DKD:

  • Подгонка экспоненциальной кривой: Соответствует законам масштабирования дистилляции языковых моделей, производительность следует предсказуемой экспоненциальной кривой
  • Точка насыщения производительности: Модель-ученик начинает насыщаться при 6 остаточных блоках (139K параметров)
  • Различия стратегий: Мягкая дистилляция и дистилляция признаков также следуют этой кривой, но жесткая дистилляция показывает более резкое насыщение на меньших моделях

4. Влияние архитектуры на масштабирование

На рисунке 3 сравниваются архитектуры моделей-учеников ResNet и MLP:

  • Преимущество ResNet: Модели-ученики ResNet значительно превосходят модели-ученики MLP во всех диапазонах параметров
  • Нижняя граница ошибок: ResNet демонстрирует более низкую нижнюю границу производительности
  • Эффективность масштабирования: ResNet показывает превосходную эффективность масштабирования
  • Универсальность: MLP также демонстрирует предсказуемое масштабирование, но конкретное поведение варьируется в зависимости от архитектуры

Абляционные эксперименты

Влияние размера модели-учителя

  • Более крупные учителя (222K → 534K → 864K параметров) обычно приводят к лучшей производительности ученика
  • Однако существует эффект убывающей отдачи, чрезмерно крупные учителя могут привести к переобучению

Анализ гиперпараметров DKD

Путем поиска гиперпараметров определены:

  • α=1, β=8: Вес NCKD в 8 раз больше TCKD
  • Температура τ=2: Контролирует гладкость распределения вероятностей
  • Вес CE=1: Балансирует потерю дистилляции и исходную потерю задачи

Анализ вычислительной эффективности

Таблица 3 показывает результаты системного тестирования производительности:

Размер моделиВремя вывода (s)Использование памяти (MB)
1 блок0.512±0.0259.468
6 блоков2.622±0.16711.275
12 блоков4.758±0.13023.483

Выгода дистилляции (12 блоков → 1 блок):

  • Сокращение времени вывода: ~90% (4.758s → 0.512s)
  • Сокращение использования памяти: ~60% (23.483MB → 9.468MB)
  • Потеря производительности: ~30% увеличение MAE (см. конкретные значения)

Экспериментальные выводы

  1. Универсальная эффективность дистилляции: Дистилляция постоянно превосходит обучение с нуля во всех конфигурациях
  2. Важность выбора стратегии: DKD может обеспечить примерно 30% улучшение производительности по сравнению с жесткой дистилляцией
  3. Существование законов масштабирования: Задачи физиологического восприятия также следуют предсказуемым экспоненциальным кривым масштабирования
  4. Ключевая роль конструкции архитектуры: Индуктивное смещение оказывает значительное влияние на эффект дистилляции
  5. Практический компромисс: Дистилляция может обеспечить огромное повышение вычислительной эффективности при умеренной потере производительности

Связанные работы

Основы дистилляции знаний

  • Hinton et al. (2015): Предложен классический метод мягкой дистилляции с использованием параметра температуры для смягчения распределений вероятностей
  • Zhao et al. (2022): Предложена разделенная дистилляция знаний (DKD), разделяющая информацию целевых и нецелевых классов
  • Romero et al. (2015): Предложен метод дистилляции признаков FitNets

Применение в различных областях

  • Языковые модели: DistilBERT успешно оптимизирует BERT для развертывания на граничных устройствах
  • Обработка аудио: Peplinski et al. (2020) дистиллируют аудиомодели для мобильных устройств
  • Распознавание активности: Tang et al. (2021) дистиллируют модели акселерометра для распознавания активности человека

Исследования законов масштабирования

  • Busbridge et al. (2025): Первое установление законов масштабирования для дистилляции языковых моделей
  • Данная работа: Расширение исследований законов масштабирования на область физиологического восприятия

Оценка частоты сердечных сокращений ФПГ

  • Meier et al. (2024): Предоставляют набор данных WildPPG и базовую модель ResNet
  • Narayanswamy et al. (2024): Предложено исследование масштабирования базовых моделей для носимых устройств
  • Pillai et al. (2024), Saha et al. (2025): Разработка базовых моделей ФПГ

Исследовательский пробел

Данная работа заполняет пробел в отсутствии систематической характеризации дистилляции и предсказуемых законов масштабирования в области физиологического восприятия.

Выводы и обсуждение

Основные выводы

  1. Эффективность дистилляции: Дистилляция знаний может успешно сжимать большие модели оценки частоты сердечных сокращений ФПГ в небольшие модели, пригодные для развертывания на граничных устройствах
  2. Преимущества и недостатки стратегий: DKD показывает оптимальную производительность среди всех оцениваемых стратегий, особенно подходит для задач классификации с семантически упорядоченными классами
  3. Предсказуемость масштабирования: Производительность дистиллированных моделей следует экспоненциальным кривым масштабирования, что соответствует выводам для языковых моделей
  4. Практический компромисс: Может быть достигнуто 90% сокращение времени вывода и 60% сокращение использования памяти при умеренной потере производительности
  5. Важность выбора архитектуры: Выбор архитектуры модели значительно влияет на поведение масштабирования дистилляции

Ограничения

1. Ограниченная обобщаемость набора данных

  • Текущий подход: Использование простой перекрестной валидации со смешиванием образцов из трех наборов данных
  • Ограничение: Недостаточная оценка способности обобщения между наборами данных (обучение на одном наборе, тестирование на другом)
  • Рекомендуемое направление: Методология кросс-датасетного исследования Kasnesis et al. (2025)

2. Ограничения архитектуры модели

  • Текущий выбор: Использование простого остова ResNet и контролируемого обучения
  • Пространство для улучшения:
    • Исследование более крупных моделей с самоконтролируемым предварительным обучением
    • Использование методов контрастного обучения для изучения более богатых признаков
    • Авторы упоминают планы открытого исходного кода моделей для последующих исследований

3. Исследование стратегий дистилляции

  • Текущая работа: Оценка четырех базовых стратегий из литературы
  • Будущее направление: Разработка новых методов дистилляции, специально оптимизированных для задач физиологического восприятия

4. Ограничения оценки оборудования

  • Платформа тестирования: Использование GPU Nvidia RTX 2080-Ti
  • Реальный сценарий: Носимые устройства используют микропроцессоры с другими характеристиками производительности
  • Необходимость: Оценка на реальном целевом оборудовании

Будущие направления

  1. Исследование кросс-датасетного обобщения: Систематическая оценка способности дистиллированных моделей к передаче между различными наборами данных
  2. Модели учителей с самоконтролируемым обучением: Использование методов контрастного обучения для обучения более мощных моделей-учителей
  3. Пользовательские стратегии дистилляции: Разработка методов дистилляции, специально разработанных для характеристик сигналов ФПГ
  4. Развертывание на реальном оборудовании: Проверка и оптимизация моделей на реальных носимых устройствах
  5. Расширение на многозадачность: Расширение исследований на оценку других физиологических показателей, таких как вариабельность сердечного ритма

Углубленная оценка

Преимущества

1. Высокая исследовательская ценность

  • Заполнение пробела: Первое систематическое исследование законов масштабирования дистилляции в области физиологического восприятия
  • Практическая ориентация: Прямое решение практических потребностей развертывания на носимых устройствах
  • Теоретический вклад: Расширение исследований законов масштабирования от языковых моделей к данным временных рядов для здоровья

2. Строгое экспериментальное проектирование

  • Полное сравнение: Оценка четырех стратегий дистилляции с несколькими конфигурациями емкостей моделей
  • Валидация на нескольких наборах данных: Использование трех независимых наборов данных ФПГ (107 часов данных)
  • Перекрестная валидация: Применение 2-кратной перекрестной валидации для повышения надежности результатов
  • Разделение по участникам: Избежание утечки данных, обеспечение надежной оценки обобщаемости

3. Проницательные выводы

  • Механизм преимущества DKD: Глубокое объяснение того, почему соотношение весов 8:1 подходит для упорядоченной классификации
  • Индуктивное смещение архитектуры: Раскрытие существенных различий между ResNet и MLP
  • Проверка законов масштабирования: Подтверждение применимости экспоненциальных кривых в новой области
  • Идентификация точки насыщения: 139K параметров как ключевая точка баланса производительности и эффективности

4. Ясное изложение

  • Логичная структура: Четкая логика от мотивации к методам и результатам
  • Эффективная визуализация: Тепловая карта на рисунке 1, кривые масштабирования на рисунках 2 и 3 интуитивны и легко понимаемы
  • Честное представление: Четкое обозначение как "предварительное исследование" (preliminary investigation)

Недостатки

1. Ограниченный масштаб экспериментов

  • Емкость модели-учителя: Максимум 864K параметров, не исследованы более крупные модели
  • Объем данных: 107 часов данных относительно небольшой для современных крупномасштабных исследований
  • Разнообразие архитектур: Только сравнение ResNet и MLP, не включены современные архитектуры, такие как Transformer

2. Недостаточный теоретический анализ

  • Форма закона масштабирования: Не предоставлена конкретная математическая формула
  • Параметры подгонки: Не сообщены конкретные параметры экспоненциальной кривой и качество подгонки
  • Теоретическое объяснение: Отсутствует теоретическое обоснование того, почему следуется экспоненциальная кривая

3. Неполная проверка практичности

  • Платформа оборудования: Только тестирование на GPU, отсутствует оценка на реальных носимых устройствах
  • Анализ энергопотребления: Не рассмотрено энергопотребление, ключевой показатель для граничных устройств
  • Проверка реальной производительности: Не проверена производительность в реальных сценариях применения

4. Недостаточный анализ обобщаемости

  • Кросс-датасетная оценка: Авторы сами признают это основным ограничением
  • Различные физиологические задачи: Только сосредоточение на оценке частоты сердечных сокращений, без расширения на другие физиологические показатели
  • Разнообразие населения: Не проведен анализ различий в производительности для разных групп населения (возраст, состояние здоровья)

5. Чувствительность гиперпараметров DKD

  • Выбор гиперпараметров: Выбор β=8 не имеет достаточного абляционного обоснования
  • Зависимость от задачи: Не исследована робастность этого параметра в различных параметрах задачи
  • Автоматическая настройка: Не предоставлен систематический метод выбора гиперпараметров

Влияние

1. Академический вклад

  • Новаторство: Первое установление законов масштабирования дистилляции в области физиологического восприятия
  • Методологическая ценность: Предоставляет систематическую основу оценки для последующих исследований
  • Трансдисциплинарное вдохновение: Может быть обобщено на другие задачи временных рядов для здоровья

2. Практическая ценность

  • Применение в промышленности: Прямая поддержка разработки смарт-часов, фитнес-трекеров и других продуктов
  • Компромисс производительность-эффективность: 90% сокращение времени вывода обеспечивает жизнеспособный путь практического развертывания
  • Предсказуемость: Законы масштабирования делают проектирование моделей более научным

3. Ограничения

  • Раннее исследование: Авторы четко позиционируют как "early investigation", требует дополнительной проверки
  • Вызовы воспроизводимости: Хотя используются открытые наборы данных, код не обещан открытым
  • Разрыв практического развертывания: Расстояние от GPU базовых тестов к носимым устройствам

Применимые сценарии

Наиболее подходящие сценарии

  1. Ресурсоограниченные носимые устройства: Смарт-часы, фитнес-трекеры и т.д.
  2. Мониторинг частоты сердечных сокращений в реальном времени: Приложения для спорта и здоровья
  3. Сценарии, чувствительные к конфиденциальности: Граничный вывод избегает загрузки данных в облако
  4. Начальная фаза проектирования модели: Использование законов масштабирования для предсказания и планирования емкости модели

Сценарии, требующие осторожности

  1. Требования медицинской точности: Текущая производительность может быть недостаточна для клинической диагностики
  2. Экстремальные условия: Интенсивные упражнения, низкие температуры и другие недостаточно протестированные сценарии
  3. Кросс-устройное обобщение: Различное оборудование датчиков может требовать переобучения
  4. Мультимодальное слияние: Рассмотрен только одномодальный ФПГ

Потенциал расширения

  1. Другие физиологические сигналы: Вариабельность сердечного ритма, насыщение кислородом, оценка артериального давления
  2. Мультимодальное восприятие: Объединение с акселерометром, гироскопом и другими датчиками
  3. Персонализированные модели: Микротонкая настройка моделей для конкретных пользователей
  4. Скрининг заболеваний: Приложения для аритмии, апноэ сна и т.д.

Библиография

Ключевые цитируемые работы

  1. Busbridge et al. (2025) - Законы масштабирования дистилляции: Первое установление математических законов масштабирования для дистилляции языковых моделей, важная теоретическая основа данной работы
  2. Hinton et al. (2015) - Основополагающая работа по дистилляции знаний: Предложен метод мягкой дистилляции и концепция параметра температуры
  3. Zhao et al. (2022) - Разделенная дистилляция знаний (DKD): Исходная статья оптимальной стратегии, показанной в данной работе
  4. Meier et al. (2024) - Набор данных WildPPG: Основной источник набора данных и базовой модели, используемых в данной работе
  5. Sanh et al. (2019) - DistilBERT: Успешный случай дистилляции языковых моделей, демонстрирующий жизнеспособность дистилляции в крупномасштабных моделях
  6. Kasnesis et al. (2025) - Применение дистилляции знаний ФПГ: Упомянутое авторами исследование кросс-датасетного обобщения

Эти работы составляют теоретическую основу и методологические ссылки данной работы, критически важны для понимания исследовательского контекста.


Общая оценка: Это предварительное исследование с четким позиционированием и строгой реализацией. Хотя существуют ограничения в масштабе экспериментов и глубине теории, его новаторское введение исследований законов масштабирования в область физиологического восприятия обеспечивает практическую и предсказуемую методологическую основу для оптимизации моделей носимых устройств. Превосходная производительность стратегии DKD и обнаружение экспоненциальных кривых масштабирования имеют важное практическое руководящее значение. При дальнейшей проверке на более крупных масштабах данных, более разнообразных архитектурах и реальном оборудовании это окажет глубокое влияние на технологию мониторинга здоровья на носимых устройствах.