2025-11-26T20:43:18.584587

Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models

Arora, Narayanswamy, Patel et al.

Heart rate estimation from photoplethysmography (PPG) signals generated by wearable devices such as smartwatches and fitness trackers has significant implications for the health and well-being of individuals. Although prior work has demonstrated deep learning models with strong performance in the heart rate estimation task, in order to deploy these models on wearable devices, these models must also adhere to strict memory and latency constraints. In this work, we explore and characterize how large pre-trained PPG models may be distilled to smaller models appropriate for real-time inference on the edge. We evaluate four distillation strategies through comprehensive sweeps of teacher and student model capacities: (1) hard distillation, (2) soft distillation, (3) decoupled knowledge distillation (DKD), and (4) feature distillation. We present a characterization of the resulting scaling laws describing the relationship between model size and performance. This early investigation lays the groundwork for practical and predictable methods for building edge-deployable models for physiological sensing.

academic

Vers la Caractérisation de la Distillation de Connaissances pour les Modèles d'Estimation de la Fréquence Cardiaque par PPG

Informations Fondamentales

ID de l'article: 2511.18829
Titre: Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models
Auteurs: Kanav Arora, Girish Narayanswamy, Shwetak Patel, Richard Li (Université de Washington)
Classification: cs.LG (Apprentissage Automatique)
Date de publication/Conférence: Atelier NeurIPS 2025 : Apprentissage à partir de Séries Temporelles pour la Santé
Lien de l'article: https://arxiv.org/abs/2511.18829

Résumé

L'estimation de la fréquence cardiaque est une fonction importante de surveillance de la santé réalisée par les appareils portables (tels que les montres intelligentes et les traceurs de fitness) via les signaux de photopléthysmographie (PPG). Bien que les modèles d'apprentissage profond se comportent exceptionnellement bien dans les tâches d'estimation de la fréquence cardiaque, le déploiement de ces modèles sur les appareils portables doit satisfaire à des contraintes strictes de mémoire et de latence. Cette recherche explore et caractérise comment distiller des modèles PPG préentraînés volumineux en petits modèles adaptés à l'inférence en temps réel sur les appareils périphériques. L'étude évalue quatre stratégies de distillation, par balayage complet des capacités des modèles enseignant et étudiant : (1) distillation dure, (2) distillation douce, (3) distillation de connaissances découplées (DKD), (4) distillation de caractéristiques. L'article présente les lois d'échelle caractérisant la relation entre la taille du modèle et les performances. Cette recherche précoce établit une base méthodologique pratique et prévisible pour la construction de modèles de détection physiologique déployables sur les appareils périphériques.

Contexte de Recherche et Motivation

1. Problème Fondamental à Résoudre

Les modèles d'apprentissage profond volumineux sur les appareils portables font face à des défis de ressources informatiques limitées. Bien que les modèles PPG d'estimation de la fréquence cardiaque volumineux offrent des performances exceptionnelles, leurs exigences informatiques significatives (occupation mémoire et latence d'inférence) limitent le déploiement pratique sur les appareils périphériques, entravant la réalisation des avantages tels que les retours en temps réel et la protection de la vie privée.

2. Importance du Problème

Besoin de surveillance de la santé: Les signaux PPG peuvent être utilisés pour évaluer la santé cardiovasculaire, avec une valeur importante dans les applications telles que les retours d'exercice et le dépistage des maladies (comme l'hypertension)
Avantages du déploiement périphérique: Les modèles périphériques offrent une meilleure protection de la vie privée et soutiennent les retours en temps réel
Goulot d'étranglement pratique: Les modèles de capteurs volumineux sont difficiles à exécuter sur les appareils portables aux ressources limitées

3. Limitations des Approches Existantes

Application insuffisante de la distillation de connaissances: Bien que la distillation de connaissances ait obtenu du succès dans les modèles de langage (comme DistilBERT) et les modèles audio/accéléromètre, l'exploration dans le domaine de la détection physiologique est limitée
Manque de prévisibilité: Les méthodes de distillation existantes manquent de caractérisation systématique, ce qui rend difficile la prédiction des performances des modèles distillés
Lacune dans la recherche sur les lois d'échelle: Ce n'est que récemment que les lois d'échelle pour la distillation des modèles de langage ont été établies; aucune recherche similaire n'existe dans le domaine de la détection physiologique

4. Motivation de la Recherche

Cet article est la première tentative d'établir une caractérisation prévisible des performances de distillation dans le domaine de la détection physiologique, fournissant une évaluation systématique des stratégies de distillation et une analyse des lois d'échelle pour la tâche d'estimation de la fréquence cardiaque par PPG.

Contributions Fondamentales

Évaluation Systématique des Stratégies de Distillation: Première évaluation complète de quatre stratégies de distillation de connaissances (distillation dure, distillation douce, DKD, distillation de caractéristiques) sur la tâche d'estimation de la fréquence cardiaque par PPG, couvrant plusieurs configurations de capacité des modèles enseignant et étudiant
Caractérisation des Lois d'Échelle: Découverte et caractérisation du fait que les performances des modèles distillés suivent des courbes d'échelle exponentielle prévisibles, révélant la relation entre la taille du modèle et les performances
Identification de la Stratégie Optimale: Démonstration que la distillation de connaissances découplées (DKD) surpasse toutes les stratégies évaluées, particulièrement adaptée aux tâches de classification avec ordre sémantique
Analyse de l'Impact de l'Architecture: Démonstration que le choix d'architecture du modèle (ResNet vs MLP) a un impact significatif sur le comportement d'échelle de la distillation, les modèles étudiants ResNet présentant un biais inductif plus fort
Validation de la Praticité: Démonstration que la distillation peut réaliser environ 90% de réduction du temps d'inférence et 60% de réduction de l'utilisation mémoire, avec seulement 30% de dégradation des performances

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Fenêtre PPG de 8 secondes (canal vert, taux d'échantillonnage 25Hz, pas de 2 secondes)
Sortie: Classification de la fréquence cardiaque instantanée (180 classes, correspondant à 30-210 BPM)
Métrique d'évaluation: Erreur Absolue Moyenne (MAE, en BPM)
Contraintes: Le modèle doit satisfaire aux limites de mémoire et de latence des appareils portables

Architectures de Modèles

Architecture de Base: ResNet 1D

Adoption d'une variante 1D-ResNet utilisée par Meier et al. comme réseau principal, contrôlant la capacité du modèle en ajustant le nombre de blocs résiduels:

Modèles enseignants: 2-12 blocs résiduels (33K-864K paramètres)
Modèles étudiants: 1-10 blocs résiduels (23K-534K paramètres)

Quatre Stratégies de Distillation

1. Distillation Dure (Hard Distillation)

Utilisation des prédictions finales du modèle enseignant (sortie argmax) comme étiquettes d'entraînement du modèle étudiant
Aide le modèle étudiant à imiter les limites de décision discrètes de l'enseignant
Quantité d'information minimale, performances les plus faibles

2. Distillation Douce (Soft Distillation)

Entraînement du modèle étudiant sur la distribution de probabilité de sortie du modèle enseignant
Encode des informations riches sur les relations entre classes et l'incertitude
Basée sur la méthode classique de Hinton et al.

3. Distillation de Connaissances Découplées (DKD)

Décomposition de la sortie de l'enseignant en composants de distillation de classe cible (TCKD) et de classe non-cible (NCKD)
Pondération flexible des probabilités d'étiquettes vraies et fausses dans la fonction de perte de l'étudiant
Hyperparamètres optimaux: α=1, β=8, température τ=2, poids d'entropie croisée CE=1
Le poids de probabilité NCKD est 8 fois celui de TCKD, particulièrement adapté aux tâches de classification avec ordre sémantique

4. Distillation de Caractéristiques (Feature Distillation)

Au-delà de la couche de sortie, entraînement du modèle étudiant pour correspondre aux cartes de caractéristiques intermédiaires de l'enseignant
Alignement de l'espace de représentation interne
Performances intermédiaires entre la distillation douce et la DKD

Points d'Innovation Technique

1. Caractérisation de la Distillation pour les Signaux Physiologiques

Première étude systématique des lois d'échelle de distillation dans le domaine des signaux PPG
Découverte que les courbes d'échelle exponentielle s'appliquent aux tâches de détection physiologique

2. Mécanisme d'Avantage de la DKD

Dans les scénarios où les bacs de classification ont un ordre sémantique, les probabilités de classe non-cible contiennent des informations importantes
Grâce au rapport de poids 8:1, le modèle étudiant peut apprendre des étiquettes de probabilité plus riches
Bien que les petits modèles ne puissent pas apprendre des représentations riches à partir de zéro, ils peuvent apprendre efficacement en régressant les étiquettes de probabilité de l'enseignant

3. Importance du Biais Inductif de l'Architecture

Biais inductif inhérent des couches convolutives (comme la tendance naturelle à lisser les signaux filtrés)
Conception d'architecture ciblée telle que les connexions résiduelles réalisant un apprentissage d'échantillon plus efficace
Les étudiants ResNet présentent une limite d'erreur inférieure par rapport aux étudiants MLP

Configuration Expérimentale

Ensemble de Données

Utilisation de trois ensembles de données PPG de vie libre, totalisant 107 heures de signaux de capteurs:

WildPPG: Enregistrements continus longs du monde réel
PPG-DaLiA: Ensemble de données de la bibliothèque d'apprentissage automatique UCI
GalaxyPPG: Données collectées par Galaxy Watch dans des paramètres semi-naturels

Pipeline de Prétraitement:

Utilisation uniquement du canal vert du capteur PPG
Rééchantillonnage à 25Hz
Division en fenêtres de 8 secondes, pas de 2 secondes
Fourniture de la vérité de base de la fréquence cardiaque via signal ECG (BPM)

Division des Données:

Division train-test indépendante des participants (80%-20%)
Validation croisée à 2 plis

Métriques d'Évaluation

Erreur Absolue Moyenne (MAE): Erreur de prédiction de la fréquence cardiaque en BPM

Méthodes de Comparaison

Ligne de base d'entraînement à partir de zéro: Modèles de même taille entraînés à partir de zéro (sans distillation)
Différentes stratégies de distillation: Distillation dure, distillation douce, DKD, distillation de caractéristiques
Architectures différentes: Modèles étudiants ResNet vs MLP

Détails d'Implémentation

Nombre d'epochs: 300
Taux d'apprentissage: 5×10⁻⁴
Fonction de perte: Perte d'entropie croisée
Configuration de classification: 180 classes (30-210 BPM)
Matériel: GPU Nvidia RTX 2080-Ti (pour les benchmarks)

Résultats Expérimentaux

Résultats Principaux

1. Les Modèles Distillés Surpassent l'Entraînement à partir de Zéro

Comme le montre la Figure 1 (résultats de distillation douce):

Performance de base: Les modèles entraînés à partir de zéro correspondent aux résultats rapportés par Meier et al. (MAE similaire pour le modèle à 8 blocs)
Avantage de la distillation: Toutes les configurations de distillation surpassent les modèles de même taille entraînés à partir de zéro
Impact de la taille de l'enseignant: Les modèles enseignants plus grands apportent généralement de meilleures performances étudiantes, mais les modèles trop grands peuvent surapprentissage entraînant une dégradation des performances

2. La Stratégie DKD Offre les Meilleures Performances

Le Tableau 2 montre la comparaison des performances avec un modèle enseignant fixe à 12 blocs:

Taille du Modèle Étudiant	Distillation Dure	Distillation Douce	DKD	Distillation de Caractéristiques
1 bloc (23K)	11.734	10.380	8.899	9.397
2 blocs (34K)	10.418	7.703	6.772	7.200
6 blocs (139K)	6.983	6.801	6.291	6.800
10 blocs (534K)	6.493	6.327	5.759	6.409

Classement des Performances: DKD > Distillation de Caractéristiques > Distillation Douce > Distillation Dure

Découvertes Clés:

DKD surpasse toutes les autres configurations de modèles
La distillation dure offre les pires performances en raison de la quantité insuffisante d'informations d'étiquettes discrètes
L'avantage de la DKD provient de la pondération flexible des probabilités d'étiquettes vraies et fausses

3. Lois d'Échelle Prévisibles

La Figure 2 montre le comportement d'échelle sous la stratégie DKD:

Ajustement de courbe exponentielle: Cohérent avec les lois d'échelle de distillation des modèles de langage, les performances suivent une courbe exponentielle prévisible
Point de saturation des performances: Le modèle étudiant commence à saturer à 6 blocs résiduels (139K paramètres)
Différences de stratégie: La distillation douce et la distillation de caractéristiques suivent également cette courbe, mais la distillation dure montre une saturation plus abrupte sur les modèles plus petits

4. Impact de l'Architecture sur l'Échelle

La Figure 3 compare les architectures étudiantes ResNet et MLP:

Avantage ResNet: À tous les niveaux de paramètres, les étudiants ResNet surpassent significativement les étudiants MLP
Limite d'erreur inférieure: ResNet présente une limite de performance inférieure
Efficacité d'échelle: ResNet montre une efficacité d'échelle supérieure
Universalité: MLP montre également une échelle prévisible, mais le comportement spécifique varie selon l'architecture

Expériences d'Ablation

Impact de la Taille du Modèle Enseignant

Les modèles enseignants plus grands (222K → 534K → 864K paramètres) apportent généralement de meilleures performances étudiantes
Cependant, il existe un effet de rendements décroissants; les modèles enseignants trop grands peuvent surapprentissage

Analyse des Hyperparamètres de la DKD

Déterminés par recherche d'hyperparamètres:

α=1, β=8: Le poids NCKD est 8 fois celui de TCKD
Température τ=2: Contrôle la douceur de la distribution de probabilité
Poids CE=1: Équilibre la perte de distillation et la perte de tâche originale

Analyse de l'Efficacité Informatique

Le Tableau 3 montre les résultats des benchmarks système:

Taille du Modèle	Temps d'Inférence (s)	Utilisation Mémoire (MB)
1 bloc	0.512±0.025	9.468
6 blocs	2.622±0.167	11.275
12 blocs	4.758±0.130	23.483

Bénéfices de la Distillation (12 blocs → 1 bloc):

Réduction du temps d'inférence: ~90% (4.758s → 0.512s)
Réduction de l'utilisation mémoire: ~60% (23.483MB → 9.468MB)
Dégradation des performances: ~30% d'augmentation MAE (voir valeurs spécifiques)

Découvertes Expérimentales

Efficacité Universelle de la Distillation: La distillation surpasse toujours l'entraînement à partir de zéro dans toutes les configurations
Importance du Choix de Stratégie: La DKD peut apporter environ 30% d'amélioration des performances par rapport à la distillation dure
Existence de Lois d'Échelle: Les tâches de détection physiologique suivent également des courbes d'échelle exponentielle prévisibles
Rôle Clé de la Conception d'Architecture: Le biais inductif a un impact significatif sur l'efficacité de la distillation
Compromis Pratique: La distillation peut obtenir une amélioration massive de l'efficacité informatique avec une dégradation modérée des performances

Travaux Connexes

Fondamentaux de la Distillation de Connaissances

Hinton et al. (2015): Proposition de la méthode classique de distillation douce, introduction du paramètre de température pour adoucir les distributions de probabilité
Zhao et al. (2022): Proposition de la distillation de connaissances découplées (DKD), séparation des informations de classe cible et non-cible
Romero et al. (2015): Proposition de la méthode de distillation de caractéristiques FitNets

Applications Sectorielles

Modèles de Langage: DistilBERT optimise avec succès BERT pour le déploiement périphérique
Traitement Audio: Peplinski et al. (2020) distillent les modèles audio pour les appareils mobiles
Reconnaissance d'Activité: Tang et al. (2021) distillent les modèles accéléromètre pour la reconnaissance d'activité humaine

Recherche sur les Lois d'Échelle

Busbridge et al. (2025): Première établissement des lois d'échelle de distillation pour les modèles de langage
Contribution de cet article: Extension de la recherche sur les lois d'échelle au domaine de la détection physiologique

Estimation de la Fréquence Cardiaque par PPG

Meier et al. (2024): Fourniture de l'ensemble de données WildPPG et de la ligne de base ResNet
Narayanswamy et al. (2024): Proposition de recherche d'échelle pour les modèles de base portables
Pillai et al. (2024), Saha et al. (2025): Développement de modèles de base PPG

Lacune de Recherche

Cet article comble la lacune du manque de caractérisation systématique de la distillation et de lois d'échelle prévisibles dans le domaine de la détection physiologique.

Conclusion et Discussion

Conclusions Principales

Efficacité de la Distillation: La distillation de connaissances peut compresser avec succès les modèles volumineux d'estimation de la fréquence cardiaque par PPG en petits modèles adaptés au déploiement périphérique
Avantages et Inconvénients des Stratégies: La DKD surpasse toutes les stratégies évaluées, particulièrement adaptée aux tâches de classification avec ordre sémantique
Prévisibilité de l'Échelle: Les performances des modèles distillés suivent des courbes d'échelle exponentielle, cohérentes avec les découvertes des modèles de langage
Compromis Pratique: Peut réaliser 90% de réduction du temps d'inférence et 60% de réduction mémoire, avec dégradation modérée des performances
Importance de l'Architecture: Le choix d'architecture du modèle affecte significativement le comportement d'échelle de la distillation

Limitations

1. Généralisation de l'Ensemble de Données

Approche Actuelle: Utilisation de validation croisée simple, mélange d'échantillons de trois ensembles de données
Limitation: Évaluation insuffisante de la capacité de généralisation entre ensembles de données (entraînement sur un ensemble, test sur un autre)
Direction de Référence: Méthode de recherche entre ensembles de données de Kasnesis et al. (2025)

2. Limitations d'Architecture de Modèle

Choix Actuel: Utilisation d'un simple squelette ResNet et d'apprentissage supervisé
Espace d'Amélioration:
- Exploration de modèles préentraînés plus volumineux et auto-supervisés
- Utilisation de méthodes d'apprentissage contrastif pour apprendre des caractéristiques plus riches
- Les auteurs mentionnent des modèles à venir en open-source disponibles pour la recherche ultérieure

3. Exploration des Stratégies de Distillation

Travail Actuel: Évaluation de quatre stratégies de base de la littérature
Direction Future: Développement de nouvelles méthodes de distillation spécialement optimisées pour les tâches de détection physiologique

4. Limitations d'Évaluation Matérielle

Plateforme de Benchmark: Utilisation du GPU Nvidia RTX 2080-Ti pour les tests
Scénario Réel: Les appareils portables utilisent des microprocesseurs avec des caractéristiques de performance différentes
Nécessité: Évaluation sur le matériel cible réel

Directions Futures

Recherche sur la Généralisation Entre Ensembles de Données: Évaluation systématique de la capacité de transfert des modèles distillés entre différents ensembles de données
Modèles Enseignants Auto-Supervisés: Utilisation de méthodes telles que l'apprentissage contrastif pour entraîner des modèles enseignants plus puissants
Stratégies de Distillation Personnalisées: Développement de méthodes de distillation spécialement conçues pour les caractéristiques des signaux PPG
Déploiement sur Matériel Réel: Vérification et optimisation des modèles sur les appareils portables réels
Extension Multi-Tâches: Extension de la recherche aux estimations d'autres indicateurs physiologiques tels que la variabilité de la fréquence cardiaque

Évaluation Approfondie

Points Forts

1. Valeur de Recherche Élevée

Combler une Lacune: Première étude systématique des lois d'échelle de distillation dans le domaine de la détection physiologique
Orientation Pratique: Directement orientée vers les besoins pratiques du déploiement sur appareils portables
Contribution Théorique: Extension de la recherche sur les lois d'échelle des modèles de langage aux données de santé de séries temporelles

2. Conception Expérimentale Rigoureuse

Comparaison Complète: Évaluation de quatre stratégies de distillation, couvrant plusieurs configurations de capacité de modèle
Validation Multi-Ensembles: Utilisation de trois ensembles de données PPG indépendants (107 heures de données)
Validation Croisée: Adoption de validation croisée à 2 plis pour améliorer la fiabilité des résultats
Division Indépendante des Participants: Évite les fuites de données, assure l'évaluation de la généralisation

3. Découvertes Perspicaces

Mécanisme d'Avantage de la DKD: Explication approfondie de pourquoi le rapport de poids 8:1 convient à la classification ordonnée
Biais Inductif d'Architecture: Révélation des différences essentielles entre ResNet et MLP
Vérification des Lois d'Échelle: Preuve de l'applicabilité des courbes exponentielles dans le nouveau domaine
Identification du Point de Saturation: 139K paramètres est le point d'équilibre clé entre performance et efficacité

4. Écriture Claire

Structure Rationnelle: Logique claire, progression couche par couche de la motivation à la méthode aux résultats
Visualisation Efficace: Carte thermique de la Figure 1, courbes d'échelle des Figures 2 et 3 intuitives et faciles à comprendre
Expression Honnête: Marquage clair comme "investigation préliminaire" (preliminary investigation)

Insuffisances

1. Échelle Expérimentale Limitée

Capacité du Modèle Enseignant: Maximum seulement 864K paramètres, exploration insuffisante de modèles à plus grande échelle
Volume de Données: 107 heures de données relativement faibles par rapport aux recherches modernes à grande échelle
Diversité d'Architecture: Comparaison uniquement entre ResNet et MLP, pas d'implication d'architectures modernes comme Transformer

2. Analyse Théorique Insuffisante

Forme des Lois d'Échelle: Pas de formule mathématique explicite fournie
Paramètres d'Ajustement: Pas de rapport des paramètres spécifiques de la courbe exponentielle et de la qualité d'ajustement
Explication Théorique: Manque de dérivation théorique pour expliquer pourquoi elle suit une courbe exponentielle

3. Vérification de Praticité Incomplète

Plateforme Matérielle: Test uniquement sur GPU, manque d'évaluation sur appareils portables réels
Analyse de Consommation d'Énergie: Pas de considération de la consommation d'énergie, indicateur clé pour les appareils périphériques
Vérification de Temps Réel: Pas de vérification des performances en temps réel dans les scénarios d'application réels

4. Analyse de Généralisation Incomplète

Évaluation Entre Ensembles de Données: Les auteurs eux-mêmes reconnaissent cela comme limitation principale
Tâches Physiologiques Différentes: Focalisation uniquement sur l'estimation de la fréquence cardiaque, pas d'extension à d'autres indicateurs physiologiques
Diversité de Population: Pas d'analyse des différences de performance entre différentes populations (âge, état de santé)

5. Sensibilité des Hyperparamètres de la DKD

Choix des Hyperparamètres: Le choix de β=8 manque de justification suffisante
Dépendance à la Tâche: Pas d'exploration de la robustesse de ce paramètre dans différents paramètres de tâche
Optimisation Automatique: Pas de méthode systématique fournie pour la sélection des hyperparamètres

Impact

1. Contribution Académique

Caractère Novateur: Première établissement des lois d'échelle de distillation dans le domaine de la détection physiologique
Valeur Méthodologique: Fournit un cadre d'évaluation systématique pour la recherche ultérieure
Inspiration Interdisciplinaire: Peut être généralisée à d'autres tâches de données de santé de séries temporelles

2. Valeur Pratique

Application Industrielle: Soutien direct du développement de produits tels que les montres intelligentes et les traceurs de fitness
Compromis Performance-Efficacité: 90% de réduction du temps d'inférence fournit un chemin viable pour le déploiement pratique
Prévisibilité: Les lois d'échelle rendent la conception de modèles plus scientifique

3. Limitations

Recherche Précoce: Les auteurs positionnent clairement comme "early investigation", nécessitant plus de vérification
Défi de Reproductibilité: Bien que utilisant des ensembles de données publics, pas d'engagement d'open-sourcing du code
Écart de Déploiement Pratique: Distance encore présente du benchmark GPU aux appareils portables

Scénarios Applicables

Scénarios les Plus Appropriés

Appareils Portables aux Ressources Limitées: Montres intelligentes, traceurs de fitness, etc.
Surveillance de la Fréquence Cardiaque en Temps Réel: Applications de fitness et de suivi de santé
Scénarios Sensibles à la Vie Privée: L'inférence périphérique évite le téléchargement de données vers le cloud
Phase Initiale de Conception de Modèle: Utilisation des lois d'échelle pour prédire et planifier la capacité du modèle

Scénarios Nécessitant Prudence

Exigences de Précision Médicale: Les performances actuelles peuvent être insuffisantes pour soutenir le diagnostic clinique
Environnements Extrêmes: Exercice intense, basse température et autres scénarios insuffisamment testés
Généralisation Entre Appareils: Différents matériels de capteurs peuvent nécessiter un réentraînement
Fusion Multi-Modale: Considération uniquement de la modalité unique PPG

Potentiel d'Extension

Autres Signaux Physiologiques: Variabilité de la fréquence cardiaque, saturation en oxygène, estimation de la pression artérielle
Détection Multi-Modale: Combinaison avec accéléromètre, gyroscope et autres capteurs
Modèles Personnalisés: Ajustement fin de modèles pour des utilisateurs spécifiques
Dépistage de Maladies: Applications telles que l'arythmie cardiaque, l'apnée du sommeil

Références

Références Clés Citées

Busbridge et al. (2025) - Lois d'Échelle de Distillation: Première établissement des lois d'échelle mathématiques de distillation pour les modèles de langage, base théorique importante de cet article
Hinton et al. (2015) - Travail Fondateur de Distillation de Connaissances: Proposition de la méthode de distillation douce et du concept de paramètre de température
Zhao et al. (2022) - Distillation de Connaissances Découplées (DKD): Article original de la stratégie avec les meilleures performances dans cet article
Meier et al. (2024) - Ensemble de Données WildPPG: Source principale de l'ensemble de données utilisé dans cet article et modèle de base
Sanh et al. (2019) - DistilBERT: Cas de succès de distillation de modèles de langage, preuve de la faisabilité de la distillation dans les modèles à grande échelle
Kasnesis et al. (2025) - Application de Distillation de Connaissances PPG: Référence de recherche de généralisation entre ensembles de données mentionnée par les auteurs

Ces références constituent la base théorique et la référence méthodologique de cet article, essentielles pour comprendre le contexte de recherche.

Évaluation Globale: Ceci est un article de recherche préliminaire bien positionné et rigoureusement exécuté. Bien qu'il présente des limitations en termes d'échelle expérimentale et de profondeur théorique, il introduit de manière novatrice la recherche sur les lois d'échelle dans le domaine de la détection physiologique, fournissant un cadre méthodologique pratique et prévisible pour l'optimisation de modèles sur appareils portables. La performance exceptionnelle de la stratégie DKD et la découverte de courbes d'échelle exponentielle ont une valeur de guidance pratique importante. Si elle peut être davantage vérifiée sur des données à plus grande échelle, des architectures plus diversifiées et du matériel réel, elle aura un impact profond sur la technologie de surveillance de santé portable.