Heart rate estimation from photoplethysmography (PPG) signals generated by wearable devices such as smartwatches and fitness trackers has significant implications for the health and well-being of individuals. Although prior work has demonstrated deep learning models with strong performance in the heart rate estimation task, in order to deploy these models on wearable devices, these models must also adhere to strict memory and latency constraints. In this work, we explore and characterize how large pre-trained PPG models may be distilled to smaller models appropriate for real-time inference on the edge. We evaluate four distillation strategies through comprehensive sweeps of teacher and student model capacities: (1) hard distillation, (2) soft distillation, (3) decoupled knowledge distillation (DKD), and (4) feature distillation. We present a characterization of the resulting scaling laws describing the relationship between model size and performance. This early investigation lays the groundwork for practical and predictable methods for building edge-deployable models for physiological sensing.
- ID Articolo: 2511.18829
- Titolo: Towards Characterizing Knowledge Distillation of PPG Heart Rate Estimation Models
- Autori: Kanav Arora, Girish Narayanswamy, Shwetak Patel, Richard Li (University of Washington)
- Classificazione: cs.LG (Machine Learning)
- Data di Pubblicazione/Conferenza: NeurIPS 2025 Workshop: Learning from Time Series for Health
- Link Articolo: https://arxiv.org/abs/2511.18829
La stima della frequenza cardiaca rappresenta una funzione cruciale di monitoraggio della salute nei dispositivi indossabili (come smartwatch e fitness tracker) attraverso segnali di fotopletismografia (PPG). Sebbene i modelli di deep learning dimostrino prestazioni eccellenti nel compito di stima della frequenza cardiaca, il loro dispiegamento su dispositivi indossabili richiede il rispetto di vincoli rigorosi di memoria e latenza. Questo studio esplora e caratterizza come distillare modelli PPG pre-addestrati di grandi dimensioni in modelli più piccoli adatti all'inferenza in tempo reale su dispositivi edge. La ricerca valuta quattro strategie di distillazione attraverso una scansione completa delle capacità di insegnante e studente: (1) distillazione hard, (2) distillazione soft, (3) distillazione della conoscenza disaccoppiata (DKD), (4) distillazione delle caratteristiche. L'articolo presenta leggi di scala che descrivono la relazione tra dimensione del modello e prestazioni. Questo studio preliminare stabilisce una base metodologica pratica e prevedibile per la costruzione di modelli consapevoli della fisiologia distribuibili su dispositivi edge.
I modelli di deep learning di grandi dimensioni su dispositivi indossabili affrontano sfide dovute alle risorse computazionali limitate. Sebbene i modelli PPG di stima della frequenza cardiaca di grandi dimensioni dimostrino prestazioni superiori, i loro significativi requisiti computazionali (occupazione di memoria e latenza di inferenza) limitano il dispiegamento pratico su dispositivi edge, ostacolando la realizzazione di vantaggi come il feedback in tempo reale e la protezione della privacy.
- Esigenze di Monitoraggio della Salute: I segnali PPG possono essere utilizzati per valutare la salute cardiovascolare, con valore significativo in applicazioni come il feedback durante l'esercizio e lo screening di malattie (ad esempio l'ipertensione)
- Vantaggi del Dispiegamento Edge: I modelli edge offrono migliore protezione della privacy e supportano il feedback in tempo reale
- Collo di Bottiglia Pratico: I modelli di sensori di grandi dimensioni sono difficili da eseguire su dispositivi indossabili con risorse limitate
- Applicazione Insufficiente della Distillazione della Conoscenza: Sebbene la distillazione della conoscenza abbia avuto successo nei modelli linguistici (come DistilBERT) e nei modelli audio/accelerometro, l'esplorazione nel campo della percezione fisiologica è limitata
- Mancanza di Prevedibilità: I metodi di distillazione esistenti mancano di caratterizzazione sistematica, rendendo difficile prevedere le prestazioni dei modelli distillati
- Lacuna nella Ricerca sulle Leggi di Scala: Solo recentemente sono state stabilite leggi di scala per la distillazione di modelli linguistici; il campo della percezione fisiologica manca ancora di ricerche simili
Questo articolo rappresenta il primo tentativo di stabilire una caratterizzazione prevedibile delle prestazioni di distillazione nel campo della percezione fisiologica, fornendo una valutazione sistematica delle strategie di distillazione e un'analisi delle leggi di scala per il compito di stima della frequenza cardiaca da PPG.
- Valutazione Sistematica delle Strategie di Distillazione: Prima valutazione completa di quattro strategie di distillazione della conoscenza (distillazione hard, soft, DKD, distillazione delle caratteristiche) nel compito di stima della frequenza cardiaca da PPG, attraverso molteplici configurazioni di capacità di insegnante e studente
- Caratterizzazione delle Leggi di Scala: Scoperta e caratterizzazione di curve di scala esponenziali prevedibili per le prestazioni dei modelli distillati, rivelando la relazione tra dimensione del modello e prestazioni
- Identificazione della Strategia Ottimale: Dimostrazione che la distillazione della conoscenza disaccoppiata (DKD) supera tutte le strategie valutate, risultando particolarmente adatta per compiti di classificazione con semantica ordinata
- Analisi dell'Impatto dell'Architettura: Dimostrazione che la scelta dell'architettura del modello (ResNet vs MLP) ha un impatto significativo sul comportamento di scala della distillazione, con modelli studente ResNet che mostrano bias induttivi più forti
- Validazione Pratica: Dimostrazione che la distillazione può realizzare circa il 90% di riduzione del tempo di inferenza e il 60% di riduzione dell'utilizzo di memoria, con solo il 30% di degradazione delle prestazioni
Input: Finestra PPG di 8 secondi (canale verde, frequenza di campionamento 25Hz, passo di 2 secondi)
Output: Classificazione della frequenza cardiaca istantanea (180 classi, corrispondenti a 30-210 BPM)
Metrica di Valutazione: Errore Assoluto Medio (MAE, in BPM)
Vincoli: Il modello deve soddisfare i limiti di memoria e latenza dei dispositivi indossabili
Adotta una variante 1D-ResNet utilizzata da Meier et al. come rete backbone, controllando la capacità del modello regolando il numero di blocchi residui:
- Modello Insegnante: 2-12 blocchi residui (33K-864K parametri)
- Modello Studente: 1-10 blocchi residui (23K-534K parametri)
1. Distillazione Hard
- Utilizza la previsione finale del modello insegnante (output argmax) come etichetta di addestramento per il modello studente
- Aiuta il modello studente a imitare i confini decisionali discreti dell'insegnante
- Quantità minima di informazioni, prestazioni peggiori
2. Distillazione Soft
- Il modello studente viene addestrato sulla distribuzione di probabilità di output del modello insegnante
- Codifica informazioni ricche sulla relazione tra classi e incertezza
- Basato sul metodo classico di Hinton et al.
3. Distillazione della Conoscenza Disaccoppiata (DKD)
- Decompone l'output dell'insegnante in componenti di distillazione della classe target (TCKD) e non-target (NCKD)
- Pesa flessibilmente le probabilità delle etichette vere e errate nella funzione di perdita dello studente
- Iperparametri Ottimali: α=1, β=8, temperatura τ=2, peso entropia incrociata CE=1
- Il peso della probabilità NCKD è 8 volte quello di TCKD, particolarmente adatto per compiti di classificazione con semantica ordinata
4. Distillazione delle Caratteristiche
- Va oltre il livello di output, addestrando il modello studente a corrispondere alle mappe di caratteristiche intermedie dell'insegnante
- Allinea lo spazio di rappresentazione interno
- Prestazioni intermedie tra distillazione soft e DKD
1. Caratterizzazione della Distillazione per Segnali Fisiologici
- Prima ricerca sistematica delle leggi di scala della distillazione nel campo dei segnali PPG
- Scoperta che le curve di scala esponenziali si applicano ai compiti di percezione fisiologica
2. Meccanismo di Vantaggio di DKD
- In scenari in cui la semantica dei bin di classificazione è ordinata, le probabilità delle classi non-target contengono informazioni importanti
- Attraverso il rapporto di peso 8:1, il modello studente può imparare etichette di probabilità più ricche
- Sebbene i modelli piccoli non possono imparare rappresentazioni ricche da zero, possono imparare efficacemente regressando sulle etichette di probabilità dell'insegnante
3. Importanza del Bias Induttivo dell'Architettura
- Bias induttivo intrinseco dei livelli convoluzionali (come la tendenza naturale di filtrare i segnali lisci)
- Progettazione dell'architettura mirata come connessioni residue che realizzano un apprendimento campionario più efficiente
- Lo studente ResNet dimostra un limite di errore inferiore rispetto allo studente MLP
Utilizza tre dataset PPG di vita libera, per un totale di 107 ore di segnali sensoriali:
- WildPPG: Registrazioni continue a lungo termine nel mondo reale
- PPG-DaLiA: Dataset della libreria UCI Machine Learning
- GalaxyPPG: Dati raccolti da Galaxy Watch in impostazioni semi-naturali
Pipeline di Preprocessing:
- Utilizza solo il canale verde del sensore PPG
- Ricampionamento a 25Hz
- Segmentazione in finestre di 8 secondi, passo di 2 secondi
- Fornisce valori di verità della frequenza cardiaca tramite segnale ECG (BPM)
Divisione dei Dati:
- Divisione indipendente per partecipante tra addestramento e test (80%-20%)
- Convalida incrociata a 2 fold
Errore Assoluto Medio (MAE): Errore di previsione della frequenza cardiaca in BPM
- Baseline Addestramento da Zero: Modelli della stessa dimensione addestrati da zero (senza distillazione)
- Diverse Strategie di Distillazione: Distillazione hard, soft, DKD, distillazione delle caratteristiche
- Diverse Architetture: Modelli studente ResNet vs MLP
- Epoche di Addestramento: 300 epoch
- Tasso di Apprendimento: 5×10⁻⁴
- Funzione di Perdita: Perdita di entropia incrociata
- Impostazione di Classificazione: 180 classi (30-210 BPM)
- Hardware: GPU Nvidia RTX 2080-Ti (per benchmark)
Come mostrato nella Figura 1 (risultati di distillazione soft):
- Prestazioni Baseline: I modelli addestrati da zero sono coerenti con i risultati riportati da Meier et al. (MAE simile per modello a 8 blocchi)
- Vantaggio della Distillazione: Tutte le configurazioni di distillazione superano i modelli della stessa dimensione addestrati da zero
- Impatto della Dimensione dell'Insegnante: Insegnanti più grandi generalmente portano a prestazioni migliori dello studente, ma insegnanti eccessivamente grandi possono causare overfitting con conseguente degradazione delle prestazioni
La Tabella 2 mostra il confronto delle prestazioni con insegnante fisso a 12 blocchi:
| Dimensione Modello Studente | Hard | Soft | DKD | Caratteristiche |
|---|
| 1 blocco (23K) | 11.734 | 10.380 | 8.899 | 9.397 |
| 2 blocchi (34K) | 10.418 | 7.703 | 6.772 | 7.200 |
| 6 blocchi (139K) | 6.983 | 6.801 | 6.291 | 6.800 |
| 10 blocchi (534K) | 6.493 | 6.327 | 5.759 | 6.409 |
Ranking delle Prestazioni: DKD > Distillazione Caratteristiche > Distillazione Soft > Distillazione Hard
Scoperte Chiave:
- DKD mostra le migliori prestazioni in tutte le configurazioni di modello
- La distillazione hard mostra le peggiori prestazioni a causa della quantità insufficiente di informazioni nelle etichette discrete
- Il vantaggio di DKD deriva dalla ponderazione flessibile delle probabilità delle etichette vere e errate
La Figura 2 mostra il comportamento di scala sotto la strategia DKD:
- Adattamento Curva Esponenziale: Coerente con le leggi di scala della distillazione dei modelli linguistici, le prestazioni seguono una curva esponenziale prevedibile
- Punto di Saturazione delle Prestazioni: Il modello studente inizia a saturare a 6 blocchi residui (139K parametri)
- Differenze di Strategia: La distillazione soft e la distillazione delle caratteristiche seguono anche questa curva, ma la distillazione hard mostra una saturazione più acuta nei modelli più piccoli
La Figura 3 confronta le architetture studente ResNet e MLP:
- Vantaggio ResNet: Lo studente ResNet supera significativamente lo studente MLP a tutte le scale di parametri
- Limite di Errore Inferiore: ResNet dimostra un limite di prestazione inferiore
- Efficienza di Scala: ResNet mostra un'efficienza di scala superiore
- Universalità: MLP dimostra anche scala prevedibile, ma il comportamento specifico varia in base all'architettura
- Insegnanti più grandi (222K → 534K → 864K parametri) generalmente portano a prestazioni migliori dello studente
- Tuttavia, esiste un effetto di rendimenti decrescenti; insegnanti eccessivamente grandi possono causare overfitting
Attraverso la ricerca degli iperparametri sono stati determinati:
- α=1, β=8: Il peso NCKD è 8 volte quello di TCKD
- Temperatura τ=2: Controlla la levigatezza della distribuzione di probabilità
- Peso CE=1: Bilancia la perdita di distillazione e la perdita del compito originale
La Tabella 3 mostra i risultati dei benchmark del sistema:
| Dimensione Modello | Tempo di Inferenza (s) | Utilizzo Memoria (MB) |
|---|
| 1 blocco | 0.512±0.025 | 9.468 |
| 6 blocchi | 2.622±0.167 | 11.275 |
| 12 blocchi | 4.758±0.130 | 23.483 |
Benefici della Distillazione (12 blocchi → 1 blocco):
- Riduzione del tempo di inferenza: ~90% (4.758s → 0.512s)
- Riduzione dell'utilizzo di memoria: ~60% (23.483MB → 9.468MB)
- Perdita di prestazioni: ~30% aumento MAE (fare riferimento ai valori specifici)
- Efficacia Universale della Distillazione: La distillazione supera costantemente l'addestramento da zero in tutte le configurazioni
- Importanza della Scelta della Strategia: DKD rispetto alla distillazione hard può portare a miglioramenti di prestazioni di circa il 30%
- Esistenza di Leggi di Scala: I compiti di percezione fisiologica seguono anche curve di scala esponenziali prevedibili
- Ruolo Critico della Progettazione dell'Architettura: Il bias induttivo ha un impatto significativo sull'effetto della distillazione
- Compromesso Pratico: Attraverso la distillazione è possibile ottenere enormi miglioramenti dell'efficienza computazionale con una perdita di prestazioni moderata
- Hinton et al. (2015): Propone il metodo classico di distillazione soft, ammorbidendo la distribuzione di probabilità attraverso il parametro di temperatura
- Zhao et al. (2022): Propone la distillazione della conoscenza disaccoppiata (DKD), separando le informazioni delle classi target e non-target
- Romero et al. (2015): Propone il metodo di distillazione delle caratteristiche FitNets
- Modelli Linguistici: DistilBERT ottimizza con successo BERT per il dispiegamento edge
- Elaborazione Audio: Peplinski et al. (2020) distillano modelli audio per dispositivi mobili
- Riconoscimento di Attività: Tang et al. (2021) distillano modelli accelerometro per il riconoscimento di attività umane
- Busbridge et al. (2025): Stabilisce per la prima volta le leggi di scala per la distillazione di modelli linguistici
- Contributo di questo Articolo: Estende la ricerca sulle leggi di scala al campo della percezione fisiologica
- Meier et al. (2024): Fornisce il dataset WildPPG e il baseline ResNet
- Narayanswamy et al. (2024): Propone ricerca di scala per modelli fondamentali indossabili
- Pillai et al. (2024), Saha et al. (2025): Sviluppano modelli fondamentali PPG
Questo articolo colma la lacuna nella mancanza di caratterizzazione sistematica della distillazione e di leggi di scala prevedibili nel campo della percezione fisiologica.
- Efficacia della Distillazione: La distillazione della conoscenza può comprimere con successo modelli PPG di stima della frequenza cardiaca di grandi dimensioni in modelli più piccoli adatti al dispiegamento edge
- Pregi e Difetti delle Strategie: DKD mostra le migliori prestazioni tra tutte le strategie valutate, particolarmente adatta per compiti di classificazione con semantica ordinata
- Prevedibilità della Scala: Le prestazioni dei modelli distillati seguono curve di scala esponenziali, coerenti con le scoperte nei modelli linguistici
- Compromesso Pratico: È possibile realizzare il 90% di riduzione del tempo di inferenza e il 60% di riduzione della memoria, con perdita di prestazioni moderata
- Importanza dell'Architettura: La scelta dell'architettura del modello ha un impatto significativo sul comportamento di scala della distillazione
- Approccio Attuale: Utilizza convalida incrociata semplice, mescolando campioni da tre dataset
- Limitazione: Non valuta sufficientemente la capacità di generalizzazione tra dataset (addestramento su un dataset, test su un altro)
- Direzione di Riferimento: Metodi di ricerca tra dataset di Kasnesis et al. (2025)
- Scelta Attuale: Utilizza backbone ResNet semplice e apprendimento supervisionato
- Spazio di Miglioramento:
- Esplorare modelli pre-addestrati più grandi con auto-supervisione
- Sfruttare caratteristiche più ricche apprese attraverso metodi di apprendimento contrastivo
- Gli autori menzionano modelli che verranno resi open-source per ricerche future
- Lavoro Attuale: Valuta quattro strategie baseline dalla letteratura
- Direzione Futura: Sviluppare nuovi metodi di distillazione specificamente ottimizzati per compiti di percezione fisiologica
- Piattaforma di Benchmark: Utilizza GPU Nvidia RTX 2080-Ti per i test
- Scenario Reale: I dispositivi indossabili utilizzano microprocessori con caratteristiche di prestazione diverse
- Necessità: Valutazione su hardware target effettivo
- Ricerca sulla Generalizzazione tra Dataset: Valutazione sistematica della capacità di trasferimento dei modelli distillati tra diversi dataset
- Modelli Insegnante con Auto-Supervisione: Utilizzo di metodi come l'apprendimento contrastivo per addestrare modelli insegnante più potenti
- Strategie di Distillazione Personalizzate: Sviluppo di metodi di distillazione specificamente progettati per le caratteristiche dei segnali PPG
- Dispiegamento su Hardware Reale: Validazione e ottimizzazione dei modelli su dispositivi indossabili effettivi
- Estensione Multi-Compito: Estensione della ricerca a stima di altri indicatori fisiologici come la variabilità della frequenza cardiaca
- Colmare le Lacune: Prima ricerca sistematica delle leggi di scala della distillazione nel campo della percezione fisiologica
- Orientamento Pratico: Affronta direttamente le esigenze pratiche del dispiegamento su dispositivi indossabili
- Contributo Teorico: Estende la ricerca sulle leggi di scala dai modelli linguistici ai dati di serie temporali per la salute
- Confronto Completo: Valuta quattro strategie di distillazione attraverso molteplici configurazioni di capacità del modello
- Validazione Multi-Dataset: Utilizza tre dataset PPG indipendenti (107 ore di dati)
- Convalida Incrociata: Adotta convalida incrociata a 2 fold per aumentare l'affidabilità dei risultati
- Divisione Indipendente per Partecipante: Evita la perdita di dati, garantendo la valutazione della generalizzazione
- Meccanismo di Vantaggio di DKD: Spiega in profondità perché il rapporto di peso 8:1 è adatto per la classificazione ordinata
- Bias Induttivo dell'Architettura: Rivela le differenze essenziali tra ResNet e MLP
- Verifica della Legge di Scala: Conferma l'applicabilità della curva esponenziale in un nuovo dominio
- Identificazione del Punto di Saturazione: 139K parametri è il punto di equilibrio critico tra prestazioni ed efficienza
- Struttura Razionale: Logica chiara, progressione da motivazione a metodo a risultati
- Visualizzazione Efficace: La mappa di calore della Figura 1, le curve di scala delle Figure 2 e 3 sono intuitive e facili da comprendere
- Espressione Onesta: Etichetta chiaramente come "indagine preliminare" (preliminary investigation)
- Capacità del Modello Insegnante: Massimo solo 864K parametri, non esplora modelli di scala più grande
- Quantità di Dati: 107 ore di dati sono relativamente poche rispetto alla ricerca moderna su larga scala
- Diversità Architettonica: Confronta solo ResNet e MLP, non include architetture moderne come Transformer
- Forma della Legge di Scala: Non fornisce l'espressione matematica specifica
- Parametri di Adattamento: Non riporta i parametri specifici della curva esponenziale e la bontà dell'adattamento
- Spiegazione Teorica: Manca la derivazione teorica del perché segue una curva esponenziale
- Piattaforma Hardware: Test solo su GPU, manca la valutazione su dispositivi indossabili effettivi
- Analisi dei Consumi Energetici: Non considera il consumo energetico, metrica critica per i dispositivi edge
- Verifica della Realtime: Non verifica le prestazioni in tempo reale in scenari di applicazione effettivi
- Valutazione tra Dataset: Gli autori stessi riconoscono questa come limitazione principale
- Diversi Compiti Fisiologici: Focalizzato solo sulla stima della frequenza cardiaca, non esteso ad altri indicatori fisiologici
- Diversità della Popolazione: Non analizza le differenze di prestazioni tra diverse popolazioni (età, stato di salute)
- Scelta degli Iperparametri: La scelta di β=8 manca di ablazione sufficiente
- Dipendenza dal Compito: Non esplora la robustezza di questo parametro in diverse impostazioni di compiti
- Ottimizzazione Automatica: Non fornisce un metodo sistematico per la selezione degli iperparametri
- Carattere Pioneristico: Prima ricerca che stabilisce leggi di scala della distillazione nel campo della percezione fisiologica
- Valore Metodologico: Fornisce un framework di valutazione sistematica per ricerche successive
- Ispirazione Interdisciplinare: Può essere generalizzato ad altri compiti di dati di serie temporali per la salute
- Applicazione Industriale: Supporta direttamente lo sviluppo di prodotti come smartwatch e fitness tracker
- Compromesso Prestazioni-Efficienza: Il 90% di riduzione del tempo di inferenza fornisce un percorso pratico per il dispiegamento
- Prevedibilità: Le leggi di scala rendono la progettazione del modello più scientifica
- Ricerca Preliminare: Gli autori definiscono chiaramente come "early investigation", richiede ulteriore verifica
- Sfida di Riproducibilità: Sebbene utilizzi dataset pubblici, non si impegna per l'open-sourcing del codice
- Divario dal Dispiegamento Pratico: Dalla valutazione su GPU ai dispositivi indossabili rimane una distanza
- Dispositivi Indossabili con Risorse Limitate: Smartwatch, fitness tracker, ecc.
- Monitoraggio della Frequenza Cardiaca in Tempo Reale: Applicazioni di fitness e monitoraggio della salute
- Scenari Sensibili alla Privacy: L'inferenza edge evita il caricamento dei dati nel cloud
- Fase Iniziale della Progettazione del Modello: Utilizza le leggi di scala per prevedere e pianificare la capacità del modello
- Requisiti di Precisione a Livello Medico: Le prestazioni attuali potrebbero non essere sufficienti per la diagnosi clinica
- Ambienti Estremi: Esercizio intenso, basse temperature e altri scenari non sufficientemente testati
- Generalizzazione tra Dispositivi: Diversi hardware di sensori potrebbero richiedere un nuovo addestramento
- Fusione Multi-Modale: Considera solo la modalità singola PPG
- Altri Segnali Fisiologici: Variabilità della frequenza cardiaca, saturazione di ossigeno, stima della pressione sanguigna
- Percezione Multi-Modale: Combinazione con accelerometro, giroscopio e altri sensori
- Modelli Personalizzati: Messa a punto del modello per utenti specifici
- Screening di Malattie: Applicazioni come aritmie cardiache, apnea notturna
- Busbridge et al. (2025) - Leggi di Scala della Distillazione: Stabilisce per la prima volta le leggi di scala matematiche per la distillazione di modelli linguistici, base teorica importante per questo articolo
- Hinton et al. (2015) - Lavoro Fondamentale sulla Distillazione della Conoscenza: Propone il metodo di distillazione soft e il concetto di parametro di temperatura
- Zhao et al. (2022) - Distillazione della Conoscenza Disaccoppiata (DKD): Articolo originale della strategia con prestazioni ottimali in questo articolo
- Meier et al. (2024) - Dataset WildPPG: Fonte principale del dataset utilizzato in questo articolo e modello baseline
- Sanh et al. (2019) - DistilBERT: Caso di successo della distillazione di modelli linguistici, dimostra la fattibilità della distillazione in modelli su larga scala
- Kasnesis et al. (2025) - Applicazione della Distillazione della Conoscenza PPG: Riferimento di ricerca sulla generalizzazione tra dataset menzionato dagli autori
Questi riferimenti costituiscono la base teorica e il riferimento metodologico di questo articolo, essenziali per comprendere il contesto della ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca preliminare ben posizionato e rigorosamente eseguito. Sebbene presenti limitazioni nella scala sperimentale e nella profondità teorica, introduce in modo innovativo la ricerca sulle leggi di scala nel campo della percezione fisiologica, fornendo un framework metodologico pratico e prevedibile per l'ottimizzazione dei modelli su dispositivi indossabili. Le eccellenti prestazioni della strategia DKD e la scoperta della curva di scala esponenziale hanno un valore pratico significativo per la guida. Se in futuro potesse essere ulteriormente verificato su scale di dati più grandi, architetture più diverse e hardware effettivo, avrebbe un impatto profondo sulla tecnologia di monitoraggio della salute indossabile.