MedFuse: Multiplicative Embedding Fusion For Irregular Clinical Time Series
Hsieh, Chien, Huang et al.
Clinical time series derived from electronic health records (EHRs) are inherently irregular, with asynchronous sampling, missing values, and heterogeneous feature dynamics. While numerical laboratory measurements are highly informative, existing embedding strategies usually combine feature identity and value embeddings through additive operations, which constrains their ability to capture value-dependent feature interactions. We propose MedFuse, a framework for irregular clinical time series centered on the MuFuse (Multiplicative Embedding Fusion) module. MuFuse fuses value and feature embeddings through multiplicative modulation, preserving feature-specific information while modeling higher-order dependencies across features. Experiments on three real-world datasets covering both intensive and chronic care show that MedFuse consistently outperforms state-of-the-art baselines on key predictive tasks. Analysis of the learned representations further demonstrates that multiplicative fusion enhances expressiveness and supports cross-dataset pretraining. These results establish MedFuse as a generalizable approach for modeling irregular clinical time series.
academic
MedFuse: Multiplicative Embedding Fusion For Irregular Clinical Time Series
Клинические временные ряды в электронных медицинских записях (ЭМЗ) обладают присущей им нерегулярностью, включая асинхронную выборку, пропущенные значения и гетерогенную динамику признаков. Существующие стратегии встраивания обычно объединяют идентичность признака и числовые встраивания посредством аддитивных операций, что ограничивает способность захватывать зависящие от значения взаимодействия признаков. В данной работе предлагается фреймворк MedFuse, в основе которого лежит модуль MuFuse (мультипликативное слияние встраиваний). MuFuse объединяет числовые и признаковые встраивания посредством мультипликативной модуляции, моделируя зависимости высокого порядка при сохранении информации, специфичной для признака. Эксперименты на трёх реальных наборах данных показывают, что MedFuse постоянно превосходит современные базовые методы в критических задачах прогнозирования. Анализ изученных представлений дополнительно подтверждает, что мультипликативное слияние повышает выразительность и поддерживает предварительное обучение между наборами данных.
Моделирование клинических временных рядов сталкивается с тремя основными вызовами:
Нерегулярная выборка: жизненные показатели могут контролироваться часто, в то время как лабораторные тесты проводятся только при клинической необходимости; пациенты могут пропустить запланированные визиты
Высокий уровень пропусков: средний уровень пропусков в наборах данных составляет 73,77%-88,14%
Сложность числового представления: лабораторные значения кодируют сложную информацию в непрерывном диапазоне, что в принципе требует бесконечного количества представлений
Существующие методы EVAT (Each Value As Token) в основном используют аддитивное слияние:
Числовое встраивание используется как аддитивное смещение признакового встраивания
Ограниченная выразительность: сложно захватить нелинейные взаимодействия, зависящие от значения
Потеря клинической семантики: невозможно различить качественные различия между небольшими и значительными отклонениями лабораторных показателей (например, небольшое повышение креатинина против резкого скачка)
Мультипликативное слияние доказало свою эффективность в других областях, обеспечивая более сильную семантическую интеграцию, чем аддитивное или конкатенационное слияние
Специфические характеристики клинических данных (такие как медицинская эквифинальность: различные аномальные отклонения могут соответствовать одному и тому же клиническому риску) требуют более гибкого механизма слияния
Необходим универсальный фреймворк, который не требует импутации и может напрямую обрабатывать нерегулярные наблюдения
Мультипликативное слияние значение-признак: предложен модуль MuFuse, выполняющий нелинейную, специфичную для признака модуляцию посредством условного по значению мультипликативного слияния без расширения словаря встраиваний
Универсальный фреймворк без импутации: построен MedFuse на основе MuFuse, использующий схему токенизации троек (признак, значение, временная метка) для прямого моделирования нерегулярных измерений
Комплексная валидация и переносимость:
Постоянное превосходство над сильными базовыми методами на наборах данных ОИТ и хронических заболеваний
Исследования абляции подтверждают превосходство мультипликативного слияния над аддитивным
Эксперименты по передаче показывают, что изученные встраивания признаков могут переиспользоваться между наборами данных
Теоретические выводы: доказано, что недавний метод SOTA SCANE фактически является частным случаем MuFuse (d'=1), устанавливая более универсальный механизм слияния
SCANE напрямую умножает скалярное значение наблюдения на встраивание признака, что фактически является частным случаем MuFuse (d'=1, без преобразования значения). MuFuse обеспечивает большую выразительность благодаря гибкому выбору размерности и нелинейной проекции.
Таблица 2: Абляция стратегий слияния признак-значение (P12)
Метод
AUPRC
AUROC
Точность
MuFuse (мультипликативное)
0,5612±0,0558
0,8686±0,0190
0,8837±0,0558
Аддитивное
0,5317±0,0546
0,8549±0,0205
0,8754±0,0131
Конкатенация
0,5291±0,0564
0,8518±0,0204
0,8779±0,0129
Заключение: мультипликативное слияние показывает улучшение на 5,5% по AUPRC по сравнению с аддитивным, подтверждая эффективность условной по значению мультипликативной модуляции
Мультипликативное слияние превосходит аддитивное: MuFuse реализует специфичные для признака нелинейные взаимодействия посредством условной по значению модуляции
Универсальный фреймворк без импутации: MedFuse эффективен как в сценариях ОИТ, так и в сценариях хронических заболеваний
Переносимость: изученные встраивания признаков поддерживают адаптацию между наборами данных (требуется достаточный размер исходного набора данных)
Теоретическое единство: MuFuse обобщает SCANE, обеспечивая более чёткие принципы проектирования
Противоречие во временном кодировании: признано, что мультипликативное слияние неподходящо для временного кодирования, но отсутствует глубокое теоретическое объяснение
Выбор размерности: оптимальное значение k зависит от набора данных, отсутствует механизм автоматического выбора
MedFuse — это статья с существенным вкладом в область моделирования клинических временных рядов. Её основная инновация — мультипликативное слияние встраиваний (MuFuse) — не только элегантно обобщает существующий метод SOTA с теоретической точки зрения, но и достигает последовательного улучшения производительности на нескольких реальных наборах данных. Экспериментальное проектирование комплексно, от основного сравнения производительности до исследований абляции, анализа размерности и обучения с передачей, систематически валидирующих эффективность метода.
Особенно достойны похвалы выводы авторов о медицинской эквифинальности — через эффект маскирования мультипликативного слияния естественно моделируется явление, когда различные аномальные отклонения соответствуют одному и тому же клиническому риску. Это демонстрирует глубокое понимание авторами клинической области.
Однако статья имеет и недостатки: высокие вычислительные затраты, ограниченные эксперименты по передаче, отсутствие опубликованного кода и другие. Несмотря на это, MedFuse предоставляет мощный и универсальный фреймворк для моделирования нерегулярных клинических временных рядов, имеющий значительное значение для развития области медицинского искусственного интеллекта. С нетерпением ожидаем дальнейших работ по мультимодальному расширению, интерпретируемости и практическому клиническому развёртыванию.