2025-11-13T04:10:10.339085

MedFuse: Multiplicative Embedding Fusion For Irregular Clinical Time Series

Hsieh, Chien, Huang et al.
Clinical time series derived from electronic health records (EHRs) are inherently irregular, with asynchronous sampling, missing values, and heterogeneous feature dynamics. While numerical laboratory measurements are highly informative, existing embedding strategies usually combine feature identity and value embeddings through additive operations, which constrains their ability to capture value-dependent feature interactions. We propose MedFuse, a framework for irregular clinical time series centered on the MuFuse (Multiplicative Embedding Fusion) module. MuFuse fuses value and feature embeddings through multiplicative modulation, preserving feature-specific information while modeling higher-order dependencies across features. Experiments on three real-world datasets covering both intensive and chronic care show that MedFuse consistently outperforms state-of-the-art baselines on key predictive tasks. Analysis of the learned representations further demonstrates that multiplicative fusion enhances expressiveness and supports cross-dataset pretraining. These results establish MedFuse as a generalizable approach for modeling irregular clinical time series.
academic

MedFuse: Multiplicative Embedding Fusion For Irregular Clinical Time Series

Основная информация

  • ID статьи: 2511.09247
  • Название: MedFuse: Multiplicative Embedding Fusion For Irregular Clinical Time Series
  • Авторы: Yi-Hsien Hsieh, Ta-Jung Chien, Chun-Kai Huang, Shao-Hua Sun, Che Lin (Национальный Тайваньский университет)
  • Категория: cs.AI
  • Дата публикации: 12 ноября 2025 г. (отправка на arXiv)
  • Статус статьи: На рассмотрении
  • Ссылка на статью: https://arxiv.org/abs/2511.09247

Аннотация

Клинические временные ряды в электронных медицинских записях (ЭМЗ) обладают присущей им нерегулярностью, включая асинхронную выборку, пропущенные значения и гетерогенную динамику признаков. Существующие стратегии встраивания обычно объединяют идентичность признака и числовые встраивания посредством аддитивных операций, что ограничивает способность захватывать зависящие от значения взаимодействия признаков. В данной работе предлагается фреймворк MedFuse, в основе которого лежит модуль MuFuse (мультипликативное слияние встраиваний). MuFuse объединяет числовые и признаковые встраивания посредством мультипликативной модуляции, моделируя зависимости высокого порядка при сохранении информации, специфичной для признака. Эксперименты на трёх реальных наборах данных показывают, что MedFuse постоянно превосходит современные базовые методы в критических задачах прогнозирования. Анализ изученных представлений дополнительно подтверждает, что мультипликативное слияние повышает выразительность и поддерживает предварительное обучение между наборами данных.

Исследовательский контекст и мотивация

1. Основная проблема

Моделирование клинических временных рядов сталкивается с тремя основными вызовами:

  • Нерегулярная выборка: жизненные показатели могут контролироваться часто, в то время как лабораторные тесты проводятся только при клинической необходимости; пациенты могут пропустить запланированные визиты
  • Высокий уровень пропусков: средний уровень пропусков в наборах данных составляет 73,77%-88,14%
  • Сложность числового представления: лабораторные значения кодируют сложную информацию в непрерывном диапазоне, что в принципе требует бесконечного количества представлений

2. Важность проблемы

  • Клинические временные ряды являются основой для задач медицинского прогнозирования и мониторинга
  • Эффективное моделирование критично для ключевых медицинских задач, таких как прогнозирование смертности в ОИТ и оценка риска хронических заболеваний
  • Нерегулярность и пропущенные значения затрудняют прямое применение традиционных методов

3. Ограничения существующих методов

Существующие методы EVAT (Each Value As Token) в основном используют аддитивное слияние:

  • Числовое встраивание используется как аддитивное смещение признакового встраивания
  • Ограниченная выразительность: сложно захватить нелинейные взаимодействия, зависящие от значения
  • Потеря клинической семантики: невозможно различить качественные различия между небольшими и значительными отклонениями лабораторных показателей (например, небольшое повышение креатинина против резкого скачка)

4. Исследовательская мотивация

  • Мультипликативное слияние доказало свою эффективность в других областях, обеспечивая более сильную семантическую интеграцию, чем аддитивное или конкатенационное слияние
  • Специфические характеристики клинических данных (такие как медицинская эквифинальность: различные аномальные отклонения могут соответствовать одному и тому же клиническому риску) требуют более гибкого механизма слияния
  • Необходим универсальный фреймворк, который не требует импутации и может напрямую обрабатывать нерегулярные наблюдения

Основные вклады

  1. Мультипликативное слияние значение-признак: предложен модуль MuFuse, выполняющий нелинейную, специфичную для признака модуляцию посредством условного по значению мультипликативного слияния без расширения словаря встраиваний
  2. Универсальный фреймворк без импутации: построен MedFuse на основе MuFuse, использующий схему токенизации троек (признак, значение, временная метка) для прямого моделирования нерегулярных измерений
  3. Комплексная валидация и переносимость:
    • Постоянное превосходство над сильными базовыми методами на наборах данных ОИТ и хронических заболеваний
    • Исследования абляции подтверждают превосходство мультипликативного слияния над аддитивным
    • Эксперименты по передаче показывают, что изученные встраивания признаков могут переиспользоваться между наборами данных
  4. Теоретические выводы: доказано, что недавний метод SOTA SCANE фактически является частным случаем MuFuse (d'=1), устанавливая более универсальный механизм слияния

Подробное описание метода

Определение задачи

Дан набор наблюдений O = {(f, v, t)}:

  • Входные данные: f ∈ {1,...,F} идентичность признака (например, тип лабораторного теста), v ∈ ℝ записанное значение, t ∈ ℝ⁺ временная метка
  • Выходные данные: метка задачи прогнозирования (например, смертность в ОИТ, риск развития ГЦК)
  • Ограничения: обработка только фактически наблюдаемых записей (Mf,t = 1), без импутации пропущенных значений

Архитектура модели

Общая архитектура (MedFuse)

Тройка наблюдений (f,v,t) 
    ↓
Модуль встраивания MuFuse
    ├─ Встраивание идентичности признака: ef ∈ ℝᵈ
    ├─ Числовое встраивание: ev ∈ ℝᵈ'
    └─ Мультипликативное слияние: ef,v = ef ⊙ ev
    ↓
Аддитивное кодирование времени: ef,v,t = ef,v + pt
    ↓
Кодировщик Transformer (N слоёв)
    ↓
Линейная голова классификации + Softmax

Основной модуль: MuFuse

1. Встраивание идентичности признака

ef ∈ ℝᵈ  (стандартная таблица поиска)

2. Числовое встраивание

zv = φ(v) ∈ ℝᵈ'           # Общий нелинейный проектор
ev|f = γf ⊙ zv + βf       # Специфичное для признака аффинное преобразование

где γf, βf ∈ ℝᵈ' — обучаемые параметры, специфичные для признака

3. Мультипликативное слияние

Когда d' = d:

MuFuse(ef, ev) = ef ⊙ ev = ef,v

Когда d ≠ d' (предположим, d = d' × k):

  • Разделить ef на k последовательных блоков: ef = e⁽¹⁾f; e⁽²⁾f; ...; e⁽ᵏ⁾f
  • Каждый элемент ev проходит через сигмоид в качестве вентиля: g(vj) = σ(vj) ∈ (0,1)
  • Скалярный вентиль применяется к соответствующему блоку: e⁽ⁱ⁾f,v = g(vj) · e⁽ⁱ⁾f

4. Обработка категориальных признаков

ef,c = Wcat · Concat(ef, ec) ∈ ℝᵈ

5. Временное встраивание (синусоидальное позиционное кодирование)

pt[2i] = sin(t/ωi)
pt[2i+1] = cos(t/ωi)
ef,v,t = ef,v + pt

Технические инновации

1. Преимущества мультипликативного слияния

Математическое выражение:

MuFuse: ef,v = ef ⊙ ev = ef ⊙ (1 + e'v) = ef + ef ⊙ e'v
Аддитивное слияние: ef,v = ef + ev
  • MuFuse вводит член взаимодействия ef ⊙ e'v, делая числовую модуляцию зависящей от идентичности признака
  • При аддитивном слиянии ev выступает как независимый член, не зависящий от ef

2. Моделирование медицинской эквифинальности (Masking & Collapse)

Клинический сценарий: гипонатриемия и гипернатриемия могут оба привести к судорогам

  • Аддитивное слияние: требует назначения одного и того же встраивания для различных диапазонов значений, теряя гибкость
  • MuFuse: посредством поэлементного умножения, даже если ev различны, можно через ef как маску свернуть различные встраивания в одно представление

3. Связь со SCANE

SCANE напрямую умножает скалярное значение наблюдения на встраивание признака, что фактически является частным случаем MuFuse (d'=1, без преобразования значения). MuFuse обеспечивает большую выразительность благодаря гибкому выбору размерности и нелинейной проекции.

4. Почему временное кодирование использует сложение?

Эксперименты показывают, что аддитивное кодирование времени превосходит мультипликативное (AUPRC: 0,6717 против 0,6495):

  • Сложение: сохраняет амплитуду AC-сигнала синусоидального кодирования и спектральные паттерны, встраивание признака действует только как DC-смещение
  • Умножение: изменяет амплитуду AC и спектральный состав, нарушая регулярность представления упорядоченного позиционного кодирования

Экспериментальная установка

Наборы данных

Набор данныхТипКоличество образцовДоля положительного классаУровень пропусковОкно наблюденияЧисловые признакиКатегориальные признаки
P12Смертность в ОИТ11 98814,2%73,77%48 часов/2-часовое окно402
MI3Смертность в ОИТ52 87114,0%88,14%48 часов/2-часовое окно1284
HCCЗаболеваемость ГЦК34 2964,6%74,64%1 год/90-дневное окно308

Протокол предварительной обработки:

  • Задачи ОИТ: окно наблюдения 48 часов, агрегация по 2 часам (24 временные метки)
  • Задача HCC: окно наблюдения 1 год, агрегация по 90 дней (4 временные метки)
  • Числовые переменные — медиана, категориальные переменные — мода
  • Без импутации, токены генерируются только для наблюдаемых значений

Метрики оценки

  • Основная метрика: AUPRC (площадь под кривой точность-полнота) — более подходит для несбалансированных классов
  • Вспомогательные метрики: AUROC, точность (ОИТ) / c-индекс (HCC)
  • Статистическая значимость: 95% доверительные интервалы, оценённые через 1000 bootstrap-итераций

Методы сравнения

  1. Традиционные ансамбли: Random Forest, XGBoost
  2. Универсальные модели последовательности: кодировщик Transformer, TCN
  3. Специализированные для клинических временных рядов:
    • SAnD: маскированное самовнимание
    • mTAN: внимание в непрерывном времени
    • STraTS: самоконтролируемое обучение триплетам
    • SUMMIT (SCANE): текущий SOTA, механизм масштабирования значений

Детали реализации

  • Оптимизатор: Adam
  • Скорость обучения: 3e-5 (MedFuse), 5e-4 (большинство базовых методов)
  • Настройка гиперпараметров: Optuna (набор валидации)
  • Ранняя остановка: 30-380 эпох (зависит от набора данных)
  • Размерность модели: d=144, d' варьируется (исследование абляции)
  • Количество слоёв Transformer: 32 слоя (MedFuse)

Результаты экспериментов

Основные результаты

Таблица 1: Сравнение производительности (лучшее выделено жирным, второе лучшее подчёркнуто)

МетодMI3 AUPRCP12 AUPRCHCC AUPRC
Random Forest0,4367±0,05170,4805±0,05330,3934±0,0583
XGBoost0,4553±0,05270,4980±0,05440,3887±0,0592
Transformer0,5074±0,05100,5435±0,05600,4139±0,0571
SAnD0,5463±0,04620,4615±0,05980,3769±0,0337
mTAN0,5536±0,03590,4991±0,05210,4545±0,0264
STraTS0,5886±0,05460,5206±0,05340,4270±0,0186
SUMMIT0,6328±0,02770,5504±0,05630,4553±0,0577
MedFuse0,6574±0,02700,5612±0,05580,4595±0,0556

Ключевые выводы:

  • MedFuse достигает лучших результатов по основной метрике AUPRC на всех трёх наборах данных
  • Улучшение по сравнению с SUMMIT: MI3 +3,9%, P12 +2,0%, HCC +0,9%
  • AUROC и точность также достигают лучших результатов на MI3 (0,9078 и 0,9153)

Исследования абляции

Таблица 2: Абляция стратегий слияния признак-значение (P12)

МетодAUPRCAUROCТочность
MuFuse (мультипликативное)0,5612±0,05580,8686±0,01900,8837±0,0558
Аддитивное0,5317±0,05460,8549±0,02050,8754±0,0131
Конкатенация0,5291±0,05640,8518±0,02040,8779±0,0129

Заключение: мультипликативное слияние показывает улучшение на 5,5% по AUPRC по сравнению с аддитивным, подтверждая эффективность условной по значению мультипликативной модуляции

Влияние коэффициента разделения размерности k

Экспериментальная установка: фиксировано d=144, варьируется k (то есть d'=d/k)

Результаты P12:

  • k=1 (d'=144): AUPRC 0,539
  • k=9 (d'=16): AUPRC 0,561 (оптимально)
  • k=144 (d'=1, эквивалентно SCANE): AUPRC 0,548

Выводы:

  • Средняя разделённость размерности обеспечивает лучший баланс
  • Слишком грубая (малое k): недостаточная параметризация эффекта значения
  • Слишком тонкая (большое k): переобучение взаимодействия признак-значение
  • Подтверждает гибкость проектирования трансляционного произведения Адамара

Обучение с передачей между наборами данных

Протокол эксперимента:

  1. Предварительное обучение на исходном наборе данных
  2. Передача только встраиваний идентичности признака для перекрывающихся признаков (F∩)
  3. P12 и MI3 имеют 25 перекрывающихся признаков (59,5% для P12, 18,9% для MI3)

Таблица 3: Результаты передачи между наборами данных

Направление передачиAUPRCУлучшение
MI3→P12 (большой→малый)0,5454+1,7%
P12 случайное обучение0,5361базовое
MI3 подвыборка→P120,5276-1,6%
P12→MI3 (малый→большой)0,6422-3,3%
MI3 случайное обучение0,6639базовое

Ключевые выводы:

  • Размер исходного набора данных критичен: положительная передача от большого набора к малому
  • Идентичность набора данных не является основным фактором: подвыборка MI3→P12 всё ещё показывает отрицательную передачу
  • Встраивания признаков захватывают переиспользуемую, независимую от когорты семантику

Визуализация встраиваний

Визуализация t-SNE (набор данных HCC):

  • До слияния: чёткая кластеризация токенов одного типа признака
  • После первого слоя Transformer: сохранение характеристик кластеризации, подтверждающее робастность MuFuse

Связанные работы

1. Основы моделей последовательности

  • Классические RNN: LSTM, GRU — установление базовых линий
  • Transformer: захват долгосрочных зависимостей
  • Эффективные варианты: Informer (разреженное самовнимание)

2. Моделирование медицинских временных рядов

  • Методы импутации: BRITS (совместное обучение импутации и прогнозирования)
  • Переискание на сетку: SAnD (маскированное самовнимание, требует регулярной сетки)
  • Внимание в непрерывном времени: mTAN (прямая обработка нерегулярных наблюдений)

3. Парадигма EVAT

  • STraTS: самоконтролируемое обучение триплетам
  • SCANE/SUMMIT: механизм масштабирования значений (текущий SOTA)
  • Вклад данной работы: доказательство того, что SCANE является частным случаем MuFuse, предоставление более универсального фреймворка

4. Исследование операций слияния

  • Chrysos et al. (2025): преимущества произведения Адамара в глубоком обучении
  • Данная работа: первое систематическое применение мультипликативного слияния к моделированию числовых значений в клинических ЭМЗ

Заключение и обсуждение

Основные выводы

  1. Мультипликативное слияние превосходит аддитивное: MuFuse реализует специфичные для признака нелинейные взаимодействия посредством условной по значению модуляции
  2. Универсальный фреймворк без импутации: MedFuse эффективен как в сценариях ОИТ, так и в сценариях хронических заболеваний
  3. Переносимость: изученные встраивания признаков поддерживают адаптацию между наборами данных (требуется достаточный размер исходного набора данных)
  4. Теоретическое единство: MuFuse обобщает SCANE, обеспечивая более чёткие принципы проектирования

Ограничения

  1. Вычислительные затраты: 32-слойный Transformer может ограничить приложения реального времени
  2. Условия передачи: передача между наборами данных требует большого исходного набора данных
  3. Перекрытие признаков: передача зависит от достаточного перекрытия признаков (в данных экспериментах 18,9%-59,5%)
  4. Интерпретируемость: клиническая семантика мультипликативных взаимодействий требует дальнейшего исследования
  5. Мультимодальное расширение: текущая версия обрабатывает только числовые и категориальные признаки, не охватывая текст и изображения

Направления будущих исследований

  1. Крупномасштабное мультимодальное предварительное обучение: расширение на клинические заметки и медицинские изображения
  2. Причинный вывод: интеграция контрфактического анализа для повышения интерпретируемости
  3. Надёжная поддержка клинических решений: развёртывание в реальной клинической среде
  4. Эффективная архитектура: исследование лёгких вариантов для сценариев с ограниченными ресурсами
  5. Улучшение временного кодирования: исследование позиционного кодирования, более подходящего для нерегулярной выборки

Глубокая оценка

Преимущества

1. Инновационность метода (★★★★★)

  • Прочная основная инновация: мультипликативное слияние имеет чёткую теоретическую мотивацию (медицинская эквифинальность, члены взаимодействия)
  • Обобщение SOTA: элегантно доказано, что SCANE является частным случаем (d'=1), предоставляя единый фреймворк
  • Гибкое проектирование: трансляционное произведение Адамара поддерживает произвольные соотношения размерностей

2. Полнота экспериментов (★★★★★)

  • Разнообразные наборы данных: охватывают сценарии ОИТ (острые) и HCC (хронические)
  • Комплексная абляция: три измерения — стратегия слияния, коэффициент размерности, обучение с передачей
  • Статистическая строгость: доверительные интервалы Bootstrap, многоуровневая оценка
  • Визуальный анализ: t-SNE подтверждает качество встраиваний

3. Ясность изложения (★★★★☆)

  • Чёткая структура, полное объяснение мотивации
  • Точные математические выражения (формулы 4-11)
  • Подробное приложение (гиперпараметры, статистика наборов данных, дополнительные эксперименты)
  • Незначительный недостаток: некоторые клинические термины могли бы требовать дополнительного объяснения

4. Практическая ценность (★★★★☆)

  • Отсутствие необходимости в импутации, упрощение предварительной обработки
  • Код не опубликован (на рассмотрении), но описание метода подробно
  • Высокие вычислительные затраты (32-слойный Transformer)

Недостатки

1. Ограничения метода

  • Противоречие во временном кодировании: признано, что мультипликативное слияние неподходящо для временного кодирования, но отсутствует глубокое теоретическое объяснение
  • Выбор размерности: оптимальное значение k зависит от набора данных, отсутствует механизм автоматического выбора
  • Обработка категориальных признаков: простая конкатенация + линейное преобразование, недостаточно исследован потенциал мультипликативного слияния

2. Экспериментальные недостатки

  • Ограниченные эксперименты по передаче: тестирование только между двумя наборами данных ОИТ, HCC не участвует
  • Низкое перекрытие признаков: только 18,9% перекрытия признаков для MI3, ограничивает оценку потенциала передачи
  • Отсутствие анализа вычислительных затрат: не сообщены время обучения, потребление памяти
  • Чувствительность гиперпараметров: требуется значительная корректировка количества слоёв (1-32 слоя) для разных наборов данных

3. Недостаточный анализ

  • Визуализация взаимодействия признаков: отсутствует анализ конкретных клинических признаков и их взаимодействий
  • Анализ ошибок: не обсуждены случаи неправильного прогнозирования модели
  • Недостаточное сравнение со SCANE: хотя доказано, что это частный случай, отсутствует прямое сравнение производительности при различных значениях d'

4. Проблемы воспроизводимости

  • Код не опубликован: влияет на проверку результатов
  • Приватные наборы данных: набор данных HCC недоступен для общественности
  • Случайные семена: не ясно, зафиксированы ли они

Оценка влияния

Вклад в область (★★★★☆)

  • Теоретический вклад: установление теоретической основы мультипликативного слияния в моделировании ЭМЗ
  • Методологический вклад: предоставление универсального фреймворка, расширяемого на другие нерегулярные временные ряды
  • Эмпирический вклад: установление нового SOTA на стандартных бенчмарках

Практическая ценность (★★★☆☆)

  • Преимущества: отсутствие импутации, прямая обработка нерегулярных данных
  • Ограничения: высокие вычислительные затраты, требование большого исходного набора данных для поддержки передачи
  • Применимые сценарии: подходит для исследовательских учреждений и крупных медицинских центров с достаточными вычислительными ресурсами

Воспроизводимость (★★★☆☆)

  • Подробное описание метода: формулы и архитектура ясны
  • Отсутствие кода: снижает воспроизводимость
  • Частичная доступность данных: P12 и MI3 открыты, HCC приватен

Применимые сценарии

Наиболее подходящие

  1. Сценарии с высоким уровнем пропусков (>70%): преимущество отсутствия импутации очевидно
  2. Нерегулярная выборка: мониторинг в ОИТ, амбулаторные визиты и другие асинхронные данные
  3. Доминирование числовых признаков: лабораторные тесты, жизненные показатели и другие непрерывные измерения
  4. Требование предварительного обучения: возможность использования крупных исходных наборов данных

Менее подходящие

  1. Прогнозирование в реальном времени: задержка вывода 32-слойного Transformer относительно высока
  2. Сценарии с малым количеством образцов: обучение с передачей требует крупного исходного набора данных
  3. Чисто категориальные признаки: преимущество мультипликативного слияния неочевидно
  4. Среды с ограниченными ресурсами: граничные устройства, мобильные приложения здравоохранения

Рекомендации по улучшению

  1. Адаптивный выбор размерности: разработка метода автоматического определения k (например, нейронный поиск архитектуры)
  2. Лёгкие варианты: исследование дистилляции знаний или обрезки для снижения вычислительных затрат
  3. Мультимодальное расширение: интеграция клинических заметок и медицинских изображений
  4. Повышение интерпретируемости: предоставление клинической семантической интерпретации взаимодействий признаков
  5. Открытие кода и моделей: содействие проверке сообществом и практическому применению

Избранные ссылки

  1. Huang et al. (2024): SCANE/SUMMIT — улучшаемый базовый метод SOTA данной работы
  2. Chrysos et al. (2025): Обзор произведения Адамара в глубоком обучении
  3. Tipirneni & Reddy (2022): STraTS — представительная работа парадигмы EVAT
  4. Shukla & Marlin (2021): mTAN — механизм внимания в непрерывном времени
  5. Vaswani et al. (2017): Transformer — архитектура backbone данной работы
  6. Johnson et al. (2016): База данных MIMIC-III — ключевой набор данных оценки

Резюме

MedFuse — это статья с существенным вкладом в область моделирования клинических временных рядов. Её основная инновация — мультипликативное слияние встраиваний (MuFuse) — не только элегантно обобщает существующий метод SOTA с теоретической точки зрения, но и достигает последовательного улучшения производительности на нескольких реальных наборах данных. Экспериментальное проектирование комплексно, от основного сравнения производительности до исследований абляции, анализа размерности и обучения с передачей, систематически валидирующих эффективность метода.

Особенно достойны похвалы выводы авторов о медицинской эквифинальности — через эффект маскирования мультипликативного слияния естественно моделируется явление, когда различные аномальные отклонения соответствуют одному и тому же клиническому риску. Это демонстрирует глубокое понимание авторами клинической области.

Однако статья имеет и недостатки: высокие вычислительные затраты, ограниченные эксперименты по передаче, отсутствие опубликованного кода и другие. Несмотря на это, MedFuse предоставляет мощный и универсальный фреймворк для моделирования нерегулярных клинических временных рядов, имеющий значительное значение для развития области медицинского искусственного интеллекта. С нетерпением ожидаем дальнейших работ по мультимодальному расширению, интерпретируемости и практическому клиническому развёртыванию.

Рекомендуемый рейтинг: 8,5/10