2025-11-23T05:40:16.518964

Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models

Kim, Fisher, Pipiras
The multiple-subject vector autoregression (multi-VAR) model captures heterogeneous network Granger causality across subjects by decomposing individual sparse VAR transition matrices into commonly shared and subject-unique paths. The model has been applied to characterize hidden shared and unique paths among subjects and has demonstrated performance compared to methods commonly used in psychology and neuroscience. Despite this innovation, the model suffers from using a weighted median for identifying the common effects, leading to statistical inefficiency as the convergence rates of the common and unique paths are determined by the least sparse subject and the smallest sample size across all subjects. We propose a new identifiability condition for the multi-VAR model based on a communication-efficient data integration framework. We show that this approach achieves convergence rates tailored to each subject's sparsity level and sample size. Furthermore, we develop hypothesis tests to assess the nullity and homogeneity of individual paths, using Wald-type test statistics constructed from individual debiased estimators. A test for the significance of the common paths can also be derived through the framework. Simulation studies under various heterogeneity scenarios and a real data application demonstrate the performance of the proposed method compared to existing benchmark across standard evaluation metrics.
academic

Совместное моделирование и вывод множественных высокомерных разреженных векторных авторегрессионных моделей

Основная информация

  • ID статьи: 2510.14044
  • Название: Joint modeling and inference of multiple-subject high-dimensional sparse vector autoregressive models
  • Авторы: Younghoon Kim (Корнеллский университет), Zachary F. Fisher (Университет Северной Каролины в Чапел-Хилл), Vladas Pipiras (Университет Северной Каролины в Чапел-Хилл)
  • Классификация: stat.ME (Статистика - Методология)
  • Дата публикации: 17 октября 2025
  • Ссылка на статью: https://arxiv.org/abs/2510.14044

Аннотация

Многосубъектные векторные авторегрессионные (multi-VAR) модели захватывают гетерогенные сетевые причинно-следственные связи Грейнджера между субъектами путём разложения индивидуальных разреженных матриц переходов VAR на общие общие пути и субъект-специфичные пути. Хотя эта модель применялась для характеристики скрытых общих и уникальных путей между субъектами и продемонстрировала превосходную производительность по сравнению с обычно используемыми методами в психологии и нейронауке, её использование взвешенной медианы для идентификации общих эффектов имеет проблемы статистической эффективности, поскольку скорости сходимости общих и уникальных путей определяются наименее разреженным субъектом и минимальным размером выборки среди всех субъектов. В данной работе на основе коммуникационно-эффективной структуры интеграции данных предлагаются новые условия идентифицируемости для модели multi-VAR, обеспечивающие адаптированные скорости сходимости для каждого уровня разреженности субъекта и размера выборки. Кроме того, разработана структура проверки гипотез для оценки нулевости и однородности индивидуальных путей с использованием статистик типа Вальда, построенных на основе индивидуальных несмещённых оценок, через которую можно вывести проверку значимости общих путей.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, касается статистической эффективности и вывода при многосубъектном высокомерном разреженном векторном авторегрессионном моделировании. Конкретно:

  1. Проблема статистической эффективности: Существующие модели multi-VAR используют взвешенную медиану для идентификации общих эффектов, что приводит к скоростям сходимости, ограниченным наименее разреженным субъектом и минимальным размером выборки, что не позволяет полностью использовать гетерогенные характеристики каждого субъекта.
  2. Отсутствие структуры вывода: Отсутствует формальная структура проверки гипотез для многосубъектных VAR моделей, что не позволяет оценить значимость, нулевость и однородность индивидуальных путей.

Значимость исследования

Эта проблема имеет важное значение в следующих областях:

  • Нейронаука: Анализ паттернов сетевых соединений мозга у нескольких испытуемых, идентификация общих и субъект-специфичных нейронных соединений
  • Психология: Понимание индивидуальных различий и общих психологических процессов
  • Геномика: Анализ общих и субъект-специфичных паттернов сетей генной регуляции
  • Финансы: Моделирование системного и индивидуального риска в финансовых временных рядах

Ограничения существующих методов

Исходный метод multi-VAR имеет следующие проблемы:

  1. Субоптимальные скорости сходимости: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(max_k(∥α^(k)∥₀) log d²p)/N_k), ограниченные наименее разреженным субъектом
  2. Низкая вычислительная эффективность: Требуется объединение всех уравнений субъектов для решения крупномасштабных задач оптимизации
  3. Отсутствие инструментов вывода: Невозможно проводить статистические тесты и количественно оценивать неопределённость

Основные вклады

  1. Предложены новые условия идентифицируемости: На основе коммуникационно-эффективной структуры интеграции данных, избегающие проблем статистической эффективности метода взвешенной медианы
  2. Реализованы индивидуализированные скорости сходимости: Скорости сходимости теперь зависят от собственного уровня разреженности и размера выборки каждого субъекта, а не от глобального наихудшего случая
  3. Построена полная структура вывода: Разработаны три класса проверок гипотез: тесты нулевости, тесты однородности и тесты значимости
  4. Теоретические гарантии: Предоставлены теория скоростей сходимости оценок и асимптотического распределения статистик тестов
  5. Повышение вычислительной эффективности: Применена стратегия отдельного оценивания с последующей агрегацией, значительно снижающая вычислительную сложность

Подробное описание методов

Определение задачи

Дано K субъектов с d-мерными временными рядами {X_t^(k)}, каждый субъект имеет T_k временных точек. Цель состоит в:

  1. Оценке общих путей α^(0): параметры матрицы переходов VAR, общие для всех субъектов
  2. Оценке уникальных путей α^(k): параметры, специфичные для k-го субъекта
  3. Удовлетворении соотношению разложения: β^(k) = α^(0) + α^(k), где β^(k) — полный вектор параметров k-го субъекта

Архитектура модели

1. Спецификация VAR модели

Каждый субъект следует модели VAR(p):

X_t^(k) = Φ₁^(k)X_{t-1}^(k) + ... + Φ_p^(k)X_{t-p}^(k) + ε_t^(k)

где ε_t^(k) ~ N(0, Σ_ε^(k)), Σ_ε^(k) = diag(σ²_{k,1}, ..., σ²_{k,d})

2. Процедура оценивания

Шаг 1: Индивидуальное оценивание Для каждого субъекта k и каждой переменной i используется регрессия Лассо:

β̂_i^(k) = argmin_{β_i^(k)} {1/(2N_k)||Y_i^(k) - X^(k)β_i^(k)||²₂ + λ_i^(k)||β_i^(k)||₁}

Шаг 2: Несмещённое оценивание Вычисление несмещённого оценивателя:

β̃_i^(k) = β̂_i^(k) + (1/N_k)Θ̂^(k)X^(k)'(Y_i^(k) - X^(k)β̂_i^(k))

где Θ̂^(k) — приближённое обратное матрице Гессиана, вычисляемое через узловую регрессию.

Шаг 3: Робастная агрегация Использование функции потерь с переопределением для идентификации общих путей:

(α̃_i^(0))_j = argmin_{x∈ℝ} {∑_{k=1}^K min{((β̃_i^(k))_j - x)², η_j²}}

Шаг 4: Разреживание Применение жёсткого или мягкого порогового отсечения для восстановления разреженности:

α̂_i^(0) = HT_{δ₀}(α̃_i^(0))
α̂_i^(k) = HT_{δₖ}(β̃_i^(k) - α̃_i^(0))

Технические инновации

  1. Робастный M-оценитель: Идентификация общих эффектов рассматривается как проблема загрязнения измерений, использующая функцию потерь с переопределением для обработки выбросов
  2. Индивидуализированные пороги: δₖ ~ √(log q/Nₖ), δ₀ ~ √(log q/(KN_)), полностью использующие информацию о выборке каждого субъекта
  3. Коммуникационно-эффективная структура: Избегает глобальной оптимизации, каждый субъект может вычисляться независимо с последующей агрегацией

Экспериментальная установка

Наборы данных

Смоделированные данные

  • Параметры: K ∈ {10,15}, d ∈ {10,20}, средняя длина выборки T ∈ {50,200}
  • Уровни гетерогенности: (s₀,sₖ) ∈ {(0.02,0.04), (0.03,0.03), (0.04,0.02)}, соответствующие высокой, средней и низкой гетерогенности
  • Общая разреженность: зафиксирована на 6%
  • Количество повторений: 50 повторений для каждой конфигурации

Реальные данные

  • Источник данных: Данные fMRI задачи обработки эмоций из Human Connectome Project (HCP)
  • Испытуемые: 12 женщин, возраст 22-30 лет
  • Разделение мозговых областей: Атлас Schaefer2018 400-parcel, отображённый на 17 функциональных сетей
  • Длина выборки: средний Tₖ = 165 временных точек

Метрики оценивания

Производительность оценивания

  • RMSE: ∥α̂ - α∥₂/∥α∥₂
  • Чувствительность: Доля правильно идентифицированных ненулевых параметров
  • Специфичность: Доля правильно идентифицированных нулевых параметров

Производительность вывода

  • FDR: Коэффициент ложных открытий
  • Power: Статистическая мощность
  • Время вычисления: Коэффициент ускорения относительно базового метода

Методы сравнения

  • multi-VAR: Исходная многосубъектная VAR модель
  • multi-VAR(A): multi-VAR с адаптивным штрафом Лассо

Результаты экспериментов

Основные результаты

Производительность оценивания

  1. Низкомерный случай (d=10): Предложенный метод превосходит существующие методы по RMSE
  2. Высокомерный случай (d=20): По мере увеличения размера выборки разница в производительности сокращается
  3. Чувствительность и специфичность: Сопоставимы с адаптивным multi-VAR, что указывает на то, что индивидуализированные пороги действуют подобно адаптивным весам

Вычислительная эффективность

Предложенный метод показывает значительное преимущество во времени вычисления по сравнению с базовыми методами:

  • d=10, T=50: коэффициент ускорения около 2-3 раз
  • d=20, T=200: коэффициент ускорения может достигать 60-100 раз

Улучшение скоростей сходимости

Теоретический анализ показывает, что предложенный метод достигает индивидуализированных скоростей сходимости:

  • Общие пути: ∥α̂^(0) - α^(0)∥₂ ≤ O_P(√(s₀,max log d²/(KN_)))
  • Уникальные пути: ∥α̂^(k) - α^(k)∥₂ ≤ O_P(√(sₖ,max log d²/Nₖ))

Результаты вывода

Производительность проверки гипотез

  1. Тесты нулевости: FDR в диапазоне 0.0-0.6, мощность 0.5-1.0
  2. Тесты однородности: FDR в диапазоне 0.0-0.6, мощность 0.4-1.0
  3. Тесты значимости: FDR всегда равен 0, мощность 0.25-1.0

Производительность тестов улучшается с увеличением размера выборки и устойчива к изменениям размерности.

Применение к реальным данным

Открытие сетей мозга

  1. Общие соединения: Идентифицированы соединения сетей мозга, связанные с обработкой эмоций, общие для всех испытуемых
  2. Индивидуальные различия: По сравнению с базовыми методами, предложенный метод идентифицирует более разреженные, но более интерпретируемые паттерны соединений
  3. Биологическое значение: Обнаруженные соединения соответствуют известным нейромеханизмам обработки эмоций

Ключевые находки

  • Двусторонние соединения между вентральной сетью внимания A и сетью режима по умолчанию B
  • Соединения от фронтопариетальной сети A к лимбической системе B
  • Соединения внутри лимбической системы от A к B

Связанные работы

Многосубъектное моделирование временных рядов

  1. Многоклассовые VAR модели (Wilms et al., 2018): Использование слитого Лассо для поощрения сходства между субъектами
  2. Модели с неперекрывающимися носителями (Skripnikov & Michailidis, 2019): Различение общих и уникальных компонентов через невыпуклые штрафы
  3. Совместные VAR модели (Manomaisaowapak & Songsiri, 2022): Использование группового Лассо для идентификации общих компонентов

Высокомерные временные ряды

  • Разреженное VAR моделирование: Применение методов типа Лассо в высокомерных условиях
  • Несмещённое оценивание: Теория статистического вывода в высокомерной регрессии
  • Робастное оценивание: Методы M-оценивания для обработки гетерогенных данных

Преимущества данной работы

По сравнению с существующими методами, данная работа впервые предоставляет:

  1. Теоретически гарантированные индивидуализированные скорости сходимости
  2. Полную структуру статистического вывода
  3. Коммуникационно-эффективную вычислительную стратегию

Заключение и обсуждение

Основные выводы

  1. Эффективность метода: Новые условия идентифицируемости значительно улучшают статистическую эффективность модели multi-VAR
  2. Теоретический вклад: Установлена теория индивидуализированных скоростей сходимости, преодолевающая глобальные ограничения существующих методов
  3. Практическая ценность: Структура вывода заполняет важный пробел в многосубъектном высокомерном моделировании временных рядов
  4. Перспективы применения: Демонстрирует хороший потенциал применения в нейронауке и других областях

Ограничения

  1. Предположения о распределении: В настоящее время ограничено гауссовскими инновациями, расширение на распределения с тяжёлыми хвостами остаётся вызовом
  2. Настройка параметров: Выбор сетки параметров при перекрёстной проверке требует стандартизированных критериев
  3. Высокие порядки лагов: Проектирование структурированных штрафов при расширении на модели VAR(p) требует дальнейшей работы

Будущие направления

  1. Расширение распределений: Обработка более общих распределений инноваций, таких как субэкспоненциальные
  2. Расширение кластеризации: Объединение с кластеризацией частично общих путей
  3. Структурированное моделирование: Методы перекрывающейся групповой разреженности для высоких порядков лагов

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Предоставляет полный анализ скоростей сходимости и теорию асимптотического распределения
  2. Методологическая инновативность: Умело объединяет робастное оценивание и коммуникационно-эффективную структуру
  3. Полнота экспериментов: Охватывает множество сценариев гетерогенности и проверку на реальных данных
  4. Высокая практическая ценность: Решает важные теоретические и практические проблемы в данной области

Недостатки

  1. Вычислительная сложность: Трёхуровневая перекрёстная проверка для выбора параметров имеет высокие вычислительные затраты
  2. Строгие условия предположений: Технические условия в Assumption 2.2 довольно строги
  3. Расширяемость: Расширяемость метода на более сложные структуры моделей требует проверки

Влияние

  1. Академический вклад: Предоставляет новую теоретическую структуру для анализа многосубъектных высокомерных временных рядов
  2. Практическая ценность: Имеет широкие перспективы применения в нейронауке, психологии и других областях
  3. Воспроизводимость: Предоставляет полную реализацию в пакете R, облегчающую воспроизведение исследований

Применимые сценарии

  • Анализ многосубъектных сетей мозга
  • Исследования индивидуальных различий
  • Моделирование гетерогенных временных рядов
  • Приложения высокомерного VAR, требующие статистического вывода

Библиография

Статья цитирует обширную литературу по смежным вопросам, охватывающую высокомерную статистику, анализ временных рядов, робастное оценивание и другие области, обеспечивая прочную теоретическую основу для исследования.