2025-11-22T01:28:15.129039

EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions

Welbaum, Qiao

In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.

academic

Подходы EM к непараметрическому оцениванию для смеси линейных регрессий

Основная информация

ID статьи: 2510.14890
Название: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
Авторы: Andrew Welbaum, Wanli Qiao (George Mason University)
Классификация: stat.ME stat.ML
Дата публикации: 17 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14890

Аннотация

В модели смеси линейных регрессий коэффициенты регрессии рассматриваются как случайные векторы, которые могут следовать непрерывному или дискретному распределению. В данной работе предложены два алгоритма ожидания-максимизации (EM) для оценки этого априорного распределения. Первый алгоритм решает ядеризованную версию непараметрической оценки максимального правдоподобия (NPMLE), которая не только восстанавливает непрерывные априорные распределения, но и точно оценивает количество кластеров, когда априорное распределение дискретно. Второй алгоритм предназначен для аппроксимации NPMLE для априорных распределений с плотностью. В сочетании с этапом постобработки он также хорошо работает с дискретными априорными распределениями. Изучены свойства сходимости обоих алгоритмов и продемонстрирована их эффективность на моделировании и приложениях к реальным наборам данных.

Исследовательский контекст и мотивация

Определение проблемы

Модель смеси линейных регрессий расширяет многомерную линейную регрессию, позволяя вектору коэффициентов иметь непрерывное или дискретное априорное распределение. Эта модель имеет широкое применение, когда переменная отклика и ковариаты могут иметь персонализированные или кластеризованные линейные отношения, включая сегментацию рынка, медицинские исследования, образовательные исследования, а также различные промышленные и экономические исследования.

Постановка модели

Рассмотрим n независимых наблюдений $(x_1, y_1), \ldots, (x_n, y_n) \in \mathbb{R}^d \times \mathbb{R}$ , порождаемых следующей моделью: $y_i = x_i^T \beta_i + \sigma z_i$ где $\beta_1, \ldots, \beta_n \stackrel{iid}{\sim} G^*$ , $z_1, \ldots, z_n \stackrel{iid}{\sim} N(0,1)$ , $\sigma > 0$ известно, $G^*$ — неизвестное вероятностное распределение на $\mathbb{R}^d$ .

Исследовательская мотивация

Ограничения существующих методов: Традиционные алгоритмы EM требуют предварительного знания количества компонент K, тогда как методы на основе NPMLE (например, Jiang and Guntuboyina 2025), хотя теоретически состоятельны, на практике часто не могут точно обнаружить истинное количество компонент
Практические потребности: Необходимы методы, которые могут одновременно обрабатывать непрерывные распределения и автоматически обнаруживать количество компонент дискретных распределений
Приложения кластеризации: Когда $G^*$ дискретно, необходимо кластеризовать наблюдения на основе оценочных результатов

Основные вклады

Предложен алгоритм EM-NPMLE: Для априорных распределений с плотностью, сходящийся к NPMLE
Предложен алгоритм EM-NPKMLE: Посредством ограниченной оптимизации оценки ядерной плотности автоматически обнаруживает количество компонент дискретного распределения
Теоретические гарантии: Доказаны свойства сходимости обоих алгоритмов
Стратегия постобработки: Предложены методы постобработки mean shift и SCMS для обработки специальных структур
Проверка практичности: Методы проверены на моделировании и реальных данных

Подробное описание методов

Определение задачи

Дано: наблюдаемые данные $\{(x_i, y_i)\}_{i=1}^n$ . Цель — оценить неизвестное априорное распределение $G^*$ для:

Непараметрической оценки непрерывного распределения
Автоматического определения количества компонент дискретного распределения и оценки параметров
Кластеризации на основе оценочных результатов

Алгоритм EM-NPMLE (Метод 1)

Область применения: $G^*$ имеет функцию плотности $g^*$

Процедура алгоритма:

E-шаг: Вычисление апостериорной плотности $f_i^{(t+1)}(\beta) = \frac{\phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)}{\int_{\mathbb{R}^d} \phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)d\beta}$
M-шаг: Обновление оценки плотности $g^{(t+1)} = \frac{1}{n}\sum_{i=1}^n f_i^{(t+1)}$

Теоретические свойства:

Теорема 2.1: При надлежащих условиях $G^{(t)}$ слабо сходится к единственной NPMLE $\hat{G}$

Алгоритм EM-NPKMLE (Метод 2)

Основная идея: Ограничить оптимизацию множеством оценок ядерной плотности $\mathcal{G}_{kde}$ : $\mathcal{G}_{kde} = \left\{\frac{1}{nh^d}\sum_{\ell=1}^n v\left(\frac{\|\cdot - \tilde{\beta}_\ell\|^2}{h^2}\right) : \tilde{\beta}_1, \ldots, \tilde{\beta}_n \in \mathbb{R}^d\right\}$

Структура алгоритма: Двойной цикл EM-алгоритма

Внешний цикл: EM-итерации для обновления распределения
Внутренний цикл: Градиентный подъем для оптимизации параметров оценки ядерной плотности

Ключевая формула обновления: $\nu_\ell^{(r+1)} = \xi(\nu_\ell^{(r)}; \beta^{(t)}, x, y) = \frac{A(\nu_\ell^{(r)}; \beta^{(t)}, x, y)}{C(\nu_\ell^{(r)}, \beta^{(t)}, x, y)}$

где $A$ и $C$ определяются вычислением градиента.

Технические инновации

Адаптивный размер шага: Градиентный подъем использует адаптивный размер шага $1/C(\nu_\ell^{(r)}, \beta^{(t)}, x, y)$ , не требующий ручной настройки
Выбор полосы пропускания: Стратегия выбора полосы пропускания на основе принципа максимального сглаживания, избегающая ложных мод
Гибкость постобработки: Разработаны соответствующие методы постобработки для различных структур априорного распределения

Экспериментальная установка

Смоделированные данные

Моделирование 1: Трёхкомпонентное дискретное распределение

Компоненты: $y = 3-x$ , $y = 1+1.5x$ , $y = -1+0.5x$
Веса: (0.3, 0.3, 0.4)
Шум: $\sigma = 0.5$
Размер выборки: от 500 до 10,000

Моделирование 2: Непрерывное распределение

Равномерное распределение на двух концентрических окружностях: $\frac{1}{2} \times \text{Uniform}\{B(1)\} + \frac{1}{2} \times \text{Uniform}\{B(2)\}$

Метрики оценки

Скорректированный индекс Рэнда (ARI): Качество кластеризации
Точность обнаружения компонент: Доля случаев правильного определения истинного количества компонент
Расстояние Вассерштейна-2: Качество оценки распределения
Смещение и стандартное отклонение: Точность оценки параметров

Методы сравнения

Метод CGM: Метод условного градиента Jiang and Guntuboyina (2025)
EM-NPMLE + Mean Shift: Версия с постобработкой
Оракул-метод: Теоретическая верхняя граница при известном истинном распределении

Детали реализации

Ядерная функция: гауссово ядро
Полоса пропускания: выбирается на основе принципа максимального сглаживания
Инициализация: равномерное распределение или выход EM-NPMLE
Критерий сходимости: расстояние $L_2$ меньше предустановленного порога

Результаты экспериментов

Основные результаты

Результаты моделирования 1 (размер выборки 10,000):

EM-NPKMLE: ARI=0.651, точность обнаружения компонент=99.5%, расстояние W-2=0.288
EM-NPMLE+Mean Shift: ARI=0.662, точность обнаружения компонент=100%, расстояние W-2=0.265
CGM: ARI=0.596, точность обнаружения компонент=0%, среднее количество компонент=7.57

Ключевые находки:

Оба метода EM-NPKMLE и EM-NPMLE+Mean Shift последовательно оценивают истинное количество компонент
Метод CGM систематически переоценивает количество компонент
С увеличением размера выборки все оценки стремятся к истинному значению

Точность оценки параметров

Оценка коэффициентов для трёх компонент (n=10,000):

Компонента 1: Истинное значение (3,-1), оценка (-0.112, 0.004)±(0.011, 0.010)
Компонента 2: Истинное значение (1,1.5), оценка (-0.115, 0.013)±(0.018, 0.012)
Компонента 3: Истинное значение (-1,0.5), оценка (0.113, 0.027)±(0.013, 0.010)

Сравнение вычислительной эффективности

GEM-NPKMLE (один внутренний цикл) в сравнении с полным EM-NPKMLE:

Время: 15.4 минут против 115.9 минут (n=5000)
Производительность: практически эквивалентна при больших выборках

Приложение к реальным данным

Данные CO2-GDP:

Обнаружено 2 основные компоненты с весами 0.484 и 0.358
Коэффициенты: (0.022, 0.179) и (-0.070, 0.343)
Согласуется с основными компонентами метода CGM

Данные восприятия музыкального тона:

Обнаружено 2 компоненты, соответствующие музыкальной теории
Компоненты соответствуют теоретическим предсказаниям $y=x$ и $y=2$

Связанные работы

Исследования NPMLE

Классические работы: Kiefer and Wolfowitz (1956) впервые описали NPMLE для смешанных моделей
Недавние достижения: Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025) и др.

Развитие алгоритма EM

Современный EM: Dempster et al. (1977) формализовали алгоритм
Смешанная регрессия: DeSarbo and Cron (1988) расширили на кластеризованную линейную регрессию
Оценка количества компонент: Традиционные методы основаны на информационных критериях AIC, BIC и т.д.

Преимущества данной работы

Без предустановки количества компонент: В отличие от традиционного алгоритма EM
Точное обнаружение компонент: В отличие от существующих методов NPMLE
Унифицированная структура: Одновременно обрабатывает непрерывные и дискретные распределения

Заключение и обсуждение

Основные выводы

Алгоритм EM-NPKMLE может автоматически обнаруживать истинное количество компонент дискретного распределения, избегая переоценки традиционных методов
Гарантии сходимости: Оба алгоритма имеют теоретические гарантии сходимости
Высокая практичность: Демонстрируют хорошую производительность на моделировании и реальных данных
Вычислительная эффективность: Вариант GEM обеспечивает хороший баланс между эффективностью и точностью

Ограничения

Выбор полосы пропускания: Требуется надлежащая стратегия выбора полосы пропускания; текущий метод может быть неоптимальным
Локальный оптимум: Градиентный подъем может застрять в локальном оптимуме
Вызовы высокой размерности: Производительность в высокомерных случаях требует дальнейшего исследования
Определение типа распределения: На практике сложно предварительно определить, является ли распределение непрерывным или дискретным

Направления будущих исследований

Адаптивная полоса пропускания: Разработка адаптивной полосы пропускания для различных итераций или размерностей
Теоретический анализ: Углубленное исследование теоретических свойств EM-NPKMLE
Расширенные приложения: Обобщение на общие модели смешанных распределений
Оптимизация вычислений: Дальнейшее повышение вычислительной эффективности алгоритма

Глубокая оценка

Преимущества

Высокая методологическая инновативность: Ядеризованная NPMLE с ограничениями — это новаторский подход
Высокая практическая ценность: Решает практическую проблему автоматического обнаружения количества компонент
Прочная теоретическая база: Предоставляет доказательства сходимости
Достаточное экспериментирование: Включает проверку на моделировании и реальных данных
Ясное изложение: Подробное описание алгоритмов, строгие математические выводы

Недостатки

Зависимость от полосы пропускания: Производительность алгоритма довольно чувствительна к выбору полосы пропускания
Вычислительная сложность: Структура двойного цикла имеет высокие вычислительные затраты
Расширяемость на высокие размерности: Отсутствует систематическое исследование для высокомерных случаев
Ограниченное сравнение: Основное сравнение с методом CGM, недостаточно других базовых методов

Влияние

Теоретический вклад: Предоставляет новые идеи для непараметрического оценивания в смешанной регрессии
Практическая ценность: Имеет прямое применение в кластеризации и оценке распределений
Воспроизводимость: Подробное описание алгоритма облегчает воспроизведение
Расширяемость: Структура может быть расширена на другие смешанные модели

Сценарии применения

Сегментация рынка: Анализ моделей поведения различных групп потребителей
Медицинские исследования: Анализ ответа на лечение в подгруппах пациентов
Экономические исследования: Анализ различных путей экономического роста
Машинное обучение: Кластеризованная регрессия и полусупервизированное обучение

Библиография

Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.

Общая оценка: Это высококачественная статья по методологии статистики, предлагающая инновационные EM-алгоритмы для решения важной проблемы в смешанной линейной регрессии. Методы имеют прочную теоретическую базу и хорошую практическую производительность, предоставляя ценные инструменты для соответствующих областей. Несмотря на некоторые ограничения, её вклад значителен и имеет хорошую академическую и прикладную ценность.