In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.
- ID статьи: 2510.14890
- Название: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
- Авторы: Andrew Welbaum, Wanli Qiao (George Mason University)
- Классификация: stat.ME stat.ML
- Дата публикации: 17 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.14890
В модели смеси линейных регрессий коэффициенты регрессии рассматриваются как случайные векторы, которые могут следовать непрерывному или дискретному распределению. В данной работе предложены два алгоритма ожидания-максимизации (EM) для оценки этого априорного распределения. Первый алгоритм решает ядеризованную версию непараметрической оценки максимального правдоподобия (NPMLE), которая не только восстанавливает непрерывные априорные распределения, но и точно оценивает количество кластеров, когда априорное распределение дискретно. Второй алгоритм предназначен для аппроксимации NPMLE для априорных распределений с плотностью. В сочетании с этапом постобработки он также хорошо работает с дискретными априорными распределениями. Изучены свойства сходимости обоих алгоритмов и продемонстрирована их эффективность на моделировании и приложениях к реальным наборам данных.
Модель смеси линейных регрессий расширяет многомерную линейную регрессию, позволяя вектору коэффициентов иметь непрерывное или дискретное априорное распределение. Эта модель имеет широкое применение, когда переменная отклика и ковариаты могут иметь персонализированные или кластеризованные линейные отношения, включая сегментацию рынка, медицинские исследования, образовательные исследования, а также различные промышленные и экономические исследования.
Рассмотрим n независимых наблюдений (x1,y1),…,(xn,yn)∈Rd×R, порождаемых следующей моделью:
yi=xiTβi+σzi
где β1,…,βn∼iidG∗, z1,…,zn∼iidN(0,1), σ>0 известно, G∗ — неизвестное вероятностное распределение на Rd.
- Ограничения существующих методов: Традиционные алгоритмы EM требуют предварительного знания количества компонент K, тогда как методы на основе NPMLE (например, Jiang and Guntuboyina 2025), хотя теоретически состоятельны, на практике часто не могут точно обнаружить истинное количество компонент
- Практические потребности: Необходимы методы, которые могут одновременно обрабатывать непрерывные распределения и автоматически обнаруживать количество компонент дискретных распределений
- Приложения кластеризации: Когда G∗ дискретно, необходимо кластеризовать наблюдения на основе оценочных результатов
- Предложен алгоритм EM-NPMLE: Для априорных распределений с плотностью, сходящийся к NPMLE
- Предложен алгоритм EM-NPKMLE: Посредством ограниченной оптимизации оценки ядерной плотности автоматически обнаруживает количество компонент дискретного распределения
- Теоретические гарантии: Доказаны свойства сходимости обоих алгоритмов
- Стратегия постобработки: Предложены методы постобработки mean shift и SCMS для обработки специальных структур
- Проверка практичности: Методы проверены на моделировании и реальных данных
Дано: наблюдаемые данные {(xi,yi)}i=1n. Цель — оценить неизвестное априорное распределение G∗ для:
- Непараметрической оценки непрерывного распределения
- Автоматического определения количества компонент дискретного распределения и оценки параметров
- Кластеризации на основе оценочных результатов
Область применения: G∗ имеет функцию плотности g∗
Процедура алгоритма:
- E-шаг: Вычисление апостериорной плотности
fi(t+1)(β)=∫Rdϕσ(yi−xiTβ)g(t)(β)dβϕσ(yi−xiTβ)g(t)(β)
- M-шаг: Обновление оценки плотности
g(t+1)=n1∑i=1nfi(t+1)
Теоретические свойства:
- Теорема 2.1: При надлежащих условиях G(t) слабо сходится к единственной NPMLE G^
Основная идея: Ограничить оптимизацию множеством оценок ядерной плотности Gkde:
Gkde={nhd1∑ℓ=1nv(h2∥⋅−β~ℓ∥2):β~1,…,β~n∈Rd}
Структура алгоритма: Двойной цикл EM-алгоритма
- Внешний цикл: EM-итерации для обновления распределения
- Внутренний цикл: Градиентный подъем для оптимизации параметров оценки ядерной плотности
Ключевая формула обновления:
νℓ(r+1)=ξ(νℓ(r);β(t),x,y)=C(νℓ(r),β(t),x,y)A(νℓ(r);β(t),x,y)
где A и C определяются вычислением градиента.
- Адаптивный размер шага: Градиентный подъем использует адаптивный размер шага 1/C(νℓ(r),β(t),x,y), не требующий ручной настройки
- Выбор полосы пропускания: Стратегия выбора полосы пропускания на основе принципа максимального сглаживания, избегающая ложных мод
- Гибкость постобработки: Разработаны соответствующие методы постобработки для различных структур априорного распределения
Моделирование 1: Трёхкомпонентное дискретное распределение
- Компоненты: y=3−x, y=1+1.5x, y=−1+0.5x
- Веса: (0.3, 0.3, 0.4)
- Шум: σ=0.5
- Размер выборки: от 500 до 10,000
Моделирование 2: Непрерывное распределение
- Равномерное распределение на двух концентрических окружностях: 21×Uniform{B(1)}+21×Uniform{B(2)}
- Скорректированный индекс Рэнда (ARI): Качество кластеризации
- Точность обнаружения компонент: Доля случаев правильного определения истинного количества компонент
- Расстояние Вассерштейна-2: Качество оценки распределения
- Смещение и стандартное отклонение: Точность оценки параметров
- Метод CGM: Метод условного градиента Jiang and Guntuboyina (2025)
- EM-NPMLE + Mean Shift: Версия с постобработкой
- Оракул-метод: Теоретическая верхняя граница при известном истинном распределении
- Ядерная функция: гауссово ядро
- Полоса пропускания: выбирается на основе принципа максимального сглаживания
- Инициализация: равномерное распределение или выход EM-NPMLE
- Критерий сходимости: расстояние L2 меньше предустановленного порога
Результаты моделирования 1 (размер выборки 10,000):
- EM-NPKMLE: ARI=0.651, точность обнаружения компонент=99.5%, расстояние W-2=0.288
- EM-NPMLE+Mean Shift: ARI=0.662, точность обнаружения компонент=100%, расстояние W-2=0.265
- CGM: ARI=0.596, точность обнаружения компонент=0%, среднее количество компонент=7.57
Ключевые находки:
- Оба метода EM-NPKMLE и EM-NPMLE+Mean Shift последовательно оценивают истинное количество компонент
- Метод CGM систематически переоценивает количество компонент
- С увеличением размера выборки все оценки стремятся к истинному значению
Оценка коэффициентов для трёх компонент (n=10,000):
- Компонента 1: Истинное значение (3,-1), оценка (-0.112, 0.004)±(0.011, 0.010)
- Компонента 2: Истинное значение (1,1.5), оценка (-0.115, 0.013)±(0.018, 0.012)
- Компонента 3: Истинное значение (-1,0.5), оценка (0.113, 0.027)±(0.013, 0.010)
GEM-NPKMLE (один внутренний цикл) в сравнении с полным EM-NPKMLE:
- Время: 15.4 минут против 115.9 минут (n=5000)
- Производительность: практически эквивалентна при больших выборках
Данные CO2-GDP:
- Обнаружено 2 основные компоненты с весами 0.484 и 0.358
- Коэффициенты: (0.022, 0.179) и (-0.070, 0.343)
- Согласуется с основными компонентами метода CGM
Данные восприятия музыкального тона:
- Обнаружено 2 компоненты, соответствующие музыкальной теории
- Компоненты соответствуют теоретическим предсказаниям y=x и y=2
- Классические работы: Kiefer and Wolfowitz (1956) впервые описали NPMLE для смешанных моделей
- Недавние достижения: Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025) и др.
- Современный EM: Dempster et al. (1977) формализовали алгоритм
- Смешанная регрессия: DeSarbo and Cron (1988) расширили на кластеризованную линейную регрессию
- Оценка количества компонент: Традиционные методы основаны на информационных критериях AIC, BIC и т.д.
- Без предустановки количества компонент: В отличие от традиционного алгоритма EM
- Точное обнаружение компонент: В отличие от существующих методов NPMLE
- Унифицированная структура: Одновременно обрабатывает непрерывные и дискретные распределения
- Алгоритм EM-NPKMLE может автоматически обнаруживать истинное количество компонент дискретного распределения, избегая переоценки традиционных методов
- Гарантии сходимости: Оба алгоритма имеют теоретические гарантии сходимости
- Высокая практичность: Демонстрируют хорошую производительность на моделировании и реальных данных
- Вычислительная эффективность: Вариант GEM обеспечивает хороший баланс между эффективностью и точностью
- Выбор полосы пропускания: Требуется надлежащая стратегия выбора полосы пропускания; текущий метод может быть неоптимальным
- Локальный оптимум: Градиентный подъем может застрять в локальном оптимуме
- Вызовы высокой размерности: Производительность в высокомерных случаях требует дальнейшего исследования
- Определение типа распределения: На практике сложно предварительно определить, является ли распределение непрерывным или дискретным
- Адаптивная полоса пропускания: Разработка адаптивной полосы пропускания для различных итераций или размерностей
- Теоретический анализ: Углубленное исследование теоретических свойств EM-NPKMLE
- Расширенные приложения: Обобщение на общие модели смешанных распределений
- Оптимизация вычислений: Дальнейшее повышение вычислительной эффективности алгоритма
- Высокая методологическая инновативность: Ядеризованная NPMLE с ограничениями — это новаторский подход
- Высокая практическая ценность: Решает практическую проблему автоматического обнаружения количества компонент
- Прочная теоретическая база: Предоставляет доказательства сходимости
- Достаточное экспериментирование: Включает проверку на моделировании и реальных данных
- Ясное изложение: Подробное описание алгоритмов, строгие математические выводы
- Зависимость от полосы пропускания: Производительность алгоритма довольно чувствительна к выбору полосы пропускания
- Вычислительная сложность: Структура двойного цикла имеет высокие вычислительные затраты
- Расширяемость на высокие размерности: Отсутствует систематическое исследование для высокомерных случаев
- Ограниченное сравнение: Основное сравнение с методом CGM, недостаточно других базовых методов
- Теоретический вклад: Предоставляет новые идеи для непараметрического оценивания в смешанной регрессии
- Практическая ценность: Имеет прямое применение в кластеризации и оценке распределений
- Воспроизводимость: Подробное описание алгоритма облегчает воспроизведение
- Расширяемость: Структура может быть расширена на другие смешанные модели
- Сегментация рынка: Анализ моделей поведения различных групп потребителей
- Медицинские исследования: Анализ ответа на лечение в подгруппах пациентов
- Экономические исследования: Анализ различных путей экономического роста
- Машинное обучение: Кластеризованная регрессия и полусупервизированное обучение
- Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
- Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
- Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
- Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.
Общая оценка: Это высококачественная статья по методологии статистики, предлагающая инновационные EM-алгоритмы для решения важной проблемы в смешанной линейной регрессии. Методы имеют прочную теоретическую базу и хорошую практическую производительность, предоставляя ценные инструменты для соответствующих областей. Несмотря на некоторые ограничения, её вклад значителен и имеет хорошую академическую и прикладную ценность.