2025-11-17T03:13:13.685079

Double Machine Learning for Static Panel Models with Fixed Effects

Clarke, Polselli
Recent advances in causal inference have seen the development of methods which make use of the predictive power of machine learning algorithms. In this paper, we develop novel double machine learning (DML) procedures for panel data in which these algorithms are used to approximate high-dimensional and nonlinear nuisance functions of the covariates. Our new procedures are extensions of the well-known correlated random effects, within-group and first-difference estimators from linear to nonlinear panel models, specifically, Robinson (1988)'s partially linear regression model with fixed effects and unspecified nonlinear confounding. Our simulation study assesses the performance of these procedures using different machine learning algorithms. We use our procedures to re-estimate the impact of minimum wage on voting behaviour in the UK. From our results, we recommend the use of first-differencing because it imposes the fewest constraints on the distribution of the fixed effects, and an ensemble learning strategy to ensure optimum estimator accuracy.
academic

Двойное машинное обучение для статических панельных моделей с фиксированными эффектами

Основная информация

  • ID статьи: 2312.08174
  • Название: Double Machine Learning for Static Panel Models with Fixed Effects
  • Авторы: Paul S. Clarke (University of Essex), Annalivia Polselli (University of Essex)
  • Классификация: econ.EM cs.LG stat.ML
  • Дата публикации/конференция: The Econometrics Journal (принята в декабре 2024)
  • Ссылка на статью: https://arxiv.org/abs/2312.08174

Аннотация

В данной работе разработаны новые процедуры двойного машинного обучения (DML) для анализа панельных данных, использующие алгоритмы машинного обучения для аппроксимации высокомерных и нелинейных мешающих функций ковариат. Новые процедуры расширяют известные оценки коррелированных случайных эффектов, внутригрупповые и оценки первых разностей с линейных панельных моделей на нелинейные панельные модели, в частности на полулинейные регрессионные модели с фиксированными эффектами и неуточненной нелинейной конфаундингом по Robinson (1988). Имитационные исследования оценивают производительность этих процедур с использованием различных алгоритмов машинного обучения. Авторы переоценивают влияние минимальной заработной платы в Великобритании на поведение избирателей. Результаты рекомендуют использовать метод первых разностей, поскольку он налагает минимальные ограничения на распределение фиксированных эффектов, и применять стратегии ансамблевого обучения для обеспечения оптимальной точности оценивателя.

Исследовательский контекст и мотивация

Определение проблемы

Традиционный анализ панельных данных в основном опирается на предположения линейной модели, однако реальные процессы генерирования данных часто имеют сложные нелинейные характеристики. Существующие методы двойного машинного обучения в основном ориентированы на кросс-секционные данные, и их применение к панельным данным относительно ограничено, особенно при работе с нелинейными панельными моделями с фиксированными эффектами.

Значимость исследования

  1. Методологическая потребность: Панельные данные широко используются в эмпирических исследованиях и требуют надежных методов, способных обрабатывать нелинейные отношения и высокомерные ковариаты
  2. Причинный вывод: Точное оценивание причинных эффектов при наличии неизменяющихся во времени конфаундеров имеет важное значение для политики
  3. Интеграция машинного обучения: Объединение предсказательной способности машинного обучения с традиционной эконометрической базой причинного вывода

Ограничения существующих методов

  1. Предположение линейности: Традиционные методы панельных данных предполагают линейные отношения, что может привести к неправильной спецификации модели
  2. Зависимость от разреженности: Существующие методы DML для панельных данных (Klosin & Vilgalys, 2023; Semenova et al., 2023) чрезмерно зависят от предположений о высокомерной разреженности функций
  3. Ограничения алгоритмов: Основное внимание уделяется конкретным алгоритмам, таким как LASSO, отсутствует универсальность

Основные вклады

  1. Методологические инновации: Разработаны три новые процедуры DML, расширяющие оценители коррелированных случайных эффектов (CRE), внутригрупповые (WG) и первых разностей (FD) на нелинейные параметры
  2. Универсальность методов: Не зависят от предварительных предположений о разреженности, поддерживают множество алгоритмов машинного обучения (LASSO, CART, случайные леса, градиентный бустинг)
  3. Вычислительная оптимизация: Применяется блочная k-кратная перекрестная подгонка для обработки последовательной корреляции в панельных данных
  4. Эмпирическое применение: Предоставляется переанализ политики минимальной заработной платы в Великобритании, подтверждающий практическую применимость метода

Подробное описание методологии

Определение задачи

Оценивание параметра однородного эффекта лечения θ₀ в полулинейной панельной регрессии (PLPR):

Yit=Ditθ0+g1(Xit)+αi+UitY_{it} = D_{it}\theta_0 + g_1(X_{it}) + \alpha_i^* + U_{it}

где:

  • YitY_{it}: переменная результата
  • DitD_{it}: переменная лечения (непрерывная или бинарная)
  • XitX_{it}: вектор контрольных переменных
  • αi\alpha_i^*: индивидуальный фиксированный эффект
  • g1()g_1(\cdot): неизвестная нелинейная функция

Архитектура модели

1. Модель PLPR с частичным выходом (PO-PLPR)

Yit=Vitθ0+l1(Xit)+αi+UitY_{it} = V_{it}\theta_0 + l_1(X_{it}) + \alpha_i + U_{it}Vit=Ditm1(Xit)γiV_{it} = D_{it} - m_1(X_{it}) - \gamma_i

где l1l_1 и m1m_1 — мешающие функции, которые необходимо изучить.

2. Три метода обработки фиксированных эффектов

Метод коррелированных случайных эффектов (CRE): Yit=Vitθ0+l~1(Xit,Xˉi)+ai+UitY_{it} = V_{it}\theta_0 + \tilde{l}_1(X_{it}, \bar{X}_i) + a_i + U_{it}Vit=Ditm~1(Xit,Xˉi)ciV_{it} = D_{it} - \tilde{m}_1(X_{it}, \bar{X}_i) - c_i

где Xˉi=T1t=1TXit\bar{X}_i = T^{-1}\sum_{t=1}^T X_{it} — индивидуальное среднее.

Методы преобразования данных:

  • Первые разности (FD): Q(Wit)=WitWit1Q(W_{it}) = W_{it} - W_{it-1}
  • Внутригрупповое преобразование (WG): Q(Wit)=WitWˉiQ(W_{it}) = W_{it} - \bar{W}_i

Преобразованная модель: Q(Yit)=Q(Vit)θ0+Q(l1(Xit))+Q(Uit)Q(Y_{it}) = Q(V_{it})\theta_0 + Q(l_1(X_{it})) + Q(U_{it})

Технические инновации

  1. Функция ортогонального счета Неймана: Построена функция ортогонального счета, применимая к панельным данным: ψ(Wi;θ0,η0)=ViΣ01(Xi)ri\psi^{\perp}(W_i; \theta_0, \eta_0) = V_i^{\perp}\Sigma_0^{-1}(X_i)r_i
  2. Блочная k-кратная перекрестная подгонка: Целые временные ряды отдельных лиц назначаются одной и той же складке, избегая проблем последовательной корреляции
  3. Стратегия изучения мешающих функций:
    • Приблизительный метод: Q(l1(Xit))l1(Q(Xit))Q(l_1(X_{it})) \approx l_1(Q(X_{it}))
    • Точный метод: Прямое изучение Δl1(Xit1,Xit)=l1(Xit)l1(Xit1)\Delta l_1(X_{it-1}, X_{it}) = l_1(X_{it}) - l_1(X_{it-1})
    • Гибридный метод: Объединение преимуществ CRE и методов преобразования

Экспериментальная установка

Дизайн имитационных данных

Генерируются три процесса генерирования данных (DGP) различной сложности:

  1. Линейный DGP: l0(Xit)=aXit,1+Xit,3l_0(X_{it}) = aX_{it,1} + X_{it,3}
  2. Нелинейный гладкий DGP: l0(Xit)=exp(Xit,1)1+exp(Xit,1)+acos(Xit,3)l_0(X_{it}) = \frac{\exp(X_{it,1})}{1+\exp(X_{it,1})} + a\cos(X_{it,3})
  3. Нелинейный разрывный DGP: l0(Xit)=b(Xit,1Xit,3)+a(Xit,31[Xit,3>0])l_0(X_{it}) = b(X_{it,1} \cdot X_{it,3}) + a(X_{it,3} \cdot \mathbf{1}[X_{it,3} > 0])

Эмпирические данные

Используются данные Британского домохозяйственного панельного исследования (BHPS):

  • Выборка: 9 922 работающих индивида, 1991-2009 годы
  • Переменная лечения: получение минимальной заработной платы
  • Переменная результата: голосование за Консервативную партию
  • Контрольные переменные: 72 базовые переменные, расширенные до 1 476 с нелинейными членами

Метрики оценки

  • Смещение: Bias(θ^)=E[θ^]θ0\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta_0
  • Среднеквадратичная ошибка: RMSE(θ^)=E[(θ^θ0)2]\text{RMSE}(\hat{\theta}) = \sqrt{E[(\hat{\theta} - \theta_0)^2]}
  • Отношение стандартных ошибок: SE(θ^)/SD(θ^)\text{SE}(\hat{\theta})/\text{SD}(\hat{\theta})
  • RMSE модели: Измерение точности предсказания мешающих функций

Методы сравнения

  • Базовый метод: Обычный метод наименьших квадратов (OLS)
  • Алгоритмы DML: LASSO, CART, случайные леса (RF), градиентный бустинг

Результаты экспериментов

Результаты имитации

Линейный DGP:

  • OLS показывает наилучшие результаты, что соответствует ожиданиям
  • Производительность DML-LASSO близка к OLS
  • Древовидные методы показывают худшие результаты на малых выборках

Нелинейный гладкий DGP:

  • OLS по-прежнему показывает хорошие результаты (функция приблизительно линейна в большинстве регионов)
  • Улучшение методов DML ограничено

Нелинейный разрывный DGP:

  • DML-LASSO значительно превосходит OLS
  • Смещение OLS достигает 0,993 (истинное значение 0,50)
  • Смещение DML-LASSO составляет всего 0,009, RMSE равна 0,014

Ключевые находки

  1. Сравнение методов:
    • Метод FD (точный) наиболее устойчив, налагает минимальные ограничения на распределение фиксированных эффектов
    • Метод CRE требует дополнительных предположений типа Mundlaka
    • Метод WG (приблизительный) показывает худшие результаты в нелинейном случае
  2. Производительность алгоритмов:
    • LASSO показывает наилучшие результаты с расширенным словарем
    • Древовидные методы имеют трудности с настройкой гиперпараметров, нарушается нормальность распределения выборки
    • Стратегии ансамблевого обучения критически важны

Результаты эмпирического применения

Влияние минимальной заработной платы в Великобритании на голосование за Консервативную партию:

МетодOLSDML-LASSODML-CARTDML-RFDML-Boosting
CRE0.051***0.048**0.069*0.180-0.319
FD0.022*0.0210.0260.0180.024
WG0.051***0.046**0.048**0.040**0.048***

Результаты показывают:

  • Метод FD дает наиболее устойчивые оценки с наивысшей согласованностью между алгоритмами
  • Древовидные методы в методе CRE показывают нестабильные результаты
  • Результаты метода WG находятся между двумя другими методами

Связанные работы

Причинный вывод в машинном обучении

  1. Разработка алгоритмов: Причинные деревья Athey & Imbens (2016), причинные леса Wager & Athey (2018)
  2. Основы DML: Теоретические основы двойного машинного обучения Chernozhukov et al. (2018)
  3. Панельные приложения: Разности в разностях Chang (2020), динамические панели Semenova et al. (2023)

Высокомерные панельные методы

  1. Применение LASSO: Постклассификационный LASSO Belloni et al. (2016)
  2. Предположения о разреженности: Методы, зависящие от разреженности Klosin & Vilgalys (2023) и Semenova et al. (2023)
  3. Обработка фиксированных эффектов: Расширение CRE Wooldridge & Zhu (2020)

Выводы и обсуждение

Основные выводы

  1. Рекомендация методов: Рекомендуется использовать метод FD (точный), так как он налагает минимальные ограничения на распределение фиксированных эффектов
  2. Стратегия алгоритмов: Рекомендуется применять стратегии ансамблевого обучения, объединяющие преимущества нескольких алгоритмов
  3. Практическая ценность: Методы применимы к несбалансированным панелям и обладают высокой расширяемостью

Ограничения

  1. Предположение однородности: Основное внимание уделяется однородным эффектам лечения, расширение на гетерогенность требует параметрического моделирования
  2. Проблемы древовидных методов: Древовидные методы имеют трудности с настройкой гиперпараметров и нарушением нормальности распределения выборки
  3. Вычислительная сложность: Высокомерный словарь и перекрестная подгонка увеличивают вычислительную нагрузку

Направления будущих исследований

  1. Расширение на гетерогенность: Разработка методов для среднего эффекта лечения (ATE) вместо условного среднего эффекта лечения (CATE)
  2. Динамические панели: Расширение на динамические панельные модели данных
  3. Пропущенные данные: Обработка неслучайно пропущенных данных в панельных данных

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Основана на теории ортогональности Неймана, обеспечивает полную асимптотическую теоретическую базу
  2. Универсальность методов: Не зависит от конкретных предположений о разреженности, поддерживает множество алгоритмов машинного обучения
  3. Достаточные эксперименты: Включает комплексные имитационные исследования и приложения на реальных данных
  4. Вычислительные инновации: Блочная перекрестная подгонка эффективно обрабатывает последовательную корреляцию, характерную для панельных данных

Недостатки

  1. Ограничения древовидных методов: Анализ древовидных методов недостаточно глубок, стратегии настройки гиперпараметров требуют улучшения
  2. Ограничения гетерогенности: Обработка гетерогенности эффектов лечения относительно проста, требуется более гибкая основа
  3. Ограниченный эмпирический охват: Эмпирическое применение ограничено одним случаем, требуется более широкая проверка

Влияние

  1. Научный вклад: Заполняет важный пробел в применении DML к панельным данным
  2. Практическая ценность: Предоставляет эмпирическим исследователям эффективные инструменты для работы с нелинейными панельными данными
  3. Воспроизводимость: Предоставляется R-пакет (XTDML), облегчающий распространение методов

Сценарии применения

  1. Оценка политики: Применимо к оценке эффектов политики, требующей контроля неизменяющихся во времени конфаундеров
  2. Экономика труда: Исследования отдачи от образования, эффектов заработной платы и другие долгосрочные исследования
  3. Экономика развития: Оценка долгосрочного влияния мер развития
  4. Экономика здравоохранения: Анализ продольных эффектов медицинской политики и вмешательств

Библиография

  1. Chernozhukov, V., et al. (2018). Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal.
  2. Robinson, P. M. (1988). Root-n-consistent semiparametric regression. Econometrica.
  3. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. PNAS.
  4. Wooldridge, J. M. (2019). Correlated random effects models with unbalanced panels. Journal of Econometrics.

Общая оценка: Это высококачественная методологическая работа по эконометрике, успешно расширяющая основу двойного машинного обучения на панельные данные. Статья демонстрирует отличные результаты в теоретическом развитии, методологических инновациях и эмпирической проверке, предоставляя важные инструменты для работы со сложными панельными данными. Хотя некоторые технические детали могут быть улучшены, вклад в область является значительным.