2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.

Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.

academic

Локальное обучение для выбора ковариат в непараметрической оценке причинно-следственных эффектов со скрытыми переменными

Основная информация

ID статьи: 2411.16315
Название: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
Авторы: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
Классификация: cs.LG math.ST stat.ML stat.TH
Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025)
Ссылка на статью: https://arxiv.org/abs/2411.16315

Аннотация

Оценка причинно-следственных эффектов из неэкспериментальных данных является фундаментальной проблемой во многих научных областях. Ключевой компонент этой задачи — выбор надлежащего набора ковариат для корректировки смешивающих переменных с целью избежать смещения. Существующие методы выбора ковариат обычно предполагают отсутствие скрытых переменных и полагаются на изучение глобальной структуры сети между переменными. Однако при основном внимании к оценке эффекта переменной лечения на переменную результата идентификация глобальной структуры может быть ненужной и неэффективной. Для решения этого ограничения в статье предлагается новый метод локального обучения для выбора ковариат при непараметрической оценке причинно-следственных эффектов в присутствии скрытых переменных. Метод использует проверяемые отношения независимости и зависимости между наблюдаемыми переменными для идентификации действительного набора корректировки для целевого причинно-следственного отношения, обеспечивая полноту и корректность при стандартных предположениях.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как эффективно выбрать набор ковариат для оценки причинно-следственного эффекта переменной лечения X на переменную результата Y в присутствии скрытых переменных.

Важность проблемы

Широкое применение: Оценка причинно-следственных эффектов критична в эпидемиологии, социальных науках, экономике и искусственном интеллекте
Практические потребности: В реальных приложениях идеализированные рандомизированные контролируемые испытания часто невозможно провести
Контроль смещения: Неправильный выбор ковариат приводит к смещённым оценкам причинно-следственных эффектов

Ограничения существующих методов

Глобальное обучение структуры: Существующие методы, такие как IDA и LV-IDA, требуют изучения полной структуры причинного графа, что имеет высокую вычислительную сложность
Игнорирование скрытых переменных: Многие методы предполагают отсутствие скрытых смешивающих переменных, что нереалистично в практических приложениях
Неполнота локальных методов: Методы, такие как CEELS, хотя и более эффективны, могут пропустить действительные наборы корректировки

Исследовательская мотивация

Исходная точка данной работы — разработка метода выбора ковариат, который сохраняет преимущества эффективности локального обучения и одновременно обеспечивает полноту и корректность, особенно в сложных сценариях со скрытыми переменными.

Основные вклады

Предложение алгоритма LSAS: Разработан полностью локальный алгоритм выбора ковариат, использующий проверяемые отношения независимости и зависимости, допускающий наличие скрытых переменных
Теоретические гарантии: Доказана полнота и корректность предложенного алгоритма при стандартных предположениях, способный идентифицировать действительные наборы корректировки для целевого причинно-следственного отношения
Повышение эффективности: Значительное снижение вычислительной сложности по сравнению с глобальными методами, временная сложность снижена с O(t×2^t) до O(|MB(X)|-1)×2^|MB(Y)|-1+n
Экспериментальная верификация: Алгоритм проверен на синтетических и реальных данных

Подробное описание метода

Определение задачи

Входные данные: Набор наблюдаемых данных D, содержащий переменную лечения X, переменную результата Y и набор ковариат O Выходные данные:

Сценарий S1: Оценка причинно-следственного эффекта X на Y, θ
Сценарий S2: Определение отсутствия причинно-следственного эффекта X на Y (θ=0)
Сценарий S3: Невозможно определить наличие причинно-следственного эффекта (θ=∅)

Ограничения:

Y не является причинным предком X
O — набор предварительно обработанных переменных (X и Y не являются причинными предками любых переменных в O)

Основы теории

Определение AMB

Определён набор корректировки внутри одеяла Маркова AMB(X,Y):

Z ⊆ MB(Y) \ {X}
Z ∩ Forb(X,Y) = ∅
Z блокирует все некаузальные пути от X к Y

Ключевые теоремы

Теорема 1 (Существование AMB): Подмножество O существует в качестве набора корректировки для (X,Y) тогда и только тогда, когда подмножество MB(Y){X} существует в качестве набора корректировки.

Теорема 2 (Правило R1): Для Z ⊆ MB(Y){X}, если существует S ∈ MB(X){Y}, удовлетворяющий:

S ⊥̸⊥ Y | Z (условие i)
S ⊥⊥ Y | Z∪{X} (условие ii)

то Z является AMB(X,Y) и X имеет причинно-следственный эффект на Y.

Теорема 3 (Правило R2): Если существуют Z ⊆ MB(Y){X} и S ∈ MB(X){Y}, удовлетворяющие одному из следующих условий:

X ⊥⊥ Y | Z (условие i)
S ⊥̸⊥ X | Z и S ⊥⊥ Y | Z (условие ii)

то X не имеет причинно-следственного эффекта на Y.

Процедура алгоритма LSAS

Алгоритм 1: Local Search Adjustment Sets (LSAS)
Входные данные: Набор наблюдаемых данных D, переменная лечения X, переменная результата Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // Инициализация оценки причинно-следственного эффекта
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S и Z удовлетворяют правилу R1 then
5:     Оценить причинно-следственный эффект X на Y, θ, Θ ← θ // Сценарий S1
6:   end if
7:   if S и Z удовлетворяют правилу R2 then
8:     return Θ ← 0 // Отсутствие причинно-следственного эффекта, сценарий S2
9:   end if
10: end for
Выходные данные: Оценённый причинно-следственный эффект Θ // Если ∅, то сценарий S3

Технические инновации

Использование локального одеяла Маркова: Требуется только информация об одеяле Маркова X и Y, избегая глобального обучения графа
Идентификация на основе правил: Прямая идентификация причинно-следственных отношений из тестов условной независимости через правила R1 и R2
Обработка скрытых переменных: Обработка скрытых смешивающих переменных в рамках MAG
Гарантия полноты: Теоретическое доказательство полноты метода, исключающее пропуск идентифицируемых наборов корректировки

Экспериментальная установка

Наборы данных

Синтетические данные:
- Случайные графы: Модель Эрдёша-Рёньи G(n,d), количество узлов 20-50, средняя степень 3-9
- Специфические структуры: DAG-структуры на основе графиков 3(a) и 4(a)
- Эталонные сети: INSURANCE (27 узлов), MILDEW (35 узлов), WIN95PTS (76 узлов), ANDES (223 узла)
Реальные данные: Набор данных Cattaneo2, содержащий 4642 записи об одноплодных родах в Пенсильвании

Метрики оценки

Относительная ошибка (RE): |（оценённое значение - истинное значение）/истинное значение| × 100%
Количество тестов (nTest): Количество тестов условной независимости, выполненных алгоритмом

Методы сравнения

LV-IDA: Глобальный метод обучения графа на основе алгоритма RFCI
EHS: Метод глобального поиска с предположением предварительной обработки
CEELS: Метод локального поиска с предположением предварительной обработки
LDP: Метод локального поиска с ослабленным предположением предварительной обработки

Детали реализации

Размер выборки: 1K, 5K, 10K, 15K
Линейная гауссова причинная модель, веса рёбер выбраны из Uniform0.5,1.5
Уровень значимости теста условной независимости: 0.01
Максимальный размер условного набора: 3-7 (в зависимости от сложности сети)

Результаты экспериментов

Основные результаты

Эксперименты со специфическими структурами

На MAG-структурах, соответствующих графикам 3(b) и 4(b):

Относительная ошибка: LSAS значительно превосходит другие методы при всех размерах выборки
Эффективность тестирования: nTest для LSAS значительно ниже, чем для LV-IDA и EHS
Преимущество полноты: CEELS и LDP, из-за неполноты, не могут найти действительные наборы корректировки на некоторых структурах

Эксперименты на эталонных сетях

На сетях MILDEW и WIN95PTS:

LSAS показывает оптимальные результаты почти по всем метрикам оценки и размерам выборки
Даже при нарушении предположения предварительной обработки LSAS превосходит другие методы
EHS не может завершить работу на больших сетях из-за чрезмерного времени выполнения

Верификация на реальных данных

На наборе данных Cattaneo2 при исследовании влияния курения во время беременности на вес новорождённого:

Оценки эффекта LSAS и EHS попадают в эталонный интервал -250г, -200г
LSAS требует только 158 тестов условной независимости, в то время как CEELS требует 1284, а LDP требует 266
Подтверждена эффективность метода в практических приложениях

Абляционные эксперименты

Статья проверяет робастность метода через эксперименты с различной плотностью сети:

С увеличением плотности графа производительность всех методов снижается, но LSAS сохраняет явное преимущество
В сети G(40,9) хотя nTest для LDP ниже, RE для LSAS значительно лучше

Анализ времени выполнения

LSAS демонстрирует оптимальную производительность по времени выполнения на большинстве сетей и размеров выборки, единственное исключение — сеть WIN95PTS при больших размерах выборки (15K), где LDP быстрее, но точность LSAS значительно выше.

Связанные работы

Методы с известным причинным графом

Классические критерии корректировки: Критерий задней двери, обобщённый критерий задней двери
Оптимальные наборы корректировки: Поиск наборов корректировки с минимальной асимптотической дисперсией

Методы с неизвестным причинным графом

Глобальное обучение: Методы серии IDA, требующие изучения полного CPDAG/PAG
Локальное обучение: Методы CovSel, EHS и др., но большинство предполагают отсутствие скрытых переменных
Обработка скрытых переменных: Методы LV-IDA, CE-SAT и др., но с высокой вычислительной сложностью

Преимущества данной работы

По сравнению с существующими работами, предложенный метод достигает единства эффективности локального обучения и полноты глобальных методов, особенно с явным преимуществом в обработке скрытых переменных.

Заключение и обсуждение

Основные выводы

Предложен первый алгоритм выбора ковариат, сохраняющий локальность и обеспечивающий полноту при наличии скрытых переменных
Теоретически доказана корректность и полнота метода
Экспериментально подтверждены значительные преимущества в эффективности и точности

Ограничения

Предположение предварительной обработки: По-прежнему зависит от предположения предварительной обработки, хотя показывает хорошие результаты при некоторых нарушениях
Идентификация потомков: Невозможно локально идентифицировать потомков переменной лечения без восстановления полного графа
Тесты условной независимости: Зависит от точных тестов условной независимости, которые при ограниченном размере выборки могут содержать ошибки

Направления будущих исследований

Ослабление предположений: Разработка методов, не зависящих от предположения предварительной обработки
Интеграция фоновых знаний: Использование знаний предметной области для вспомогательной причинной идентификации
Данные из нескольких окружений: Использование данных из нескольких окружений для повышения способности причинной идентификации
Идентификация потомков: Исследование методов локальной идентификации потомков переменной лечения

Глубокая оценка

Преимущества

Теоретический вклад: Предоставляет полную теоретическую базу, доказывающую возможность локальных методов
Практическая ценность: Значительное снижение вычислительной сложности, делающее крупномасштабные приложения возможными
Полные эксперименты: Всесторонняя верификация на различных типах данных
Ясное изложение: Чёткая структура статьи, строгое изложение теории

Недостатки

Ограничения предположений: Предположение предварительной обработки может не выполняться в некоторых сценариях приложений
Зависимость от тестирования: Производительность метода в значительной степени зависит от точности тестов условной независимости
Масштабируемость: Масштабируемость для сверхбольших сетей требует дальнейшей верификации

Влияние

Академическая ценность: Предоставляет новую теоретическую и методологическую базу для области причинного вывода
Практическое значение: Предоставляет эффективное решение для выбора ковариат при оценке причинно-следственных эффектов в практических приложениях
Воспроизводимость: Открытый код, подробные описания экспериментов обеспечивают хорошую воспроизводимость

Применимые сценарии

Метод особенно подходит для следующих сценариев:

Оценка причинно-следственных эффектов на крупномасштабных наблюдаемых данных
Сложные системы с наличием скрытых смешивающих переменных
Приложения в реальном времени с требованиями к вычислительной эффективности
Исследовательские проекты с относительно полным сбором предварительно обработанных переменных

Библиография

Статья цитирует важные работы в области причинного вывода, включая классические труды Перла, алгоритм PC Спиртеса и др., а также недавние методы локального обучения, отражая всестороннее понимание и глубокое изучение связанных работ.