Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic
Локальное обучение для выбора ковариат в непараметрической оценке причинно-следственных эффектов со скрытыми переменными
Оценка причинно-следственных эффектов из неэкспериментальных данных является фундаментальной проблемой во многих научных областях. Ключевой компонент этой задачи — выбор надлежащего набора ковариат для корректировки смешивающих переменных с целью избежать смещения. Существующие методы выбора ковариат обычно предполагают отсутствие скрытых переменных и полагаются на изучение глобальной структуры сети между переменными. Однако при основном внимании к оценке эффекта переменной лечения на переменную результата идентификация глобальной структуры может быть ненужной и неэффективной. Для решения этого ограничения в статье предлагается новый метод локального обучения для выбора ковариат при непараметрической оценке причинно-следственных эффектов в присутствии скрытых переменных. Метод использует проверяемые отношения независимости и зависимости между наблюдаемыми переменными для идентификации действительного набора корректировки для целевого причинно-следственного отношения, обеспечивая полноту и корректность при стандартных предположениях.
Основная проблема, которую решает данное исследование: как эффективно выбрать набор ковариат для оценки причинно-следственного эффекта переменной лечения X на переменную результата Y в присутствии скрытых переменных.
Глобальное обучение структуры: Существующие методы, такие как IDA и LV-IDA, требуют изучения полной структуры причинного графа, что имеет высокую вычислительную сложность
Игнорирование скрытых переменных: Многие методы предполагают отсутствие скрытых смешивающих переменных, что нереалистично в практических приложениях
Неполнота локальных методов: Методы, такие как CEELS, хотя и более эффективны, могут пропустить действительные наборы корректировки
Исходная точка данной работы — разработка метода выбора ковариат, который сохраняет преимущества эффективности локального обучения и одновременно обеспечивает полноту и корректность, особенно в сложных сценариях со скрытыми переменными.
Предложение алгоритма LSAS: Разработан полностью локальный алгоритм выбора ковариат, использующий проверяемые отношения независимости и зависимости, допускающий наличие скрытых переменных
Теоретические гарантии: Доказана полнота и корректность предложенного алгоритма при стандартных предположениях, способный идентифицировать действительные наборы корректировки для целевого причинно-следственного отношения
Повышение эффективности: Значительное снижение вычислительной сложности по сравнению с глобальными методами, временная сложность снижена с O(t×2^t) до O(|MB(X)|-1)×2^|MB(Y)|-1+n
Экспериментальная верификация: Алгоритм проверен на синтетических и реальных данных
Теорема 1 (Существование AMB): Подмножество O существует в качестве набора корректировки для (X,Y) тогда и только тогда, когда подмножество MB(Y){X} существует в качестве набора корректировки.
Теорема 2 (Правило R1): Для Z ⊆ MB(Y){X}, если существует S ∈ MB(X){Y}, удовлетворяющий:
S ⊥̸⊥ Y | Z (условие i)
S ⊥⊥ Y | Z∪{X} (условие ii)
то Z является AMB(X,Y) и X имеет причинно-следственный эффект на Y.
Теорема 3 (Правило R2): Если существуют Z ⊆ MB(Y){X} и S ∈ MB(X){Y}, удовлетворяющие одному из следующих условий:
X ⊥⊥ Y | Z (условие i)
S ⊥̸⊥ X | Z и S ⊥⊥ Y | Z (условие ii)
то X не имеет причинно-следственного эффекта на Y.
Алгоритм 1: Local Search Adjustment Sets (LSAS)
Входные данные: Набор наблюдаемых данных D, переменная лечения X, переменная результата Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // Инициализация оценки причинно-следственного эффекта
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4: if S и Z удовлетворяют правилу R1 then
5: Оценить причинно-следственный эффект X на Y, θ, Θ ← θ // Сценарий S1
6: end if
7: if S и Z удовлетворяют правилу R2 then
8: return Θ ← 0 // Отсутствие причинно-следственного эффекта, сценарий S2
9: end if
10: end for
Выходные данные: Оценённый причинно-следственный эффект Θ // Если ∅, то сценарий S3
LSAS демонстрирует оптимальную производительность по времени выполнения на большинстве сетей и размеров выборки, единственное исключение — сеть WIN95PTS при больших размерах выборки (15K), где LDP быстрее, но точность LSAS значительно выше.
По сравнению с существующими работами, предложенный метод достигает единства эффективности локального обучения и полноты глобальных методов, особенно с явным преимуществом в обработке скрытых переменных.
Предположение предварительной обработки: По-прежнему зависит от предположения предварительной обработки, хотя показывает хорошие результаты при некоторых нарушениях
Идентификация потомков: Невозможно локально идентифицировать потомков переменной лечения без восстановления полного графа
Тесты условной независимости: Зависит от точных тестов условной независимости, которые при ограниченном размере выборки могут содержать ошибки
Статья цитирует важные работы в области причинного вывода, включая классические труды Перла, алгоритм PC Спиртеса и др., а также недавние методы локального обучения, отражая всестороннее понимание и глубокое изучение связанных работ.