Local Causal Discovery for Statistically Efficient Causal Inference
Schubert, Claassen, Magliacane
Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.
academic
Локальное причинное обнаружение для статистически эффективного причинного вывода
Методы причинного обнаружения могут идентифицировать действительные наборы корректировки для оценки причинного эффекта между парой целевых переменных, даже когда лежащий в основе причинный граф неизвестен. Глобальные методы причинного обнаружения сосредоточены на изучении всего причинного графа и, таким образом, способны восстановить оптимальные наборы корректировки (т.е. наборы с наименьшей асимптотической дисперсией), но они быстро становятся вычислительно неразрешимыми с увеличением количества переменных. Локальные методы причинного обнаружения предлагают более масштабируемую альтернативу, сосредоточиваясь на локальной окрестности целевых переменных, но ограничены статистически субоптимальными наборами корректировки. В данной работе авторы предлагают LOAD (Local Optimal Adjustment Discovery) — надежный и полный метод причинного обнаружения, который сочетает вычислительную эффективность локальных методов со статистической оптимальностью глобальных методов.
В причинном выводе оценка причинного эффекта между двумя переменными является центральной задачей. Когда лежащий в основе причинный граф неизвестен, необходимо использовать методы причинного обнаружения для идентификации действительных наборов корректировки для оценки причинного эффекта. Существующие методы сталкиваются с фундаментальным компромиссом:
Дилемма глобальных методов: Глобальные методы причинного обнаружения (такие как алгоритм PC) способны изучить полный причинный граф и восстановить оптимальные наборы корректировки, но вычислительная сложность растет экспоненциально с количеством переменных, что делает их неприменимыми для крупномасштабных задач.
Ограничения локальных методов: Локальные методы причинного обнаружения (такие как MB-by-MB, LDECC) вычислительно эффективны, но могут восстановить только субоптимальные наборы корректировки, что приводит к более высокой асимптотической дисперсии при оценке причинного эффекта.
Авторы выявили следующие проблемы в существующих локальных методах:
Алгоритм LocalPC недостаточно надежен при идентификации смежных переменных и может ошибочно идентифицировать несмежные супругов как смежные
Алгоритм LDECC неполный и в некоторых случаях не может ориентировать все ориентируемые ребра
Алгоритм LDP может ошибочно сообщить об идентифицируемости эффекта в некоторых случаях, когда эффект равен нулю
Следовательно, необходим новый метод, который сохраняет вычислительную эффективность локальных методов и одновременно достигает статистической оптимальности глобальных методов.
Разработка методов определения идентифицируемости причинного эффекта на основе локальной информации: Предложены необходимые и достаточные условия для определения идентифицируемости причинного эффекта, используя только локальную информацию.
Предложение алгоритма LOAD: Надежный и полный метод, который может идентифицировать оптимальные наборы корректировки, используя только локальную информацию вокруг переменных.
Комплексная экспериментальная оценка: Оценка LOAD на синтетических и реальных данных, демонстрирующая, что он может восстановить высококачественные наборы корректировки с низкими вычислительными затратами.
Теоретические гарантии: Доказана надежность и полнота LOAD при определении идентифицируемости причинного эффекта и поиске оптимальных наборов корректировки.
Использование алгоритма LocalRelate (Алгоритм 1) с применением следующих теорем:
Отношение явного предка (Теорема 4.1): Для любых двух различных узлов X и Y в CPDAG G, X ∈ ExplAn_G(Y) тогда и только тогда, когда X ⊥̸⊥ Y | Pa_G(X) ∪ Sib_G(X)
Определение отношения не-предка (Теорема 4.2): X является определенным не-предком Y тогда и только тогда, когда X ⊥⊥ Y | Pa_G(X)
Локальный тест адаптации: Впервые предложены необходимые и достаточные условия для тестирования адаптации, используя только локальную информацию, избегая необходимости проверки всех возможных направленных путей.
Механизм кеширования: Улучшенный алгоритм MB-by-MB использует кеш для повторного использования ранее идентифицированных одеял Маркова и локальных структур, значительно повышая вычислительную эффективность.
Теоретическая полнота: Доказана надежность и полнота LOAD при определении причинных связей, идентифицируемости и оптимальных наборов корректировки.
Значительный теоретический вклад: Впервые предложен тест адаптации на основе только локальной информации, имеющий важное теоретическое значение
Высокая практичность: Достижение статистической оптимальности при сохранении вычислительной эффективности решает ключевую проблему практических приложений
Комплексные эксперименты: Охватывают различные типы данных, масштабы сетей и метрики оценки, результаты убедительны
Причинный вывод среднего масштаба: Задачи оценки причинного эффекта с количеством переменных в диапазоне сотен-тысяч
Сценарии с ограниченными вычислительными ресурсами: Приложения, требующие баланса между вычислительной эффективностью и статистической производительностью
Причинно достаточная среда: Наблюдательные исследования без важных скрытых смешивающих факторов
Статья цитирует важную литературу в области причинного вывода, включая:
Pearl (2009): Causality — классический учебник по причинному выводу
Spirtes et al. (2000): Фундаментальные работы по причинному обнаружению на основе ограничений
Henckel et al. (2022): Графические критерии для оптимальных наборов корректировки
Perković et al. (2015): Определение и свойства адаптации
Общая оценка: Это высококачественная статья по причинному выводу с важными вкладами как на теоретическом, так и на практическом уровнях. Алгоритм LOAD искусно решает компромисс между вычислительной эффективностью и статистической оптимальностью в причинном обнаружении, имея важное академическое значение и перспективы применения.