Local Causal Discovery for Statistically Efficient Causal Inference
Schubert, Claassen, Magliacane
Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.
academic
Descubrimiento Causal Local para Inferencia Causal Estadísticamente Eficiente
Los métodos de descubrimiento causal pueden identificar conjuntos de ajuste válidos para la estimación del efecto causal entre un par de variables objetivo, incluso cuando el grafo causal subyacente es desconocido. Los métodos de descubrimiento causal global se enfocan en aprender el grafo causal completo, permitiendo recuperar conjuntos de ajuste óptimos (es decir, aquellos con la menor varianza asintótica), pero se vuelven rápidamente computacionalmente intratables a medida que aumenta el número de variables. Los métodos de descubrimiento causal local ofrecen alternativas más escalables al enfocarse en la vecindad local de las variables objetivo, pero se limitan a conjuntos de ajuste estadísticamente subóptimos. En este trabajo, los autores proponen LOAD (Local Optimal Adjustment Discovery), un método de descubrimiento causal confiable y completo que combina la eficiencia computacional de los métodos locales con la optimalidad estadística de los métodos globales.
En la inferencia causal, la estimación del efecto causal entre dos variables es una tarea central. Cuando el grafo causal subyacente es desconocido, es necesario utilizar métodos de descubrimiento causal para identificar conjuntos de ajuste válidos para la estimación del efecto causal. Los métodos existentes enfrentan un compromiso fundamental:
El dilema de los métodos globales: Los métodos de descubrimiento causal global (como el algoritmo PC) pueden aprender el grafo causal completo y recuperar conjuntos de ajuste óptimos, pero la complejidad computacional crece exponencialmente con el número de variables, lo que los hace inviables en problemas a gran escala.
Las limitaciones de los métodos locales: Los métodos de descubrimiento causal local (como MB-by-MB, LDECC) son computacionalmente eficientes, pero solo pueden recuperar conjuntos de ajuste subóptimos, lo que resulta en una varianza asintótica más alta en la estimación del efecto causal.
Los autores identifican los siguientes problemas en los métodos locales existentes:
El algoritmo LocalPC no es suficientemente confiable al identificar variables adyacentes, pudiendo identificar erróneamente cónyuges no adyacentes como adyacentes
El algoritmo LDECC es incompleto, siendo incapaz de orientar todos los bordes orientables en ciertos casos
El algoritmo LDP puede reportar erróneamente que un efecto no es identificable cuando en realidad es identificable como cero
Por lo tanto, se necesita un nuevo método que mantenga la eficiencia computacional de los métodos locales mientras logra la optimalidad estadística de los métodos globales.
Desarrollo de métodos basados en información local para determinar la identificabilidad del efecto causal: Se proponen condiciones necesarias y suficientes para determinar si un efecto causal es identificable utilizando solo información local.
Propuesta del algoritmo LOAD: Un método confiable y completo que identifica conjuntos de ajuste óptimos utilizando solo información local alrededor de las variables.
Evaluación experimental exhaustiva: Se evalúa LOAD en datos sintéticos y reales, demostrando que puede recuperar conjuntos de ajuste de alta calidad con bajo costo computacional.
Garantías teóricas: Se demuestra la confiabilidad y completitud de LOAD en la determinación de la identificabilidad del efecto causal y en la búsqueda de conjuntos de ajuste óptimos.
Prueba de adaptabilidad local: Por primera vez se proponen condiciones necesarias y suficientes para probar la adaptabilidad utilizando solo información local, evitando la necesidad de verificar todos los caminos dirigidos posibles.
Mecanismo de caché: El algoritmo MB-by-MB mejorado utiliza caché para reutilizar las mantas de Markov identificadas y estructuras locales de ejecuciones anteriores, mejorando significativamente la eficiencia computacional.
Completitud teórica: Se demuestra que LOAD es confiable y completo en la determinación de relaciones causales, identificabilidad y conjuntos de ajuste óptimos.
El número de pruebas de independencia condicional de LOAD es consistentemente menor que el de los métodos globales en todas las configuraciones, ligeramente mayor que el de los métodos locales:
Con 1000 nodos, LOAD requiere 9.43×10³ pruebas, mientras que PC requiere 542.52×10³
En comparación con las 5.64×10³ pruebas de MB-by-MB+, el costo adicional de LOAD es razonable
Relación tratamiento-resultado conocida: Cuando se proporciona conocimiento previo, LOAD* supera a PC en datos binarios
Pares objetivo identificables: Los patrones de resultados se mantienen consistentes en configuraciones que garantizan la identificabilidad del efecto causal
Sensibilidad de parámetros: LOAD muestra robustez ante diferentes números de muestras y grados esperados
Suposición de suficiencia causal: La versión actual asume la ausencia de factores de confusión latentes o sesgos de selección
Cuello de botella computacional en redes a gran escala: En grafos extremadamente grandes, la búsqueda de mantas de Markov aún puede ser un cuello de botella computacional
Desempeño en datos binarios: El desempeño es limitado en datos binarios con la prueba G²
El artículo cita literatura importante en el campo de la inferencia causal, incluyendo:
Pearl (2009): Causality - Libro de texto clásico en inferencia causal
Spirtes et al. (2000): Trabajo fundamental en descubrimiento causal basado en restricciones
Henckel et al. (2022): Criterios gráficos para conjuntos de ajuste óptimos
Perković et al. (2015): Definición y propiedades de adaptabilidad
Evaluación General: Este es un artículo de alta calidad en inferencia causal con contribuciones importantes tanto en teoría como en práctica. El algoritmo LOAD resuelve ingeniosamente el compromiso entre eficiencia computacional y optimalidad estadística en el descubrimiento causal, con importante valor académico y perspectivas de aplicación.