2025-11-18T15:28:13.400087

Local Causal Discovery for Statistically Efficient Causal Inference

Schubert, Claassen, Magliacane
Causal discovery methods can identify valid adjustment sets for causal effect estimation for a pair of target variables, even when the underlying causal graph is unknown. Global causal discovery methods focus on learning the whole causal graph and therefore enable the recovery of optimal adjustment sets, i.e., sets with the lowest asymptotic variance, but they quickly become computationally prohibitive as the number of variables grows. Local causal discovery methods offer a more scalable alternative by focusing on the local neighborhood of the target variables, but are restricted to statistically suboptimal adjustment sets. In this work, we propose Local Optimal Adjustments Discovery (LOAD), a sound and complete causal discovery approach that combines the computational efficiency of local methods with the statistical optimality of global methods. First, LOAD identifies the causal relation between the targets and tests if the causal effect is identifiable by using only local information. If it is identifiable, it then finds the optimal adjustment set by leveraging local causal discovery to infer the mediators and their parents. Otherwise, it returns the locally valid parent adjustment sets based on the learned local structure. In our experiments on synthetic and realistic data LOAD outperforms global methods in scalability, while providing more accurate effect estimation than local methods.
academic

Descubrimiento Causal Local para Inferencia Causal Estadísticamente Eficiente

Información Básica

  • ID del Artículo: 2510.14582
  • Título: Local Causal Discovery for Statistically Efficient Causal Inference
  • Autores: Mátyás Schubert (University of Amsterdam), Tom Claassen (Radboud University Nijmegen), Sara Magliacane (University of Amsterdam)
  • Clasificación: stat.ML cs.AI cs.LG
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14582v1

Resumen

Los métodos de descubrimiento causal pueden identificar conjuntos de ajuste válidos para la estimación del efecto causal entre un par de variables objetivo, incluso cuando el grafo causal subyacente es desconocido. Los métodos de descubrimiento causal global se enfocan en aprender el grafo causal completo, permitiendo recuperar conjuntos de ajuste óptimos (es decir, aquellos con la menor varianza asintótica), pero se vuelven rápidamente computacionalmente intratables a medida que aumenta el número de variables. Los métodos de descubrimiento causal local ofrecen alternativas más escalables al enfocarse en la vecindad local de las variables objetivo, pero se limitan a conjuntos de ajuste estadísticamente subóptimos. En este trabajo, los autores proponen LOAD (Local Optimal Adjustment Discovery), un método de descubrimiento causal confiable y completo que combina la eficiencia computacional de los métodos locales con la optimalidad estadística de los métodos globales.

Antecedentes y Motivación de la Investigación

Definición del Problema

En la inferencia causal, la estimación del efecto causal entre dos variables es una tarea central. Cuando el grafo causal subyacente es desconocido, es necesario utilizar métodos de descubrimiento causal para identificar conjuntos de ajuste válidos para la estimación del efecto causal. Los métodos existentes enfrentan un compromiso fundamental:

  1. El dilema de los métodos globales: Los métodos de descubrimiento causal global (como el algoritmo PC) pueden aprender el grafo causal completo y recuperar conjuntos de ajuste óptimos, pero la complejidad computacional crece exponencialmente con el número de variables, lo que los hace inviables en problemas a gran escala.
  2. Las limitaciones de los métodos locales: Los métodos de descubrimiento causal local (como MB-by-MB, LDECC) son computacionalmente eficientes, pero solo pueden recuperar conjuntos de ajuste subóptimos, lo que resulta en una varianza asintótica más alta en la estimación del efecto causal.

Motivación de la Investigación

Los autores identifican los siguientes problemas en los métodos locales existentes:

  • El algoritmo LocalPC no es suficientemente confiable al identificar variables adyacentes, pudiendo identificar erróneamente cónyuges no adyacentes como adyacentes
  • El algoritmo LDECC es incompleto, siendo incapaz de orientar todos los bordes orientables en ciertos casos
  • El algoritmo LDP puede reportar erróneamente que un efecto no es identificable cuando en realidad es identificable como cero

Por lo tanto, se necesita un nuevo método que mantenga la eficiencia computacional de los métodos locales mientras logra la optimalidad estadística de los métodos globales.

Contribuciones Principales

  1. Desarrollo de métodos basados en información local para determinar la identificabilidad del efecto causal: Se proponen condiciones necesarias y suficientes para determinar si un efecto causal es identificable utilizando solo información local.
  2. Propuesta del algoritmo LOAD: Un método confiable y completo que identifica conjuntos de ajuste óptimos utilizando solo información local alrededor de las variables.
  3. Evaluación experimental exhaustiva: Se evalúa LOAD en datos sintéticos y reales, demostrando que puede recuperar conjuntos de ajuste de alta calidad con bajo costo computacional.
  4. Garantías teóricas: Se demuestra la confiabilidad y completitud de LOAD en la determinación de la identificabilidad del efecto causal y en la búsqueda de conjuntos de ajuste óptimos.

Explicación Detallada del Método

Definición de la Tarea

Dado un par de variables objetivo X e Y, el objetivo es:

  1. Determinar la relación causal entre X e Y (ancestro explícito, posible ancestro o ancestro definitivamente no)
  2. Juzgar si el efecto causal es identificable
  3. Si es identificable, encontrar el conjunto de ajuste óptimo; de lo contrario, devolver un conjunto de ajuste paternal válido localmente

Arquitectura del Algoritmo LOAD

El algoritmo LOAD se divide en 5 pasos principales:

Paso 1: Determinar la Relación Causal entre Variables Objetivo

Se utiliza el algoritmo LocalRelate (Algoritmo 1), determinando la relación mediante los siguientes teoremas:

  • Relación de ancestro explícito (Teorema 4.1): Para dos nodos distintos X e Y en el CPDAG G, X ∈ ExplAn_G(Y) si y solo si X ⊥̸⊥ Y | Pa_G(X) ∪ Sib_G(X)
  • Relación de ancestro definitivamente no (Teorema 4.2): X es un ancestro definitivamente no de Y si y solo si X ⊥⊥ Y | Pa_G(X)

Paso 2: Prueba de Identificabilidad del Efecto Causal

Se propone una prueba adaptativa basada en información local:

Lema 4.3: Para X ∈ PossAn_G(Y) en el CPDAG G, G es adaptado respecto a (X,Y) si y solo si:

∀V ∈ Sib_G(X) : V ⊥⊥ Y | Pa_G(V) ∪ {X}

Esta condición puede detectarse eficientemente mediante el algoritmo LocalAmenTest (Algoritmo 2).

Pasos 3-5: Construcción del Conjunto de Ajuste Óptimo

Si el efecto causal es identificable, LOAD construye el conjunto de ajuste óptimo mediante los siguientes pasos:

  1. Encontrar descendientes explícitos: Identificar todos los descendientes explícitos de T
  2. Identificar nodos mediadores: Encontrar nodos que son tanto descendientes explícitos de T como ancestros explícitos de O
  3. Construir el conjunto de ajuste óptimo:
    Oset_G(T,O) = Pa_G(Cn_G(T,O)) \ (Cn_G(T,O) ∪ {T})
    

Puntos de Innovación Técnica

  1. Prueba de adaptabilidad local: Por primera vez se proponen condiciones necesarias y suficientes para probar la adaptabilidad utilizando solo información local, evitando la necesidad de verificar todos los caminos dirigidos posibles.
  2. Mecanismo de caché: El algoritmo MB-by-MB mejorado utiliza caché para reutilizar las mantas de Markov identificadas y estructuras locales de ejecuciones anteriores, mejorando significativamente la eficiencia computacional.
  3. Completitud teórica: Se demuestra que LOAD es confiable y completo en la determinación de relaciones causales, identificabilidad y conjuntos de ajuste óptimos.

Configuración Experimental

Conjuntos de Datos

  1. Datos sintéticos:
    • Grafos Erdős–Rényi generados aleatoriamente
    • Número de variables: 100-1000
    • Grado esperado: d=2, grado máximo: dmax=10
    • Número de muestras: nD=10000
  2. Redes reales:
    • Red MAGIC-NIAB: 44 nodos, grado promedio 3
    • Red ANDES: 223 nodos, grado promedio 3.03

Métricas de Evaluación

  1. Eficiencia computacional: Número de pruebas de independencia condicional
  2. Calidad del conjunto de ajuste: Puntuación F1 del conjunto de ajuste óptimo
  3. Calidad de la estimación del efecto causal: Distancia de intervención

Métodos de Comparación

  • Métodos globales: PC, MARVEL, SNAP(∞)
  • Métodos locales: MB-by-MB+, LDECC+, LDP+ (versiones extendidas)

Detalles de Implementación

  • Nivel de significancia: α = 0.01
  • Tres tipos de pruebas de independencia condicional: d-separación oráculo, prueba Fisher-Z, prueba G²
  • Cada configuración se ejecuta 100 veces, eliminando los 5 mejores y 5 peores resultados

Resultados Experimentales

Resultados Principales

Eficiencia Computacional

El número de pruebas de independencia condicional de LOAD es consistentemente menor que el de los métodos globales en todas las configuraciones, ligeramente mayor que el de los métodos locales:

  • Con 1000 nodos, LOAD requiere 9.43×10³ pruebas, mientras que PC requiere 542.52×10³
  • En comparación con las 5.64×10³ pruebas de MB-by-MB+, el costo adicional de LOAD es razonable

Calidad del Conjunto de Ajuste (Puntuación F1)

  • Configuración oráculo: LOAD alcanza la puntuación F1 perfecta de 1.0, comparable a los métodos globales
  • Prueba Fisher-Z: LOAD supera a los métodos de referencia en todos los números de nodos, con puntuaciones F1 de aproximadamente 0.91-0.95
  • Prueba G²: El desempeño de LOAD es subóptimo, pero sigue siendo el segundo mejor método

Distancia de Intervención

LOAD logra la distancia de intervención más baja en la mayoría de las configuraciones:

  • Configuración oráculo: 0.003 (comparable a PC, SNAP)
  • Prueba Fisher-Z: 0.014-0.026 (óptimo)
  • Prueba G²: 0.022-0.036 (segundo mejor, solo superado por PC)

Resultados en Datos Reales

En la red MAGIC-NIAB:

  • LOAD alcanza la mejor puntuación F1 (0.62)
  • Logra la distancia de intervención más baja (0.007)
  • El número de pruebas de independencia condicional (4.35×10³) se sitúa entre los métodos locales y globales

Estudios de Ablación

  1. Relación tratamiento-resultado conocida: Cuando se proporciona conocimiento previo, LOAD* supera a PC en datos binarios
  2. Pares objetivo identificables: Los patrones de resultados se mantienen consistentes en configuraciones que garantizan la identificabilidad del efecto causal
  3. Sensibilidad de parámetros: LOAD muestra robustez ante diferentes números de muestras y grados esperados

Trabajo Relacionado

Métodos Globales de Descubrimiento Causal

  • Algoritmo PC: Método clásico basado en restricciones, pero con alta complejidad computacional
  • MARVEL: Método recursivo, aún difícil de escalar a cientos de variables
  • SNAP: Identificación y eliminación progresiva de ancestros definitivamente no, pero aún requiere descubrimiento causal en todos los posibles ancestros

Métodos Locales de Descubrimiento Causal

  • MB-by-MB: Descubrimiento secuencial de mantas de Markov, pero limitado a conjuntos de ajuste subóptimos
  • LDECC: Verificación eficiente de colisionadores, pero con problemas de confiabilidad y completitud
  • LDP: Aprendizaje de conjuntos de ajuste mediante particionamiento, pero aún potencialmente subóptimo con suposiciones limitadas

Ventajas de Este Trabajo

LOAD es el primer método que logra simultáneamente:

  1. Utilizar solo información local
  2. Recuperar conjuntos de ajuste óptimos
  3. Proporcionar garantías teóricas (confiabilidad y completitud)

Conclusiones y Discusión

Conclusiones Principales

  1. LOAD combina exitosamente la eficiencia computacional de los métodos locales con la optimalidad estadística de los métodos globales
  2. La prueba de adaptabilidad local propuesta proporciona un método eficiente para juzgar la identificabilidad del efecto causal
  3. En múltiples tipos de datos y estructuras de red, LOAD demuestra un desempeño superior

Limitaciones

  1. Suposición de suficiencia causal: La versión actual asume la ausencia de factores de confusión latentes o sesgos de selección
  2. Cuello de botella computacional en redes a gran escala: En grafos extremadamente grandes, la búsqueda de mantas de Markov aún puede ser un cuello de botella computacional
  3. Desempeño en datos binarios: El desempeño es limitado en datos binarios con la prueba G²

Direcciones Futuras

  1. Extensión a configuraciones causalmente insuficientes: Manejo de casos con factores de confusión latentes
  2. Optimización del descubrimiento de mantas de Markov: Mejora adicional de la eficiencia computacional en redes a gran escala
  3. Mejora del desempeño en muestras finitas: Especialmente en datos binarios

Evaluación Profunda

Fortalezas

  1. Contribución teórica significativa: Primera propuesta de una prueba de adaptabilidad basada solo en información local, con importante valor teórico
  2. Fuerte practicidad: Logra optimalidad estadística mientras mantiene eficiencia computacional, resolviendo problemas clave en aplicaciones prácticas
  3. Experimentación exhaustiva: Cubre múltiples tipos de datos, escalas de red e indicadores de evaluación, con resultados convincentes
  4. Algoritmo completo: Proporciona garantías teóricas de confiabilidad y completitud, con diseño de algoritmo riguroso

Insuficiencias

  1. Limitaciones de suposiciones: La suposición de suficiencia causal puede no satisfacerse en aplicaciones prácticas
  2. Problemas de escalabilidad: Aunque mejor que los métodos globales, aún enfrenta desafíos computacionales en redes de escala extremadamente grande
  3. Desempeño en muestras finitas: El desempeño no es suficientemente estable en ciertos escenarios de muestras finitas

Impacto

  1. Valor académico: Proporciona un nuevo marco teórico y ideas de diseño de algoritmos para el campo del descubrimiento causal
  2. Valor práctico: Tiene importancia significativa en aplicaciones prácticas que requieren estimación de efectos causales
  3. Reproducibilidad: Proporciona descripciones detalladas de algoritmos y configuraciones experimentales, facilitando la reproducción y extensión

Escenarios de Aplicación

  1. Inferencia causal a escala media: Tareas de estimación de efectos causales con cientos a miles de variables
  2. Recursos computacionales limitados: Escenarios de aplicación que requieren equilibrar eficiencia computacional y desempeño estadístico
  3. Entornos causalmente suficientes: Estudios observacionales sin factores de confusión latentes importantes

Referencias

El artículo cita literatura importante en el campo de la inferencia causal, incluyendo:

  • Pearl (2009): Causality - Libro de texto clásico en inferencia causal
  • Spirtes et al. (2000): Trabajo fundamental en descubrimiento causal basado en restricciones
  • Henckel et al. (2022): Criterios gráficos para conjuntos de ajuste óptimos
  • Perković et al. (2015): Definición y propiedades de adaptabilidad

Evaluación General: Este es un artículo de alta calidad en inferencia causal con contribuciones importantes tanto en teoría como en práctica. El algoritmo LOAD resuelve ingeniosamente el compromiso entre eficiencia computacional y optimalidad estadística en el descubrimiento causal, con importante valor académico y perspectivas de aplicación.