2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic

Aprendizaje Local para la Selección de Covariables en la Estimación No Paramétrica del Efecto Causal con Variables Latentes

Información Básica

  • ID del Artículo: 2411.16315
  • Título: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
  • Autores: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
  • Clasificación: cs.LG math.ST stat.ML stat.TH
  • Conferencia de Publicación: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2411.16315

Resumen

La estimación del efecto causal a partir de datos no experimentales es un problema fundamental en muchos campos científicos. Un componente clave de esta tarea es la selección de un conjunto apropiado de covariables para el ajuste de confusión y evitar sesgos. Los métodos existentes de selección de covariables generalmente asumen la ausencia de variables latentes y dependen del aprendizaje de la estructura de red global entre variables. Sin embargo, cuando el enfoque principal es estimar el efecto de una variable de tratamiento sobre una variable de resultado, la identificación de la estructura global puede ser innecesaria e ineficiente. Para abordar esta limitación, este artículo propone un novedoso método de aprendizaje local para la selección de covariables en la estimación no paramétrica del efecto causal con variables latentes. El método aprovecha las relaciones de independencia y dependencia condicional verificables entre variables observadas para identificar conjuntos de ajuste válidos para la relación causal objetivo, garantizando completitud y corrección bajo supuestos estándar.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que esta investigación aborda es: ¿cómo seleccionar eficientemente un conjunto de covariables para estimar el efecto causal de una variable de tratamiento específica X sobre una variable de resultado Y en presencia de variables latentes?

Importancia del Problema

  1. Aplicabilidad Amplia: La estimación del efecto causal es crucial en epidemiología, ciencias sociales, economía e inteligencia artificial
  2. Necesidad Práctica: En aplicaciones reales, los ensayos controlados aleatorizados idealizados a menudo son difíciles de implementar
  3. Control de Sesgo: La selección incorrecta de covariables conduce a estimaciones sesgadas del efecto causal

Limitaciones de los Métodos Existentes

  1. Aprendizaje de Estructura Global: Los métodos existentes como IDA y LV-IDA requieren aprender la estructura completa del gráfico causal, con alta complejidad computacional
  2. Negligencia de Variables Latentes: Muchos métodos asumen la ausencia de variables de confusión latentes, lo cual es irreal en aplicaciones prácticas
  3. Incompletitud de Métodos Locales: Métodos como CEELS, aunque más eficientes, pueden omitir conjuntos de ajuste válidos

Motivación de la Investigación

El punto de partida de este trabajo es desarrollar un método de selección de covariables que mantenga las ventajas de eficiencia del aprendizaje local mientras garantiza completitud y corrección, especialmente en escenarios complejos con variables latentes.

Contribuciones Principales

  1. Propuesta del Algoritmo LSAS: Se diseña un algoritmo de selección de covariables completamente local que utiliza relaciones de independencia y dependencia verificables, permitiendo la existencia de variables latentes
  2. Garantías Teóricas: Se demuestra la completitud y corrección del algoritmo propuesto bajo supuestos estándar, siendo capaz de identificar conjuntos de ajuste válidos para la relación causal objetivo
  3. Mejora de Eficiencia: Se reduce significativamente la complejidad computacional en comparación con métodos globales, disminuyendo la complejidad temporal de O(t×2^t) a O(|MB(X)|-1)×2^|MB(Y)|-1+n
  4. Verificación Experimental: Se valida la efectividad del algoritmo en datos sintéticos y reales

Explicación Detallada del Método

Definición de la Tarea

Entrada: Conjunto de datos observados D, que contiene la variable de tratamiento X, la variable de resultado Y y el conjunto de covariables O Salida:

  • Escenario S1: Estimación del efecto causal θ de X sobre Y
  • Escenario S2: Determinación de que X no tiene efecto causal sobre Y (θ=0)
  • Escenario S3: Incapacidad para determinar si existe efecto causal (θ=∅)

Restricciones:

  • Y no es un ancestro causal de X
  • O es el conjunto de variables de preprocesamiento (X e Y no son ancestros causales de ninguna variable en O)

Fundamentos Teóricos Principales

Definición de AMB

Se define el conjunto de ajuste dentro de la manta de Markov AMB(X,Y):

  • Z ⊆ MB(Y) \ {X}
  • Z ∩ Forb(X,Y) = ∅
  • Z bloquea todos los caminos no causales de X a Y

Teoremas Clave

Teorema 1 (Existencia de AMB): Existe un subconjunto de O que actúa como conjunto de ajuste para (X,Y) si y solo si existe un subconjunto de MB(Y){X} que actúa como conjunto de ajuste.

Teorema 2 (Regla R1): Para Z ⊆ MB(Y){X}, si existe S ∈ MB(X){Y} que satisface:

  • S ⊥̸⊥ Y | Z (condición i)
  • S ⊥⊥ Y | Z∪{X} (condición ii)

entonces Z es AMB(X,Y) y X tiene efecto causal sobre Y.

Teorema 3 (Regla R2): Si existe Z ⊆ MB(Y){X} y S ∈ MB(X){Y} que satisfacen cualquiera de las siguientes condiciones:

  • X ⊥⊥ Y | Z (condición i)
  • S ⊥̸⊥ X | Z y S ⊥⊥ Y | Z (condición ii)

entonces X no tiene efecto causal sobre Y.

Flujo del Algoritmo LSAS

Algoritmo 1: Búsqueda Local de Conjuntos de Ajuste (LSAS)
Entrada: Conjunto de datos observados D, variable de tratamiento X, variable de resultado Y
1: MB(X), MB(Y) ← Descubrimiento de Manta de Markov(X,Y,D)
2: Θ ← ∅ // Inicialización de estimación del efecto causal
3: para cada S ∈ MB(X)\{Y}, cada Z ⊆ MB(Y)\{X} hacer
4:   si S y Z satisfacen la regla R1 entonces
5:     Estimar el efecto causal θ de X sobre Y, Θ ← θ // Escenario S1
6:   fin si
7:   si S y Z satisfacen la regla R2 entonces
8:     retornar Θ ← 0 // Sin efecto causal, Escenario S2
9:   fin si
10: fin para
Salida: Efecto causal estimado Θ // Si es ∅ entonces Escenario S3

Puntos de Innovación Técnica

  1. Utilización de Manta de Markov Local: Solo se requiere información de la manta de Markov de X e Y, evitando el aprendizaje de gráficos globales
  2. Identificación Dirigida por Reglas: Se identifican directamente las relaciones causales a partir de pruebas de independencia condicional mediante las reglas R1 y R2
  3. Manejo de Variables Latentes: Se procesan variables de confusión latentes bajo el marco MAG
  4. Garantía de Completitud: Se demuestra teóricamente la completitud del método, sin omitir conjuntos de ajuste identificables

Configuración Experimental

Conjuntos de Datos

  1. Datos Sintéticos:
    • Gráficos aleatorios: Modelo Erdős-Rényi G(n,d), con 20-50 nodos, grado promedio 3-9
    • Estructuras específicas: Estructuras DAG basadas en Figura 3(a) y Figura 4(a)
    • Redes de referencia: INSURANCE (27 nodos), MILDEW (35 nodos), WIN95PTS (76 nodos), ANDES (223 nodos)
  2. Datos Reales: Conjunto de datos Cattaneo2, que contiene 4642 registros de nacimientos únicos de Pensilvania

Métricas de Evaluación

  • Error Relativo (RE): |(valor estimado - valor verdadero)/valor verdadero| × 100%
  • Número de Pruebas (nTest): Cantidad de pruebas de independencia condicional ejecutadas por el algoritmo

Métodos de Comparación

  • LV-IDA: Método de aprendizaje de gráficos globales basado en algoritmo RFCI
  • EHS: Método de búsqueda global con supuesto de preprocesamiento
  • CEELS: Método de búsqueda local con supuesto de preprocesamiento
  • LDP: Método de búsqueda local que relaja el supuesto de preprocesamiento

Detalles de Implementación

  • Tamaño de muestra: 1K, 5K, 10K, 15K
  • Modelo causal lineal gaussiano, pesos de aristas muestreados de Uniform0.5,1.5
  • Nivel de significancia de prueba de independencia condicional: 0.01
  • Tamaño máximo del conjunto condicional: 3-7 (según complejidad de la red)

Resultados Experimentales

Resultados Principales

Experimentos de Estructura Específica

En estructuras MAG correspondientes a Figura 3(b) y Figura 4(b):

  • Error Relativo: LSAS supera significativamente a otros métodos en todos los tamaños de muestra
  • Eficiencia de Pruebas: El nTest de LSAS es mucho menor que el de LV-IDA y EHS
  • Ventaja de Completitud: CEELS y LDP, debido a su incompletitud, no pueden encontrar conjuntos de ajuste válidos en algunas estructuras

Experimentos de Redes de Referencia

En redes MILDEW y WIN95PTS:

  • LSAS muestra el mejor desempeño en casi todas las métricas de evaluación y tamaños de muestra
  • Incluso cuando se viola el supuesto de preprocesamiento, LSAS supera a otros métodos
  • EHS no puede completarse en redes grandes debido a tiempo de ejecución excesivo

Validación en Datos Reales

En el conjunto de datos Cattaneo2 estudiando el efecto del tabaquismo durante el embarazo en el peso al nacer:

  • Las estimaciones del efecto de LSAS y EHS caen dentro del intervalo de referencia -250g, -200g
  • LSAS requiere solo 158 pruebas de independencia condicional, mientras que CEELS requiere 1284 y LDP requiere 266
  • Se valida la efectividad del método en aplicaciones prácticas

Experimentos de Ablación

El artículo verifica la robustez del método mediante experimentos con diferentes densidades de red:

  • Con el aumento de la densidad del gráfico, el desempeño de todos los métodos disminuye, pero LSAS mantiene una ventaja clara
  • En la red G(40,9), aunque LDP tiene un nTest más bajo, el RE de LSAS es significativamente superior

Análisis de Tiempo de Ejecución

LSAS muestra el mejor desempeño de tiempo de ejecución en la mayoría de redes y tamaños de muestra, con la única excepción de la red WIN95PTS con tamaño de muestra grande (15K) donde LDP es más rápido, pero la precisión de LSAS es significativamente superior.

Trabajo Relacionado

Métodos con Gráfico Causal Conocido

  • Criterios de Ajuste Clásicos: Criterio de puerta trasera, criterio de puerta trasera generalizado
  • Conjuntos de Ajuste Óptimos: Búsqueda de conjuntos de ajuste con varianza asintótica mínima

Métodos con Gráfico Causal Desconocido

  • Aprendizaje Global: Métodos de la serie IDA, que requieren aprender CPDAG/PAG completo
  • Aprendizaje Local: Métodos como CovSel, EHS, pero la mayoría asume ausencia de variables latentes
  • Manejo de Variables Latentes: Métodos como LV-IDA, CE-SAT, pero con alta complejidad computacional

Ventajas de Este Trabajo

En comparación con trabajos existentes, este método logra la unificación de la eficiencia del aprendizaje local con la completitud de métodos globales, con ventajas especialmente evidentes en el manejo de variables latentes.

Conclusiones y Discusión

Conclusiones Principales

  1. Se propone el primer algoritmo de selección de covariables que mantiene localidad y garantiza completitud en presencia de variables latentes
  2. Se demuestra teóricamente la corrección y completitud del método
  3. Se verifica experimentalmente las ventajas significativas del método en eficiencia y precisión

Limitaciones

  1. Supuesto de Preprocesamiento: Aún depende del supuesto de preprocesamiento, aunque muestra buen desempeño en algunos casos de violación
  2. Identificación de Descendientes: No puede identificar localmente descendientes de la variable de tratamiento sin recuperar el gráfico completo
  3. Pruebas de Independencia Condicional: Depende de pruebas precisas de independencia condicional, que pueden tener errores con muestras finitas

Direcciones Futuras

  1. Relajación de Supuestos: Desarrollar métodos que no dependan del supuesto de preprocesamiento
  2. Fusión de Conocimiento de Fondo: Utilizar conocimiento de dominio para asistir la identificación causal
  3. Datos de Múltiples Ambientes: Aprovechar datos de múltiples ambientes para mejorar la identificación causal
  4. Identificación de Descendientes: Investigar métodos para identificar localmente descendientes de la variable de tratamiento

Evaluación Profunda

Fortalezas

  1. Contribución Teórica: Proporciona un marco teórico completo, demostrando la viabilidad de métodos locales
  2. Valor Práctico: Reduce significativamente la complejidad computacional, haciendo posible la aplicación a gran escala
  3. Experimentación Exhaustiva: Validación completa en múltiples tipos de datos
  4. Escritura Clara: Estructura clara del artículo, exposición teórica rigurosa

Insuficiencias

  1. Limitaciones de Supuestos: El supuesto de preprocesamiento puede no satisfacerse en algunos escenarios de aplicación
  2. Dependencia de Pruebas: El desempeño del método depende en gran medida de la precisión de las pruebas de independencia condicional
  3. Escalabilidad: La escalabilidad a redes ultra grandes aún requiere verificación

Impacto

  1. Valor Académico: Proporciona nuevo marco teórico y metodológico para el campo de la inferencia causal
  2. Significado Práctico: Ofrece solución eficiente para la selección de covariables en aplicaciones prácticas
  3. Reproducibilidad: Código público, configuración experimental detallada, con buena reproducibilidad

Escenarios de Aplicación

Este método es especialmente adecuado para los siguientes escenarios:

  • Estimación del efecto causal en datos observacionales a gran escala
  • Sistemas complejos con variables de confusión latentes
  • Aplicaciones en tiempo real con requisitos de eficiencia computacional
  • Diseños de investigación con recopilación relativamente completa de variables de preprocesamiento

Referencias

El artículo cita literatura importante en el campo de la inferencia causal, incluyendo obras clásicas de Pearl, el algoritmo PC de Spirtes y otros, así como métodos de aprendizaje local recientes, reflejando comprensión completa y profunda del trabajo relacionado.