2025-11-11T12:40:09.062802

The Limits of AI Explainability: An Algorithmic Information Theory Approach

Rao
This paper establishes a theoretical foundation for understanding the fundamental limits of AI explainability through algorithmic information theory. We formalize explainability as the approximation of complex models by simpler ones, quantifying both approximation error and explanation complexity using Kolmogorov complexity. Our key theoretical contributions include: (1) a complexity gap theorem proving that any explanation significantly simpler than the original model must differ from it on some inputs; (2) precise bounds showing that explanation complexity grows exponentially with input dimension but polynomially with error tolerance for Lipschitz functions; and (3) a characterization of the gap between local and global explainability, demonstrating that local explanations can be significantly simpler while maintaining accuracy in relevant regions. We further establish a regulatory impossibility theorem proving that no governance framework can simultaneously pursue unrestricted AI capabilities, human-interpretable explanations, and negligible error. These results highlight considerations likely to be relevant to the design, evaluation, and oversight of explainable AI systems.
academic

Los Límites de la Explicabilidad de la IA: Un Enfoque de Teoría de la Información Algorítmica

Información Básica

  • ID del Artículo: 2504.20676
  • Título: The Limits of AI Explainability: An Algorithmic Information Theory Approach
  • Autor: Shrisha Rao
  • Clasificación: cs.AI cs.CY cs.IT math.IT
  • Fecha de Publicación: 3 de noviembre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2504.20676

Resumen

Este artículo establece los fundamentos teóricos para comprender los límites fundamentales de la explicabilidad de la IA mediante la teoría de la información algorítmica. El autor formaliza la explicabilidad como el proceso de aproximar modelos complejos mediante modelos simples, utilizando la complejidad de Kolmogorov para cuantificar el error de aproximación y la complejidad de la explicación. Las principales contribuciones teóricas incluyen: (1) el teorema de la brecha de complejidad, que demuestra que cualquier explicación significativamente más simple que el modelo original debe diferir en algunas entradas; (2) límites precisos que muestran que para funciones de Lipschitz, la complejidad de la explicación crece exponencialmente con la dimensión de entrada pero polinomialmente con la tolerancia al error; (3) la caracterización de la brecha entre explicabilidad local y global, demostrando que las explicaciones locales pueden simplificarse significativamente mientras mantienen la precisión en regiones relevantes. Además, se establece un teorema de imposibilidad regulatoria, demostrando que ningún marco de gobernanza puede perseguir simultáneamente capacidades de IA sin restricciones, explicaciones comprensibles para humanos y errores negligibles.

Contexto de Investigación y Motivación

Contexto del Problema

Con el creciente impacto de los sistemas de IA en campos críticos como diagnóstico médico, toma de decisiones financieras y conducción autónoma, la capacidad de explicar el comportamiento de estos sistemas se ha vuelto crucial para establecer confianza, implementar supervisión efectiva y promover la colaboración humano-máquina. Esto ha catalizado el desarrollo del campo de la IA Explicable (XAI), que se dedica a desarrollar métodos para hacer que sistemas de IA complejos sean comprensibles para los humanos mientras se mantiene un alto rendimiento.

Limitaciones Existentes

A pesar del progreso significativo en el desarrollo de técnicas de explicación prácticas, el campo carece de fundamentos apropiados para comprender los límites fundamentales de la explicabilidad. Los problemas existentes incluyen:

  1. Falta de definiciones formales de conceptos clave como "explicabilidad", "simplicidad" y "fidelidad"
  2. Incapacidad para analizar sistemáticamente los compromisos inherentes en la generación de explicaciones
  3. Ausencia de garantías demostrables sobre la calidad de las explicaciones
  4. Naturaleza teórica poco clara de los métodos heurísticos

Motivación de la Investigación

Este artículo llena este vacío importante estableciendo fundamentos teóricos para cuantificar los límites fundamentales de la explicabilidad de los sistemas de IA mediante conceptos de teoría de la información algorítmica, teoría de aproximación y complejidad computacional.

Contribuciones Principales

  1. Marco Formal: Propone una definición formal del error de explicación basada en la complejidad de Kolmogorov, proporcionando una medida teóricamente sólida de la simplicidad del modelo independiente de la representación específica
  2. Teorema de la Brecha de Complejidad: Demuestra que cualquier explicación significativamente más simple que el modelo original debe diferir en algunas entradas, formalizando la intuición de que la simplificación necesariamente conlleva pérdida de información
  3. Límites Cuantificados: Proporciona límites cuantificados de los compromisos error-complejidad para diferentes clases de funciones, incluyendo análisis precisos para funciones de Lipschitz suave
  4. Análisis de Clases de Modelos: Realiza análisis teórico de la explicabilidad para clases de modelos comunes (modelos lineales, árboles de decisión, redes neuronales)
  5. Explicabilidad Local vs Global: Caracteriza la brecha entre explicabilidad local y global, mostrando que las explicaciones locales pueden simplificarse significativamente
  6. Teorema de Imposibilidad Regulatoria: Demuestra que ningún marco regulatorio puede perseguir simultáneamente capacidades de IA sin restricciones, explicaciones comprensibles para humanos y errores negligibles

Detalles Metodológicos

Definición de la Tarea

Este artículo define la tarea de explicabilidad como: dado un sistema de IA f : X → Y, encontrar una explicación g : X → Y tal que g aproxime el comportamiento de f y sea considerada comprensible para humanos.

Marco Teórico

Definiciones Fundamentales

  • Sistema de IA: Función f : X → Y, donde X representa el espacio de entrada e Y el espacio de salida
  • Explicación: Función g : X → Y que aproxima f y satisface algún criterio de explicabilidad
  • Complejidad de Kolmogorov: K(g) = min{|p| : U(p,x) = g(x) para todo x ∈ X}, donde p es el programa más corto que calcula g

Métricas Principales

  1. Clase de Explicabilidad: Ik = {g : X → Y | K(g) ≤ k}, que representa el conjunto de funciones con complejidad no superior a k
  2. Función de Error de Explicación: εf(k) = inf_{g∈Ik} E(f,g), que representa el error mínimo alcanzable por una explicación con complejidad a lo sumo k
  3. Función de Complejidad de Explicación: κf(δ) = min{k ∈ N | ∃g ∈ Ik : E(f,g) ≤ δ}, que representa la complejidad mínima necesaria para alcanzar un error a lo sumo δ

Resultados Teóricos Clave

Teorema de la Brecha de Complejidad (Teorema 2.23)

Para cualquier modelo f y explicación g, si K(g) < K(f) - c (para alguna constante c), entonces debe existir una entrada x tal que f(x) ≠ g(x).

Compromiso Error-Complejidad (Teorema 2.24)

Para cualquier modelo f y clase de explicabilidad Ik (k < K(f) - c), el mejor error de aproximación tiene una cota inferior: εf(k) ≥ min_{x∈X,y∈Y,y≠f(x)} d(f(x),y)

Explicabilidad de Funciones de Lipschitz (Teorema 3.2)

Para una función L-Lipschitz continua f : 0,1^d → R, la complejidad de explicación satisface: κf(δ) = O((L/δ)^d log(L/δ))

Configuración Experimental

Verificación Teórica

Este trabajo es principalmente teórico, verificando diversos teoremas mediante pruebas matemáticas. Se analizaron principalmente las siguientes clases de funciones:

  1. Funciones de Lipschitz: Análisis de los límites de explicabilidad de funciones suave
  2. Modelos Lineales: Complejidad K(g) = O(n log n), donde n es el número de características
  3. Árboles de Decisión: Complejidad K(g) = O(|T| log |T|), donde |T| es el número de nodos
  4. Redes Neuronales: Complejidad K(g) = O(w log p + b log p + a), donde w es el número de pesos, b es el número de sesgos y p es la precisión

Métodos de Análisis

  • Pruebas constructivas: Demostración de resultados de existencia mediante construcción explícita de funciones que satisfacen las condiciones
  • Análisis adversarial: Construcción de funciones en el peor caso para demostrar resultados de cotas inferiores
  • Análisis asintótico: Análisis del comportamiento asintótico de la complejidad y el error conforme varían los parámetros

Resultados Experimentales

Resultados Teóricos Principales

Dependencia de la Dimensión (Corolario 3.3)

Para un umbral de error fijo δ y constante de Lipschitz L, la complejidad de explicación de funciones de Lipschitz crece exponencialmente con la dimensión: κf(δ) = O((L/δ)^d log(L/δ))

Inexplicabilidad de Funciones Aleatorias (Teorema 2.29)

Para una función booleana aleatoria f : {0,1}^n → {0,1}, la tasa de fallo de cualquier explicación g con complejidad K(g) ≤ (1-ε)2^n satisface: ε(f,g) ≥ 1/2 - 2^{-Ω(2^n)}

Complejidad de Explicación Local (Teorema 3.15)

Para explicaciones locales de funciones L-Lipschitz: κf^{local}(δ,x0,N) = { O(1) si δ ≥ Lr O(d log(Lr/δ)) si δ < Lr }

Resultados del Análisis Regulatorio

Teorema de Imposibilidad Regulatoria (Teorema 4.6)

Demuestra el trilema fundamental en la gobernanza de IA:

  • R1 (Capacidad sin restricciones): Permitir sistemas de IA de complejidad arbitrariamente alta
  • R2 (Explicabilidad Humana): Requerir que la complejidad de la explicación no exceda los límites cognitivos humanos
  • R3 (Error Negligible): Requerir que el error de explicación sea suficientemente pequeño

Cualesquiera dos requisitos pueden satisfacerse simultáneamente, pero los tres no pueden satisfacerse simultáneamente.

Trabajo Relacionado

Enfoques de Teoría de la Información

  • Jung y Nardelli proponen un enfoque probabilístico basado en información mutua condicional
  • Ganguly y Gupta formalizan la selección de explicadores como un problema de distorsión de tasa
  • Teoría de simplicidad algorítmica de Dessalles

Enfoques de Teoría de la Complejidad

  • Aplicación de teoría de aprendizaje estadístico en explicabilidad
  • Trabajo relacionado de teoría de complejidad computacional
  • Aplicación de teoría de aproximación en generación de explicaciones

Ventajas de Este Trabajo

En comparación con trabajos existentes, este artículo proporciona un modelo integral basado en teoría de la información algorítmica que puede caracterizar los compromisos fundamentales en diferentes clases de modelos y métodos de explicación.

Conclusiones y Discusión

Conclusiones Principales

  1. Límites Fundamentales: Cualquier explicación significativamente más simple que el modelo original debe producir errores en algunas entradas
  2. Maldición de la Dimensionalidad: La complejidad de la explicación crece exponencialmente con la dimensión de entrada, formalizando la "maldición de la dimensionalidad" en explicabilidad
  3. Ventaja Local: Las explicaciones locales pueden simplificarse significativamente en comparación con explicaciones globales
  4. Trilema Regulatorio: No es posible lograr simultáneamente capacidad de IA ilimitada, explicabilidad humana y error negligible

Orientación Práctica

  1. Reducción de Dimensionalidad: Priorizar la reducción de la dimensión de entrada
  2. Selección de Clase de Modelo: Elegir la clase de modelo de explicación según la naturaleza de la función objetivo
  3. Presupuesto de Complejidad: Asignación efectiva del presupuesto de complejidad de explicabilidad
  4. Métodos Híbridos: Utilizar combinaciones de clases de modelos para lograr mejores compromisos
  5. Complejidad Adaptativa: Asignar más complejidad en regiones donde la función cambia rápidamente

Limitaciones

  1. Computabilidad: La complejidad de Kolmogorov generalmente no es computable, requiriendo aproximaciones
  2. Cognición Humana: El marco teórico puede no capturar completamente el proceso de comprensión humana
  3. Supuestos de Distribución: Algunos resultados dependen de supuestos específicos sobre la distribución de entrada
  4. Verificación Empírica: Principalmente trabajo teórico, carece de verificación empírica a gran escala

Direcciones Futuras

  1. Complejidad Computacional: Investigar la complejidad computacional de encontrar explicaciones óptimas
  2. Alineación Cognitiva: Desarrollar medidas de complejidad mejor alineadas con procesos cognitivos humanos
  3. Sensibilidad a la Distribución: Extensiones que consideren más explícitamente la distribución de entrada
  4. Explicaciones Causales: Incorporar conceptos de explicaciones causales y contrafácticas
  5. Explicaciones Dinámicas: Explorar modelos de explicación dinámica e interactiva

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Fundamentos matemáticos sólidos basados en teoría de la información algorítmica, proporcionando el primer marco teórico integral para la investigación de explicabilidad
  2. Aplicabilidad Universal: Los resultados se aplican a una amplia gama de clases de modelos y escenarios de aplicación
  3. Relevancia Práctica: Los resultados teóricos tienen implicaciones directas para el diseño de sistemas de IA explicable
  4. Impacto en Políticas: Proporciona restricciones matemáticas importantes para la gobernanza y regulación de IA
  5. Innovación Técnica: Aplicación ingeniosa de la complejidad de Kolmogorov al análisis de explicabilidad

Deficiencias

  1. Desafíos Computacionales: La no computabilidad de la complejidad de Kolmogorov limita la aplicación directa
  2. Brecha Cognitiva: Las medidas de complejidad teórica pueden diferir de la capacidad real de comprensión humana
  3. Ausencia Empírica: Carece de verificación empírica a gran escala para respaldar predicciones teóricas
  4. Limitaciones de Supuestos: Algunos resultados dependen de supuestos de propiedades de función relativamente fuertes (como continuidad de Lipschitz)
  5. Barrera de Aplicación: La aplicación del marco teórico requiere un trasfondo matemático considerable

Impacto

  1. Contribución Académica: Proporciona fundamentos teóricos importantes para la investigación de IA explicable, potencialmente convirtiéndose en trabajo fundamental en el campo
  2. Valor Práctico: Proporciona orientación principista para la selección y evaluación de métodos de explicación
  3. Significancia Política: Tiene valor de referencia importante para la formulación de políticas de regulación de IA
  4. Impacto Interdisciplinario: Conecta múltiples campos incluyendo teoría de la información, teoría de la complejidad y ética de IA

Escenarios de Aplicación

  1. Aplicaciones de IA de Alto Riesgo: Campos como medicina, finanzas y justicia que requieren requisitos estrictos de explicabilidad
  2. Cumplimiento Regulatorio: Diseño de sistemas de IA que deben satisfacer requisitos de explicación
  3. Orientación de Investigación: Análisis teórico y comparación de métodos de IA explicable
  4. Educación y Capacitación: Fundamentos teóricos para cursos de ética de IA y explicabilidad

Referencias

El artículo cita 65 referencias importantes que abarcan:

  • Obras clásicas de teoría de la información algorítmica (Li & Vitányi, Kolmogorov, etc.)
  • Trabajos importantes en IA explicable (LIME, SHAP, etc.)
  • Fundamentos de teoría de la complejidad y teoría de aproximación
  • Literatura relacionada con gobernanza y regulación de IA
  • Teoría de la información y teoría de distorsión de tasa

Evaluación General: Este es un trabajo teórico de importancia fundamental que establece por primera vez fundamentos matemáticos rigurosos para la investigación de explicabilidad de IA. A pesar de los desafíos en la aplicación práctica, su contribución teórica y valor orientador para el desarrollo futuro del campo son innegables. Este trabajo no solo avanza nuestra comprensión de los límites fundamentales de la explicabilidad, sino que también proporciona evidencia científica importante para la gobernanza de IA.