2025-11-11T12:40:09.062802

The Limits of AI Explainability: An Algorithmic Information Theory Approach

Rao

This paper establishes a theoretical foundation for understanding the fundamental limits of AI explainability through algorithmic information theory. We formalize explainability as the approximation of complex models by simpler ones, quantifying both approximation error and explanation complexity using Kolmogorov complexity. Our key theoretical contributions include: (1) a complexity gap theorem proving that any explanation significantly simpler than the original model must differ from it on some inputs; (2) precise bounds showing that explanation complexity grows exponentially with input dimension but polynomially with error tolerance for Lipschitz functions; and (3) a characterization of the gap between local and global explainability, demonstrating that local explanations can be significantly simpler while maintaining accuracy in relevant regions. We further establish a regulatory impossibility theorem proving that no governance framework can simultaneously pursue unrestricted AI capabilities, human-interpretable explanations, and negligible error. These results highlight considerations likely to be relevant to the design, evaluation, and oversight of explainable AI systems.

academic

Los Límites de la Explicabilidad de la IA: Un Enfoque de Teoría de la Información Algorítmica

Información Básica

ID del Artículo: 2504.20676
Título: The Limits of AI Explainability: An Algorithmic Information Theory Approach
Autor: Shrisha Rao
Clasificación: cs.AI cs.CY cs.IT math.IT
Fecha de Publicación: 3 de noviembre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2504.20676

Resumen

Este artículo establece los fundamentos teóricos para comprender los límites fundamentales de la explicabilidad de la IA mediante la teoría de la información algorítmica. El autor formaliza la explicabilidad como el proceso de aproximar modelos complejos mediante modelos simples, utilizando la complejidad de Kolmogorov para cuantificar el error de aproximación y la complejidad de la explicación. Las principales contribuciones teóricas incluyen: (1) el teorema de la brecha de complejidad, que demuestra que cualquier explicación significativamente más simple que el modelo original debe diferir en algunas entradas; (2) límites precisos que muestran que para funciones de Lipschitz, la complejidad de la explicación crece exponencialmente con la dimensión de entrada pero polinomialmente con la tolerancia al error; (3) la caracterización de la brecha entre explicabilidad local y global, demostrando que las explicaciones locales pueden simplificarse significativamente mientras mantienen la precisión en regiones relevantes. Además, se establece un teorema de imposibilidad regulatoria, demostrando que ningún marco de gobernanza puede perseguir simultáneamente capacidades de IA sin restricciones, explicaciones comprensibles para humanos y errores negligibles.

Contexto de Investigación y Motivación

Contexto del Problema

Con el creciente impacto de los sistemas de IA en campos críticos como diagnóstico médico, toma de decisiones financieras y conducción autónoma, la capacidad de explicar el comportamiento de estos sistemas se ha vuelto crucial para establecer confianza, implementar supervisión efectiva y promover la colaboración humano-máquina. Esto ha catalizado el desarrollo del campo de la IA Explicable (XAI), que se dedica a desarrollar métodos para hacer que sistemas de IA complejos sean comprensibles para los humanos mientras se mantiene un alto rendimiento.

Limitaciones Existentes

A pesar del progreso significativo en el desarrollo de técnicas de explicación prácticas, el campo carece de fundamentos apropiados para comprender los límites fundamentales de la explicabilidad. Los problemas existentes incluyen:

Falta de definiciones formales de conceptos clave como "explicabilidad", "simplicidad" y "fidelidad"
Incapacidad para analizar sistemáticamente los compromisos inherentes en la generación de explicaciones
Ausencia de garantías demostrables sobre la calidad de las explicaciones
Naturaleza teórica poco clara de los métodos heurísticos

Motivación de la Investigación

Este artículo llena este vacío importante estableciendo fundamentos teóricos para cuantificar los límites fundamentales de la explicabilidad de los sistemas de IA mediante conceptos de teoría de la información algorítmica, teoría de aproximación y complejidad computacional.

Contribuciones Principales

Marco Formal: Propone una definición formal del error de explicación basada en la complejidad de Kolmogorov, proporcionando una medida teóricamente sólida de la simplicidad del modelo independiente de la representación específica
Teorema de la Brecha de Complejidad: Demuestra que cualquier explicación significativamente más simple que el modelo original debe diferir en algunas entradas, formalizando la intuición de que la simplificación necesariamente conlleva pérdida de información
Límites Cuantificados: Proporciona límites cuantificados de los compromisos error-complejidad para diferentes clases de funciones, incluyendo análisis precisos para funciones de Lipschitz suave
Análisis de Clases de Modelos: Realiza análisis teórico de la explicabilidad para clases de modelos comunes (modelos lineales, árboles de decisión, redes neuronales)
Explicabilidad Local vs Global: Caracteriza la brecha entre explicabilidad local y global, mostrando que las explicaciones locales pueden simplificarse significativamente
Teorema de Imposibilidad Regulatoria: Demuestra que ningún marco regulatorio puede perseguir simultáneamente capacidades de IA sin restricciones, explicaciones comprensibles para humanos y errores negligibles

Detalles Metodológicos

Definición de la Tarea

Este artículo define la tarea de explicabilidad como: dado un sistema de IA f : X → Y, encontrar una explicación g : X → Y tal que g aproxime el comportamiento de f y sea considerada comprensible para humanos.

Marco Teórico

Definiciones Fundamentales

Sistema de IA: Función f : X → Y, donde X representa el espacio de entrada e Y el espacio de salida
Explicación: Función g : X → Y que aproxima f y satisface algún criterio de explicabilidad
Complejidad de Kolmogorov: K(g) = min{|p| : U(p,x) = g(x) para todo x ∈ X}, donde p es el programa más corto que calcula g

Métricas Principales

Clase de Explicabilidad: Ik = {g : X → Y | K(g) ≤ k}, que representa el conjunto de funciones con complejidad no superior a k
Función de Error de Explicación: εf(k) = inf_{g∈Ik} E(f,g), que representa el error mínimo alcanzable por una explicación con complejidad a lo sumo k
Función de Complejidad de Explicación: κf(δ) = min{k ∈ N | ∃g ∈ Ik : E(f,g) ≤ δ}, que representa la complejidad mínima necesaria para alcanzar un error a lo sumo δ

Resultados Teóricos Clave

Teorema de la Brecha de Complejidad (Teorema 2.23)

Para cualquier modelo f y explicación g, si K(g) < K(f) - c (para alguna constante c), entonces debe existir una entrada x tal que f(x) ≠ g(x).

Compromiso Error-Complejidad (Teorema 2.24)

Para cualquier modelo f y clase de explicabilidad Ik (k < K(f) - c), el mejor error de aproximación tiene una cota inferior: εf(k) ≥ min_{x∈X,y∈Y,y≠f(x)} d(f(x),y)

Explicabilidad de Funciones de Lipschitz (Teorema 3.2)

Para una función L-Lipschitz continua f : 0,1^d → R, la complejidad de explicación satisface: κf(δ) = O((L/δ)^d log(L/δ))

Configuración Experimental

Verificación Teórica

Este trabajo es principalmente teórico, verificando diversos teoremas mediante pruebas matemáticas. Se analizaron principalmente las siguientes clases de funciones:

Funciones de Lipschitz: Análisis de los límites de explicabilidad de funciones suave
Modelos Lineales: Complejidad K(g) = O(n log n), donde n es el número de características
Árboles de Decisión: Complejidad K(g) = O(|T| log |T|), donde |T| es el número de nodos
Redes Neuronales: Complejidad K(g) = O(w log p + b log p + a), donde w es el número de pesos, b es el número de sesgos y p es la precisión

Métodos de Análisis

Pruebas constructivas: Demostración de resultados de existencia mediante construcción explícita de funciones que satisfacen las condiciones
Análisis adversarial: Construcción de funciones en el peor caso para demostrar resultados de cotas inferiores
Análisis asintótico: Análisis del comportamiento asintótico de la complejidad y el error conforme varían los parámetros

Resultados Experimentales

Resultados Teóricos Principales

Dependencia de la Dimensión (Corolario 3.3)

Para un umbral de error fijo δ y constante de Lipschitz L, la complejidad de explicación de funciones de Lipschitz crece exponencialmente con la dimensión: κf(δ) = O((L/δ)^d log(L/δ))

Inexplicabilidad de Funciones Aleatorias (Teorema 2.29)

Para una función booleana aleatoria f : {0,1}^n → {0,1}, la tasa de fallo de cualquier explicación g con complejidad K(g) ≤ (1-ε)2^n satisface: ε(f,g) ≥ 1/2 - 2^{-Ω(2^n)}

Complejidad de Explicación Local (Teorema 3.15)

Para explicaciones locales de funciones L-Lipschitz: κf^{local}(δ,x0,N) = { O(1) si δ ≥ Lr O(d log(Lr/δ)) si δ < Lr }

Resultados del Análisis Regulatorio

Teorema de Imposibilidad Regulatoria (Teorema 4.6)

Demuestra el trilema fundamental en la gobernanza de IA:

R1 (Capacidad sin restricciones): Permitir sistemas de IA de complejidad arbitrariamente alta
R2 (Explicabilidad Humana): Requerir que la complejidad de la explicación no exceda los límites cognitivos humanos
R3 (Error Negligible): Requerir que el error de explicación sea suficientemente pequeño

Cualesquiera dos requisitos pueden satisfacerse simultáneamente, pero los tres no pueden satisfacerse simultáneamente.

Trabajo Relacionado

Enfoques de Teoría de la Información

Jung y Nardelli proponen un enfoque probabilístico basado en información mutua condicional
Ganguly y Gupta formalizan la selección de explicadores como un problema de distorsión de tasa
Teoría de simplicidad algorítmica de Dessalles

Enfoques de Teoría de la Complejidad

Aplicación de teoría de aprendizaje estadístico en explicabilidad
Trabajo relacionado de teoría de complejidad computacional
Aplicación de teoría de aproximación en generación de explicaciones

Ventajas de Este Trabajo

En comparación con trabajos existentes, este artículo proporciona un modelo integral basado en teoría de la información algorítmica que puede caracterizar los compromisos fundamentales en diferentes clases de modelos y métodos de explicación.

Conclusiones y Discusión

Conclusiones Principales

Límites Fundamentales: Cualquier explicación significativamente más simple que el modelo original debe producir errores en algunas entradas
Maldición de la Dimensionalidad: La complejidad de la explicación crece exponencialmente con la dimensión de entrada, formalizando la "maldición de la dimensionalidad" en explicabilidad
Ventaja Local: Las explicaciones locales pueden simplificarse significativamente en comparación con explicaciones globales
Trilema Regulatorio: No es posible lograr simultáneamente capacidad de IA ilimitada, explicabilidad humana y error negligible

Orientación Práctica

Reducción de Dimensionalidad: Priorizar la reducción de la dimensión de entrada
Selección de Clase de Modelo: Elegir la clase de modelo de explicación según la naturaleza de la función objetivo
Presupuesto de Complejidad: Asignación efectiva del presupuesto de complejidad de explicabilidad
Métodos Híbridos: Utilizar combinaciones de clases de modelos para lograr mejores compromisos
Complejidad Adaptativa: Asignar más complejidad en regiones donde la función cambia rápidamente

Limitaciones

Computabilidad: La complejidad de Kolmogorov generalmente no es computable, requiriendo aproximaciones
Cognición Humana: El marco teórico puede no capturar completamente el proceso de comprensión humana
Supuestos de Distribución: Algunos resultados dependen de supuestos específicos sobre la distribución de entrada
Verificación Empírica: Principalmente trabajo teórico, carece de verificación empírica a gran escala

Direcciones Futuras

Complejidad Computacional: Investigar la complejidad computacional de encontrar explicaciones óptimas
Alineación Cognitiva: Desarrollar medidas de complejidad mejor alineadas con procesos cognitivos humanos
Sensibilidad a la Distribución: Extensiones que consideren más explícitamente la distribución de entrada
Explicaciones Causales: Incorporar conceptos de explicaciones causales y contrafácticas
Explicaciones Dinámicas: Explorar modelos de explicación dinámica e interactiva

Evaluación Profunda

Fortalezas

Rigor Teórico: Fundamentos matemáticos sólidos basados en teoría de la información algorítmica, proporcionando el primer marco teórico integral para la investigación de explicabilidad
Aplicabilidad Universal: Los resultados se aplican a una amplia gama de clases de modelos y escenarios de aplicación
Relevancia Práctica: Los resultados teóricos tienen implicaciones directas para el diseño de sistemas de IA explicable
Impacto en Políticas: Proporciona restricciones matemáticas importantes para la gobernanza y regulación de IA
Innovación Técnica: Aplicación ingeniosa de la complejidad de Kolmogorov al análisis de explicabilidad

Deficiencias

Desafíos Computacionales: La no computabilidad de la complejidad de Kolmogorov limita la aplicación directa
Brecha Cognitiva: Las medidas de complejidad teórica pueden diferir de la capacidad real de comprensión humana
Ausencia Empírica: Carece de verificación empírica a gran escala para respaldar predicciones teóricas
Limitaciones de Supuestos: Algunos resultados dependen de supuestos de propiedades de función relativamente fuertes (como continuidad de Lipschitz)
Barrera de Aplicación: La aplicación del marco teórico requiere un trasfondo matemático considerable

Impacto

Contribución Académica: Proporciona fundamentos teóricos importantes para la investigación de IA explicable, potencialmente convirtiéndose en trabajo fundamental en el campo
Valor Práctico: Proporciona orientación principista para la selección y evaluación de métodos de explicación
Significancia Política: Tiene valor de referencia importante para la formulación de políticas de regulación de IA
Impacto Interdisciplinario: Conecta múltiples campos incluyendo teoría de la información, teoría de la complejidad y ética de IA

Escenarios de Aplicación

Aplicaciones de IA de Alto Riesgo: Campos como medicina, finanzas y justicia que requieren requisitos estrictos de explicabilidad
Cumplimiento Regulatorio: Diseño de sistemas de IA que deben satisfacer requisitos de explicación
Orientación de Investigación: Análisis teórico y comparación de métodos de IA explicable
Educación y Capacitación: Fundamentos teóricos para cursos de ética de IA y explicabilidad

Referencias

El artículo cita 65 referencias importantes que abarcan:

Obras clásicas de teoría de la información algorítmica (Li & Vitányi, Kolmogorov, etc.)
Trabajos importantes en IA explicable (LIME, SHAP, etc.)
Fundamentos de teoría de la complejidad y teoría de aproximación
Literatura relacionada con gobernanza y regulación de IA
Teoría de la información y teoría de distorsión de tasa

Evaluación General: Este es un trabajo teórico de importancia fundamental que establece por primera vez fundamentos matemáticos rigurosos para la investigación de explicabilidad de IA. A pesar de los desafíos en la aplicación práctica, su contribución teórica y valor orientador para el desarrollo futuro del campo son innegables. Este trabajo no solo avanza nuestra comprensión de los límites fundamentales de la explicabilidad, sino que también proporciona evidencia científica importante para la gobernanza de IA.