2025-11-13T13:52:10.448421

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

Tagliabue, Greco
Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
academic

Agentes de IA Seguros, No Confiables, "Portadores de Pruebas": hacia el almacén de datos agéntico

Información Básica

  • ID del Artículo: 2510.09567
  • Título: Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
  • Autores: Jacopo Tagliabue (Bauplan Labs), Ciro Greco (Bauplan Labs)
  • Clasificación: cs.AI cs.DB
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09567

Resumen

Los almacenes de datos (Data Lakehouse) ejecutan cargas de trabajo sensibles, y la automatización impulsada por IA ha generado preocupaciones sobre confianza, corrección y gobernanza. Este artículo argumenta que un almacén de datos programable orientado a API proporciona las abstracciones correctas para flujos de trabajo de agentes diseñados con seguridad. Utilizando Bauplan como estudio de caso, se demuestra cómo las ramas de datos y los entornos declarativos se extienden naturalmente a agentes, permitiendo reproducibilidad y observabilidad mientras se reduce la superficie de ataque. Se propone una prueba de concepto en la que los agentes utilizan verificaciones de corrección inspiradas en código portador de pruebas para reparar canalizaciones de datos. El prototipo demuestra que agentes de IA no confiables pueden operar de forma segura en datos de producción, y esboza una ruta hacia un almacén de datos completamente agéntico.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Con la mejora de las capacidades de razonamiento de LLM y el uso de herramientas, ¿cómo permitir que los agentes de IA gestionen de forma segura el ciclo de vida de los datos en almacenes de datos, especialmente en entornos de producción sensibles?
  2. Análisis de Desafíos:
    • Los almacenes de datos son sistemas distribuidos construidos para la colaboración de equipos humanos, que manejan datos de producción sensibles, no son adecuados para automatización de extremo a extremo
    • La heterogeneidad de plataformas hace que la prioridad de casos de uso de agentes sea poco clara
    • Los sistemas tradicionales resisten la automatización debido a interfaces heterogéneas y patrones de acceso complejos
  3. Necesidades Prácticas:
    • Los ingenieros de datos dedican considerable tiempo a reparar canalizaciones de datos
    • La reparación de canalizaciones es una piedra de toque para escenarios de alto riesgo y no triviales
    • Se requiere automatización manteniendo garantías de seguridad

Motivación de la Investigación

  • Valor Práctico: Las canalizaciones abarcan la mayoría de las cargas de trabajo del almacén de datos (medidas por tiempo de desarrollo y volumen computacional total)
  • Desafío Técnico: Prueba de capacidades de penetración de agentes en escenarios de alto riesgo
  • Requisitos del Sistema: Se necesita una interfaz unificada para conectar agentes, sistemas en la nube y supervisores humanos

Contribuciones Principales

  1. Diseño de Abstracciones: Introduce abstracciones para modelar el ciclo de vida de datos en almacenes de datos programables, con construcción y ejecución de canalizaciones en la nube completamente basadas en código
  2. Marco de Seguridad: Revisa y aborda objeciones comunes a la automatización de cargas de trabajo de alto riesgo, argumentando que los modelos promueven confiabilidad y corrección respecto a artefactos de datos y código
  3. Implementación de Prototipo: Publica código funcional que demuestra una prueba de concepto de canalizaciones autorreparables utilizando Bauplan como almacén de datos y bucle de agentes
  4. Planificación de Ruta: Basándose en el prototipo, esboza pasos prácticos posteriores para lograr un almacén de datos completamente agéntico

Detalles Metodológicos

Arquitectura del Almacén de Datos Programable

Definición de Canalizaciones

Las canalizaciones se definen como DAG (Gráficos Acíclicos Dirigidos) de transformaciones con las siguientes características:

@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
    trips=bauplan.Model("taxi_trips"),
    zones=bauplan.Model("taxi_zones")
):
    return trips.join(zones).do_something()

Opciones de Diseño Clave:

  1. Abstracción FaaS: La lógica empresarial se expresa como funciones simples Tabla(s) → Tabla
  2. E/S Declarativa: Las funciones están completamente aisladas, con entornos Python especificados de forma declarativa

Ejecución de Canalizaciones

La ejecución adopta un patrón transaccional, incorporando conceptos de Git:

$ pip install bauplan
$ bauplan run --project_dir P_folder

Garantías Transaccionales:

  • Patrón de Rama-Fusión: La ejecución se mueve automáticamente a una rama de copia en escritura
  • Operaciones Atómicas: Solo las ejecuciones exitosas se fusionan con la rama principal
  • Escrituras en Sandbox: Se lee desde producción pero se escribe de forma aislada, evitando lecturas sucias

Diseño de Mecanismos de Seguridad

Lista de Verificación de Seguridad Cuatridimensional

Área de InterésPatrónMecanismo de Abstracción
Confianza en DatosAcceso a DatosE/S Declarativa
Confianza en CódigoEjecución de CódigoTiempo de Ejecución FaaS
Corrección de DatosIntegridad de DatosEjecución Transaccional
Corrección de CódigoCalidad de CódigoValidación Previa a Fusión

Medidas de Seguridad Específicas

  1. Confianza en Datos:
    • La E/S siempre está mediada por la plataforma
    • Los agentes no pueden acceder a la capa de datos física (S3)
    • RBAC basado en claves API proporciona permisos granulares
  2. Confianza en Código:
    • Las funciones se ejecutan como procesos independientes, aisladas del host y de otras funciones
    • Sin acceso a Internet
    • La sintaxis declarativa admite verificación de lista blanca de paquetes
  3. Corrección de Datos:
    • Las canalizaciones incompletas no afectan sistemas descendentes
    • La revisión manual controla los permisos para fusionar con la rama principal
    • El historial de confirmaciones permite restaurar tablas en cualquier momento
  4. Corrección de Código:
    • Adopta el protocolo "código portador de pruebas"
    • Las funciones validadoras Rama → bool permiten que los agentes fusionen ramas
    • Aprovecha el flujo de solicitud de extracción de Git-for-Data

Arquitectura de Implementación de Agentes

Componentes del Sistema

  • Bauplan: Plataforma de almacén de datos programable
  • Bauplan MCP: Expone la API del almacén de datos como herramientas
  • smolagents: Marco ReAct, maneja bucles, llamadas a herramientas y registros
  • Soporte Multi-LLM: Admite OpenAI, Anthropic, TogetherAI a través de interfaz LiteLLM
  • Validador: Paso de "verificación de prueba" antes de la fusión

Capacidades de Herramientas

  • Observabilidad: Obtener trabajos fallidos y sus registros
  • Exploración de Datos: Consultar tablas, verificar tipos
  • Control de Ejecución: Crear ramas, iniciar ejecuciones

Configuración Experimental

Escenario Experimental

Simulación de Fallos: Basándose en informes de la industria y experiencia, se simula un problema de desajuste de paquetes alrededor del lanzamiento de NumPy 2.0, causando que contenedores que usan pandas 2.0 se bloqueen.

Stack Tecnológico

  • Modelos de Razonamiento: Modelos de vanguardia como Claude Sonnet 4.5
  • Marco: smolagents (ReAct basado en Python)
  • Plataforma: Almacén de datos Bauplan
  • Conjunto de Datos: Conjunto de datos de taxis de Nueva York

Dimensiones de Evaluación

  • Tasa de Éxito: Proporción de canalizaciones reparadas exitosamente por agentes
  • Uso de Tokens: Recursos computacionales requeridos para completar tareas
  • Número de Llamadas a Herramientas: Frecuencia de interacción del agente con el sistema
  • Seguridad: Estabilidad del sistema cuando los agentes fallan

Resultados Experimentales

Hallazgos Principales

  1. Diferencias Significativas de Rendimiento del Modelo:
    • Los modelos de vanguardia (como Sonnet 4.5) muestran grandes variaciones en tasa de éxito, uso de tokens y número de llamadas a herramientas
    • Incluso cuando los modelos fallan (como GPT-4-mini), el almacén de datos no experimenta interrupciones ni comportamientos inseguros
  2. Limitaciones de Sistemas Tradicionales:
    • Los stacks tecnológicos tradicionales líderes de la industria (como Snowflake + dbt) no admiten reparación de agentes
    • Incluso si todos tienen servidores MCP y sirven casos de uso superpuestos
    • MCP es una condición necesaria pero no suficiente para la automatización
  3. Flexibilidad del Sistema:
    • El cambio de modelo requiere solo un cambio de configuración único
    • Admite selección de modelo por paso en escenarios con restricciones presupuestarias
    • Las ramas de datos admiten control de concurrencia a gran escala

Verificación de Seguridad

  • Sin Interrupciones en Producción: No se produjo corrupción de datos de producción en ningún experimento
  • Control de Permisos Efectivo: Los mecanismos RBAC y clave API funcionan correctamente
  • Garantías Transaccionales: Los intentos de reparación fallidos no afectaron sistemas descendentes

Trabajo Relacionado

Evolución del Almacén de Datos

  • El almacén de datos es la arquitectura estándar de facto para análisis en la nube y cargas de trabajo de IA
  • Se beneficia del desacoplamiento almacenamiento-computación, soporte multilingüe y semántica de tabla unificada

Uso de Herramientas de Agentes de IA

  • Las mejoras en razonamiento y uso de herramientas de LLM impulsan capacidades de toma de decisiones autónoma
  • Los agentes de infraestructura existentes se orientan principalmente a tareas específicas, careciendo de soporte de ciclo de vida completo

Código Portador de Pruebas

  • Se basa en "Safe, Untrusted Agents Using Proof-Carrying Code" de Necula y Lee
  • Se adapta al entorno de datos, enfocándose en contexto empresarial en lugar de propiedades formales

Conclusiones y Discusión

Conclusiones Principales

  1. Los Almacenes de Datos Programables son Naturalmente Adecuados para Agentes: Los DAG declarativos y la gestión de datos similar a Git son muy adecuados para admitir uso de agentes diseñado con seguridad
  2. La Seguridad Puede Garantizarse: Mediante abstracciones apropiadas y mecanismos de validación, los agentes de IA no confiables pueden operar de forma segura en datos de producción
  3. La Practicidad ha sido Validada: El prototipo demuestra exitosamente la capacidad de reparar canalizaciones de datos en escenarios reales

Limitaciones

  1. Escala Experimental Limitada: El prototipo actual no aborda procesamiento paralelo a gran escala
  2. Dependencia del Modelo: El rendimiento depende altamente de las capacidades del LLM subyacente
  3. Especificidad del Escenario: Se enfoca principalmente en reparación de canalizaciones, se requiere validación adicional para otros casos de uso

Direcciones Futuras

  1. Paralelismo a Gran Escala: Este es el desafío principal para sistemas OLAP en la era de exploración de datos por agentes
  2. Más Casos de Uso: Extensión a monitoreo de calidad de datos, optimización de rendimiento y otros escenarios
  3. Estandarización: Establecer estándares de la industria y mejores prácticas para almacenes de datos agénticos

Evaluación Profunda

Fortalezas

  1. Enfoque Sistemático: Aborda por primera vez de forma sistemática el desafío abierto de reparación de canalizaciones en la nube
  2. Alto Valor Práctico: Resuelve puntos débiles reales de ingenieros de datos
  3. Diseño de Seguridad: Marco de seguridad integral que considera riesgos multidimensionales
  4. Contribución de Código Abierto: Proporciona código funcional completo, facilitando reproducción y mejora comunitaria
  5. Fundamentos Teóricos Sólidos: Se basa en teorías maduras como código portador de pruebas

Deficiencias

  1. Evaluación Incompleta: Carece de evaluación sistemática en escenarios a gran escala y diversificados
  2. Dependencia de Plataforma: Altamente dependiente de la plataforma Bauplan, la generalidad requiere validación
  3. Análisis de Costos Ausente: No proporciona análisis detallado de costo-beneficio
  4. Mecanismo de Manejo de Errores: La descripción del manejo de escenarios de error complejos es insuficiente

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para la aplicación de agentes de IA en infraestructura de datos
  2. Valor Industrial: Proporciona una solución prácticamente viable para automatización de ingeniería de datos
  3. Impulso Tecnológico: Impulsa el desarrollo de infraestructura de datos programable

Escenarios Aplicables

  1. Equipos de Datos Empresariales: Adecuado para empresas que necesitan automatizar mantenimiento de canalizaciones de datos
  2. Arquitectura Nativa en la Nube: Particularmente adecuado para organizaciones que han adoptado arquitectura orientada a API
  3. Cultura DevOps: Adecuado para equipos con fuerte cultura DevOps y flujos de trabajo Git

Referencias

El artículo cita 24 referencias relacionadas, cubriendo principalmente:

  • Arquitectura de almacén de datos (Zaharia et al., 2021)
  • Uso de herramientas de agentes de IA (Shen, 2024)
  • Código portador de pruebas (Necula & Lee, 1998)
  • Desafíos de ingeniería de datos (Data World, 2021)
  • Infraestructura programable (Tagliabue et al., 2024)

Evaluación General: Este es un artículo sistemático con importante valor práctico que explora por primera vez de forma sistemática la aplicación segura de agentes de IA en entornos de almacén de datos. El artículo combina innovación teórica e implementación práctica, proporcionando nuevas perspectivas y herramientas para automatización de ingeniería de datos. Aunque hay espacio para mejora en la exhaustividad de la evaluación y la generalidad, su trabajo pionero y contribuciones de código abierto le confieren importante valor académico e industrial.