Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Tagliabue, Greco
Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
academic
Agentes de IA Seguros, No Confiables, "Portadores de Pruebas": hacia el almacén de datos agéntico
Los almacenes de datos (Data Lakehouse) ejecutan cargas de trabajo sensibles, y la automatización impulsada por IA ha generado preocupaciones sobre confianza, corrección y gobernanza. Este artículo argumenta que un almacén de datos programable orientado a API proporciona las abstracciones correctas para flujos de trabajo de agentes diseñados con seguridad. Utilizando Bauplan como estudio de caso, se demuestra cómo las ramas de datos y los entornos declarativos se extienden naturalmente a agentes, permitiendo reproducibilidad y observabilidad mientras se reduce la superficie de ataque. Se propone una prueba de concepto en la que los agentes utilizan verificaciones de corrección inspiradas en código portador de pruebas para reparar canalizaciones de datos. El prototipo demuestra que agentes de IA no confiables pueden operar de forma segura en datos de producción, y esboza una ruta hacia un almacén de datos completamente agéntico.
Problema Central: Con la mejora de las capacidades de razonamiento de LLM y el uso de herramientas, ¿cómo permitir que los agentes de IA gestionen de forma segura el ciclo de vida de los datos en almacenes de datos, especialmente en entornos de producción sensibles?
Análisis de Desafíos:
Los almacenes de datos son sistemas distribuidos construidos para la colaboración de equipos humanos, que manejan datos de producción sensibles, no son adecuados para automatización de extremo a extremo
La heterogeneidad de plataformas hace que la prioridad de casos de uso de agentes sea poco clara
Los sistemas tradicionales resisten la automatización debido a interfaces heterogéneas y patrones de acceso complejos
Necesidades Prácticas:
Los ingenieros de datos dedican considerable tiempo a reparar canalizaciones de datos
La reparación de canalizaciones es una piedra de toque para escenarios de alto riesgo y no triviales
Se requiere automatización manteniendo garantías de seguridad
Valor Práctico: Las canalizaciones abarcan la mayoría de las cargas de trabajo del almacén de datos (medidas por tiempo de desarrollo y volumen computacional total)
Desafío Técnico: Prueba de capacidades de penetración de agentes en escenarios de alto riesgo
Requisitos del Sistema: Se necesita una interfaz unificada para conectar agentes, sistemas en la nube y supervisores humanos
Diseño de Abstracciones: Introduce abstracciones para modelar el ciclo de vida de datos en almacenes de datos programables, con construcción y ejecución de canalizaciones en la nube completamente basadas en código
Marco de Seguridad: Revisa y aborda objeciones comunes a la automatización de cargas de trabajo de alto riesgo, argumentando que los modelos promueven confiabilidad y corrección respecto a artefactos de datos y código
Implementación de Prototipo: Publica código funcional que demuestra una prueba de concepto de canalizaciones autorreparables utilizando Bauplan como almacén de datos y bucle de agentes
Planificación de Ruta: Basándose en el prototipo, esboza pasos prácticos posteriores para lograr un almacén de datos completamente agéntico
Simulación de Fallos: Basándose en informes de la industria y experiencia, se simula un problema de desajuste de paquetes alrededor del lanzamiento de NumPy 2.0, causando que contenedores que usan pandas 2.0 se bloqueen.
Los Almacenes de Datos Programables son Naturalmente Adecuados para Agentes: Los DAG declarativos y la gestión de datos similar a Git son muy adecuados para admitir uso de agentes diseñado con seguridad
La Seguridad Puede Garantizarse: Mediante abstracciones apropiadas y mecanismos de validación, los agentes de IA no confiables pueden operar de forma segura en datos de producción
La Practicidad ha sido Validada: El prototipo demuestra exitosamente la capacidad de reparar canalizaciones de datos en escenarios reales
El artículo cita 24 referencias relacionadas, cubriendo principalmente:
Arquitectura de almacén de datos (Zaharia et al., 2021)
Uso de herramientas de agentes de IA (Shen, 2024)
Código portador de pruebas (Necula & Lee, 1998)
Desafíos de ingeniería de datos (Data World, 2021)
Infraestructura programable (Tagliabue et al., 2024)
Evaluación General: Este es un artículo sistemático con importante valor práctico que explora por primera vez de forma sistemática la aplicación segura de agentes de IA en entornos de almacén de datos. El artículo combina innovación teórica e implementación práctica, proporcionando nuevas perspectivas y herramientas para automatización de ingeniería de datos. Aunque hay espacio para mejora en la exhaustividad de la evaluación y la generalidad, su trabajo pionero y contribuciones de código abierto le confieren importante valor académico e industrial.