2025-11-13T13:52:10.448421

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

Tagliabue, Greco

Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.

academic

Agentes de IA Seguros, No Confiables, "Portadores de Pruebas": hacia el almacén de datos agéntico

Información Básica

ID del Artículo: 2510.09567
Título: Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Autores: Jacopo Tagliabue (Bauplan Labs), Ciro Greco (Bauplan Labs)
Clasificación: cs.AI cs.DB
Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09567

Resumen

Los almacenes de datos (Data Lakehouse) ejecutan cargas de trabajo sensibles, y la automatización impulsada por IA ha generado preocupaciones sobre confianza, corrección y gobernanza. Este artículo argumenta que un almacén de datos programable orientado a API proporciona las abstracciones correctas para flujos de trabajo de agentes diseñados con seguridad. Utilizando Bauplan como estudio de caso, se demuestra cómo las ramas de datos y los entornos declarativos se extienden naturalmente a agentes, permitiendo reproducibilidad y observabilidad mientras se reduce la superficie de ataque. Se propone una prueba de concepto en la que los agentes utilizan verificaciones de corrección inspiradas en código portador de pruebas para reparar canalizaciones de datos. El prototipo demuestra que agentes de IA no confiables pueden operar de forma segura en datos de producción, y esboza una ruta hacia un almacén de datos completamente agéntico.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Con la mejora de las capacidades de razonamiento de LLM y el uso de herramientas, ¿cómo permitir que los agentes de IA gestionen de forma segura el ciclo de vida de los datos en almacenes de datos, especialmente en entornos de producción sensibles?
Análisis de Desafíos:
- Los almacenes de datos son sistemas distribuidos construidos para la colaboración de equipos humanos, que manejan datos de producción sensibles, no son adecuados para automatización de extremo a extremo
- La heterogeneidad de plataformas hace que la prioridad de casos de uso de agentes sea poco clara
- Los sistemas tradicionales resisten la automatización debido a interfaces heterogéneas y patrones de acceso complejos
Necesidades Prácticas:
- Los ingenieros de datos dedican considerable tiempo a reparar canalizaciones de datos
- La reparación de canalizaciones es una piedra de toque para escenarios de alto riesgo y no triviales
- Se requiere automatización manteniendo garantías de seguridad

Motivación de la Investigación

Valor Práctico: Las canalizaciones abarcan la mayoría de las cargas de trabajo del almacén de datos (medidas por tiempo de desarrollo y volumen computacional total)
Desafío Técnico: Prueba de capacidades de penetración de agentes en escenarios de alto riesgo
Requisitos del Sistema: Se necesita una interfaz unificada para conectar agentes, sistemas en la nube y supervisores humanos

Contribuciones Principales

Diseño de Abstracciones: Introduce abstracciones para modelar el ciclo de vida de datos en almacenes de datos programables, con construcción y ejecución de canalizaciones en la nube completamente basadas en código
Marco de Seguridad: Revisa y aborda objeciones comunes a la automatización de cargas de trabajo de alto riesgo, argumentando que los modelos promueven confiabilidad y corrección respecto a artefactos de datos y código
Implementación de Prototipo: Publica código funcional que demuestra una prueba de concepto de canalizaciones autorreparables utilizando Bauplan como almacén de datos y bucle de agentes
Planificación de Ruta: Basándose en el prototipo, esboza pasos prácticos posteriores para lograr un almacén de datos completamente agéntico

Detalles Metodológicos

Arquitectura del Almacén de Datos Programable

Definición de Canalizaciones

Las canalizaciones se definen como DAG (Gráficos Acíclicos Dirigidos) de transformaciones con las siguientes características:

@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
    trips=bauplan.Model("taxi_trips"),
    zones=bauplan.Model("taxi_zones")
):
    return trips.join(zones).do_something()

Opciones de Diseño Clave:

Abstracción FaaS: La lógica empresarial se expresa como funciones simples Tabla(s) → Tabla
E/S Declarativa: Las funciones están completamente aisladas, con entornos Python especificados de forma declarativa

Ejecución de Canalizaciones

La ejecución adopta un patrón transaccional, incorporando conceptos de Git:

$ pip install bauplan
$ bauplan run --project_dir P_folder

Garantías Transaccionales:

Patrón de Rama-Fusión: La ejecución se mueve automáticamente a una rama de copia en escritura
Operaciones Atómicas: Solo las ejecuciones exitosas se fusionan con la rama principal
Escrituras en Sandbox: Se lee desde producción pero se escribe de forma aislada, evitando lecturas sucias

Diseño de Mecanismos de Seguridad

Lista de Verificación de Seguridad Cuatridimensional

Área de Interés	Patrón	Mecanismo de Abstracción
Confianza en Datos	Acceso a Datos	E/S Declarativa
Confianza en Código	Ejecución de Código	Tiempo de Ejecución FaaS
Corrección de Datos	Integridad de Datos	Ejecución Transaccional
Corrección de Código	Calidad de Código	Validación Previa a Fusión

Medidas de Seguridad Específicas

Confianza en Datos:
- La E/S siempre está mediada por la plataforma
- Los agentes no pueden acceder a la capa de datos física (S3)
- RBAC basado en claves API proporciona permisos granulares
Confianza en Código:
- Las funciones se ejecutan como procesos independientes, aisladas del host y de otras funciones
- Sin acceso a Internet
- La sintaxis declarativa admite verificación de lista blanca de paquetes
Corrección de Datos:
- Las canalizaciones incompletas no afectan sistemas descendentes
- La revisión manual controla los permisos para fusionar con la rama principal
- El historial de confirmaciones permite restaurar tablas en cualquier momento
Corrección de Código:
- Adopta el protocolo "código portador de pruebas"
- Las funciones validadoras Rama → bool permiten que los agentes fusionen ramas
- Aprovecha el flujo de solicitud de extracción de Git-for-Data

Arquitectura de Implementación de Agentes

Componentes del Sistema

Bauplan: Plataforma de almacén de datos programable
Bauplan MCP: Expone la API del almacén de datos como herramientas
smolagents: Marco ReAct, maneja bucles, llamadas a herramientas y registros
Soporte Multi-LLM: Admite OpenAI, Anthropic, TogetherAI a través de interfaz LiteLLM
Validador: Paso de "verificación de prueba" antes de la fusión

Capacidades de Herramientas

Observabilidad: Obtener trabajos fallidos y sus registros
Exploración de Datos: Consultar tablas, verificar tipos
Control de Ejecución: Crear ramas, iniciar ejecuciones

Configuración Experimental

Escenario Experimental

Simulación de Fallos: Basándose en informes de la industria y experiencia, se simula un problema de desajuste de paquetes alrededor del lanzamiento de NumPy 2.0, causando que contenedores que usan pandas 2.0 se bloqueen.

Stack Tecnológico

Modelos de Razonamiento: Modelos de vanguardia como Claude Sonnet 4.5
Marco: smolagents (ReAct basado en Python)
Plataforma: Almacén de datos Bauplan
Conjunto de Datos: Conjunto de datos de taxis de Nueva York

Dimensiones de Evaluación

Tasa de Éxito: Proporción de canalizaciones reparadas exitosamente por agentes
Uso de Tokens: Recursos computacionales requeridos para completar tareas
Número de Llamadas a Herramientas: Frecuencia de interacción del agente con el sistema
Seguridad: Estabilidad del sistema cuando los agentes fallan

Resultados Experimentales

Hallazgos Principales

Diferencias Significativas de Rendimiento del Modelo:
- Los modelos de vanguardia (como Sonnet 4.5) muestran grandes variaciones en tasa de éxito, uso de tokens y número de llamadas a herramientas
- Incluso cuando los modelos fallan (como GPT-4-mini), el almacén de datos no experimenta interrupciones ni comportamientos inseguros
Limitaciones de Sistemas Tradicionales:
- Los stacks tecnológicos tradicionales líderes de la industria (como Snowflake + dbt) no admiten reparación de agentes
- Incluso si todos tienen servidores MCP y sirven casos de uso superpuestos
- MCP es una condición necesaria pero no suficiente para la automatización
Flexibilidad del Sistema:
- El cambio de modelo requiere solo un cambio de configuración único
- Admite selección de modelo por paso en escenarios con restricciones presupuestarias
- Las ramas de datos admiten control de concurrencia a gran escala

Verificación de Seguridad

Sin Interrupciones en Producción: No se produjo corrupción de datos de producción en ningún experimento
Control de Permisos Efectivo: Los mecanismos RBAC y clave API funcionan correctamente
Garantías Transaccionales: Los intentos de reparación fallidos no afectaron sistemas descendentes

Trabajo Relacionado

Evolución del Almacén de Datos

El almacén de datos es la arquitectura estándar de facto para análisis en la nube y cargas de trabajo de IA
Se beneficia del desacoplamiento almacenamiento-computación, soporte multilingüe y semántica de tabla unificada

Uso de Herramientas de Agentes de IA

Las mejoras en razonamiento y uso de herramientas de LLM impulsan capacidades de toma de decisiones autónoma
Los agentes de infraestructura existentes se orientan principalmente a tareas específicas, careciendo de soporte de ciclo de vida completo

Código Portador de Pruebas

Se basa en "Safe, Untrusted Agents Using Proof-Carrying Code" de Necula y Lee
Se adapta al entorno de datos, enfocándose en contexto empresarial en lugar de propiedades formales

Conclusiones y Discusión

Conclusiones Principales

Los Almacenes de Datos Programables son Naturalmente Adecuados para Agentes: Los DAG declarativos y la gestión de datos similar a Git son muy adecuados para admitir uso de agentes diseñado con seguridad
La Seguridad Puede Garantizarse: Mediante abstracciones apropiadas y mecanismos de validación, los agentes de IA no confiables pueden operar de forma segura en datos de producción
La Practicidad ha sido Validada: El prototipo demuestra exitosamente la capacidad de reparar canalizaciones de datos en escenarios reales

Limitaciones

Escala Experimental Limitada: El prototipo actual no aborda procesamiento paralelo a gran escala
Dependencia del Modelo: El rendimiento depende altamente de las capacidades del LLM subyacente
Especificidad del Escenario: Se enfoca principalmente en reparación de canalizaciones, se requiere validación adicional para otros casos de uso

Direcciones Futuras

Paralelismo a Gran Escala: Este es el desafío principal para sistemas OLAP en la era de exploración de datos por agentes
Más Casos de Uso: Extensión a monitoreo de calidad de datos, optimización de rendimiento y otros escenarios
Estandarización: Establecer estándares de la industria y mejores prácticas para almacenes de datos agénticos

Evaluación Profunda

Fortalezas

Enfoque Sistemático: Aborda por primera vez de forma sistemática el desafío abierto de reparación de canalizaciones en la nube
Alto Valor Práctico: Resuelve puntos débiles reales de ingenieros de datos
Diseño de Seguridad: Marco de seguridad integral que considera riesgos multidimensionales
Contribución de Código Abierto: Proporciona código funcional completo, facilitando reproducción y mejora comunitaria
Fundamentos Teóricos Sólidos: Se basa en teorías maduras como código portador de pruebas

Deficiencias

Evaluación Incompleta: Carece de evaluación sistemática en escenarios a gran escala y diversificados
Dependencia de Plataforma: Altamente dependiente de la plataforma Bauplan, la generalidad requiere validación
Análisis de Costos Ausente: No proporciona análisis detallado de costo-beneficio
Mecanismo de Manejo de Errores: La descripción del manejo de escenarios de error complejos es insuficiente

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para la aplicación de agentes de IA en infraestructura de datos
Valor Industrial: Proporciona una solución prácticamente viable para automatización de ingeniería de datos
Impulso Tecnológico: Impulsa el desarrollo de infraestructura de datos programable

Escenarios Aplicables

Equipos de Datos Empresariales: Adecuado para empresas que necesitan automatizar mantenimiento de canalizaciones de datos
Arquitectura Nativa en la Nube: Particularmente adecuado para organizaciones que han adoptado arquitectura orientada a API
Cultura DevOps: Adecuado para equipos con fuerte cultura DevOps y flujos de trabajo Git

Referencias

El artículo cita 24 referencias relacionadas, cubriendo principalmente:

Arquitectura de almacén de datos (Zaharia et al., 2021)
Uso de herramientas de agentes de IA (Shen, 2024)
Código portador de pruebas (Necula & Lee, 1998)
Desafíos de ingeniería de datos (Data World, 2021)
Infraestructura programable (Tagliabue et al., 2024)

Evaluación General: Este es un artículo sistemático con importante valor práctico que explora por primera vez de forma sistemática la aplicación segura de agentes de IA en entornos de almacén de datos. El artículo combina innovación teórica e implementación práctica, proporcionando nuevas perspectivas y herramientas para automatización de ingeniería de datos. Aunque hay espacio para mejora en la exhaustividad de la evaluación y la generalidad, su trabajo pionero y contribuciones de código abierto le confieren importante valor académico e industrial.