Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Tagliabue, Greco
Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
academic
Agents IA sûrs, non fiables, « porteurs de preuve » : vers l'entrepôt de données agentique
Les entrepôts de données (Data Lakehouse) exécutent des charges de travail sensibles, et l'automatisation pilotée par l'IA soulève des préoccupations concernant la confiance, la correction et la gouvernance. Cet article soutient qu'une approche basée sur les API pour les entrepôts de données programmables fournit l'abstraction appropriée pour les flux de travail d'agents conçus de manière sûre. En utilisant Bauplan comme étude de cas, nous démontrons comment la ramification des données et les environnements déclaratifs s'étendent naturellement aux agents, permettant la reproductibilité et l'observabilité tout en réduisant la surface d'attaque. Nous proposons une preuve de concept dans laquelle les agents utilisent des vérifications de correction inspirées par le code porteur de preuve pour corriger les pipelines de données. Le prototype démontre que les agents IA non fiables peuvent fonctionner en toute sécurité sur les données de production et esquisse un chemin vers un entrepôt de données entièrement agentique.
Problème central : Comment permettre aux agents IA de gérer en toute sécurité le cycle de vie des données dans les entrepôts de données, en particulier dans les environnements de production sensibles, compte tenu de l'amélioration des capacités de raisonnement et d'utilisation d'outils des LLM ?
Analyse des défis :
Les entrepôts de données sont des systèmes distribués construits pour la collaboration d'équipes humaines, traitant des données de production sensibles, inadaptés à l'automatisation de bout en bout
L'hétérogénéité des plates-formes rend les priorités des cas d'usage des agents peu claires
Les systèmes traditionnels résistent à l'automatisation en raison de l'hétérogénéité des interfaces et des modèles d'accès complexes
Besoins pratiques :
Les ingénieurs de données consacrent beaucoup de temps à la correction des pipelines de données
La correction de pipelines est une pierre de touche pour les scénarios à haut risque et non triviaux
Nécessité d'automatiser tout en garantissant la sécurité
Valeur pratique : Les pipelines couvrent la majorité des charges de travail des entrepôts de données (mesurées par le temps de développement et le volume de calcul total)
Défi technique : Tester les capacités de pénétration des agents dans des scénarios à haut risque
Exigences système : Besoin d'une interface unifiée pour relier les agents, les systèmes cloud et les superviseurs humains
Conception abstraite : Introduction d'abstractions pour modéliser le cycle de vie des données dans les entrepôts de données programmables, avec construction et exécution complètes des pipelines cloud via le code
Cadre de sécurité : Examen et résolution des objections courantes à l'automatisation des charges de travail à haut risque, arguant que les modèles favorisent la confiance et la correction concernant les artefacts de données et de code
Implémentation de prototype : Publication de code fonctionnel démontrant une preuve de concept de pipeline auto-réparant utilisant Bauplan comme entrepôt de données et boucle d'agent
Planification de trajectoire : Esquisse des étapes pratiques suivantes pour réaliser un entrepôt de données entièrement agentique basé sur le prototype
Simulation de défaillance : Basée sur les rapports industriels et l'expérience, simulation de problèmes d'incompatibilité de paquets autour de la version NumPy 2.0, causant l'effondrement des conteneurs utilisant pandas 2.0.
Différences de performance des modèles significatives :
Les modèles de pointe (comme Sonnet 4.5) montrent des variations importantes en termes de taux de succès, d'utilisation de tokens et de nombre d'appels d'outils
Même en cas d'échec du modèle (comme GPT-4-mini), l'entrepôt de données n'a pas connu d'interruption ni de comportement non sûr
Limitations des systèmes traditionnels :
Les piles technologiques traditionnelles leaders de l'industrie (comme Snowflake + dbt) ne supportent pas la correction d'agents
Même s'ils disposent tous deux de serveurs MCP et desservent des cas d'usage qui se chevauchent
MCP est une condition nécessaire mais non suffisante pour l'automatisation
Flexibilité du système :
Le changement de modèle ne nécessite qu'une modification de configuration unique
Support de la sélection de modèles par étape dans les scénarios de contrainte budgétaire
La ramification des données supporte le contrôle de concurrence à grande échelle
Les entrepôts de données programmables sont naturellement adaptés à l'agentification : Les DAG déclaratifs et la gestion des données de type Git sont très appropriés pour supporter les utilisations d'agents conçues de manière sûre
La sécurité peut être garantie : Grâce à des abstractions appropriées et des mécanismes de vérification, les agents IA non fiables peuvent fonctionner en toute sécurité sur les données de production
La praticité a été validée : Le prototype a démontré avec succès la capacité à corriger les pipelines de données dans des scénarios réels
Architecture des entrepôts de données (Zaharia et al., 2021)
Utilisation d'outils par les agents IA (Shen, 2024)
Code porteur de preuve (Necula & Lee, 1998)
Défis de l'ingénierie des données (Data World, 2021)
Infrastructure programmable (Tagliabue et al., 2024)
Évaluation globale : Cet article est une étude systématique d'une valeur pratique importante, explorant pour la première fois de manière systématique l'application sûre des agents IA dans les environnements d'entrepôts de données. L'article combine l'innovation théorique et la mise en œuvre pratique, fournissant de nouvelles perspectives et outils pour l'automatisation de l'ingénierie des données. Bien qu'il y ait de la place pour l'amélioration en termes de complétude d'évaluation et de généralité, son travail novateur et ses contributions open-source lui confèrent une valeur académique et industrielle importante.