2025-11-13T13:52:10.448421

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

Tagliabue, Greco

Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.

academic

Agents IA sûrs, non fiables, « porteurs de preuve » : vers l'entrepôt de données agentique

Informations de base

ID de l'article : 2510.09567
Titre : Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Auteurs : Jacopo Tagliabue (Bauplan Labs), Ciro Greco (Bauplan Labs)
Classification : cs.AI cs.DB
Date de publication : 10 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.09567

Résumé

Les entrepôts de données (Data Lakehouse) exécutent des charges de travail sensibles, et l'automatisation pilotée par l'IA soulève des préoccupations concernant la confiance, la correction et la gouvernance. Cet article soutient qu'une approche basée sur les API pour les entrepôts de données programmables fournit l'abstraction appropriée pour les flux de travail d'agents conçus de manière sûre. En utilisant Bauplan comme étude de cas, nous démontrons comment la ramification des données et les environnements déclaratifs s'étendent naturellement aux agents, permettant la reproductibilité et l'observabilité tout en réduisant la surface d'attaque. Nous proposons une preuve de concept dans laquelle les agents utilisent des vérifications de correction inspirées par le code porteur de preuve pour corriger les pipelines de données. Le prototype démontre que les agents IA non fiables peuvent fonctionner en toute sécurité sur les données de production et esquisse un chemin vers un entrepôt de données entièrement agentique.

Contexte et motivation de la recherche

Définition du problème

Problème central : Comment permettre aux agents IA de gérer en toute sécurité le cycle de vie des données dans les entrepôts de données, en particulier dans les environnements de production sensibles, compte tenu de l'amélioration des capacités de raisonnement et d'utilisation d'outils des LLM ?
Analyse des défis :
- Les entrepôts de données sont des systèmes distribués construits pour la collaboration d'équipes humaines, traitant des données de production sensibles, inadaptés à l'automatisation de bout en bout
- L'hétérogénéité des plates-formes rend les priorités des cas d'usage des agents peu claires
- Les systèmes traditionnels résistent à l'automatisation en raison de l'hétérogénéité des interfaces et des modèles d'accès complexes
Besoins pratiques :
- Les ingénieurs de données consacrent beaucoup de temps à la correction des pipelines de données
- La correction de pipelines est une pierre de touche pour les scénarios à haut risque et non triviaux
- Nécessité d'automatiser tout en garantissant la sécurité

Motivation de la recherche

Valeur pratique : Les pipelines couvrent la majorité des charges de travail des entrepôts de données (mesurées par le temps de développement et le volume de calcul total)
Défi technique : Tester les capacités de pénétration des agents dans des scénarios à haut risque
Exigences système : Besoin d'une interface unifiée pour relier les agents, les systèmes cloud et les superviseurs humains

Contributions principales

Conception abstraite : Introduction d'abstractions pour modéliser le cycle de vie des données dans les entrepôts de données programmables, avec construction et exécution complètes des pipelines cloud via le code
Cadre de sécurité : Examen et résolution des objections courantes à l'automatisation des charges de travail à haut risque, arguant que les modèles favorisent la confiance et la correction concernant les artefacts de données et de code
Implémentation de prototype : Publication de code fonctionnel démontrant une preuve de concept de pipeline auto-réparant utilisant Bauplan comme entrepôt de données et boucle d'agent
Planification de trajectoire : Esquisse des étapes pratiques suivantes pour réaliser un entrepôt de données entièrement agentique basé sur le prototype

Détails méthodologiques

Architecture de l'entrepôt de données programmable

Définition des pipelines

Les pipelines sont définis comme des DAG (graphes acycliques dirigés) de transformations, avec les caractéristiques suivantes :

@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
    trips=bauplan.Model("taxi_trips"),
    zones=bauplan.Model("taxi_zones")
):
    return trips.join(zones).do_something()

Choix de conception clés :

Abstraction FaaS : La logique métier est exprimée comme une simple fonction Table(s) → Table
E/S déclaratif : Les fonctions sont complètement isolées, l'environnement Python est spécifié de manière déclarative

Exécution des pipelines

L'exécution adopte un modèle transactionnel, combinant les concepts de Git :

$ pip install bauplan
$ bauplan run --project_dir P_folder

Garanties transactionnelles :

Modèle de ramification-fusion : L'exécution se déplace automatiquement vers une branche de copie-sur-écriture
Opérations atomiques : Seules les exécutions réussies sont fusionnées avec la branche principale
Écritures en bac à sable : Lecture depuis la production mais écriture isolée, évitant les lectures sales

Conception des mécanismes de sécurité

Liste de contrôle de sécurité à quatre dimensions

Domaine de préoccupation	Modèle	Mécanisme abstrait
Confiance aux données	Accès aux données	E/S déclaratif
Confiance au code	Exécution du code	Environnement d'exécution FaaS
Correction des données	Intégrité des données	Exécution transactionnelle
Correction du code	Qualité du code	Fusion après vérification

Mesures de sécurité spécifiques

Confiance aux données :
- L'E/S est toujours médiatisé par la plate-forme
- Les agents ne peuvent pas accéder à la couche de données physique (S3)
- RBAC basé sur les clés API fournissant des permissions granulaires
Confiance au code :
- Les fonctions s'exécutent comme des processus indépendants, isolés de l'hôte et des autres fonctions
- Pas d'accès à Internet
- La syntaxe déclarative supporte la vérification de la liste blanche des paquets
Correction des données :
- Les pipelines incomplets n'affectent pas les systèmes en aval
- L'examen humain peut contrôler les permissions de fusion vers la branche principale
- Les commits historiques permettent la récupération des tables à tout moment
Correction du code :
- Adoption du protocole « code porteur de preuve »
- Les fonctions de vérification Branch → bool permettent aux agents de fusionner les branches
- Exploitation du flux de demande de tirage de Git-for-Data

Architecture de mise en œuvre des agents

Composants du système

Bauplan : Plate-forme d'entrepôt de données programmable
Bauplan MCP : Exposition de l'API de l'entrepôt de données en tant qu'outils
smolagents : Framework ReAct, gestion des boucles, appels d'outils et journalisation
Support multi-LLM : Support d'OpenAI, Anthropic, TogetherAI via interface LiteLLM
Vérificateur : Étape de « vérification de preuve » avant la fusion

Capacités des outils

Observabilité : Récupération des tâches échouées et de leurs journaux
Exploration des données : Interrogation des tables, vérification des types
Contrôle d'exécution : Création de branches, lancement d'exécutions

Configuration expérimentale

Scénario expérimental

Simulation de défaillance : Basée sur les rapports industriels et l'expérience, simulation de problèmes d'incompatibilité de paquets autour de la version NumPy 2.0, causant l'effondrement des conteneurs utilisant pandas 2.0.

Pile technologique

Modèles d'inférence : Claude Sonnet 4.5 et autres modèles de pointe
Framework : smolagents (ReAct basé sur Python)
Plate-forme : Entrepôt de données Bauplan
Ensemble de données : Ensemble de données des taxis de New York

Dimensions d'évaluation

Taux de succès : Proportion de pipelines corrigés avec succès par l'agent
Utilisation de tokens : Ressources de calcul nécessaires pour accomplir la tâche
Nombre d'appels d'outils : Fréquence d'interaction de l'agent avec le système
Sécurité : Stabilité du système en cas d'échec de l'agent

Résultats expérimentaux

Résultats principaux

Différences de performance des modèles significatives :
- Les modèles de pointe (comme Sonnet 4.5) montrent des variations importantes en termes de taux de succès, d'utilisation de tokens et de nombre d'appels d'outils
- Même en cas d'échec du modèle (comme GPT-4-mini), l'entrepôt de données n'a pas connu d'interruption ni de comportement non sûr
Limitations des systèmes traditionnels :
- Les piles technologiques traditionnelles leaders de l'industrie (comme Snowflake + dbt) ne supportent pas la correction d'agents
- Même s'ils disposent tous deux de serveurs MCP et desservent des cas d'usage qui se chevauchent
- MCP est une condition nécessaire mais non suffisante pour l'automatisation
Flexibilité du système :
- Le changement de modèle ne nécessite qu'une modification de configuration unique
- Support de la sélection de modèles par étape dans les scénarios de contrainte budgétaire
- La ramification des données supporte le contrôle de concurrence à grande échelle

Vérification de la sécurité

Pas d'interruption de production : Aucune corruption de données de production dans toutes les expériences
Contrôle des permissions efficace : Les mécanismes RBAC et de clé API fonctionnent correctement
Garanties transactionnelles : Les tentatives de correction échouées n'ont pas affecté les systèmes en aval

Travaux connexes

Évolution des entrepôts de données

Les entrepôts de données sont l'architecture standard de facto pour l'analyse cloud et les charges de travail IA
Bénéficiant du découplage stockage-calcul, du support multilingue et de la sémantique de table unifiée

Utilisation d'outils par les agents IA

L'amélioration du raisonnement et de l'utilisation d'outils par les LLM a stimulé les capacités de prise de décision autonome
Les agents d'infrastructure existants se concentrent généralement sur des tâches spécifiques, manquant du support du cycle de vie complet

Code porteur de preuve

Inspiré par « Safe, Untrusted Agents Using Proof-Carrying Code » de Necula et Lee
Adaptation à l'environnement des données, focus sur le contexte métier plutôt que sur les propriétés formelles

Conclusion et discussion

Conclusions principales

Les entrepôts de données programmables sont naturellement adaptés à l'agentification : Les DAG déclaratifs et la gestion des données de type Git sont très appropriés pour supporter les utilisations d'agents conçues de manière sûre
La sécurité peut être garantie : Grâce à des abstractions appropriées et des mécanismes de vérification, les agents IA non fiables peuvent fonctionner en toute sécurité sur les données de production
La praticité a été validée : Le prototype a démontré avec succès la capacité à corriger les pipelines de données dans des scénarios réels

Limitations

Échelle expérimentale limitée : Le prototype actuel n'implique pas le traitement parallèle à grande échelle
Dépendance au modèle : Les performances dépendent fortement des capacités du LLM sous-jacent
Spécificité du scénario : Focus principal sur la correction de pipelines, d'autres cas d'usage nécessitent une validation supplémentaire

Directions futures

Parallélisme à grande échelle : C'est le principal défi des systèmes OLAP à l'ère de l'exploration de données par agents
Cas d'usage supplémentaires : Extension à la surveillance de la qualité des données, l'optimisation des performances, etc.
Normalisation : Établissement des normes industrielles et des meilleures pratiques pour les entrepôts de données agentifiés

Évaluation approfondie

Points forts

Approche systématique : Première résolution systématique du défi ouvert de la correction des pipelines cloud
Valeur pratique élevée : Résolution des points douloureux réels des ingénieurs de données
Conception de sécurité : Cadre de sécurité complet considérant les risques multidimensionnels
Contribution open-source : Fourniture de code fonctionnel complet facilitant la reproduction et l'amélioration par la communauté
Fondations théoriques solides : S'appuyant sur des théories matures comme le code porteur de preuve

Insuffisances

Évaluation incomplète : Manque d'évaluation systématique à grande échelle et dans des scénarios diversifiés
Dépendance à la plate-forme : Fortement dépendant de la plate-forme Bauplan, la généralité reste à vérifier
Analyse de coûts manquante : Absence d'analyse détaillée du rapport coûts-bénéfices
Mécanismes de gestion d'erreurs : Description insuffisante du traitement des scénarios d'erreur complexes

Impact

Contribution académique : Fourniture d'une nouvelle direction de recherche pour l'application des agents IA dans l'infrastructure de données
Valeur industrielle : Fourniture d'une solution pratiquement viable pour l'automatisation de l'ingénierie des données
Avancement technologique : Promotion du développement d'infrastructures de données programmables

Scénarios applicables

Équipes de données d'entreprise : Approprié pour les entreprises nécessitant l'automatisation de la maintenance des pipelines de données
Architecture cloud-native : Particulièrement approprié pour les organisations ayant adopté une architecture API-first
Culture DevOps : Approprié pour les équipes possédant une culture DevOps forte et des flux de travail Git

Références bibliographiques

L'article cite 24 références connexes, couvrant principalement :

Architecture des entrepôts de données (Zaharia et al., 2021)
Utilisation d'outils par les agents IA (Shen, 2024)
Code porteur de preuve (Necula & Lee, 1998)
Défis de l'ingénierie des données (Data World, 2021)
Infrastructure programmable (Tagliabue et al., 2024)

Évaluation globale : Cet article est une étude systématique d'une valeur pratique importante, explorant pour la première fois de manière systématique l'application sûre des agents IA dans les environnements d'entrepôts de données. L'article combine l'innovation théorique et la mise en œuvre pratique, fournissant de nouvelles perspectives et outils pour l'automatisation de l'ingénierie des données. Bien qu'il y ait de la place pour l'amélioration en termes de complétude d'évaluation et de généralité, son travail novateur et ses contributions open-source lui confèrent une valeur académique et industrielle importante.