Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Tagliabue, Greco
Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
academic
Sichere, nicht vertrauenswürdige "Proof-Carrying" KI-Agenten: Richtung des agentengesteuerten Lakehouse
Data Lakehouses führen sensible Workloads aus, und KI-gesteuerte Automatisierung wirft Bedenken bezüglich Vertrauen, Korrektheit und Governance auf. Dieses Paper argumentiert, dass API-first programmierbare Lakehouses die richtige Abstraktion für sichere Agenten-Workflows bieten. Anhand von Bauplan als Fallstudie wird demonstriert, wie Datenverzweigung und deklarative Umgebungen natürlich auf Agenten erweitert werden, um Reproduzierbarkeit und Beobachtbarkeit zu ermöglichen und gleichzeitig die Angriffsfläche zu reduzieren. Ein Proof-of-Concept wird vorgestellt, bei dem Agenten durch Korrektheitsprüfungen inspiriert von Proof-Carrying Code Datenpipelines reparieren. Der Prototyp zeigt, dass nicht vertrauenswürdige KI-Agenten sicher auf Produktionsdaten operieren können, und skizziert einen Weg zu vollständig agentierten Lakehouses.
Kernproblem: Wie können KI-Agenten mit verbesserter LLM-Inferenz und Tool-Nutzungsfähigkeit sicher den Datenlebenszyklus in Data Lakehouses verwalten, besonders in sensiblen Produktionsumgebungen?
Herausforderungsanalyse:
Lakehouses sind als verteilte Systeme für menschliche Teamzusammenarbeit konzipiert und verarbeiten sensible Produktionsdaten, die sich nicht für End-to-End-Automatisierung eignen
Abstraktionsdesign: Einführung von Abstraktionen zur Modellierung des Datenlebenszyklus in programmierbaren Lakehouses, mit vollständiger Konstruktion und Ausführung von Cloud-Pipelines durch Code
Sicherheitsrahmen: Überprüfung und Adressierung häufiger Einwände gegen die Automatisierung hochriskanter Workloads, Argumentation, dass Modelle Vertrauenswürdigkeit und Korrektheit durch Daten- und Code-Artefakte fördern
Prototypimplementierung: Veröffentlichung von funktionierendem Code, der einen Proof-of-Concept selbstreparierender Pipelines mit Bauplan als Lakehouse und Agenten-Loop demonstriert
Pfadplanung: Skizzierung praktischer Folgeschritte zur Realisierung vollständig agentierter Lakehouses basierend auf dem Prototyp
Fehler-Simulation: Basierend auf Branchenberichten und Erfahrung wird ein Paket-Mismatch-Problem um die NumPy 2.0-Veröffentlichung simuliert, das zu Container-Abstürzen bei Verwendung von pandas 2.0 führt.
Programmierbare Lakehouses sind natürlich für Agentisierung geeignet: Deklarative DAGs und Git-ähnliche Datenverwaltung eignen sich hervorragend zur Unterstützung sicher gestalteter Agenten-Nutzung
Sicherheit kann garantiert werden: Durch angemessene Abstraktionen und Validierungsmechanismen können nicht vertrauenswürdige KI-Agenten sicher auf Produktionsdaten operieren
Praktikabilität ist validiert: Prototyp demonstriert erfolgreich Fähigkeit zur Pipeline-Reparatur in realen Szenarien
Das Paper zitiert 24 verwandte Arbeiten, hauptsächlich abdeckend:
Data Lakehouse-Architektur (Zaharia et al., 2021)
KI-Agenten-Tool-Nutzung (Shen, 2024)
Proof-Carrying Code (Necula & Lee, 1998)
Data Engineering-Herausforderungen (Data World, 2021)
Programmierbare Infrastruktur (Tagliabue et al., 2024)
Gesamtbewertung: Dies ist ein Paper mit wichtigem praktischem Wert, das sich systematisch mit der sicheren Anwendung von KI-Agenten in Data-Lakehouse-Umgebungen befasst. Das Paper kombiniert theoretische Innovation mit praktischer Implementierung und bietet neue Perspektiven und Werkzeuge für Data-Engineering-Automatisierung. Obwohl Verbesserungen in der Evaluierungsvollständigkeit und Universalität möglich sind, verleihen die bahnbrechende Arbeit und Open-Source-Beiträge dem Paper bedeutenden akademischen und industriellen Wert.