2025-11-13T13:52:10.448421

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

Tagliabue, Greco

Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.

academic

Sichere, nicht vertrauenswürdige "Proof-Carrying" KI-Agenten: Richtung des agentengesteuerten Lakehouse

Grundinformationen

Paper-ID: 2510.09567
Titel: Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Autoren: Jacopo Tagliabue (Bauplan Labs), Ciro Greco (Bauplan Labs)
Klassifizierung: cs.AI cs.DB
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.09567

Zusammenfassung

Data Lakehouses führen sensible Workloads aus, und KI-gesteuerte Automatisierung wirft Bedenken bezüglich Vertrauen, Korrektheit und Governance auf. Dieses Paper argumentiert, dass API-first programmierbare Lakehouses die richtige Abstraktion für sichere Agenten-Workflows bieten. Anhand von Bauplan als Fallstudie wird demonstriert, wie Datenverzweigung und deklarative Umgebungen natürlich auf Agenten erweitert werden, um Reproduzierbarkeit und Beobachtbarkeit zu ermöglichen und gleichzeitig die Angriffsfläche zu reduzieren. Ein Proof-of-Concept wird vorgestellt, bei dem Agenten durch Korrektheitsprüfungen inspiriert von Proof-Carrying Code Datenpipelines reparieren. Der Prototyp zeigt, dass nicht vertrauenswürdige KI-Agenten sicher auf Produktionsdaten operieren können, und skizziert einen Weg zu vollständig agentierten Lakehouses.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Wie können KI-Agenten mit verbesserter LLM-Inferenz und Tool-Nutzungsfähigkeit sicher den Datenlebenszyklus in Data Lakehouses verwalten, besonders in sensiblen Produktionsumgebungen?
Herausforderungsanalyse:
- Lakehouses sind als verteilte Systeme für menschliche Teamzusammenarbeit konzipiert und verarbeiten sensible Produktionsdaten, die sich nicht für End-to-End-Automatisierung eignen
- Plattformheterogenität macht Agenten-Use-Cases unklar priorisiert
- Traditionelle Systeme widerstehen Automatisierung aufgrund von Schnittstellen-Heterogenität und komplexen Zugriffsmuster
Praktische Anforderungen:
- Datentechniker verbringen erhebliche Zeit mit der Reparatur von Datenpipelines
- Pipeline-Reparatur ist ein Prüfstein für hochriskante, nicht-triviale Szenarien
- Automatisierung unter Beibehaltung von Sicherheitsgarantien erforderlich

Forschungsmotivation

Praktischer Wert: Pipelines machen den Großteil der Lakehouse-Workloads aus (gemessen nach Entwicklungszeit und Gesamtrechenaufwand)
Technische Herausforderung: Testen der Eindringfähigkeit von Agenten in hochriskanten Szenarien
Systemanforderungen: Einheitliche Schnittstelle zur Verbindung von Agenten, Cloud-Systemen und menschlicher Überwachung

Kernbeiträge

Abstraktionsdesign: Einführung von Abstraktionen zur Modellierung des Datenlebenszyklus in programmierbaren Lakehouses, mit vollständiger Konstruktion und Ausführung von Cloud-Pipelines durch Code
Sicherheitsrahmen: Überprüfung und Adressierung häufiger Einwände gegen die Automatisierung hochriskanter Workloads, Argumentation, dass Modelle Vertrauenswürdigkeit und Korrektheit durch Daten- und Code-Artefakte fördern
Prototypimplementierung: Veröffentlichung von funktionierendem Code, der einen Proof-of-Concept selbstreparierender Pipelines mit Bauplan als Lakehouse und Agenten-Loop demonstriert
Pfadplanung: Skizzierung praktischer Folgeschritte zur Realisierung vollständig agentierter Lakehouses basierend auf dem Prototyp

Methodische Details

Programmierbare Lakehouse-Architektur

Pipeline-Definition

Pipelines werden als DAG (Directed Acyclic Graph) von Transformationen definiert mit folgenden Merkmalen:

@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
    trips=bauplan.Model("taxi_trips"),
    zones=bauplan.Model("taxi_zones")
):
    return trips.join(zones).do_something()

Schlüsseldesign-Entscheidungen:

FaaS-Abstraktion: Geschäftslogik ausgedrückt als einfache Funktion Table(s) → Table
Deklaratives I/O: Funktionen vollständig isoliert, Python-Umgebung deklarativ spezifiziert

Pipeline-Ausführung

Ausführung folgt einem transaktionalen Muster, kombiniert mit Git-Konzepten:

$ pip install bauplan
$ bauplan run --project_dir P_folder

Transaktionale Garantien:

Branch-Merge-Muster: Ausführung wechselt automatisch zu Copy-on-Write-Branch
Atomare Operationen: Nur erfolgreiche Läufe werden in Hauptbranch gemergt
Sandbox-Schreibvorgänge: Lesen aus Produktion, aber Schreiben isoliert, verhindert Dirty Reads

Sicherheitsmechanismus-Design

Vier-Dimensionale Sicherheits-Checkliste

Fokusbereich	Muster	Abstraktionsmechanismus
Datenvertrauen	Datenzugriff	Deklaratives I/O
Code-Vertrauen	Code-Ausführung	FaaS-Runtime
Datenkorrektheit	Datenintegrität	Transaktionale Ausführung
Code-Korrektheit	Code-Qualität	Validierung vor Merge

Spezifische Sicherheitsmaßnahmen

Datenvertrauen:
- I/O wird immer durch die Plattform vermittelt
- Agenten können nicht auf physische Datenschicht (S3) zugreifen
- API-Schlüssel-basierte RBAC bietet granulare Berechtigungen
Code-Vertrauen:
- Funktionen laufen als isolierte Prozesse, getrennt vom Host und anderen Funktionen
- Kein Internetzugriff
- Deklarative Syntax unterstützt Paket-Whitelist-Überprüfung
Datenkorrektheit:
- Unvollständige Pipelines beeinflussen nicht nachgelagerte Systeme
- Manuelle Überprüfung kann Merge-Berechtigungen in Hauptbranch kontrollieren
- Historische Commits ermöglichen jederzeit Tabellenwiederherstellung
Code-Korrektheit:
- Anwendung des "Proof-Carrying Code"-Protokolls
- Validator-Funktion Branch → bool erlaubt Agenten-Branch-Merge
- Nutzung des Pull-Request-Workflows von Git-for-Data

Agenten-Implementierungsarchitektur

Systemkomponenten

Bauplan: Programmierbare Lakehouse-Plattform
Bauplan MCP: Exponiert Lakehouse-API als Tools
smolagents: ReAct-Framework, verwaltet Schleifen, Tool-Aufrufe und Logging
Multi-LLM-Unterstützung: Unterstützt OpenAI, Anthropic, TogetherAI über LiteLLM-Schnittstelle
Validator: "Proof-Check"-Schritt vor Merge

Tool-Fähigkeiten

Beobachtbarkeit: Abrufen fehlgeschlagener Jobs und deren Logs
Datenexploration: Abfrage von Tabellen, Typ-Überprüfung
Ausführungskontrolle: Branch-Erstellung, Run-Start

Experimentelle Einrichtung

Experimentelles Szenario

Fehler-Simulation: Basierend auf Branchenberichten und Erfahrung wird ein Paket-Mismatch-Problem um die NumPy 2.0-Veröffentlichung simuliert, das zu Container-Abstürzen bei Verwendung von pandas 2.0 führt.

Technologie-Stack

Inferenz-Modelle: Frontier-Modelle wie Claude Sonnet 4.5
Framework: smolagents (Python-basiertes ReAct)
Plattform: Bauplan Lakehouse
Datensatz: NYC Taxi-Datensatz

Evaluierungsdimensionen

Erfolgsquote: Anteil erfolgreicher Pipeline-Reparaturen durch Agenten
Token-Nutzung: Erforderliche Rechenressourcen zur Aufgabenvollendung
Tool-Aufrufe: Häufigkeit der Agenten-Systeminteraktion
Sicherheit: Systemstabilität bei Agenten-Fehlern

Experimentelle Ergebnisse

Hauptergebnisse

Signifikante Modellleistungsunterschiede:
- Frontier-Modelle (z.B. Sonnet 4.5) zeigen große Unterschiede in Erfolgsquote, Token-Nutzung und Tool-Aufrufen
- Auch bei Modellfehlern (z.B. GPT-4-mini) traten keine Lakehouse-Unterbrechungen oder unsicheren Verhaltensweisen auf
Traditionelle Systemlimitierungen:
- Branchenführende traditionelle Tech-Stacks (z.B. Snowflake + dbt) unterstützen keine Agenten-Reparatur
- Auch wenn beide MCP-Server haben und überlappende Use-Cases bedienen
- MCP ist notwendig aber nicht ausreichend für Automatisierung
Systemflexibilität:
- Modellwechsel erfordert nur einzelne Konfigurationsänderung
- Unterstützt schrittbezogene Modellauswahl in Budget-Constraint-Szenarien
- Datenverzweigung unterstützt großflächige Concurrency-Kontrolle

Sicherheitsvalidierung

Keine Produktionsunterbrechungen: Keine Produktionsdatenbeschädigungen in allen Experimenten
Effektive Berechtigungskontrolle: RBAC- und API-Schlüssel-Mechanismen funktionieren ordnungsgemäß
Transaktionale Garantien: Fehlgeschlagene Reparaturversuche beeinflussen nicht nachgelagerte Systeme

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Programmierbare Lakehouses sind natürlich für Agentisierung geeignet: Deklarative DAGs und Git-ähnliche Datenverwaltung eignen sich hervorragend zur Unterstützung sicher gestalteter Agenten-Nutzung
Sicherheit kann garantiert werden: Durch angemessene Abstraktionen und Validierungsmechanismen können nicht vertrauenswürdige KI-Agenten sicher auf Produktionsdaten operieren
Praktikabilität ist validiert: Prototyp demonstriert erfolgreich Fähigkeit zur Pipeline-Reparatur in realen Szenarien

Limitierungen

Begrenzte Experimentskala: Aktueller Prototyp behandelt keine großflächige Parallelverarbeitung
Modellabhängigkeit: Leistung stark abhängig von zugrunde liegender LLM-Fähigkeit
Szenario-Spezifität: Hauptfokus auf Pipeline-Reparatur, andere Use-Cases erfordern weitere Validierung

Zukünftige Richtungen

Großflächige Parallelität: Hauptherausforderung für OLAP-Systeme im Zeitalter der Agenten-Datenexploration
Weitere Use-Cases: Erweiterung auf Datenqualitätsüberwachung, Leistungsoptimierung etc.
Standardisierung: Etablierung von Industriestandards und Best Practices für agentisierte Lakehouses

Tiefgreifende Bewertung

Stärken

Systematischer Ansatz: Erste systematische Adressierung der offenen Herausforderung der Cloud-Pipeline-Reparatur
Hoher praktischer Wert: Löst tatsächliche Schmerzpunkte von Datentechnikern
Sicherheitsdesign: Umfassendes Sicherheitsrahmenwerk, berücksichtigt mehrdimensionale Risiken
Open-Source-Beitrag: Bietet vollständigen funktionierenden Code für Gemeinschaftsreplikation und Verbesserung
Solide theoretische Grundlage: Basiert auf etablierten Theorien wie Proof-Carrying Code

Schwächen

Unvollständige Evaluierung: Mangel an systematischer Evaluierung in großflächigen, vielfältigen Szenarien
Plattformabhängigkeit: Stark abhängig von Bauplan-Plattform, Universalität zu validieren
Fehlende Kostenanalyse: Keine detaillierte Kosten-Nutzen-Analyse bereitgestellt
Fehlerbehandlungsmechanismus: Beschreibung der Behandlung komplexer Fehlerszenarien nicht ausreichend detailliert

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für KI-Agenten-Anwendung in Dateninfrastruktur
Industrieller Wert: Bietet praktisch umsetzbares Lösungskonzept für Datenengineering-Automatisierung
Technologischer Antrieb: Fördert Entwicklung programmierbarer Dateninfrastruktur

Anwendungsszenarien

Unternehmens-Datenteams: Geeignet für Unternehmen, die Datenpipeline-Wartung automatisieren müssen
Cloud-Native-Architektur: Besonders geeignet für Organisationen mit API-first-Architektur
DevOps-Kultur: Geeignet für Teams mit starker DevOps-Kultur und Git-Workflow

Literaturverzeichnis

Das Paper zitiert 24 verwandte Arbeiten, hauptsächlich abdeckend:

Data Lakehouse-Architektur (Zaharia et al., 2021)
KI-Agenten-Tool-Nutzung (Shen, 2024)
Proof-Carrying Code (Necula & Lee, 1998)
Data Engineering-Herausforderungen (Data World, 2021)
Programmierbare Infrastruktur (Tagliabue et al., 2024)

Gesamtbewertung: Dies ist ein Paper mit wichtigem praktischem Wert, das sich systematisch mit der sicheren Anwendung von KI-Agenten in Data-Lakehouse-Umgebungen befasst. Das Paper kombiniert theoretische Innovation mit praktischer Implementierung und bietet neue Perspektiven und Werkzeuge für Data-Engineering-Automatisierung. Obwohl Verbesserungen in der Evaluierungsvollständigkeit und Universalität möglich sind, verleihen die bahnbrechende Arbeit und Open-Source-Beiträge dem Paper bedeutenden akademischen und industriellen Wert.