Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Tagliabue, Greco
Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
academic
Agenti AI Sicuri, Non Affidabili, "Proof-Carrying": verso il lakehouse agenziale
I data lakehouse gestiscono carichi di lavoro sensibili e l'automazione guidata dall'IA ha suscitato preoccupazioni riguardanti la fiducia, la correttezza e la governance. Questo articolo sostiene che un lakehouse programmabile orientato alle API fornisce l'astrazione corretta per flussi di lavoro agenziali progettati in modo sicuro. Utilizzando Bauplan come caso di studio, si dimostra come il branching dei dati e gli ambienti dichiarativi si estendono naturalmente agli agenti, consentendo riproducibilità e osservabilità, riducendo al contempo la superficie di attacco. Viene proposto un proof-of-concept in cui gli agenti utilizzano controlli di correttezza ispirati al codice proof-carrying per riparare le pipeline di dati. Il prototipo dimostra che agenti IA non affidabili possono operare in modo sicuro su dati di produzione e delinea il percorso verso un lakehouse completamente agenziale.
Problema Centrale: Con il miglioramento delle capacità di ragionamento e utilizzo di strumenti dei modelli di linguaggio di grandi dimensioni (LLM), come consentire agli agenti IA di gestire in modo sicuro il ciclo di vita dei dati nei data lakehouse, in particolare in ambienti di produzione sensibili?
Analisi delle Sfide:
I lakehouse sono sistemi distribuiti costruiti per la collaborazione tra team umani, gestiscono dati di produzione sensibili e non sono adatti all'automazione end-to-end
L'eterogeneità delle piattaforme rende poco chiara la priorità dei casi d'uso agenziali
I sistemi tradizionali resistono all'automazione a causa dell'eterogeneità delle interfacce e dei complessi modelli di accesso
Esigenze Pratiche:
Gli ingegneri dei dati dedicano molto tempo alla riparazione delle pipeline di dati
La riparazione delle pipeline è una pietra di paragone per scenari ad alto rischio e non banali
È necessaria l'automazione garantendo al contempo la sicurezza
Valore Pratico: Le pipeline rappresentano la maggior parte dei carichi di lavoro del lakehouse (misurati per tempo di sviluppo e volume di calcolo totale)
Sfida Tecnica: Test delle capacità di penetrazione agenziale in scenari ad alto rischio
Requisiti di Sistema: È necessaria un'interfaccia unificata per collegare agenti, sistemi cloud e supervisori umani
Progettazione dell'Astrazione: Introduzione di astrazioni per modellare il ciclo di vita dei dati in un lakehouse programmabile, con costruzione ed esecuzione di pipeline cloud completamente tramite codice
Framework di Sicurezza: Revisione e affrontamento delle obiezioni comuni all'automazione di carichi di lavoro ad alto rischio, argomentando come i modelli promuovono affidabilità e correttezza rispetto agli artefatti di dati e codice
Implementazione del Prototipo: Rilascio di codice funzionante che dimostra un proof-of-concept di pipeline auto-riparanti utilizzando Bauplan come lakehouse e ciclo agenziale
Pianificazione del Percorso: Delineazione dei passaggi pratici successivi per realizzare un lakehouse completamente agenziale sulla base del prototipo
Simulazione di Guasti: Basata su rapporti industriali ed esperienza, simula problemi di incompatibilità di pacchetti intorno al rilascio di NumPy 2.0, causando crash di contenitori che utilizzano pandas 2.0.
Differenze di Prestazioni Significative tra Modelli:
I modelli all'avanguardia (come Sonnet 4.5) mostrano differenze significative in tasso di successo, utilizzo di token e numero di chiamate di strumenti
Anche quando i modelli falliscono (come GPT-4-mini), il lakehouse non ha subito interruzioni o comportamenti non sicuri
Limitazioni dei Sistemi Tradizionali:
Gli stack tecnologici tradizionali leader del settore (come Snowflake + dbt) non supportano la riparazione agenziale
Anche se dispongono di server MCP e servono casi d'uso sovrapposti
MCP è una condizione necessaria ma non sufficiente per l'automazione
Flessibilità del Sistema:
Il cambio di modello richiede solo una modifica di configurazione singola
Supporta la selezione di modelli dipendenti dai passaggi in scenari con vincoli di budget
Il branching dei dati supporta il controllo della concorrenza su larga scala
I Lakehouse Programmabili sono Naturalmente Adatti all'Agenzialità: I DAG dichiarativi e la gestione dei dati simile a Git sono molto adatti al supporto di utilizzi agenziali progettati in modo sicuro
La Sicurezza Può Essere Garantita: Attraverso astrazioni appropriate e meccanismi di verifica, agenti IA non affidabili possono operare in modo sicuro su dati di produzione
La Praticità è Verificata: Il prototipo ha dimostrato con successo la capacità di riparare le pipeline di dati in scenari reali
L'articolo cita 24 riferimenti correlati, principalmente coprenti:
Architettura del data lakehouse (Zaharia et al., 2021)
Utilizzo di strumenti da parte di agenti IA (Shen, 2024)
Codice proof-carrying (Necula & Lee, 1998)
Sfide dell'ingegneria dei dati (Data World, 2021)
Infrastruttura programmabile (Tagliabue et al., 2024)
Valutazione Complessiva: Questo è un articolo sistematico con importante valore pratico che affronta per la prima volta in modo sistematico l'applicazione sicura di agenti IA nell'ambiente del data lakehouse. L'articolo combina innovazione teorica e implementazione pratica, fornendo nuove prospettive e strumenti per l'automazione dell'ingegneria dei dati. Sebbene vi sia spazio per miglioramenti nella completezza della valutazione e nell'applicabilità generale, il suo lavoro pioneristico e i contributi open source gli conferiscono importante valore accademico e industriale.