Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
Tagliabue, Greco
Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
academic
सुरक्षित, अविश्वसनीय, "प्रमाण-वहन करने वाले" AI एजेंट: एजेंटिक लेकहाउस की ओर
डेटा लेकहाउस संवेदनशील कार्यभार चलाते हैं, और AI-संचालित स्वचालन विश्वास, सटीकता और शासन के बारे में चिंताएं उठाता है। यह पेपर तर्क देता है कि API-प्रथम प्रोग्रामेबल लेकहाउस सुरक्षित डिजाइन के एजेंट वर्कफ़्लो के लिए सही अमूर्तता प्रदान करते हैं। बॉपलान को केस स्टडी के रूप में प्रस्तुत करते हुए, यह दर्शाता है कि डेटा ब्रांचिंग और घोषणात्मक वातावरण कैसे स्वाभाविक रूप से एजेंटों तक विस्तारित होते हैं, पुनरुत्पादनीयता और अवलोकनीयता को सक्षम करते हुए हमले की सतह को कम करते हैं। एक प्रमाण-अवधारणा प्रस्तुत की गई है, जहां एजेंट प्रमाण-वहन करने वाले कोड से प्रेरित सटीकता जांच का उपयोग करके डेटा पाइपलाइनों को ठीक करते हैं। प्रोटोटाइप दर्शाता है कि अविश्वसनीय AI एजेंट उत्पादन डेटा पर सुरक्षित रूप से संचालित हो सकते हैं, और पूरी तरह से एजेंटिकृत लेकहाउस की ओर पथ की रूपरेखा देता है।
मुख्य समस्या: LLM अनुमान और उपकरण उपयोग क्षमताओं में सुधार के साथ, AI एजेंटों को डेटा लेकहाउस में डेटा जीवनचक्र को सुरक्षित रूप से प्रबंधित करने के लिए कैसे सक्षम किया जाए, विशेष रूप से संवेदनशील उत्पादन वातावरण में?
चुनौती विश्लेषण:
लेकहाउस मानव टीम सहयोग के लिए निर्मित वितरित प्रणालियां हैं, संवेदनशील उत्पादन डेटा को संभालती हैं, अंत-से-अंत स्वचालन के लिए अनुपयुक्त हैं
प्लेटफॉर्म विषमता एजेंट उपयोग के मामलों की प्राथमिकता को अस्पष्ट करती है
पारंपरिक प्रणालियां इंटरफेस विषमता और जटिल पहुंच पैटर्न के कारण स्वचालन का विरोध करती हैं
वास्तविक आवश्यकताएं:
डेटा इंजीनियर डेटा पाइपलाइनों को ठीक करने में बहुत समय बिताते हैं
पाइपलाइन मरम्मत उच्च जोखिम वाले गैर-तुच्छ परिदृश्यों की कसौटी है
अमूर्तता डिजाइन: प्रोग्रामेबल लेकहाउस में डेटा जीवनचक्र को मॉडलिंग करने के लिए अमूर्तता पेश की गई, कोड के माध्यम से पूरी तरह से क्लाउड पाइपलाइन बनाई गई और निष्पादित की गई
सुरक्षा ढांचा: उच्च जोखिम वाले कार्यभार स्वचालन के सामान्य आपत्तियों की समीक्षा और समाधान किया गया, तर्क दिया गया कि मॉडल डेटा और कोड कलाकृतियों के संदर्भ में विश्वसनीयता और सटीकता को बढ़ावा देते हैं
प्रोटोटाइप कार्यान्वयन: कार्यशील कोड जारी किया गया, बॉपलान को लेकहाउस और एजेंट लूप के रूप में उपयोग करके स्व-मरम्मत पाइपलाइन की अवधारणा का प्रमाण प्रदर्शित किया गया
पथ योजना: प्रोटोटाइप के आधार पर पूरी तरह से एजेंटिकृत लेकहाउस को प्राप्त करने के लिए व्यावहारिक अगले कदमों की रूपरेखा दी गई
विफलता सिमुलेशन: उद्योग रिपोर्ट और अनुभव के आधार पर, NumPy 2.0 रिलीज के आसपास पैकेज असंगति समस्या का सिमुलेशन किया गया, जिससे pandas 2.0 का उपयोग करने वाले कंटेनर क्रैश हो गए।
प्रोग्रामेबल लेकहाउस स्वाभाविक रूप से एजेंटिकरण के लिए उपयुक्त हैं: घोषणात्मक DAG और Git-जैसे डेटा प्रबंधन सुरक्षित डिजाइन के एजेंट उपयोग का समर्थन करने के लिए बहुत उपयुक्त हैं
सुरक्षा सुनिश्चित की जा सकती है: उपयुक्त अमूर्तता और सत्यापन तंत्र के माध्यम से, अविश्वसनीय AI एजेंट उत्पादन डेटा पर सुरक्षित रूप से संचालित हो सकते हैं
व्यावहारिकता सत्यापित की गई है: प्रोटोटाइप वास्तविक परिदृश्यों में डेटा पाइपलाइनों को ठीक करने की क्षमता को सफलतापूर्वक प्रदर्शित करता है
पेपर 24 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
डेटा लेकहाउस आर्किटेक्चर (Zaharia et al., 2021)
AI एजेंट उपकरण उपयोग (Shen, 2024)
प्रमाण-वहन करने वाले कोड (Necula & Lee, 1998)
डेटा इंजीनियरिंग चुनौतियां (Data World, 2021)
प्रोग्रामेबल बुनियादी ढांचा (Tagliabue et al., 2024)
समग्र मूल्यांकन: यह महत्वपूर्ण व्यावहारिक मूल्य वाला एक व्यवस्थित पेपर है, जो डेटा लेकहाउस वातावरण में AI एजेंटों के सुरक्षित अनुप्रयोग को पहली बार व्यवस्थित रूप से अन्वेषण करता है। पेपर सैद्धांतिक नवाचार और व्यावहारिक कार्यान्वयन को जोड़ता है, डेटा इंजीनियरिंग स्वचालन के लिए नई सोच और उपकरण प्रदान करता है। हालांकि मूल्यांकन व्यापकता और सामान्यता के पहलुओं में सुधार की गुंजाइश है, लेकिन इसका अग्रणी कार्य और खुला स्रोत योगदान इसे महत्वपूर्ण शैक्षणिक और औद्योगिक मूल्य प्रदान करता है।