2025-11-13T13:52:10.448421

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

Tagliabue, Greco

Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.

academic

सुरक्षित, अविश्वसनीय, "प्रमाण-वहन करने वाले" AI एजेंट: एजेंटिक लेकहाउस की ओर

बुनियादी जानकारी

पेपर ID: 2510.09567
शीर्षक: Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
लेखक: जैकोपो टैग्लिएबु (बॉपलान लैब्स), सिरो ग्रीको (बॉपलान लैब्स)
वर्गीकरण: cs.AI cs.DB
प्रकाशन समय: 25 अक्टूबर 2010 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09567

सारांश

डेटा लेकहाउस संवेदनशील कार्यभार चलाते हैं, और AI-संचालित स्वचालन विश्वास, सटीकता और शासन के बारे में चिंताएं उठाता है। यह पेपर तर्क देता है कि API-प्रथम प्रोग्रामेबल लेकहाउस सुरक्षित डिजाइन के एजेंट वर्कफ़्लो के लिए सही अमूर्तता प्रदान करते हैं। बॉपलान को केस स्टडी के रूप में प्रस्तुत करते हुए, यह दर्शाता है कि डेटा ब्रांचिंग और घोषणात्मक वातावरण कैसे स्वाभाविक रूप से एजेंटों तक विस्तारित होते हैं, पुनरुत्पादनीयता और अवलोकनीयता को सक्षम करते हुए हमले की सतह को कम करते हैं। एक प्रमाण-अवधारणा प्रस्तुत की गई है, जहां एजेंट प्रमाण-वहन करने वाले कोड से प्रेरित सटीकता जांच का उपयोग करके डेटा पाइपलाइनों को ठीक करते हैं। प्रोटोटाइप दर्शाता है कि अविश्वसनीय AI एजेंट उत्पादन डेटा पर सुरक्षित रूप से संचालित हो सकते हैं, और पूरी तरह से एजेंटिकृत लेकहाउस की ओर पथ की रूपरेखा देता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: LLM अनुमान और उपकरण उपयोग क्षमताओं में सुधार के साथ, AI एजेंटों को डेटा लेकहाउस में डेटा जीवनचक्र को सुरक्षित रूप से प्रबंधित करने के लिए कैसे सक्षम किया जाए, विशेष रूप से संवेदनशील उत्पादन वातावरण में?
चुनौती विश्लेषण:
- लेकहाउस मानव टीम सहयोग के लिए निर्मित वितरित प्रणालियां हैं, संवेदनशील उत्पादन डेटा को संभालती हैं, अंत-से-अंत स्वचालन के लिए अनुपयुक्त हैं
- प्लेटफॉर्म विषमता एजेंट उपयोग के मामलों की प्राथमिकता को अस्पष्ट करती है
- पारंपरिक प्रणालियां इंटरफेस विषमता और जटिल पहुंच पैटर्न के कारण स्वचालन का विरोध करती हैं
वास्तविक आवश्यकताएं:
- डेटा इंजीनियर डेटा पाइपलाइनों को ठीक करने में बहुत समय बिताते हैं
- पाइपलाइन मरम्मत उच्च जोखिम वाले गैर-तुच्छ परिदृश्यों की कसौटी है
- सुरक्षा सुनिश्चित करते हुए स्वचालन की आवश्यकता है

अनुसंधान प्रेरणा

व्यावहारिक मूल्य: पाइपलाइनें विकास समय और कुल कंप्यूटिंग द्वारा मापी गई लेकहाउस कार्यभार का बहुमत शामिल करती हैं
तकनीकी चुनौती: उच्च जोखिम वाले परिदृश्यों में एजेंट प्रवेश क्षमता का परीक्षण करना
सिस्टम आवश्यकताएं: एजेंटों, क्लाउड सिस्टम और मानव पर्यवेक्षकों को जोड़ने के लिए एकीकृत इंटरफेस की आवश्यकता है

मुख्य योगदान

अमूर्तता डिजाइन: प्रोग्रामेबल लेकहाउस में डेटा जीवनचक्र को मॉडलिंग करने के लिए अमूर्तता पेश की गई, कोड के माध्यम से पूरी तरह से क्लाउड पाइपलाइन बनाई गई और निष्पादित की गई
सुरक्षा ढांचा: उच्च जोखिम वाले कार्यभार स्वचालन के सामान्य आपत्तियों की समीक्षा और समाधान किया गया, तर्क दिया गया कि मॉडल डेटा और कोड कलाकृतियों के संदर्भ में विश्वसनीयता और सटीकता को बढ़ावा देते हैं
प्रोटोटाइप कार्यान्वयन: कार्यशील कोड जारी किया गया, बॉपलान को लेकहाउस और एजेंट लूप के रूप में उपयोग करके स्व-मरम्मत पाइपलाइन की अवधारणा का प्रमाण प्रदर्शित किया गया
पथ योजना: प्रोटोटाइप के आधार पर पूरी तरह से एजेंटिकृत लेकहाउस को प्राप्त करने के लिए व्यावहारिक अगले कदमों की रूपरेखा दी गई

विधि विवरण

प्रोग्रामेबल लेकहाउस आर्किटेक्चर

पाइपलाइन परिभाषा

पाइपलाइनों को रूपांतरण के DAG (निर्देशित अचक्रीय ग्राफ) के रूप में परिभाषित किया गया है, निम्नलिखित विशेषताओं के साथ:

@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
    trips=bauplan.Model("taxi_trips"),
    zones=bauplan.Model("taxi_zones")
):
    return trips.join(zones).do_something()

मुख्य डिजाइन विकल्प:

FaaS अमूर्तता: व्यावसायिक तर्क को सरल फ़ंक्शन Table(s) → Table के रूप में व्यक्त किया गया
घोषणात्मक I/O: फ़ंक्शन पूरी तरह से अलग-थलग हैं, Python वातावरण घोषणात्मक रूप से निर्दिष्ट है

पाइपलाइन निष्पादन

निष्पादन लेनदेन संबंधी पैटर्न का उपयोग करता है, Git अवधारणाओं के साथ संयुक्त:

$ pip install bauplan
$ bauplan run --project_dir P_folder

लेनदेन संबंधी गारंटियां:

ब्रांच-मर्ज पैटर्न: निष्पादन स्वचालित रूप से कॉपी-ऑन-राइट ब्रांच में चला जाता है
परमाणु संचालन: केवल सफल रन ही मुख्य ब्रांच में मर्ज होते हैं
सैंडबॉक्स लेखन: उत्पादन से पढ़ते हैं लेकिन अलग-थलग में लिखते हैं, गंदे पढ़ने से बचने के लिए

सुरक्षा तंत्र डिजाइन

चार-आयामी सुरक्षा चेकलिस्ट

चिंता का विषय	पैटर्न	अमूर्तता तंत्र
डेटा विश्वास	डेटा पहुंच	घोषणात्मक I/O
कोड विश्वास	कोड निष्पादन	FaaS रनटाइम
डेटा सटीकता	डेटा अखंडता	लेनदेन संबंधी रन
कोड सटीकता	कोड गुणवत्ता	सत्यापन के बाद मर्ज

विशिष्ट सुरक्षा उपाय

डेटा विश्वास:
- I/O हमेशा प्लेटफॉर्म द्वारा मध्यस्थ होता है
- एजेंट भौतिक डेटा परत (S3) तक नहीं पहुंच सकते
- API कुंजी-आधारित RBAC सूक्ष्म-दानेदार अनुमतियां प्रदान करता है
कोड विश्वास:
- फ़ंक्शन स्वतंत्र प्रक्रियाओं के रूप में चलते हैं, होस्ट और अन्य फ़ंक्शन से अलग-थलग
- कोई इंटरनेट पहुंच नहीं
- घोषणात्मक सिंटैक्स पैकेज व्हाइटलिस्ट जांच का समर्थन करता है
डेटा सटीकता:
- अधूरी पाइपलाइनें डाउनस्ट्रीम सिस्टम को प्रभावित नहीं करती हैं
- मानव समीक्षा मुख्य ब्रांच में मर्ज करने की अनुमति को नियंत्रित कर सकती है
- ऐतिहासिक प्रतिबद्धता का उपयोग करके किसी भी समय तालिकाओं को पुनः प्राप्त किया जा सकता है
कोड सटीकता:
- "प्रमाण-वहन करने वाले कोड" प्रोटोकॉल को अपनाया गया
- सत्यापनकर्ता फ़ंक्शन Branch → bool एजेंट ब्रांच मर्ज की अनुमति देते हैं
- Git-for-Data के पुल अनुरोध प्रवाह का उपयोग किया गया

एजेंट कार्यान्वयन आर्किटेक्चर

सिस्टम घटक

बॉपलान: प्रोग्रामेबल लेकहाउस प्लेटफॉर्म
बॉपलान MCP: लेकहाउस API को उपकरण के रूप में उजागर करता है
smolagents: ReAct ढांचा, लूप, उपकरण कॉल और लॉगिंग को संभालता है
बहु-LLM समर्थन: LiteLLM इंटरफेस के माध्यम से OpenAI, Anthropic, TogetherAI का समर्थन करता है
सत्यापनकर्ता: मर्ज से पहले "प्रमाण जांच" चरण

उपकरण क्षमताएं

अवलोकनीयता: विफल नौकरियों और उनके लॉग प्राप्त करें
डेटा अन्वेषण: तालिकाओं को क्वेरी करें, प्रकार जांचें
निष्पादन नियंत्रण: ब्रांच बनाएं, रन शुरू करें

प्रायोगिक सेटअप

प्रायोगिक परिदृश्य

विफलता सिमुलेशन: उद्योग रिपोर्ट और अनुभव के आधार पर, NumPy 2.0 रिलीज के आसपास पैकेज असंगति समस्या का सिमुलेशन किया गया, जिससे pandas 2.0 का उपयोग करने वाले कंटेनर क्रैश हो गए।

तकनीकी स्टैक

अनुमान मॉडल: Claude Sonnet 4.5 जैसे अत्याधुनिक मॉडल
ढांचा: smolagents (Python-आधारित ReAct)
प्लेटफॉर्म: बॉपलान लेकहाउस
डेटासेट: NYC टैक्सी डेटासेट

मूल्यांकन आयाम

सफलता दर: एजेंट द्वारा पाइपलाइन मरम्मत की सफलता का अनुपात
टोकन उपयोग: कार्य पूरा करने के लिए आवश्यक कंप्यूटिंग संसाधन
उपकरण कॉल की संख्या: एजेंट और सिस्टम के बीच इंटरैक्शन की आवृत्ति
सुरक्षा: एजेंट विफल होने पर सिस्टम की स्थिरता

प्रायोगिक परिणाम

मुख्य निष्कर्ष

मॉडल प्रदर्शन में महत्वपूर्ण अंतर:
- अत्याधुनिक मॉडल (जैसे Sonnet 4.5) सफलता दर, टोकन उपयोग और उपकरण कॉल की संख्या में बहुत भिन्न प्रदर्शन करते हैं
- यहां तक कि जब मॉडल विफल हों (जैसे GPT-4-mini), लेकहाउस में कोई व्यवधान या असुरक्षित व्यवहार नहीं हुआ
पारंपरिक सिस्टम सीमाएं:
- उद्योग-अग्रणी पारंपरिक तकनीकी स्टैक (जैसे Snowflake + dbt) एजेंट मरम्मत का समर्थन नहीं करते हैं
- भले ही उनके पास MCP सर्वर हों और अतिव्यापी उपयोग के मामलों की सेवा करें
- MCP स्वचालन के लिए आवश्यक लेकिन पर्याप्त नहीं है
सिस्टम लचीलापन:
- मॉडल स्विचिंग के लिए केवल एकल कॉन्फ़िगरेशन परिवर्तन की आवश्यकता है
- बजट बाधा परिदृश्यों में चरण-संबंधित मॉडल चयन का समर्थन करता है
- डेटा ब्रांचिंग बड़े पैमाने पर समवर्ती नियंत्रण का समर्थन करता है

सुरक्षा सत्यापन

कोई उत्पादन व्यवधान नहीं: सभी प्रयोगों में उत्पादन डेटा भ्रष्टाचार नहीं हुआ
अनुमति नियंत्रण प्रभावी: RBAC और API कुंजी तंत्र सही तरीके से काम करते हैं
लेनदेन संबंधी गारंटियां: विफल मरम्मत प्रयास डाउनस्ट्रीम सिस्टम को प्रभावित नहीं करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रोग्रामेबल लेकहाउस स्वाभाविक रूप से एजेंटिकरण के लिए उपयुक्त हैं: घोषणात्मक DAG और Git-जैसे डेटा प्रबंधन सुरक्षित डिजाइन के एजेंट उपयोग का समर्थन करने के लिए बहुत उपयुक्त हैं
सुरक्षा सुनिश्चित की जा सकती है: उपयुक्त अमूर्तता और सत्यापन तंत्र के माध्यम से, अविश्वसनीय AI एजेंट उत्पादन डेटा पर सुरक्षित रूप से संचालित हो सकते हैं
व्यावहारिकता सत्यापित की गई है: प्रोटोटाइप वास्तविक परिदृश्यों में डेटा पाइपलाइनों को ठीक करने की क्षमता को सफलतापूर्वक प्रदर्शित करता है

सीमाएं

प्रायोगिक पैमाना सीमित: वर्तमान प्रोटोटाइप बड़े पैमाने पर समानांतर प्रसंस्करण में शामिल नहीं है
मॉडल निर्भरता: प्रदर्शन अंतर्निहित LLM क्षमता पर अत्यधिक निर्भर है
परिदृश्य विशिष्टता: मुख्य रूप से पाइपलाइन मरम्मत पर केंद्रित है, अन्य उपयोग के मामलों के लिए आगे सत्यापन की आवश्यकता है

भविष्य की दिशाएं

बड़े पैमाने पर समानांतरता: यह एजेंट डेटा अन्वेषण के युग में OLAP सिस्टम के लिए मुख्य चुनौती है
अधिक उपयोग के मामले: डेटा गुणवत्ता निगरानी, प्रदर्शन अनुकूलन आदि तक विस्तारित करें
मानकीकरण: एजेंटिकृत लेकहाउस के लिए उद्योग मानक और सर्वोत्तम प्रथाएं स्थापित करें

गहन मूल्यांकन

शक्तियां

प्रणालीगत दृष्टिकोण: क्लाउड पाइपलाइन मरम्मत की खुली चुनौती को पहली बार व्यवस्थित रूप से संबोधित करता है
उच्च व्यावहारिक मूल्य: डेटा इंजीनियरों की वास्तविक समस्याओं को हल करता है
सुरक्षा डिजाइन: व्यापक सुरक्षा ढांचा, जोखिम के कई आयामों पर विचार करता है
खुला स्रोत योगदान: पूर्ण कार्यशील कोड प्रदान करता है, समुदाय द्वारा प्रतिलिपि और सुधार को सुविधाजनक बनाता है
ठोस सैद्धांतिक आधार: प्रमाण-वहन करने वाले कोड जैसे परिपक्व सिद्धांतों से अनुकूलित

कमियां

मूल्यांकन अपूर्ण: बड़े पैमाने पर, विविध परिदृश्यों का व्यवस्थित मूल्यांकन अभाव
प्लेटफॉर्म निर्भरता: बॉपलान प्लेटफॉर्म पर अत्यधिक निर्भर, सामान्यता सत्यापन की प्रतीक्षा में है
लागत विश्लेषण अभाव: विस्तृत लागत-लाभ विश्लेषण प्रदान नहीं किया गया
त्रुटि हैंडलिंग तंत्र: जटिल त्रुटि परिदृश्यों के लिए हैंडलिंग तंत्र का विवरण अपर्याप्त है

प्रभाव

शैक्षणिक योगदान: डेटा बुनियादी ढांचे में AI एजेंटों के अनुप्रयोग के लिए नई अनुसंधान दिशा प्रदान करता है
औद्योगिक मूल्य: डेटा इंजीनियरिंग स्वचालन के लिए व्यावहारिक व्यवहार्य समाधान प्रदान करता है
तकनीकी प्रवर्तन: प्रोग्रामेबल डेटा बुनियादी ढांचे के विकास को बढ़ावा देता है

लागू परिदृश्य

एंटरप्राइज डेटा टीमें: डेटा पाइपलाइन रखरखाव को स्वचालित करने की आवश्यकता वाले एंटरप्राइज के लिए उपयुक्त
क्लाउड-मूल आर्किटेक्चर: विशेष रूप से API-प्रथम आर्किटेक्चर को अपनाने वाले संगठनों के लिए उपयुक्त
DevOps संस्कृति: मजबूत DevOps संस्कृति और Git वर्कफ़्लो वाली टीमों के लिए उपयुक्त

संदर्भ

पेपर 24 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

डेटा लेकहाउस आर्किटेक्चर (Zaharia et al., 2021)
AI एजेंट उपकरण उपयोग (Shen, 2024)
प्रमाण-वहन करने वाले कोड (Necula & Lee, 1998)
डेटा इंजीनियरिंग चुनौतियां (Data World, 2021)
प्रोग्रामेबल बुनियादी ढांचा (Tagliabue et al., 2024)

समग्र मूल्यांकन: यह महत्वपूर्ण व्यावहारिक मूल्य वाला एक व्यवस्थित पेपर है, जो डेटा लेकहाउस वातावरण में AI एजेंटों के सुरक्षित अनुप्रयोग को पहली बार व्यवस्थित रूप से अन्वेषण करता है। पेपर सैद्धांतिक नवाचार और व्यावहारिक कार्यान्वयन को जोड़ता है, डेटा इंजीनियरिंग स्वचालन के लिए नई सोच और उपकरण प्रदान करता है। हालांकि मूल्यांकन व्यापकता और सामान्यता के पहलुओं में सुधार की गुंजाइश है, लेकिन इसका अग्रणी कार्य और खुला स्रोत योगदान इसे महत्वपूर्ण शैक्षणिक और औद्योगिक मूल्य प्रदान करता है।

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

सुरक्षित, अविश्वसनीय, "प्रमाण-वहन करने वाले" AI एजेंट: एजेंटिक लेकहाउस की ओर

बुनियादी जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

प्रोग्रामेबल लेकहाउस आर्किटेक्चर

पाइपलाइन परिभाषा

पाइपलाइन निष्पादन

सुरक्षा तंत्र डिजाइन

चार-आयामी सुरक्षा चेकलिस्ट

विशिष्ट सुरक्षा उपाय

एजेंट कार्यान्वयन आर्किटेक्चर

सिस्टम घटक

उपकरण क्षमताएं

प्रायोगिक सेटअप

प्रायोगिक परिदृश्य

तकनीकी स्टैक

मूल्यांकन आयाम

प्रायोगिक परिणाम

मुख्य निष्कर्ष

सुरक्षा सत्यापन

संबंधित कार्य

डेटा लेकहाउस विकास

AI एजेंट उपकरण उपयोग

प्रमाण-वहन करने वाले कोड

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ