Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
論文ID : 2510.09567タイトル : Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse著者 : Jacopo Tagliabue (Bauplan Labs)、Ciro Greco (Bauplan Labs)分類 : cs.AI cs.DB発表日 : 2025年10月10日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.09567 データレイクハウスは機密性の高いワークロードを実行しており、AI駆動の自動化は信頼性、正確性、ガバナンスに関する懸念を引き起こしています。本論文は、API優先のプログラマブルレイクハウスが安全設計のエージェントワークフローに対して適切な抽象化を提供することを主張しています。Bauplanをケーススタディとして、データブランチと宣言型環境がいかに自然にエージェントに拡張され、再現性と可観測性を実現しながら攻撃面を削減するかを示しています。証明携帯コードに着想を得た正確性チェックを使用してデータパイプラインを修復するエージェントの概念実証を提案しています。プロトタイプは、信頼されていないAIエージェントが本番データ上で安全に動作できることを示し、完全にエージェント化されたレイクハウスへの道筋を概説しています。
中核的な問題 :LLM推論とツール使用能力の向上に伴い、AIエージェントがデータレイクハウス内のデータライフサイクルを安全に管理する方法、特に機密性の高い本番環境ではどのようにすればよいか?課題分析 :レイクハウスは人間チームの協働のために構築された分散システムであり、機密性の高い本番データを処理するため、エンドツーエンドの自動化には適していない プラットフォームの異質性により、エージェントユースケースの優先順位が不明確である 従来のシステムはインターフェースの異質性と複雑なアクセスパターンのため、自動化に抵抗する 実際のニーズ :データエンジニアはデータパイプラインの修復に多くの時間を費やしている パイプライン修復は高リスクで非自明なシナリオの試金石である 安全性を保証しながら自動化を実現する必要がある 実用的価値 :パイプラインは開発時間と総計算量で測定したレイクハウスワークロードの大部分を占める技術的課題 :高リスクシナリオにおけるエージェント浸透能力のテストシステム要件 :エージェント、クラウドシステム、人間の監督者を橋渡しする統一インターフェースが必要抽象設計 :プログラマブルレイクハウスにおけるデータライフサイクルのモデリングのための抽象化を導入し、コードを通じてクラウドパイプラインを完全に構築および実行する安全フレームワーク :高リスクワークロード自動化に対する一般的な異議を検討および対処し、データおよびコード成果物に関してモデルが信頼性と正確性を促進することを主張するプロトタイプ実装 :Bauplanをレイクハウスおよびエージェントループとして使用する自己修復パイプラインの概念実証を示す動作コードをリリースロードマップ :プロトタイプに基づいて、完全にエージェント化されたレイクハウスを実現するための実用的な次のステップを概説パイプラインは以下の特性を持つ変換のDAG(有向非環グラフ)として定義されます:
@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
trips=bauplan.Model("taxi_trips"),
zones=bauplan.Model("taxi_zones")
):
return trips.join(zones).do_something()
主要な設計選択 :
FaaS抽象化 :ビジネスロジックは単純な関数 Table(s) → Table として表現される宣言型I/O :関数は完全に隔離され、Python環境は宣言型で指定される実行はGitの概念と組み合わせたトランザクション型パターンを採用します:
$ pip install bauplan
$ bauplan run --project_dir P_folder
トランザクション保証 :
ブランチ-マージパターン :実行は自動的にコピーオンライトブランチに移動アトミック操作 :成功した実行のみがメインブランチにマージされるサンドボックス書き込み :本番環境から読み取りますが、書き込みは隔離され、ダーティリードを回避関心事項 パターン 抽象化メカニズム データ信頼性 データアクセス 宣言型I/O コード信頼性 コード実行 FaaSランタイム データ正確性 データ整合性 トランザクション実行 コード正確性 コード品質 マージ前検証
データ信頼性 :I/Oは常にプラットフォームによって仲介される エージェントは物理データレイヤー(S3)にアクセスできない APIキーベースのRBACが細粒度権限を提供 コード信頼性 :関数は独立したプロセスとして実行され、ホストおよび他の関数から隔離される インターネットアクセスなし 宣言型構文はパッケージホワイトリストチェックをサポート データ正確性 :不完全なパイプラインは下流システムに影響しない 人間による審査がメインブランチへのマージ権限を制御できる 履歴コミットを使用して、いつでもテーブルを復元可能 コード正確性 :「証明携帯コード」プロトコルを採用 バリデータ関数 Branch → bool がエージェントブランチのマージを許可 Git-for-Dataのプルリクエストフローを活用 Bauplan :プログラマブルレイクハウスプラットフォームBauplan MCP :レイクハウスAPIをツールとして公開smolagents :ReActフレームワーク、ループ、ツール呼び出し、ログを処理マルチLLMサポート :LiteLLMインターフェースを通じてOpenAI、Anthropic、TogetherAIをサポートバリデータ :マージ前の「証明チェック」ステップ可観測性 :失敗したジョブとそのログを取得データ探索 :テーブルをクエリし、型をチェック実行制御 :ブランチを作成し、実行を開始障害シミュレーション :業界レポートと経験に基づいて、NumPy 2.0リリース周辺のパッケージ不一致問題をシミュレートし、pandas 2.0を使用するコンテナのクラッシュを引き起こします。
推論モデル :Claude Sonnet 4.5などの最先端モデルフレームワーク :smolagents (Python ベースの ReAct)プラットフォーム :Bauplan レイクハウスデータセット :NYC タクシーデータセット成功率 :エージェントがパイプラインを修復する成功の割合トークン使用量 :タスク完了に必要な計算リソースツール呼び出し回数 :エージェントとシステムの相互作用の頻度セキュリティ :エージェント障害時のシステムの安定性モデルパフォーマンスの大きな差異 :最先端モデル(Sonnet 4.5など)は成功率、トークン使用量、ツール呼び出し回数において大きな差異を示す モデルが失敗した場合でも(GPT-4-miniなど)、レイクハウスは中断やセキュリティ上の問題を経験しない 従来型システムの制限 :業界をリードする従来型技術スタック(Snowflake + dbtなど)はエージェント修復をサポートしない MCPサーバーがあり、ユースケースが重複していても同様 MCPは自動化の必要条件ですが、十分条件ではない システムの柔軟性 :モデルの切り替えは単一の設定変更のみが必要 予算制約シナリオでのステップ関連モデル選択をサポート データブランチは大規模な並行制御をサポート 本番中断なし :すべての実験で本番データの破損は発生しなかった権限制御の有効性 :RBACおよびAPIキーメカニズムが正常に機能トランザクション保証 :失敗した修復試行は下流システムに影響しなかったデータレイクハウスはクラウド分析とAIワークロードの事実上の標準アーキテクチャ ストレージ-コンピュート分離、多言語サポート、統一テーブルセマンティクスの恩恵を受ける LLMの推論とツール使用の改善が自律的意思決定能力を推進 既存のインフラストラクチャエージェントは特定のタスクに多く焦点を当てており、完全なライフサイクルサポートが不足している Neculaおよびレーの「Safe, Untrusted Agents Using Proof-Carrying Code」から着想を得ている データ環境に適応し、形式的属性ではなくビジネスコンテキストに焦点を当てる プログラマブルレイクハウスはエージェント化に自然に適している :宣言型DAGとGitのようなデータ管理は、安全設計のエージェント使用をサポートするのに非常に適しているセキュリティは保証できる :適切な抽象化と検証メカニズムを通じて、信頼されていないAIエージェントは本番データを安全に操作できる実用性は検証されている :プロトタイプは実際のシナリオでデータパイプラインを修復する能力を成功裏に実証している実験規模が限定的 :現在のプロトタイプは大規模並列処理を含まないモデル依存性 :パフォーマンスは基盤となるLLM能力に大きく依存シナリオ特異性 :主にパイプライン修復に焦点を当てており、他のユースケースはさらなる検証が必要大規模並列性 :これはエージェント時代のデータ探索におけるOLAPシステムの主要な課題より多くのユースケース :データ品質監視、パフォーマンス最適化などのシナリオに拡張標準化 :エージェント化されたレイクハウスの業界標準とベストプラクティスを確立体系的なアプローチ :クラウドパイプライン修復の未解決課題に初めて体系的に対処実用的価値が高い :データエンジニアの実際の課題を解決安全設計 :複数の次元のリスクを考慮した包括的なセキュリティフレームワークオープンソース貢献 :コミュニティが再現および改善できるように完全な動作コードを提供理論的基礎が堅牢 :証明携帯コードなどの成熟した理論から着想を得ている評価が十分でない :大規模で多様なシナリオの体系的な評価が不足プラットフォーム依存性 :Bauplanプラットフォームに大きく依存し、汎用性は検証が必要コスト分析が不足 :詳細なコスト効果分析が提供されていないエラー処理メカニズム :複雑なエラーシナリオの処理メカニズムの説明が不十分学術的貢献 :AIエージェントのデータインフラストラクチャへの応用に新しい研究方向を提供産業的価値 :データエンジニアリング自動化に実行可能な解決策を提供技術推進 :プログラマブルデータインフラストラクチャの発展を推進エンタープライズデータチーム :データパイプラインメンテナンスの自動化が必要な企業に適しているクラウドネイティブアーキテクチャ :特にAPI優先アーキテクチャを採用している組織に適しているDevOps文化 :強いDevOps文化とGitワークフローを持つチームに適している論文は主に以下をカバーする24の関連文献を引用しています:
データレイクハウスアーキテクチャ(Zaharia他、2021) AIエージェントのツール使用(Shen、2024) 証明携帯コード(Necula & Lee、1998) データエンジニアリングの課題(Data World、2021) プログラマブルインフラストラクチャ(Tagliabue他、2024) 総合評価 :これは重要な実用的価値を持つ体系的な論文であり、データレイクハウス環境におけるAIエージェントの安全な応用を初めて体系的に探求しています。論文は理論的革新と実装を組み合わせ、データエンジニアリング自動化に新しい思考とツールを提供しています。評価の包括性と汎用性の面でまだ改善の余地がありますが、その開拓的な仕事とオープンソース貢献により、重要な学術的および産業的価値を持っています。