2025-11-13T13:52:10.448421

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

Tagliabue, Greco
Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.
academic

Безопасные, Ненадежные "Агенты с Доказательством": к агентивному озеру данных

Основная информация

  • ID статьи: 2510.09567
  • Название: Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
  • Авторы: Jacopo Tagliabue (Bauplan Labs), Ciro Greco (Bauplan Labs)
  • Классификация: cs.AI cs.DB
  • Дата публикации: 10 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.09567

Аннотация

Озера данных (Data Lakehouse) обрабатывают конфиденциальные рабочие нагрузки, и автоматизация на основе ИИ вызывает опасения относительно доверия, корректности и управления. В данной статье утверждается, что API-ориентированное программируемое озеро данных предоставляет правильную абстракцию для безопасного проектирования рабочих процессов агентов. На примере Bauplan демонстрируется, как ветвление данных и декларативная среда естественным образом расширяются на агентов, обеспечивая воспроизводимость и наблюдаемость при одновременном снижении поверхности атаки. Предложено доказательство концепции, в котором агенты используют проверки корректности, вдохновленные кодом с доказательством, для исправления конвейеров данных. Прототип демонстрирует, что ненадежные ИИ-агенты могут безопасно работать с производственными данными, и намечает путь к полностью агентивному озеру данных.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: С улучшением способностей рассуждения LLM и использования инструментов, как позволить ИИ-агентам безопасно управлять жизненным циклом данных в озере данных, особенно в конфиденциальных производственных средах?
  2. Анализ вызовов:
    • Озера данных построены для сотрудничества человеческих команд, обрабатывают конфиденциальные производственные данные и не подходят для сквозной автоматизации
    • Гетерогенность платформ делает приоритеты применения агентов неясными
    • Традиционные системы сопротивляются автоматизации из-за гетерогенности интерфейсов и сложных паттернов доступа
  3. Практические требования:
    • Инженеры данных тратят значительное время на исправление конвейеров данных
    • Исправление конвейеров является пробным камнем для высокорисковых нетривиальных сценариев
    • Необходимо достичь автоматизации при гарантии безопасности

Исследовательская мотивация

  • Практическая ценность: Конвейеры охватывают большую часть рабочих нагрузок озера данных (по времени разработки и общему объему вычислений)
  • Технические вызовы: Тестирование способностей проникновения агентов в высокорисковых сценариях
  • Системные требования: Необходим унифицированный интерфейс для связи агентов, облачных систем и человеческого надзора

Основные вклады

  1. Проектирование абстракции: Введены абстракции для моделирования жизненного цикла данных в программируемом озере данных с полным построением и выполнением облачных конвейеров через код
  2. Структура безопасности: Рассмотрены и решены общие возражения против автоматизации высокорисковых рабочих нагрузок, обоснована роль моделей в содействии доверию и корректности в отношении артефактов данных и кода
  3. Реализация прототипа: Выпущен рабочий код, демонстрирующий самоисправляющиеся конвейеры как доказательство концепции с использованием Bauplan в качестве озера данных и цикла агента
  4. Планирование пути: На основе прототипа намечены практические последующие шаги для реализации полностью агентивного озера данных

Подробное описание методологии

Архитектура программируемого озера данных

Определение конвейера

Конвейер определяется как DAG (направленный ациклический граф) преобразований со следующими характеристиками:

@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
    trips=bauplan.Model("taxi_trips"),
    zones=bauplan.Model("taxi_zones")
):
    return trips.join(zones).do_something()

Ключевые проектные решения:

  1. Абстракция FaaS: Бизнес-логика выражается как простая функция Table(s) → Table
  2. Декларативный ввод-вывод: Функции полностью изолированы, окружение Python указывается декларативно

Выполнение конвейера

Выполнение использует транзакционный паттерн, объединяя концепции Git:

$ pip install bauplan
$ bauplan run --project_dir P_folder

Гарантии транзакционности:

  • Паттерн ветвления-слияния: Выполнение автоматически переходит на ветвь копирования при записи
  • Атомарные операции: Только успешные запуски объединяются с основной ветвью
  • Изолированная запись: Чтение из производства, но запись в изолированное место, предотвращая грязное чтение

Проектирование механизмов безопасности

Четырехмерный контрольный список безопасности

Область вниманияПаттернМеханизм абстракции
Доверие к даннымДоступ к даннымДекларативный ввод-вывод
Доверие к кодуВыполнение кодаСреда выполнения FaaS
Корректность данныхЦелостность данныхТранзакционное выполнение
Корректность кодаКачество кодаПроверка перед слиянием

Конкретные меры безопасности

  1. Доверие к данным:
    • Ввод-вывод всегда опосредован платформой
    • Агенты не могут получить доступ к физическому уровню данных (S3)
    • RBAC на основе ключей API обеспечивает детальные разрешения
  2. Доверие к коду:
    • Функции выполняются как отдельные процессы, изолированные от хоста и других функций
    • Нет доступа в Интернет
    • Декларативный синтаксис поддерживает проверку белого списка пакетов
  3. Корректность данных:
    • Неполные конвейеры не влияют на нижестоящие системы
    • Ручная проверка контролирует разрешения на слияние в основную ветвь
    • История коммитов позволяет восстановить таблицы в любой момент
  4. Корректность кода:
    • Применяется протокол "кода с доказательством"
    • Функции валидатора Branch → bool позволяют агентам объединять ветви
    • Использует процесс запроса на слияние Git-for-Data

Архитектура реализации агента

Компоненты системы

  • Bauplan: Платформа программируемого озера данных
  • Bauplan MCP: Раскрывает API озера данных как инструменты
  • smolagents: Структура ReAct, обрабатывающая циклы, вызовы инструментов и логирование
  • Поддержка нескольких LLM: Поддержка OpenAI, Anthropic, TogetherAI через интерфейс LiteLLM
  • Валидатор: Шаг "проверки доказательства" перед слиянием

Возможности инструментов

  • Наблюдаемость: Получение неудачных заданий и их логов
  • Исследование данных: Запрос таблиц, проверка типов
  • Управление выполнением: Создание ветвей, запуск выполнений

Экспериментальная установка

Сценарии экспериментов

Моделирование сбоев: На основе отраслевых отчетов и опыта моделируется несоответствие пакетов вокруг выпуска NumPy 2.0, приводящее к сбою контейнеров с использованием pandas 2.0.

Технический стек

  • Модели рассуждения: Передовые модели, такие как Claude Sonnet 4.5
  • Структура: smolagents (Python-based ReAct)
  • Платформа: Озеро данных Bauplan
  • Набор данных: Набор данных такси Нью-Йорка

Измеряемые параметры

  • Коэффициент успеха: Доля успешных исправлений конвейеров агентом
  • Использование токенов: Вычислительные ресурсы, необходимые для выполнения задачи
  • Количество вызовов инструментов: Частота взаимодействия агента с системой
  • Безопасность: Стабильность системы при отказе агента

Результаты экспериментов

Основные выводы

  1. Значительные различия в производительности моделей:
    • Передовые модели (такие как Sonnet 4.5) показывают большие различия в коэффициенте успеха, использовании токенов и количестве вызовов инструментов
    • Даже при отказе модели (например, GPT-4-mini) озеро данных не испытывает перебоев или небезопасного поведения
  2. Ограничения традиционных систем:
    • Ведущие в отрасли традиционные технологические стеки (такие как Snowflake + dbt) не поддерживают исправление агентами
    • Даже если они имеют серверы MCP и обслуживают перекрывающиеся варианты использования
    • MCP является необходимым, но недостаточным условием для автоматизации
  3. Гибкость системы:
    • Переключение моделей требует только одного изменения конфигурации
    • Поддерживает выбор модели, зависящий от этапа, в сценариях с ограничениями бюджета
    • Ветвление данных поддерживает крупномасштабное управление параллелизмом

Проверка безопасности

  • Отсутствие производственных сбоев: Во всех экспериментах не произошло повреждения производственных данных
  • Эффективный контроль разрешений: Механизмы RBAC и ключей API работают правильно
  • Гарантии транзакционности: Неудачные попытки исправления не повлияли на нижестоящие системы

Связанные работы

Развитие озер данных

  • Озера данных являются стандартной архитектурой для облачной аналитики и рабочих нагрузок ИИ
  • Выигрывают от разделения хранилища и вычислений, многоязычной поддержки и унифицированной семантики таблиц

Использование инструментов ИИ-агентами

  • Улучшения в рассуждении LLM и использовании инструментов способствуют развитию автономного принятия решений
  • Существующие агенты инфраструктуры часто ориентированы на конкретные задачи, не поддерживают полный жизненный цикл

Код с доказательством

  • Заимствует из работы Necula и Lee "Safe, Untrusted Agents Using Proof-Carrying Code"
  • Адаптирует для среды данных, сосредоточиваясь на бизнес-контексте, а не на формальных свойствах

Заключение и обсуждение

Основные выводы

  1. Программируемые озера данных естественно подходят для агентизации: Декларативные DAG и управление данными, подобное Git, идеально подходят для поддержки безопасно спроектированного использования агентами
  2. Безопасность может быть гарантирована: Благодаря надлежащим абстракциям и механизмам проверки ненадежные ИИ-агенты могут безопасно работать с производственными данными
  3. Практичность подтверждена: Прототип успешно демонстрирует способность исправлять конвейеры данных в реальных сценариях

Ограничения

  1. Ограниченный масштаб экспериментов: Текущий прототип не охватывает крупномасштабную параллельную обработку
  2. Зависимость от модели: Производительность сильно зависит от возможностей базовой LLM
  3. Специфичность сценария: Основное внимание уделяется исправлению конвейеров, другие варианты использования требуют дальнейшей проверки

Будущие направления

  1. Крупномасштабный параллелизм: Это основной вызов для OLAP-систем в эпоху исследования данных агентами
  2. Дополнительные варианты использования: Расширение на мониторинг качества данных, оптимизацию производительности и другие сценарии
  3. Стандартизация: Установление отраслевых стандартов и лучших практик для агентивных озер данных

Глубокая оценка

Преимущества

  1. Систематический подход: Первое систематическое решение открытой проблемы исправления облачных конвейеров
  2. Высокая практическая ценность: Решает реальные проблемы инженеров данных
  3. Проектирование с учетом безопасности: Комплексная структура безопасности, учитывающая многомерные риски
  4. Вклад в открытый исходный код: Предоставляет полный рабочий код для воспроизведения и улучшения сообществом
  5. Прочная теоретическая база: Заимствует из зрелых теорий, таких как код с доказательством

Недостатки

  1. Неполная оценка: Отсутствует систематическая оценка в крупномасштабных, разнообразных сценариях
  2. Зависимость от платформы: Высокая зависимость от платформы Bauplan, универсальность требует проверки
  3. Отсутствие анализа затрат: Не предоставляется подробный анализ затрат и выгод
  4. Механизмы обработки ошибок: Описание механизмов обработки сложных сценариев ошибок недостаточно подробно

Влияние

  1. Академический вклад: Предоставляет новое направление исследований для применения ИИ-агентов в инфраструктуре данных
  2. Промышленная ценность: Предоставляет практически осуществимое решение для автоматизации инженерии данных
  3. Технологический прогресс: Способствует развитию программируемой инфраструктуры данных

Применимые сценарии

  1. Корпоративные команды данных: Подходит для предприятий, нуждающихся в автоматизации обслуживания конвейеров данных
  2. Облачная архитектура: Особенно подходит для организаций, уже принявших API-first архитектуру
  3. Культура DevOps: Подходит для команд с сильной культурой DevOps и рабочими процессами Git

Библиография

Статья цитирует 24 связанные работы, охватывающие в основном:

  • Архитектуру озер данных (Zaharia и др., 2021)
  • Использование инструментов ИИ-агентами (Shen, 2024)
  • Код с доказательством (Necula & Lee, 1998)
  • Вызовы инженерии данных (Data World, 2021)
  • Программируемую инфраструктуру (Tagliabue и др., 2024)

Общая оценка: Это систематическая статья с важной практической ценностью, которая впервые систематически исследует безопасное применение ИИ-агентов в среде озера данных. Статья сочетает теоретические инновации и практическую реализацию, предоставляя новые идеи и инструменты для автоматизации инженерии данных. Хотя есть место для улучшения в полноте оценки и универсальности, ее новаторская работа и вклад в открытый исходный код придают ей значительную академическую и промышленную ценность.