2025-11-13T13:52:10.448421

Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse

Tagliabue, Greco

Data lakehouses run sensitive workloads, where AI-driven automation raises concerns about trust, correctness, and governance. We argue that API-first, programmable lakehouses provide the right abstractions for safe-by-design, agentic workflows. Using Bauplan as a case study, we show how data branching and declarative environments extend naturally to agents, enabling reproducibility and observability while reducing the attack surface. We present a proof-of-concept in which agents repair data pipelines using correctness checks inspired by proof-carrying code. Our prototype demonstrates that untrusted AI agents can operate safely on production data and outlines a path toward a fully agentic lakehouse.

academic

안전하고 신뢰할 수 없는 "증명 전달" AI 에이전트: 에이전트 레이크하우스를 향하여

기본 정보

논문 ID: 2510.09567
제목: Safe, Untrusted, "Proof-Carrying" AI Agents: toward the agentic lakehouse
저자: Jacopo Tagliabue (Bauplan Labs), Ciro Greco (Bauplan Labs)
분류: cs.AI cs.DB
발표 시간: 2025년 10월 10일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09567

초록

데이터 레이크하우스는 민감한 워크로드를 실행하며, AI 기반 자동화는 신뢰성, 정확성 및 거버넌스에 대한 우려를 야기합니다. 본 논문은 API 우선 프로그래밍 가능 레이크하우스가 안전한 설계의 에이전트 워크플로우를 위한 올바른 추상화를 제공한다고 주장합니다. Bauplan을 사례 연구로 제시하며, 데이터 브랜칭과 선언적 환경이 어떻게 자연스럽게 에이전트로 확장되어 재현성과 관찰성을 가능하게 하면서 공격 표면을 줄이는지 보여줍니다. 에이전트가 증명 전달 코드에서 영감을 받은 정확성 검사를 사용하여 데이터 파이프라인을 수정하는 개념 증명을 제시합니다. 프로토타입은 신뢰할 수 없는 AI 에이전트가 프로덕션 데이터에서 안전하게 작동할 수 있음을 보여주며, 완전히 에이전트화된 레이크하우스로의 경로를 개괄합니다.

연구 배경 및 동기

문제 정의

핵심 문제: LLM 추론 및 도구 사용 능력의 향상에 따라, AI 에이전트가 특히 민감한 프로덕션 환경에서 데이터 레이크하우스의 데이터 생명주기를 안전하게 관리하려면 어떻게 해야 할까요?
도전 분석:
- 레이크하우스는 인간 팀 협업을 위해 구축된 분산 시스템으로, 민감한 프로덕션 데이터를 처리하며 엔드투엔드 자동화에 부적합합니다
- 플랫폼 이질성으로 인해 에이전트 사용 사례의 우선순위가 불명확합니다
- 기존 시스템은 인터페이스 이질성과 복잡한 접근 패턴으로 인해 자동화에 저항합니다
실제 요구사항:
- 데이터 엔지니어는 데이터 파이프라인 수정에 상당한 시간을 소비합니다
- 파이프라인 수정은 고위험 비자명 시나리오의 시금석입니다
- 안전성을 보장하면서 자동화를 달성해야 합니다

연구 동기

실용적 가치: 파이프라인은 레이크하우스 워크로드의 대부분을 차지합니다(개발 시간 및 총 계산량 기준)
기술적 도전: 고위험 시나리오에서 에이전트 침투 능력 테스트
시스템 요구사항: 에이전트, 클라우드 시스템 및 인간 감독자를 연결하는 통합 인터페이스 필요

핵심 기여

추상화 설계: 프로그래밍 가능 레이크하우스에서 데이터 생명주기를 모델링하기 위한 추상화를 도입하며, 코드를 통해 클라우드 파이프라인을 완전히 구축하고 실행합니다
안전 프레임워크: 고위험 워크로드 자동화에 대한 일반적인 반대 의견을 검토하고 해결하며, 데이터 및 코드 아티팩트 측면에서 모델이 신뢰성과 정확성을 촉진한다고 주장합니다
프로토타입 구현: 작동하는 코드를 공개하며, Bauplan을 레이크하우스 및 에이전트 루프로 사용하는 자가 수정 파이프라인의 개념 증명을 보여줍니다
경로 계획: 프로토타입을 기반으로 완전히 에이전트화된 레이크하우스 구현을 위한 실질적인 후속 단계를 개괄합니다

방법론 상세 설명

프로그래밍 가능 레이크하우스 아키텍처

파이프라인 정의

파이프라인은 다음과 같은 특성을 가진 변환의 DAG(방향성 비순환 그래프)로 정의됩니다:

@bauplan.model(materialization="REPLACE", name="A")
@bauplan.python("3.10", pip={"pandas": "2.0"})
def join_and_filter(
    trips=bauplan.Model("taxi_trips"),
    zones=bauplan.Model("taxi_zones")
):
    return trips.join(zones).do_something()

주요 설계 선택:

FaaS 추상화: 비즈니스 로직을 단순 함수 Table(s) → Table로 표현
선언적 I/O: 함수는 완전히 격리되며, Python 환경은 선언적으로 지정됩니다

파이프라인 실행

실행은 Git 개념과 결합된 트랜잭션 모드를 채택합니다:

$ pip install bauplan
$ bauplan run --project_dir P_folder

트랜잭션 보장:

브랜치-병합 패턴: 실행은 자동으로 쓰기 시 복사 브랜치로 이동합니다
원자적 작업: 성공한 실행만 메인 브랜치로 병합됩니다
샌드박스 쓰기: 프로덕션에서 읽지만 격리된 위치에 쓰므로 더티 리드를 방지합니다

안전 메커니즘 설계

4차원 안전 체크리스트

관심사	패턴	추상화 메커니즘
데이터 신뢰	데이터 접근	선언적 I/O
코드 신뢰	코드 실행	FaaS 런타임
데이터 정확성	데이터 무결성	트랜잭션 실행
코드 정확성	코드 품질	검증 후 병합

구체적 안전 조치

데이터 신뢰:
- I/O는 항상 플랫폼에 의해 중개됩니다
- 에이전트는 물리적 데이터 계층(S3)에 접근할 수 없습니다
- API 키 기반 RBAC은 세분화된 권한을 제공합니다
코드 신뢰:
- 함수는 독립 프로세스로 실행되며 호스트 및 다른 함수와 격리됩니다
- 인터넷 접근 불가
- 선언적 구문은 패키지 화이트리스트 검사를 지원합니다
데이터 정확성:
- 불완전한 파이프라인은 다운스트림 시스템에 영향을 주지 않습니다
- 인간 검토는 메인 브랜치로의 병합 권한을 제어할 수 있습니다
- 히스토리 커밋을 사용하여 언제든지 테이블을 복원할 수 있습니다
코드 정확성:
- "증명 전달 코드" 프로토콜을 채택합니다
- 검증자 함수 Branch → bool은 에이전트 브랜치 병합을 허용합니다
- Git-for-Data의 풀 요청 워크플로우를 활용합니다

에이전트 구현 아키텍처

시스템 구성 요소

Bauplan: 프로그래밍 가능 레이크하우스 플랫폼
Bauplan MCP: 레이크하우스 API를 도구로 노출
smolagents: ReAct 프레임워크, 루프, 도구 호출 및 로깅 처리
다중 LLM 지원: LiteLLM 인터페이스를 통해 OpenAI, Anthropic, TogetherAI 지원
검증자: 병합 전 "증명 검사" 단계

도구 능력

관찰성: 실패한 작업 및 해당 로그 획득
데이터 탐색: 테이블 쿼리, 타입 검사
실행 제어: 브랜치 생성, 실행 시작

실험 설정

실험 시나리오

장애 시뮬레이션: 업계 보고서 및 경험을 기반으로 NumPy 2.0 릴리스 주변의 패키지 불일치 문제를 시뮬레이션하여 pandas 2.0을 사용하는 컨테이너 충돌을 유발합니다.

기술 스택

추론 모델: Claude Sonnet 4.5 등 최첨단 모델
프레임워크: smolagents (Python 기반 ReAct)
플랫폼: Bauplan 레이크하우스
데이터셋: NYC 택시 데이터셋

평가 차원

성공률: 에이전트가 파이프라인을 수정하는 성공 비율
토큰 사용량: 작업 완료에 필요한 계산 리소스
도구 호출 횟수: 에이전트와 시스템의 상호작용 빈도
안전성: 에이전트 실패 시 시스템의 안정성

실험 결과

주요 발견

모델 성능 차이 현저:
- 최첨단 모델(예: Sonnet 4.5)은 성공률, 토큰 사용량 및 도구 호출 횟수 측면에서 큰 차이를 보입니다
- 모델이 실패하더라도(예: GPT-4-mini), 레이크하우스는 중단이나 안전하지 않은 동작을 나타내지 않습니다
기존 시스템의 한계:
- 업계 선도 기존 기술 스택(예: Snowflake + dbt)은 에이전트 수정을 지원하지 않습니다
- MCP 서버를 모두 가지고 있고 사용 사례가 겹치더라도 마찬가지입니다
- MCP는 자동화의 필요조건이지만 충분조건은 아닙니다
시스템 유연성:
- 모델 전환은 단일 구성 변경만 필요합니다
- 예산 제약 시나리오에서 단계별 모델 선택을 지원합니다
- 데이터 브랜칭은 대규모 동시성 제어를 지원합니다

안전성 검증

프로덕션 중단 없음: 모든 실험에서 프로덕션 데이터 손상이 발생하지 않았습니다
권한 제어 유효: RBAC 및 API 키 메커니즘이 정상 작동합니다
트랜잭션 보장: 실패한 수정 시도가 다운스트림 시스템에 영향을 주지 않았습니다

결론 및 논의

주요 결론

프로그래밍 가능 레이크하우스는 자연스럽게 에이전트화에 적합:선언적 DAG와 Git 유사 데이터 관리는 안전한 설계의 에이전트 사용을 지원하기에 매우 적합합니다
안전성을 보장할 수 있음: 적절한 추상화 및 검증 메커니즘을 통해 신뢰할 수 없는 AI 에이전트가 프로덕션 데이터에서 안전하게 작동할 수 있습니다
실용성이 검증됨: 프로토타입은 실제 시나리오에서 데이터 파이프라인을 수정하는 능력을 성공적으로 보여줍니다

한계

실험 규모 제한: 현재 프로토타입은 대규모 병렬 처리를 포함하지 않습니다
모델 의존성: 성능은 기본 LLM 능력에 크게 의존합니다
시나리오 특이성: 주로 파이프라인 수정에 초점을 맞추며, 다른 사용 사례는 추가 검증이 필요합니다

향후 방향

대규모 병렬성: 이는 에이전트 데이터 탐색 시대의 OLAP 시스템의 주요 도전입니다
추가 사용 사례: 데이터 품질 모니터링, 성능 최적화 등으로 확장
표준화: 에이전트화된 레이크하우스의 업계 표준 및 모범 사례 수립

심층 평가

장점

체계적 접근: 클라우드 파이프라인 수정의 개방형 도전을 처음으로 체계적으로 해결합니다
높은 실용 가치: 데이터 엔지니어의 실제 문제를 해결합니다
안전 설계: 다차원 위험을 고려한 포괄적 안전 프레임워크
오픈소스 기여: 커뮤니티 재현 및 개선을 용이하게 하는 완전한 작동 코드 제공
견고한 이론적 기초: 증명 전달 코드 등 성숙한 이론을 차용합니다

부족한 점

평가 불충분: 대규모, 다양한 시나리오의 체계적 평가 부족
플랫폼 의존성: Bauplan 플랫폼에 높은 의존도로 일반성 검증 필요
비용 분석 누락: 상세한 비용-편익 분석 부재
오류 처리 메커니즘: 복잡한 오류 시나리오 처리 메커니즘 설명 부족

영향력

학술 기여: AI 에이전트의 데이터 기반 시설 응용에 새로운 연구 방향 제시
산업 가치: 데이터 엔지니어링 자동화를 위한 실질적으로 실행 가능한 솔루션 제공
기술 추진: 프로그래밍 가능 데이터 기반 시설 발전 촉진

적용 시나리오

엔터프라이즈 데이터 팀: 데이터 파이프라인 유지보수 자동화가 필요한 기업에 적합
클라우드 네이티브 아키텍처: 특히 API 우선 아키텍처를 채택한 조직에 적합
DevOps 문화: 강력한 DevOps 문화와 Git 워크플로우를 갖춘 팀에 적합

참고문헌

논문은 24개의 관련 문헌을 인용하며, 주로 다음을 포함합니다:

데이터 레이크하우스 아키텍처 (Zaharia 등, 2021)
AI 에이전트 도구 사용 (Shen, 2024)
증명 전달 코드 (Necula & Lee, 1998)
데이터 엔지니어링 도전 (Data World, 2021)
프로그래밍 가능 기반 시설 (Tagliabue 등, 2024)

종합 평가: 이는 중요한 실용적 가치를 지닌 체계적 논문으로, AI 에이전트의 데이터 레이크하우스 환경에서의 안전한 응용을 처음으로 체계적으로 탐구합니다. 논문은 이론적 혁신과 실제 구현을 결합하여 데이터 엔지니어링 자동화에 새로운 사고와 도구를 제공합니다. 평가의 포괄성과 일반성 측면에서 개선의 여지가 있지만, 개척적 작업과 오픈소스 기여로 인해 중요한 학술 및 산업 가치를 지닙니다.