Governance of data, compliance, and business privacy matters, particularly for healthcare and finance businesses. Since the recent emergence of AI enterprise AI assistants enhancing business productivity, safeguarding private data and compliance is now a priority. With the implementation of AI assistants across the enterprise, the zero data retention can be achieved by implementing zero data retention policies by Large Language Model businesses like Open AI and Anthropic and Meta. In this work, we explore zero data retention policies for the Enterprise apps of large language models (LLMs). Our key contribution is defining the architectural, compliance, and usability trade-offs of such systems in parallel. In this research work, we examine the development of commercial AI assistants with two industry leaders and market titans in this arena - Salesforce and Microsoft. Both of these companies used distinct technical architecture to support zero data retention policies. Salesforce AgentForce and Microsoft Copilot are among the leading AI assistants providing much-needed push to business productivity in customer care. The purpose of this paper is to analyze the technical architecture and deployment of zero data retention policy by consuming applications as well as big language models service providers like Open Ai, Anthropic, and Meta.
- 논문 ID: 2510.11558
- 제목: Zero Data Retention in LLM-based Enterprise AI Assistants: A Comparative Study of Market Leading Agentic AI Products
- 저자: Aditya Shrivastava (The Governor's Academy), Komal Gupta (The Northcap University)
- 분류: cs.AI
- 발표 시간: 2024년
- 논문 링크: https://arxiv.org/abs/2510.11558
본 연구는 의료보건 및 금융 등 엄격한 규제 산업의 데이터 거버넌스, 규정 준수 및 업무 개인정보 보호 요구사항에 특히 초점을 맞추어 엔터프라이즈급 대규모 언어모델(LLM) 보조 시스템의 제로 데이터 보존 정책에 집중합니다. 엔터프라이즈 AI 어시스턴트의 광범위한 배포에 따라 개인 데이터 보호 및 규정 준수 보장이 우선순위가 되었습니다. 본 논문은 시장 주도 제품인 Salesforce AgentForce와 Microsoft Copilot에 대한 심층 분석을 통해 제로 데이터 보존 정책의 기술 아키텍처, 규정 준수 및 가용성 트레이드오프를 탐구합니다.
본 연구가 해결하고자 하는 핵심 문제는 기능성, 규정 준수 및 가용성 요구사항의 균형을 맞추면서 엔터프라이즈급 LLM 애플리케이션에서 진정한 제로 데이터 보존을 어떻게 구현할 것인가입니다.
- 규제 준수: GDPR 제5조, HIPAA 및 SOC 2 등의 규정에서 데이터 최소화 처리 요구
- 산업 민감성: 의료보건 및 금융 산업의 데이터 유출에 대한 엄격한 처벌로 인해 개인정보 보호가 필수 요구사항
- 엔터프라이즈 채택: 2023년 이후 LLM 제공자들이 엔터프라이즈급 기능을 강조하기 시작하면서 제로 보존 특성이 주요 차별화 요소로 부상
- 규제 진화: EU AI 법안 등 신흥 규제에 따른 규정 준수 AI 솔루션 수요 증가
- 주류 엔터프라이즈 AI 어시스턴트의 제로 데이터 보존 구현에 대한 체계적 비교 분석 부재
- 아키텍처 설계, 정책 약속 및 실제 트레이드오프에 대한 종합적 평가 부족
- 기술 구현과 규정 준수 요구사항 간의 매핑 관계 불명확
EU AI 법안 등 규제의 지속적 진화에 따라 이러한 시스템을 이해하는 것이 규정 준수 AI 솔루션을 추구하는 엔터프라이즈에 필수적입니다.
- 제로 데이터 보존의 수학적 모델 정의: 보존 위험 R(S)의 정량화 정의를 제시하여 시스템 안전성 평가를 위한 이론적 기초 제공
- 비교 분석 프레임워크 구축: 아키텍처, 규정 준수, 보안 및 가용성 4개 차원을 포괄하는 평가 체계 수립
- 두 가지 주류 플랫폼의 심층 분석: Salesforce AgentForce와 Microsoft Copilot의 기술 구현 차이점 상세 분석
- 산업 전망 제공: Anthropic, Google, DeepSeek 등 기타 LLM 제공자의 제로 데이터 보존 정책 확대 분석
- 실제 배포 트레이드오프 식별: 무상태 처리가 다중 턴 대화, 지연 및 생태계 의존성에 미치는 영향 명확화
제로 데이터 보존은 사용자 데이터가 상호작용 후 어떤 흔적도 남지 않아야 함을 요구합니다. 본 논문은 시스템 S의 보존 위험 R(S)을 데이터 처리 후 로그, 캐시 또는 저장소에 계속 존재할 가능성으로 정의합니다. 이상적 상태 R(S) = 0은 각 요청이 독립적으로 처리되고 모든 컨텍스트가 클라이언트에서 관리되는 무상태 추론을 통해 달성됩니다.
연구는 4개 차원의 평가 방법을 채택합니다:
- 아키텍처 차원: 데이터 흐름 경로 및 보존 지점 분석
- 정책 차원: 계약상 제로 보존 의무 검토
- 보안 차원: 필터링 메커니즘 및 암호화 조치
- 가용성 차원: 제로 보존이 기능에 미치는 영향
- 체계적 비교 방법: 주류 엔터프라이즈 AI 어시스턴트의 제로 데이터 보존에 대한 최초의 포괄적 기술 비교
- 위험 정량화 모델: 보존 위험의 수학적 정의 및 평가 방법 제공
- 엔드투엔드 분석: 데이터 입력에서 출력까지의 완전한 생명주기 추적
- 주요 플랫폼: Salesforce AgentForce, Microsoft Copilot
- 확대 분석: Anthropic Claude, Google Gemini, DeepSeek
- 모델 호스팅 방식
- 신뢰 메커니즘 구현
- 데이터 보존 정책
- 규정 준수 인증
- 가용성 트레이드오프
공식 문서, 기술 아키텍처 설명 및 정책 파일에 기반한 설계 지향 분석, 데이터 경로 추적 및 GDPR, HIPAA, SOC 2 규정 준수 검사
- Einstein Trust Layer: 개인정보 보호 및 규정 준수를 보장하는 핵심 중간층
- 동적 기반화: 사용자 권한 기반의 실시간 CRM 데이터 검색
- 데이터 마스킹: 정규표현식 및 메타데이터 기반 감지를 통한 민감 정보 대체
- 무상태 처리: LLM 제공자와의 제로 보존 프로토콜
- 보안 메커니즘:
- TLS 전송 암호화, AES-256 정적 암호화
- 주입 공격 방어를 위한 프롬프트 방어
- 독성 감지 및 콘텐츠 필터링
- 성능 영향: Trust Layer 오버헤드로 인한 200-500ms 지연
- Azure OpenAI 통합:
- 모델이 OpenAI 인프라가 아닌 Azure 내부에서 호스팅
- 엔터프라이즈 데이터 보호 모드 기본 활성화
- 테넌트 경계 내 격리 처리
- 보안 특성:
- 이중 암호화(Azure 키 + 고객 관리 키)
- 프라이빗 엔드포인트로 지역 작업 제한
- 실시간 콘텐츠 필터링, 로그 보존 없음
- 성능 영향: 기반화 지연 100-300ms
| 차원 | Salesforce AgentForce | Microsoft Copilot |
|---|
| 모델 호스팅 | 제3자 LLM API 호출 | Azure 호스팅 OpenAI 모델 |
| 신뢰 메커니즘 | Einstein Trust Layer | Graph 및 Azure 통합 |
| 데이터 보존 | 계약상 제로 보존 | Azure 정책 제로 보존 |
| 규정 준수 | CRM 권한, HIPAA BAA | Azure 인증, GDPR, HIPAA BAA |
| 트레이드오프 | 지연, CRM 의존성 | 기반화 지연, Azure 의존성 |
- Anthropic: 엔터프라이즈 제로 보존 모드 제공, 30일 후 비-ZDR 데이터 자동 삭제
- Google Gemini: 구성 가능한 제로 보존, 기본 24시간 캐시 비활성화 필요
- DeepSeek: 제로 데이터 보존 미제공, 중국 서버에 데이터 저장, 국제 규정 준수 미충족
- LLM 개인정보 보호 보안: Yao et al. (2024)는 개인정보 보호 및 사이버 보안 측면에서 LLM의 이중 효과 분석
- 개인정보 보호 위협 분석: Yan et al. (2024)는 수동적 개인정보 유출과 능동적 개인정보 공격 구분
- 보안 방어 메커니즘: Zhang et al. (2024)는 다양한 취약점에 대한 포괄적 방어 메커니즘 제시
기존 연구와 비교하여 본 논문은 주류 엔터프라이즈 AI 어시스턴트의 제로 데이터 보존에 대한 최초의 체계적 기술 비교 및 실제 배포 분석을 제공합니다.
- 기술적 실현 가능성: Salesforce AgentForce와 Microsoft Copilot 모두 제로 데이터 보존을 성공적으로 구현
- 아키텍처 차이: AgentForce의 Trust Layer는 CRM 기반 워크플로우에 적합하며, Copilot의 Azure 통합은 Microsoft 생태계에 더 적합
- 트레이드오프 존재: 무상태 설계로 인한 다중 턴 대화 메모리 제한 및 지연 증가
- 산업 동향: 제로 데이터 보존이 엔터프라이즈 AI의 표준 기대치로 부상
- 분석 방법: 설계 문서 기반 분석으로 실증적 테스트 검증 부재
- 범위: 주로 두 가지 플랫폼에 초점으로 기타 솔루션 분석 제한
- 동적성: 기술 및 정책의 빠른 진화로 인한 분석 결과의 시의성 제한
- 기술 혁신: 더 간단하고 일관된 정책 및 강화된 의도하지 않은 데이터 보존 보장 필요
- 표준화: 글로벌 표준 정렬 및 엔터프라이즈 안전 채택 지원을 위한 구성 단순화
- 협력 메커니즘: 기술 공급자, 규제 기관 및 엔터프라이즈 이해관계자 간 협력 필요
- 높은 실용 가치: 엔터프라이즈가 규정 준수 AI 솔루션을 선택하기 위한 실용적 지침 제공
- 포괄적 분석: 기술 아키텍처, 규정 준수, 보안 및 가용성 등 다양한 차원 포함
- 강한 시의성: 현재 가장 인기 있는 엔터프라이즈 AI 어시스턴트 제품에 주목
- 명확한 구조: 논리적 계층이 분명하여 이해 및 적용이 용이
- 실증적 검증 부재: 주로 문서 분석에 의존하여 실제 테스트 데이터 부족
- 정량 분석 부족: R(S) 모델을 제시했으나 구체적 정량 평가 부족
- 기술 깊이 제한: 일부 기술 세부사항에 대한 분석이 충분하지 않음
- 동적 추적 부재: 기술 및 정책의 빠른 진화가 분석 결과에 미치는 영향 미고려
- 학술 기여: 엔터프라이즈 AI 개인정보 보호 연구에 새로운 분석 프레임워크 제공
- 실무 지침: 엔터프라이즈 IT 의사결정자 및 규정 준수 담당자에게 중요한 참고자료 제공
- 정책 영향: 향후 AI 거버넌스 정책 수립에 영향을 미칠 가능성
특히 다음에 적합합니다:
- 엄격한 규제를 받는 산업(의료보건, 금융)
- 엔터프라이즈 AI 솔루션을 선택해야 하는 조직
- AI 거버넌스 및 규정 준수 정책 수립자
- 엔터프라이즈 AI 제품 개발 팀
- Yao, Y. et al. (2024). A Survey on Large Language Model (LLM) Security and Privacy: The Good, The Bad, and The Ugly.
- Yan, B. et al. (2024). On Protecting the Data Privacy of Large Language Models (LLMs) and LLM Agents: A Literature Review.
- Zhang, R. et al. (2024). On Large Language Models Safety, Security, and Privacy: A Survey.
- Salesforce. (2024). Trusted AI and Agents Impact Report.
- Microsoft. (2024). Data, privacy, and security for Azure OpenAI Service.
본 논문은 엔터프라이즈급 AI 애플리케이션의 데이터 개인정보 보호에 대한 중요한 기술 분석 및 실무 지침을 제공하며, 현재 AI의 빠른 발전과 규제 강화라는 배경 속에서 중요한 현실적 의의를 갖습니다. 실증적 검증 및 정량 분석 측면에서 개선의 여지가 있지만, 체계적인 비교 분석 프레임워크와 실용적인 배포 권장사항이 이 분야의 중요한 참고문헌으로 만듭니다.