2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic

완전 동형 암호화에서 효율적인 프라이빗 추론을 위한 최적화된 계층별 근사

기본 정보

  • 논문 ID: 2310.10349
  • 제목: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
  • 저자: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
  • 분류: cs.CR (암호화 및 보안), cs.AI (인공지능)
  • 발표 시간: 2023년 10월 (arXiv v4: 2025년 10월 14일)
  • 논문 링크: https://arxiv.org/abs/2310.10349

초록

본 논문은 완전 동형 암호화(FHE)에서 효율적인 프라이빗 추론을 구현하기 위한 최적화된 계층별 근사(OLA) 방법을 제안한다. 이 방법은 각 계층에 대해 서로 다른 근사 다항식을 사용하여 정확도 손실과 시간 소비를 최적화하며, 사후 훈련 근사(PTA) 시나리오에서 추론 효율을 크게 향상시킨다. OLA 방법은 ResNet-20과 ResNet-32 모델의 추론 시간을 각각 3.02배와 2.82배 감소시켰으며, ConvNeXt 모델의 GELU 함수를 단 3차 다항식으로 성공적으로 대체했다.

연구 배경 및 동기

문제 정의

프라이버시 보호 머신러닝(PPML)에서 완전 동형 암호화(FHE)는 암호화된 데이터에 대해 직접 계산을 수행할 수 있게 한다. 그러나 FHE 방식은 기본 산술 연산(덧셈과 곱셈)만 지원하며, 비산술 활성화 함수(ReLU, GELU, sigmoid 등)를 직접 처리할 수 없다.

문제의 중요성

  1. 프라이버시 요구 증가: 클라우드 컴퓨팅의 발전에 따라 MLaaS(머신러닝 서비스)는 데이터 프라이버시를 보호하면서 서비스를 제공해야 함
  2. 실용성 요구사항: 기존 방법의 추론 시간이 너무 길어 실제 응용 요구사항을 충족하기 어려움
  3. 모델 호환성: 모델을 재훈련하지 않고 프라이빗 추론을 구현해야 함

기존 방법의 한계

  1. AAT 방법: 모델 재훈련이 필요하며, 대규모 데이터셋에서 성능이 저조함
  2. PTA 방법: 모든 계층이 동일한 고차 다항식 근사를 사용하여 추론 시간이 과도하게 길어짐
  3. 계산 효율성: 기존 방법은 각 계층이 분류 정확도에 미치는 서로 다른 영향을 고려하지 않음

연구 동기

PTA 방법의 주요 병목인 과도한 추론 시간을 해결하기 위해, 서로 다른 계층에 대해 다양한 차수의 근사 다항식을 사용하여 정확도와 효율성의 균형을 맞추는 체계적인 최적화 프레임워크를 제안한다.

핵심 기여

  1. OLA 프레임워크 제안: PTA 시나리오를 위한 계층별 최적화 근사 방법을 처음으로 제안하며, 각 계층에 서로 다른 차수의 다항식 사용
  2. 분포 인식 근사: 가중 최소제곱법 기반으로 각 계층 활성화 함수의 실제 입력 분포를 고려
  3. 동적 계획법 알고리즘: 다항식 시간 복잡도의 최적 차수 할당 알고리즘 제공
  4. 현저한 성능 향상: ResNet과 ConvNeXt 모델에서 2.82~3.02배의 추론 가속 달성
  5. 이론적 분석: 완전한 수학적 이론 기초 및 수렴성 증명 제공

방법 상세 설명

작업 정의

입력: 비산술 활성화 함수를 포함한 사전 훈련된 심층 신경망 모델 출력: 각 계층의 최적 다항식 차수 할당 제약 조건: 추론 시간 예산 K, 정확도 손실 임계값 목표: 평균 손실 분산 최소화, 시간 제약 만족

모델 아키텍처

1. 분포 인식 근사 (정리 1)

활성화 함수 f(x)와 입력 분포 φ(x)에 대해, 최적 d차 근사 다항식은:

P_φ[d; f](x) = Σ(l=0 to d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

여기서 {h_l(x)}는 Gram-Schmidt 과정을 통해 얻은 직교 다항식 기저이다.

2. 평균 손실 분산 모델링

근사 오차를 확률변수로 간주하면, 손실 함수의 분산은:

Var[ΔL] = Σ(i=1 to N_L) A_i E_φi[d_i; f]

여기서:

  • A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: i번째 계층의 정확도에 대한 영향 가중치
  • E_φid_i; f: i번째 계층의 최소화된 MSE

3. 최적화 문제 공식화

최소화: V(d) = Σ(i=1 to N_L) A_i E_i(d_i)
제약 조건: T(d) = Σ(i=1 to N_L) T_i(d_i) ≤ K

4. 동적 계획법 해결 (알고리즘 1)

  • 시간 복잡도: O(N_L × N_K × |S|)
  • 공간 복잡도: O(N_L × N_K)
  • 재귀 관계: P(l+1,k)는 {P(l,k')}의 최적해를 기반으로 구성

기술 혁신 포인트

  1. 계층별 차등 처리: 서로 다른 계층에 체계적으로 다양한 차수의 다항식을 할당하는 첫 시도
  2. 입력 분포 모델링: 이론적 분포가 아닌 실제 계층 간 데이터 분포 사용
  3. 스케일링 분포 인식 근사: 매개변수 r을 통해 분포 분산을 조정하여 저확률 영역의 근사 정확도 향상
  4. 모듈러스 체인 관리: 서로 다른 차수에 대해 FHE 매개변수 최적화, 부트스트래핑 오버헤드 감소

실험 설정

데이터셋

  • CIFAR-10/100: 소규모 이미지 분류 데이터셋
  • ImageNet: 대규모 이미지 분류 데이터셋
  • 전처리: 표준화 및 데이터 증강

평가 지표

  • 추론 시간: FHE 환경에서의 실제 실행 시간
  • Top-1 정확도: 분류 정확성
  • τ(d): 이산화 시간 지연 지표
  • 가속 비율: 기준선 대비 시간 감소 배수

비교 방법

  • Minimax 근사: Lee et al. 4의 복합 minimax 다항식 방법
  • 균일 차수 방법: 모든 계층이 동일 차수 다항식 사용
  • AAT 방법: HyPHEN, DeepReDuce 등 재훈련 방법

구현 세부사항

  • FHE 방식: RNS-CKKS
  • 보안 수준: 128-bit
  • 차수 탐색 공간: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
  • 이산화 단위: ν = 1/4
  • 라이브러리: Lattigo v3.0.5

실험 결과

주요 결과

모델데이터셋방법정확도(%)τ(d)가속 비율
ResNet-20CIFAR-10Minimax91.552,788-
ResNet-20CIFAR-10OLA90.691,1062.52×
ResNet-32CIFAR-10Minimax92.454,624-
ResNet-32CIFAR-10OLA91.691,9272.40×

FHE 실제 테스트 결과:

  • ResNet-20: 추론 시간 1,231초에서 407초로 감소 (3.02× 가속)
  • ResNet-32: 추론 시간 1,913초에서 679초로 감소 (2.82× 가속)

절제 실험

구성 요소분포 인식동적 계획법ResNet-20 τ(d)ResNet-110 τ(d)
기본1,44021,172
+분포 인식1,14210,725
+동적 계획법1,1069,448

발견 사항:

  • 분포 인식 근사가 가장 큰 성능 향상에 기여
  • 동적 계획법은 깊은 네트워크에서 더욱 효과적 (ResNet-110 11.91% 감소)

ConvNeXt 모델 결과

  • ConvNeXt-T (CIFAR-10): 3차 다항식만으로 91.42% 정확도 달성
  • ConvNeXt-S (ImageNet): 차수 ≤31의 다항식으로 84.64% 정확도 달성

전처리 오버헤드 분석

데이터셋모델입력 분포 분석(초)동적 계획법(초)
CIFAR-10ResNet-208.127.76
CIFAR-10ResNet-11017.97773.07
ImageNetResNet-189,510.946.23

관련 연구

HE 기반 PPML 연구 방향

  1. PTA 방법: Lee et al. 4,5, Kim et al. 6 - 선형 연산 최적화에 집중
  2. AAT 방법: HyPHEN 17, DeepReDuce 43 - 모델 재훈련 필요
  3. 혼합 방법: HE와 MPC를 결합한 방식

비산술 연산 처리

  1. TFHE 방식: 비트 연산 지원, 메모리 오버헤드 큼
  2. CKKS 방식: 패킹 지원, 함수 근사 필요
  3. 다항식 근사: minimax, 최소제곱 등 방법

본 논문의 장점

  • 계층별 최적화의 체계적 프레임워크를 처음으로 제안
  • 이론적 기초가 완전하고 실험 검증이 충분함
  • PTA 시나리오에서 현저한 성능 향상 달성

결론 및 논의

주요 결론

  1. 계층별 근사의 효과성: 서로 다른 계층이 분류 정확도에 미치는 영향이 실제로 다르며, 계층별 최적화가 합리적임
  2. 실용성 향상: 현저한 추론 가속으로 FHE 기반 PI가 실제 응용에 더 가까워짐
  3. 이론적 완전성: 완전한 수학적 이론 프레임워크 및 효율적인 해결 알고리즘 제공

한계

  1. 전처리 오버헤드: 대규모 데이터셋(ImageNet)의 경우 입력 분포 분석에 상당한 시간 소요
  2. 메모리 요구사항: 동적 계획법 알고리즘이 깊은 네트워크에서 메모리 소비 증가
  3. 활성화 함수 제한: 주로 단변수 활성화 함수에 대응하며, softmax 등 다변수 함수에 대한 확장 필요

향후 방향

  1. Transformer 지원: 대규모 언어 모델의 프라이빗 추론으로 확장
  2. 다변수 함수: softmax 등 함수에 대한 근사 방법 개발
  3. 적응형 최적화: 하드웨어 자원에 따라 근사 전략을 동적으로 조정
  4. 연합학습 통합: 다른 프라이버시 보호 기술과 결합

심층 평가

장점

  1. 높은 혁신성: PTA의 계층별 최적화 문제를 체계적으로 해결한 첫 시도
  2. 견고한 이론: 수학적 유도가 엄밀하고 정리 증명이 완전함
  3. 충분한 실험: 다양한 데이터셋과 모델 아키텍처에 대한 포괄적 검증
  4. 높은 실용 가치: 현저한 성능 향상으로 실제 응용 가능성 제시
  5. 명확한 작성: 논문 구조가 합리적이고 기술 세부사항이 정확하게 설명됨

부족한 점

  1. 계산 복잡도: 다항식 시간이지만 초대규모 네트워크에서는 여전히 도전 과제 가능
  2. 매개변수 민감도: 스케일링 매개변수 r의 선택이 경험적 조정 필요
  3. 일반화 능력: 주로 CNN 아키텍처에서 검증되었으며, 다른 아키텍처에 대한 적용 가능성 추가 검증 필요
  4. 보안성 분석: 근사로 인한 추가 보안 위험에 대한 심층 분석 부족

영향력

  1. 학술 기여: FHE 기반 PPML 분야에 새로운 최적화 사고방식 제공
  2. 실용 가치: 프라이버시 보호 AI를 실제 응용으로 한 걸음 더 나아가게 함
  3. 재현성: 상세한 구현 세부사항 및 오픈소스 공개 약속 제공
  4. 영감 제공: 계층별 최적화 사상을 다른 프라이버시 계산 시나리오로 확장 가능

적용 시나리오

  1. 클라우드 AI 서비스: 사용자 데이터 프라이버시를 보호해야 하는 머신러닝 서비스
  2. 의료 AI: 민감한 의료 데이터를 처리하는 진단 시스템
  3. 금융 위험 관리: 프라이버시 보호 신용 평가 및 위험 분석
  4. 연합학습: 안전한 집계의 보완 기술

참고문헌

  1. Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
  2. Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
  3. Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
  4. Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

요약: 본 논문에서 제안한 OLA 방법은 FHE 기반 프라이빗 추론 분야에서 중요한 의미를 가지며, 계층별 최적화를 통해 추론 효율을 크게 향상시켜 프라이버시 보호 AI의 실제 응용을 위한 중요한 기초를 마련했다. 일부 한계가 있지만, 그 혁신성과 실용 가치는 이를 해당 분야의 중요한 기여로 만든다.