2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.

Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.

academic

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

基本信息

论文ID: 2310.10349
标题: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
作者: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
分类: cs.CR (Cryptography and Security), cs.AI (Artificial Intelligence)
发表时间: 2023年10月 (arXiv v4: 2025年10月14日)
论文链接: https://arxiv.org/abs/2310.10349

摘要

本文提出了一种优化的分层近似（OLA）方法，用于在全同态加密（FHE）上实现高效的隐私推理。该方法通过为每一层使用不同的近似多项式来优化准确性损失和时间消耗，在后训练近似（PTA）场景下显著提高了推理效率。OLA方法将ResNet-20和ResNet-32模型的推理时间分别减少了3.02倍和2.82倍，并成功用仅3度多项式替换ConvNeXt模型中的GELU函数。

研究背景与动机

问题定义

在隐私保护机器学习（PPML）中，全同态加密（FHE）允许在加密数据上直接进行计算，但FHE方案仅支持基本的算术运算（加法和乘法），无法直接处理非算术激活函数（如ReLU、GELU、sigmoid等）。

问题重要性

隐私需求增长：随着云计算的发展，MLaaS（机器学习即服务）需要在保护数据隐私的同时提供服务
实用性要求：现有方法推理时间过长，难以满足实际应用需求
模型兼容性：需要在不重新训练模型的情况下实现隐私推理

现有方法局限性

AAT方法：需要重新训练模型，且在大规模数据集上效果不佳
PTA方法：所有层使用统一的高度多项式近似，导致推理时间过长
计算效率：现有方法未考虑各层对分类准确性的不同影响

研究动机

针对PTA方法的主要瓶颈——推理时间过长，提出一种系统性的分层优化框架，通过为不同层使用不同度数的近似多项式来平衡准确性和效率。

核心贡献

提出OLA框架：首次提出针对PTA场景的分层优化近似方法，为每层使用不同度数的多项式
分布感知近似：基于加权最小二乘法，考虑各层激活函数的实际输入分布
动态规划算法：提供多项式时间复杂度的优化算法求解最优度数分配
显著性能提升：在ResNet和ConvNeXt模型上实现2.82-3.02倍的推理加速
理论分析：提供完整的数学理论基础和收敛性证明

方法详解

任务定义

输入：预训练的深度神经网络模型，包含非算术激活函数输出：每层的最优多项式度数分配约束：推理时间预算K，准确性损失阈值目标：最小化平均损失方差，满足时间约束

模型架构

1. 分布感知近似（Theorem 1）

对于激活函数f(x)和输入分布φ(x)，最优d度近似多项式为：

P_φ[d; f](x) = Σ(l=0 to d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

其中{h_l(x)}是通过Gram-Schmidt过程得到的正交多项式基。

2. 平均损失方差建模

将近似误差视为随机变量，损失函数的方差为：

Var[ΔL] = Σ(i=1 to N_L) A_i E_φi[d_i; f]

其中：

A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²：第i层对准确性的影响权重
E_φid_i; f：第i层的最小化MSE

3. 优化问题formulation

minimize: V(d) = Σ(i=1 to N_L) A_i E_i(d_i)
subject to: T(d) = Σ(i=1 to N_L) T_i(d_i) ≤ K

4. 动态规划求解（Algorithm 1）

时间复杂度：O(N_L × N_K × |S|)
空间复杂度：O(N_L × N_K)
递推关系：P(l+1,k)基于{P(l,k')}的最优解构建

技术创新点

分层差异化处理：首次系统性地为不同层分配不同的多项式度数
输入分布建模：使用实际的层间数据分布而非理论分布
缩放分布感知近似：通过参数r调整分布方差，提高低概率区域的近似精度
模量链管理：针对不同度数优化FHE参数，减少bootstrapping开销

实验设置

数据集

CIFAR-10/100：小规模图像分类数据集
ImageNet：大规模图像分类数据集
预处理：标准化和数据增强

评价指标

推理时间：FHE环境下的实际执行时间
Top-1准确率：分类准确性
τ(d)：离散化时间延迟指标
加速比：相对于baseline的时间减少倍数

对比方法

Minimax近似：Lee et al. 4的复合minimax多项式方法
统一度数方法：所有层使用相同度数多项式
AAT方法：HyPHEN、DeepReDuce等重训练方法

实现细节

FHE方案：RNS-CKKS
安全级别：128-bit
度数搜索空间：S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
离散化单位：ν = 1/4
库：Lattigo v3.0.5

实验结果

主要结果

模型	数据集	方法	准确率(%)	τ(d)	加速比
ResNet-20	CIFAR-10	Minimax	91.55	2,788	-
ResNet-20	CIFAR-10	OLA	90.69	1,106	2.52×
ResNet-32	CIFAR-10	Minimax	92.45	4,624	-
ResNet-32	CIFAR-10	OLA	91.69	1,927	2.40×

FHE实际测试结果：

ResNet-20：推理时间从1,231s减少到407s（3.02×加速）
ResNet-32：推理时间从1,913s减少到679s（2.82×加速）

消融实验

组件	分布感知	动态规划	ResNet-20 τ(d)	ResNet-110 τ(d)
基础	✗	✗	1,440	21,172
+分布感知	✓	✗	1,142	10,725
+动态规划	✓	✓	1,106	9,448

发现：

分布感知近似贡献最大的性能提升
动态规划在深层网络中效果更显著（ResNet-110减少11.91%）

ConvNeXt模型结果

ConvNeXt-T (CIFAR-10)：仅使用3度多项式实现91.42%准确率
ConvNeXt-S (ImageNet)：使用度数≤31的多项式实现84.64%准确率

预处理开销分析

数据集	模型	输入分布分析(s)	动态规划(s)
CIFAR-10	ResNet-20	8.12	7.76
CIFAR-10	ResNet-110	17.97	773.07
ImageNet	ResNet-18	9,510.94	6.23

结论与讨论

主要结论

分层近似有效性：不同层对分类准确性的影响确实不同，分层优化是合理的
实用性提升：显著的推理加速使FHE-based PI更接近实际应用
理论完备性：提供了完整的数学理论框架和高效求解算法

局限性

预处理开销：对于大规模数据集（ImageNet），输入分布分析需要较长时间
内存需求：动态规划算法在深层网络中内存消耗较大
激活函数限制：主要针对单变量激活函数，对softmax等多变量函数需要扩展

未来方向

Transformer支持：扩展到大语言模型的隐私推理
多变量函数：开发针对softmax等函数的近似方法
自适应优化：根据硬件资源动态调整近似策略
联邦学习集成：与其他隐私保护技术结合

深度评价

优点

创新性强：首次系统性地解决了PTA中的分层优化问题
理论扎实：数学推导严谨，定理证明完整
实验充分：多个数据集、多种模型架构的全面验证
实用价值高：显著的性能提升使方法具有实际应用潜力
写作清晰：论文结构合理，技术细节描述准确

不足

计算复杂度：虽然是多项式时间，但在超大规模网络中仍可能面临挑战
参数敏感性：缩放参数r的选择需要经验调试
泛化能力：主要在CNN架构上验证，对其他架构的适用性需要进一步验证
安全性分析：缺乏对近似引入的额外安全风险的深入分析

影响力

学术贡献：为FHE-based PPML领域提供了新的优化思路
实用价值：推动隐私保护AI向实际应用迈进重要一步
可复现性：提供了详细的实现细节和开源承诺
启发意义：分层优化的思想可扩展到其他隐私计算场景

适用场景

云端AI服务：需要保护用户数据隐私的机器学习服务
医疗AI：处理敏感医疗数据的诊断系统
金融风控：隐私保护的信用评估和风险分析
联邦学习：作为安全聚合的补充技术

参考文献

Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

总结：本文提出的OLA方法在FHE-based隐私推理领域具有重要意义，通过分层优化显著提升了推理效率，为隐私保护AI的实际应用奠定了重要基础。尽管存在一些局限性，但其创新性和实用价值使其成为该领域的重要贡献。