本文研究了AI模型在Android系统上的硬件优化推理问题。针对移动计算中AI模型的普遍集成(从虚拟助手到高级图像处理),研究者聚焦于两个关键任务:目标检测(YOLO系列)和图像分类(ResNet)。通过评估不同的模型量化方案以及设备加速器(GPU和NPU)的利用,本文的核心目标是实证确定在最小精度损失和最大推理加速之间实现最佳权衡的配置组合。
随着AI模型在移动设备上的广泛应用,如何在保证模型精度的前提下实现低延迟、高响应性的推理成为关键挑战。具体包括:
本研究聚焦两个核心计算机视觉任务:
目标是在Android移动设备上找到最优的硬件配置和量化方案组合。
设备: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)
CPU (Kryo): 8核big.LITTLE配置
GPU: Qualcomm Adreno 740
NPU (Hexagon Processor):
框架: LiteRT (TensorFlow Lite的品牌重塑)
模型转换流程:
PyTorch模型 → ONNX格式 → TFLite格式
本研究评估了7种量化配置(见表II):
| 方案名称 | I/O数据类型 | 操作精度 | 激活值 | 权重 |
|---|---|---|---|---|
| FP32 | FP32 | FP32 | FP32 | FP32 |
| FP16 | FP32 | FP32 | FP32 | FP16 |
| INT8 | FP32 | INT8 | INT8 | INT8 |
| INT16 | FP32 | INT8 | INT16 | INT16 |
| FINT8 | INT8 | INT8 | INT8 | INT8 |
| FINT16 | INT16 | INT8 | INT16 | INT16 |
| DYN | FP32 | Mixed | FP32 | Mixed |
关键技术点:
执行设备:
量化方案: FP32、FP16、INT8、INT16、FINT8、FINT16、DYN
ResNet18推理时间(毫秒):
| 配置 | CPU-SC | CPU-MC | GPU32 | GPU16 | NPU |
|---|---|---|---|---|---|
| FP32 | 79.06 | 26.34 | 13.68 | 5.54 | 1.20 |
| INT8 | 23.26 | 5.63 | 21.77 | 22.68 | 0.61 |
关键发现:
ResNet50性能分析:
量化影响(表X):
| 模型 | INT8精度损失 | DYN精度损失 |
|---|---|---|
| ResNet18 | 2.94% | 0.10% |
| ResNet50 | 0.41% | 0.19% |
| ResNet152 | 0.20% | 0.07% |
趋势: 更大模型对INT8量化更鲁棒,精度损失从2.94%降至0.20%
YOLOv8n推理时间对比:
YOLOv8精度损失(表XII):
| 模型 | INT8损失(mAP) | DYN损失(mAP) |
|---|---|---|
| YOLOv8n | 6.5 | 0.1 |
| YOLOv8s | 6.2 | 0.0 |
| YOLOv8x | 6.1 | 0.1 |
关键洞察:
YOLO11 vs YOLOv8:
| 模型 | FP32 | FP16 | INT8 | DYN |
|---|---|---|---|---|
| ResNet18 | 3.0× | 3.0× | 14.0× | 10.6× |
| ResNet50 | 2.0× | 2.0× | 9.5× | 7.2× |
| YOLOv8x | 2.7× | 2.1× | 13.4× | 10.1× |
分析:
ResNet50上GPU32 vs GPU16:
ResNet Pareto前沿(图6):
YOLO Pareto前沿(图7):
对领域的贡献:
实用价值:
可复现性:
预期影响:
最适合:
不适合:
扩展方向:
关键引用:
总体评价: 这是一篇扎实的实证研究论文,为移动AI推理优化提供了有价值的配置指南。其主要优势在于系统性的实验设计和详实的定量结果,明确揭示了NPU的优势和任务特定的量化策略。主要不足是泛化性受限于单一硬件平台,且缺失能耗分析。对于Android移动开发者和边缘AI研究者具有较高参考价值,但结论需在更广泛的硬件和任务上验证。建议后续工作补充能耗测量、扩展到其他平台和任务,并开源实验代码以提高可复现性。