2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, SÃ¡nchez

The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.

academic

Аппаратная оптимизация на Android для вывода моделей ИИ

Основная информация

ID статьи: 2511.13453
Название: Hardware optimization on Android for inference of AI models
Авторы: Iulius Gherasim, Carlos García Sánchez (Complutense University of Madrid)
Классификация: cs.LG (Machine Learning), cs.PF (Performance)
Дата публикации: 17 ноября 2025 г. (отправка на arXiv)
Ссылка на статью: https://arxiv.org/abs/2511.13453

Аннотация

В данной работе исследуется проблема аппаратной оптимизации вывода моделей ИИ на системах Android. Учитывая повсеместную интеграцию моделей ИИ в мобильные вычисления (от виртуальных помощников до продвинутой обработки изображений), исследователи сосредоточились на двух ключевых задачах: обнаружении объектов (семейство YOLO) и классификации изображений (ResNet). Путём оценки различных схем квантования моделей и использования ускорителей устройства (GPU и NPU), основная цель работы состоит в эмпирическом определении оптимальной комбинации конфигураций, обеспечивающей лучший компромисс между минимальной потерей точности и максимальным ускорением вывода.

Исследовательский контекст и мотивация

1. Решаемая проблема

С широким распространением моделей ИИ на мобильных устройствах ключевым вызовом становится достижение низкой задержки и высокой отзывчивости вывода при сохранении точности модели. Конкретно это включает:

Как полностью использовать гетерогенную архитектуру аппаратного обеспечения мобильных устройств (CPU, GPU, NPU)
Как выбрать подходящую схему квантования модели для балансировки точности и скорости
Как оптимизировать конфигурацию выполнения для различных задач ИИ (классификация vs обнаружение)

2. Значимость проблемы

Энергопотребление: Google оценивает, что в 2019-2021 гг. задачи, связанные с ИИ, составляли 10-15% от общего энергопотребления, при этом этап вывода потреблял 60% энергии; Meta сообщает, что вывод составляет 70% энергопотребления ИИ
Тенденция роста: ежегодный рост энергопотребления Google составляет 21%, а Meta достигает 32%
Пользовательский опыт: производительность мобильного ИИ стала ключевым дифференциатором, требующим соответствия строгим требованиям к реальному времени и точности

3. Ограничения существующих подходов

Ранние решения в основном полагались на разгрузку вычислений на GPU, но недостаточно использовали специализированные ускорители NPU
Отсутствуют систематические исследования оптимизации для гетерогенной архитектуры мобильных устройств
Выбор схем квантования не имеет эмпирических рекомендаций для различных задач и аппаратного обеспечения

4. Исследовательская мотивация

Применение принципов тестирования MLPerf для систематической оценки производительности на коммерческих устройствах Android
Выбор промышленных стандартных моделей (ResNet для классификации, YOLO для обнаружения) в качестве репрезентативной оценки
Заполнение пробела в эмпирических исследованиях оптимизации вывода ИИ на мобильных устройствах

Основные вклады

Систематическая оценка аппаратного обеспечения: первая систематическая оценка производительности трёх вычислительных блоков (CPU, GPU, NPU) на коммерческом устройстве Android (Samsung Galaxy Tab S9) для задач вывода ИИ
Анализ схем квантования: всесторонний анализ семи схем квантования (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) на различном аппаратном обеспечении с точки зрения компромисса точность-скорость
Рекомендации по оптимизации для конкретных задач:
- Для задачи классификации ResNet: NPU + квантование INT8 обеспечивает ускорение в 130 раз с потерей точности <3%
- Для задачи обнаружения YOLO: NPU + квантование FP16 является оптимальным, избегая потери точности в 6,5 mAP при INT8
Анализ фронта Парето: предоставление многокритериальной оптимизации, определяющей оптимальные точки компромисса для различных конфигураций в пространстве точность-задержка
Практические выводы:
- NPU показывает лучшую производительность во всех конфигурациях, достигая максимального ускорения в 298 раз (YOLOv8x)
- Динамическое квантование на NPU не работает, выявляя проблемы совместимости аппаратного обеспечения
- Масштабируемость многопоточности CPU ограничена (максимум 3,4×), что объясняется асимметричной архитектурой ядер

Подробное описание методологии

Определение задач

Данное исследование сосредоточено на двух основных задачах компьютерного зрения:

Классификация изображений: входные данные - одно изображение, выходные данные - метка класса и уверенность (используется семейство ResNet)
Обнаружение объектов: входные данные - одно изображение, выходные данные - несколько ограничивающих рамок, классы и уверенность (используется семейство YOLO)

Цель состоит в поиске оптимальной комбинации конфигурации аппаратного обеспечения и схемы квантования на мобильном устройстве Android.

Экспериментальная архитектура

Аппаратная платформа

Устройство: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): 8-ядерная конфигурация big.LITTLE

3 малых ядра: ARM Cortex-A510 @ 2,0 ГГц
4 средних ядра: 2×Cortex-A710 + 2×Cortex-A715 @ 2,8 ГГц
1 большое ядро: Cortex-X3 @ 3,36 ГГц

GPU: Qualcomm Adreno 740

12 блоков обработки шейдеров @ 719 МГц
Поддержка выполнения с точностью FP32 и FP16

NPU (Hexagon Processor):

Специализированные блоки тензорных, скалярных и векторных операций
Архитектура с общей внутренней памятью
Поддержка технологии Micro Tile Inferencing (разбиение слоёв модели и параллельное выполнение)

Программная среда

Фреймворк: LiteRT (переименование TensorFlow Lite)

CPU/GPU: LiteRT Next 2.0.2
NPU: LiteRT 1.4.0 (из-за проблем с конвейером NPU в версии 2.0.2)

Процесс преобразования модели:

Модель PyTorch → Формат ONNX → Формат TFLite

Использование встроенного инструмента экспорта PyTorch для создания ONNX
Использование пакета onnx2tf Katsuyи Hyodo для преобразования в TFLite
Квантование выполняется на этапе преобразования onnx2tf

Подробное описание схем квантования

В данном исследовании оценивались семь конфигураций квантования (см. таблицу II):

Название схемы	Тип данных I/O	Точность операций	Активации	Веса
FP32	FP32	FP32	FP32	FP32
FP16	FP32	FP32	FP32	FP16
INT8	FP32	INT8	INT8	INT8
INT16	FP32	INT8	INT16	INT16
FINT8	INT8	INT8	INT8	INT8
FINT16	INT16	INT8	INT16	INT16
DYN	FP32	Смешанная	FP32	Смешанная

Ключевые технические моменты:

Статическое квантование: веса преобразуются в целевой тип данных (например, INT8) в автономном режиме и хранятся в фиксированном виде
Динамическое квантование (DYN): веса хранятся как 8-битные, но значения активации квантуются во время выполнения, что вводит накладные расходы во время выполнения, но лучше сохраняет точность
Ограничение INT16: LiteRT не имеет оптимизированной реализации ядер INT16, что приводит к крайне плохой производительности

Технические инновации

Гибридный подход к фреймворкам: учитывая ограничения совместимости программного обеспечения, применяется гибридная схема LiteRT Next (CPU/GPU) и стандартного LiteRT (NPU), обеспечивающая полную оценку
Систематическое исследование пространства конфигураций:
- 3 типа аппаратного обеспечения × 7 схем квантования × несколько размеров моделей
- Охватывает 5 вариантов ResNet (18/34/50/101/152)
- Охватывает 5 вариантов YOLOv8 (n/s/m/l/x)
- Охватывает 5 вариантов YOLO11 (n/s/m/l/x)
Перспектива многокритериальной оптимизации: не стремление к единственному оптимуму, а предоставление фронта Парето компромисса точность-задержка, поддерживающего многокритериальное принятие решений
Количественная оценка потерь при преобразовании фреймворка: явное измерение потери точности, вводимой преобразованием PyTorch в LiteRT (ResNet: 0,83-1,77%; YOLO11: 0,2-0,4 mAP)

Экспериментальная установка

Наборы данных

Классификация ResNet: использование стандартного набора проверки ImageNet
Обнаружение YOLO: использование набора проверки COCO

Метрики оценки

Задержка вывода: среднее время вывода (миллисекунды)
Коэффициент ускорения: ускорение скорости относительно базовой линии FP32 CPU с одним потоком
Точность классификации: точность Top-1 (ResNet)
Точность обнаружения: средняя точность (mAP) @ IoU=0,5:0,95 (YOLO)
Потеря точности: снижение точности в процентах относительно базовой линии FP32

Сравниваемые конфигурации

Устройства выполнения:

CPU-SC: CPU с одним потоком
CPU-MC: CPU с несколькими потоками (8 ядер)
GPU32: GPU режим FP32
GPU16: GPU режим FP16
NPU: нейронный процессор

Схемы квантования: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

Детали реализации

Разработка пользовательского приложения Android для выполнения моделей и записи результатов
Выполнение нескольких выводов для каждой конфигурации с усреднением значений
Использование pycocotools для расчёта mAP
Использование стандартного метода расчёта top-1 для оценки точности классификации

Экспериментальные результаты

Основные результаты

Производительность ResNet

Время вывода ResNet18 (миллисекунды):

Конфигурация	CPU-SC	CPU-MC	GPU32	GPU16	NPU
FP32	79,06	26,34	13,68	5,54	1,20
INT8	23,26	5,63	21,77	22,68	0,61

Ключевые выводы:

NPU обеспечивает ускорение 65,9× на FP32 и достигает 129,6× на INT8
Квантование INT16 показывает крайне плохую производительность (>800 мс), исключено из дальнейшего анализа
Квантование FINT8 приводит к катастрофическому снижению точности до 0,08% Top-1, также исключено

Анализ производительности ResNet50:

NPU + INT8: 121,5×ускорение, потеря точности всего 0,41%
Режим GPU16 обеспечивает примерно 2×ускорение по сравнению с GPU32
Многопоточность CPU достигает максимального ускорения 3,4× (INT8), что значительно ниже теоретических 8×

Влияние квантования (таблица X):

Модель	Потеря точности INT8	Потеря точности DYN
ResNet18	2,94%	0,10%
ResNet50	0,41%	0,19%
ResNet152	0,20%	0,07%

Тенденция: более крупные модели более устойчивы к квантованию INT8, потеря точности снижается с 2,94% до 0,20%

Производительность YOLO

Сравнение времени вывода YOLOv8n:

NPU демонстрирует лучшую производительность
FP32: 29×ускорение
INT8: 46,8×ускорение
Задержка выше, чем ResNet (более высокая сложность задачи)

Потеря точности YOLO (таблица XII):

Модель	Потеря INT8 (mAP)	Потеря DYN (mAP)
YOLOv8n	6,5	0,1
YOLOv8s	6,2	0,0
YOLOv8x	6,1	0,1

Ключевые выводы:

INT8 оказывает значительное негативное влияние на задачи обнаружения (средняя потеря 6,5 mAP)
Динамическое квантование практически не вносит потерь (≤0,1 mAP)
Задачи обнаружения требуют больше информации (локализация + классификация), более чувствительны к квантованию

YOLO11 vs YOLOv8:

YOLO11 имеет более высокую точность на малых моделях
Выполнение на NPU немного медленнее (более сложная архитектура)
Динамическое квантование полностью не работает на NPU
Потеря INT8 немного увеличивается до среднего значения 7,2 mAP

Абляционные исследования

Масштабируемость многопоточности CPU (таблица XV)

Модель	FP32	FP16	INT8	DYN
ResNet18	3,0×	3,0×	14,0×	10,6×
ResNet50	2,0×	2,0×	9,5×	7,2×
YOLOv8x	2,7×	2,1×	13,4×	10,1×

Анализ:

INT8 обеспечивает лучшее многопоточное ускорение
Масштабируемость с плавающей точкой плохая (2-3×)
Асимметричная архитектура ядер ограничивает эффективность параллелизма

Влияние режима точности GPU (таблица VIII)

GPU32 vs GPU16 на ResNet50:

Схемы квантования оказывают минимальное влияние на скорость GPU
Режим GPU16 обеспечивает стабильное 2×ускорение
Преимущество более крупных моделей на GPU16 более выраженное

Анализ отказа динамического квантования NPU

Модели с динамическим квантованием содержат слои смешанной точности
NPU не имеет встроенной поддержки преобразования типов данных во время выполнения
Требуется частая передача данных между NPU и CPU
Приводит к серьёзной деградации производительности (ResNet50: только 2,3×ускорение vs 121,5× для INT8)

Анализ фронта Парето

Фронт Парето ResNet (рисунок 6):

Конфигурации INT8 доминируют на фронте: значительное снижение задержки, приемлемая потеря точности
Оптимальная конфигурация: NPU + INT8, применима ко всем размерам ResNet
FP16 на GPU обеспечивает точку баланса точность-скорость

Фронт Парето YOLO (рисунок 7):

Конфигурации FP16 доминируют на фронте: потеря точности INT8 слишком велика
Оптимальная конфигурация: NPU + FP16
YOLO11s выделяется на малых моделях
Различия между YOLOv8 и YOLO11 сокращаются на крупных моделях (l/x)

Итоговые экспериментальные выводы

Абсолютное преимущество NPU: NPU обеспечивает лучшую производительность во всех сценариях, максимальное ускорение 298× (YOLOv8x + INT8)
Стратегии квантования, специфичные для задач:
- Задачи классификации (ResNet): INT8 оптимален
- Задачи обнаружения (YOLO): FP16 оптимален
Характеристики аппаратного обеспечения:
- GPU: квантование оказывает минимальное влияние, режим FP16 критичен
- CPU: масштабируемость многопоточности ограничена, INT8 обеспечивает лучший параллелизм
- NPU: не поддерживает динамическое квантование, требует статической оптимизации
Эффект размера модели:
- Крупные модели более устойчивы к квантованию
- GPU обеспечивает более высокий коэффициент ускорения на крупных моделях (YOLOv8x: 39×)
Потери при преобразовании фреймворка: заметное снижение точности (1-2%), требующее учёта при оптимизации

Связанные работы

Основные направления исследований

Тестирование MLPerf: данная работа применяет принципы MLPerf для оценки систем вывода ML, от встроенных устройств до центров обработки данных, обеспечивая оценку, независимую от программного фреймворка и архитектуры
Эволюция мобильных фреймворков ИИ:
- PyTorch, ONNX, TensorFlow: универсальные фреймворки разработки ИИ
- TensorFlow Lite → LiteRT: облегчённая среда выполнения для мобильных устройств
- LiteRT Next: встроенная поддержка разгрузки на ускорители
Парадигмы гетерогенных вычислений:
- Модель Edge-to-Cloud: локальная обработка на границе оптимизирует задержку, сложные задачи разгружаются в облако
- DSA (Domain-Specific Architecture): NPU как специализированный ускоритель тензорных операций
Технологии квантования:
- Квантование после обучения (применяется в данной работе)
- Квантование с учётом обучения
- Стратегии смешанной точности

Относительные преимущества данной работы

Систематическая оценка: первая всесторонняя оценка трёх типов аппаратного обеспечения (CPU/GPU/NPU) на коммерческом устройстве Android
Эмпирические рекомендации: предоставление конкретных рекомендаций по конфигурации для различных задач, а не теоретический анализ
Перспектива Парето: метод многокритериальной оптимизации, раскрывающий пространство компромисса точность-скорость
Выявление проблем: идентификация проблем совместимости динамического квантования с NPU, ограничений масштабируемости CPU и других практических проблем развёртывания
Промышленная релевантность: использование стандартных моделей MLPerf, результаты напрямую применимы к производственной среде

Заключение и обсуждение

Основные выводы

NPU - оптимальное устройство выполнения: обеспечивает ускорение до 120× по сравнению с базовой линией CPU с одним ядром, подтверждая его критическую роль в низколатентном граничном ИИ
Оптимальное квантование - это проблема компромисса:
- ResNet: INT8 оптимален, выигрыш в скорости на NPU превосходит потерю точности
- YOLO: FP16 оптимален, потеря точности INT8 (6,5 mAP) неприемлема
- GPU: квантование оказывает минимальное влияние на скорость, FP16 балансирует точность и скорость
Производительность моделей и масштабируемость:
- YOLO11s выделяется на фронте Парето, обеспечивая лучший компромисс скорость/точность при квантовании FP16
- YOLO11 имеет более высокую точность на малых моделях, но немного повышенную сложность
Выявленные системные ограничения:
- Динамическое квантование не работает на NPU (отсутствие встроенной поддержки)
- Масштабируемость многопоточности CPU плохая (максимум 3,4×), объясняется асимметричной архитектурой ядер
- Преобразование фреймворка вводит примерно 1% потери точности

Ограничения

Единая аппаратная платформа: тестирование только на Snapdragon 8 Gen 2, обобщаемость выводов на другие SoC не проверена
Ограниченный диапазон задач: охватывает только компьютерное зрение (классификация и обнаружение), не включает NLP, речь и другие задачи ИИ
Отсутствие анализа энергопотребления: не измеряется мощность, анализ Парето не включает измерение энергоэффективности
Зависимость от версии программного обеспечения: NPU требует использования старой версии LiteRT 1.4.0, что может влиять на производительность
Статическая рабочая нагрузка: не учитываются динамическая пакетная обработка, переключение моделей и другие сценарии реальных приложений
Неполная оценка INT16: ранее исключено из-за отсутствия оптимизированных ядер в LiteRT, глубокий анализ не проведён

Направления будущих исследований

Интеграция энергопотребления: завершение трёхмерного анализа Парето, включающего мощность (точность-задержка-энергоэффективность)
Оптимизация программного обеспечения:
- Смягчение проблем совместимости динамического квантования NPU
- Устранение потерь точности при преобразовании фреймворка
Расширение диапазона задач: исследование других задач из тестирования MLPerf (NLP, сегментация изображений)
Обобщение на аппаратное обеспечение: проверка выводов на различных мобильных SoC
Квантование с учётом обучения: исследование квантования на этапе обучения для снижения потерь точности INT8
Приложения реального времени: оценка потоков видео, параллельного выполнения нескольких моделей и других практических сценариев

Глубокая оценка

Преимущества

Строгий дизайн экспериментов:
- Систематическое исследование пространства конфигураций (3 типа аппаратного обеспечения × 7 схем квантования × 15 вариантов моделей)
- Чёткие базовые линии и измеряемые параметры
- Многократные измерения с усреднением для обеспечения надёжности
Высокая практическая ценность:
- Ориентация на коммерческие устройства и промышленные стандартные модели
- Предоставление действенных рекомендаций по конфигурации
- Выявление практических проблем развёртывания (например, отказ динамического квантования)
Глубокий анализ:
- Фронт Парето обеспечивает поддержку многокритериального принятия решений
- Количественная оценка потерь при преобразовании фреймворка
- Раскрытие характеристик аппаратного обеспечения (например, влияние асимметричной архитектуры CPU)
Детальные результаты:
- Большой объём количественных данных (множество таблиц)
- Чёткая визуализация (графики Парето, графики сравнения скорости)
- Анализ тенденций для различных размеров моделей
Прозрачность методологии:
- Подробное описание спецификаций аппаратного обеспечения
- Указание версий программного обеспечения и процесса преобразования
- Признание ограничений (например, проблемы совместимости программного обеспечения)

Недостатки

Ограниченная обобщаемость:
- Единая аппаратная платформа (Snapdragon 8 Gen 2)
- Применимость выводов к другим мобильным чипам (например, Apple A-series, Huawei Kirin) неизвестна
Отсутствие анализа энергопотребления:
- Название подчёркивает "оптимизацию", но мощность не измеряется
- Для мобильных устройств энергоэффективность столь же важна, как скорость
- Анализ Парето неполный
Статистическая значимость:
- Не сообщаются доверительные интервалы или стандартные отклонения
- Отсутствуют тесты значимости
- Размер выборки для многократных запусков не уточнён
Недостаточное сравнение:
- Отсутствует сравнение с другими методами квантования (например, квантование с учётом обучения)
- Отсутствует сравнение с другими мобильными фреймворками ИИ (например, NCNN, MNN)
- Отсутствует сравнение задержки с облачным выводом
Упрощение практических сценариев:
- Вывод одного изображения, не учитывается пакетная обработка
- Не тестируются прогрев модели, эффекты кэширования
- Игнорируется влияние других процессов системы Android
Слабое теоретическое объяснение:
- Отсутствует объяснение на уровне архитектуры, почему NPU превосходит INT8
- Недостаточный анализ глубинных причин плохой масштабируемости многопоточности CPU
- Отсутствует модель предсказания задержки

Влияние

Вклад в область:

Заполнение пробела в эмпирических исследованиях оптимизации вывода ИИ на мобильных устройствах
Предоставление руководства по выбору конфигурации для разработчиков мобильных приложений
Раскрытие характеристик реальной производительности коммерческого аппаратного обеспечения

Практическая ценность:

Прямое применение к разработке приложений Android
Помощь в принятии решений о стратегии развёртывания моделей
Выявление направлений улучшения фреймворков, таких как LiteRT

Воспроизводимость:

Использование коммерческих устройств и открытых моделей
Подробное описание процесса преобразования
Но отсутствует упоминание об открытии исходного кода

Ожидаемое влияние:

Среднее влияние: эмпирическое исследование для конкретной платформы
Ценность для сообщества мобильного ИИ
Возможное стимулирование улучшений в фреймворках, таких как LiteRT

Применимые сценарии

Наиболее подходит для:

Разработка приложений Android: разработчики, которым требуется развёртывание ResNet или YOLO на устройствах
Выбор модели: поддержка принятия решений при компромиссе между точностью и задержкой
Оценка аппаратного обеспечения: оценка производительности ИИ Snapdragon 8 Gen 2
Выбор стратегии квантования: выбор схемы квантования на основе типа задачи

Не подходит для:

Другие мобильные платформы: iOS, другие Android SoC требуют переоценки
Не визуальные задачи: NLP, речь требуют дополнительных исследований
Облачное развёртывание: характеристики аппаратного обеспечения полностью отличаются
Видео в реальном времени: не учитывается обработка непрерывных кадров

Направления расширения:

Объединение выводов данной работы с оптимизацией энергопотребления
Использование в качестве входных данных для поиска AutoML с учётом аппаратного обеспечения
Руководство для проектирования граничных чипов ИИ

Библиография

Ключевые ссылки:

Тестирование MLPerf: Reddi et al. (2020) - "MLPerf inference benchmark", определяет принципы оценки, применённые в данной работе
Исследования энергопотребления:
- Отчёт об окружающей среде Google (2023): ИИ составляет 10-15% энергопотребления
- Отчёт об устойчивости Meta (2023): вывод составляет 70% энергопотребления ИИ
ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", чемпион ILSVRC 2015
YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

Общая оценка: это солидная эмпирическая исследовательская работа, предоставляющая ценные рекомендации по конфигурации для оптимизации вывода мобильного ИИ. Основные преимущества заключаются в систематическом дизайне экспериментов и детальных количественных результатах, чётко раскрывающих преимущества NPU и стратегии квантования, специфичные для задач. Основные недостатки - ограниченная обобщаемость на единую аппаратную платформу и отсутствие анализа энергопотребления. Работа имеет высокую справочную ценность для разработчиков приложений Android и исследователей граничного ИИ, однако выводы требуют проверки на более широком диапазоне аппаратного обеспечения и задач. Рекомендуется дополнить измерениями энергопотребления, расширить на другие платформы и задачи, а также открыть исходный код экспериментов для повышения воспроизводимости.