Prompt engineering and its implications on the energy consumption of Large Language Models
Rubei, Moussaid, di Sipio et al.
Reducing the environmental impact of AI-based software systems has become critical. The intensive use of large language models (LLMs) in software engineering poses severe challenges regarding computational resources, data centers, and carbon emissions. In this paper, we investigate how prompt engineering techniques (PETs) can impact the carbon emission of the Llama 3 model for the code generation task. We experimented with the CodeXGLUE benchmark to evaluate both energy consumption and the accuracy of the generated code using an isolated testing environment. Our initial results show that the energy consumption of LLMs can be reduced by using specific tags that distinguish different prompt parts. Even though a more in-depth evaluation is needed to confirm our findings, this work suggests that prompt engineering can reduce LLMs' energy consumption during the inference phase without compromising performance, paving the way for further investigations.
academic
Инженерия подсказок и её влияние на энергопотребление больших языковых моделей
На фоне растущего внимания к экологическому воздействию систем искусственного интеллекта интенсивное использование больших языковых моделей (LLM) в программной инженерии создаёт серьёзные проблемы с вычислительными ресурсами, центрами обработки данных и выбросами углерода. В данной работе исследуется, как методы инженерии подсказок (PETs) влияют на выбросы углерода модели Llama 3 при выполнении задач генерации кода. Исследование использует эталонный набор CodeXGLUE для оценки энергопотребления и точности сгенерированного кода в изолированной тестовой среде. Предварительные результаты показывают, что использование специальных меток для различения различных частей подсказки может снизить энергопотребление LLM. Хотя требуется более глубокая оценка для подтверждения результатов исследования, данная работа демонстрирует, что инженерия подсказок может снизить энергопотребление на этапе вывода LLM без влияния на производительность.
Основной вопрос, который решает данное исследование: Как можно использовать методы инженерии подсказок для снижения энергопотребления больших языковых моделей на этапе вывода, сохраняя при этом производительность задач генерации кода?
Экологическое воздействие: Процессы обучения и вывода LLM потребляют значительные вычислительные ресурсы, создавая заметный углеродный след. Например, выбросы углерода некоторых моделей эквивалентны пожизненным выбросам пяти автомобилей
Проблемы с ресурсами: LLM требуют высокопроизводительных вычислительных кластеров, процесс обучения может длиться недели или месяцы
Сложность оценки: Измерение энергопотребления в среде HPC особенно сложно из-за параллельных задач и неэксклюзивного использования кластера
Отсутствие стандартов: Даже хорошо поддерживаемые эталонные рейтинги LLM не сообщают об энергопотреблении, сосредоточиваясь только на метриках точности
Существующие исследования в основном сосредоточены на измерении воздействия на уровне оборудования, отсутствует систематическое исследование энергосберегающего эффекта методов инженерии подсказок
Отсутствуют стандартизированные руководства по измерению выбросов углерода и информация о них
Оценка потребления LLM сложна из-за более высокой вариативности сгенерированного кода
На основе потребностей развития зелёной программной инженерии (GSE) данная работа сосредоточена на использовании методов инженерии подсказок для смягчения энергопотребления LLM на этапе вывода, предлагая новые решения для устойчивого развития систем искусственного интеллекта.
Первое систематическое исследование: Изучение влияния различных методов инженерии подсказок и пользовательских меток на энергопотребление LLM при выполнении задач завершения кода
Анализ компромиссов: Исследование взаимосвязи между выбросами углерода, временем выполнения и точностью сгенерированного кода, изучение баланса между энергоэффективностью и точностью модели
Экспериментальные результаты: Доказательство того, что использование пользовательских меток может значительно снизить энергопотребление (на 99% при one-shot, на 83% при few-shots)
Вклад в открытый исходный код: Предоставление полного пакета для воспроизведения, способствующего дальнейшим исследованиям в этой области
Система пользовательских меток: Введение меток <code> и <incomplete> для явного различения входного кода и части, требующей завершения
Многомерная оценка: Одновременное рассмотрение метрик энергопотребления, времени выполнения и точности
Комбинирование количественных методов: Использование 16-битных чисел с плавающей точкой вместо стандартных 32-битных для снижения вычислительных затрат
Изолированная тестовая среда: Обеспечение точности и воспроизводимости измерений
Энергопотребление: Потребление энергии GPU (кВт⋅ч), рассчитанное CodeCarbon
Время выполнения: Продолжительность этапа вывода (секунды), исключая время загрузки модели
Метрики точности:
Расстояние редактирования: Использование расстояния Левенштейна для расчёта сходства с эталонным значением
Точное совпадение: Случаи, когда расстояние редактирования ≤ 2, рассматриваются как точное совпадение (с учётом случайных символов в выходных данных LLM)
Благодаря пятикратному повторению экспериментов и интервалу в 10 секунд между ними обеспечена статистическая надёжность результатов, снижены погрешности измерений и влияние выбросов.
Ограничения набора данных: Тестирование проводилось только на 1000 фрагментах кода, что ограничено временными затратами (примерно 900 секунд на фрагмент)
Единственная задача: Исследование сосредоточено только на задаче завершения кода, другие задачи могут требовать различных энергетических ресурсов
Единственная модель: Тестирование проводилось только на Llama 3, обобщаемость результатов требует проверки
Зависимость от оборудования: Эксперименты проводились на конкретной конфигурации оборудования, различные среды могут дать различные результаты
Открытие нового направления исследований в области зелёных вычислений для LLM
Установление связи между инженерией подсказок и оптимизацией энергоэффективности
Предоставление практических методов для устойчивого развития искусственного интеллекта
Практическая ценность:
Прямое применение к существующим системам генерации кода
Низкие затраты на реализацию, простота развёртывания
Значительное снижение энергопотребления при сохранении производительности
Воспроизводимость:
Предоставление подробного описания экспериментальной установки и пакета с открытым исходным кодом поддерживает проверку и расширение результатов исследования.
Данная работа цитирует 42 соответствующих источника, охватывающих важные работы в нескольких областях исследований, включая зелёную программную инженерию, оценку энергопотребления LLM и инженерию подсказок, обеспечивая прочную теоретическую базу и справочные материалы для сравнения.
Общая оценка: Это исследование имеет важную практическую ценность, впервые систематически изучая влияние инженерии подсказок на энергопотребление LLM. Несмотря на некоторые ограничения, результаты исследования обнадёживают и предлагают новые идеи и методы для устойчивого развития искусственного интеллекта. Данная работа может способствовать проведению дополнительных исследований в области зелёного искусственного интеллекта и оптимизации энергопотребления.