2025-11-15T16:58:11.980929

Prompt engineering and its implications on the energy consumption of Large Language Models

Rubei, Moussaid, di Sipio et al.

Reducing the environmental impact of AI-based software systems has become critical. The intensive use of large language models (LLMs) in software engineering poses severe challenges regarding computational resources, data centers, and carbon emissions. In this paper, we investigate how prompt engineering techniques (PETs) can impact the carbon emission of the Llama 3 model for the code generation task. We experimented with the CodeXGLUE benchmark to evaluate both energy consumption and the accuracy of the generated code using an isolated testing environment. Our initial results show that the energy consumption of LLMs can be reduced by using specific tags that distinguish different prompt parts. Even though a more in-depth evaluation is needed to confirm our findings, this work suggests that prompt engineering can reduce LLMs' energy consumption during the inference phase without compromising performance, paving the way for further investigations.

academic

Инженерия подсказок и её влияние на энергопотребление больших языковых моделей

Основная информация

ID статьи: 2501.05899
Название: Prompt engineering and its implications on the energy consumption of Large Language Models
Авторы: Riccardo Rubei, Aicha Moussaid, Claudio Di Sipio, Davide Di Ruscio (Университет L'Aquila)
Классификация: cs.SE (Программная инженерия)
Дата публикации: 10 января 2025 г.
Ссылка на статью: https://arxiv.org/abs/2501.05899

Аннотация

На фоне растущего внимания к экологическому воздействию систем искусственного интеллекта интенсивное использование больших языковых моделей (LLM) в программной инженерии создаёт серьёзные проблемы с вычислительными ресурсами, центрами обработки данных и выбросами углерода. В данной работе исследуется, как методы инженерии подсказок (PETs) влияют на выбросы углерода модели Llama 3 при выполнении задач генерации кода. Исследование использует эталонный набор CodeXGLUE для оценки энергопотребления и точности сгенерированного кода в изолированной тестовой среде. Предварительные результаты показывают, что использование специальных меток для различения различных частей подсказки может снизить энергопотребление LLM. Хотя требуется более глубокая оценка для подтверждения результатов исследования, данная работа демонстрирует, что инженерия подсказок может снизить энергопотребление на этапе вывода LLM без влияния на производительность.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: Как можно использовать методы инженерии подсказок для снижения энергопотребления больших языковых моделей на этапе вывода, сохраняя при этом производительность задач генерации кода?

Анализ значимости

Экологическое воздействие: Процессы обучения и вывода LLM потребляют значительные вычислительные ресурсы, создавая заметный углеродный след. Например, выбросы углерода некоторых моделей эквивалентны пожизненным выбросам пяти автомобилей
Проблемы с ресурсами: LLM требуют высокопроизводительных вычислительных кластеров, процесс обучения может длиться недели или месяцы
Сложность оценки: Измерение энергопотребления в среде HPC особенно сложно из-за параллельных задач и неэксклюзивного использования кластера
Отсутствие стандартов: Даже хорошо поддерживаемые эталонные рейтинги LLM не сообщают об энергопотреблении, сосредоточиваясь только на метриках точности

Ограничения существующих подходов

Существующие исследования в основном сосредоточены на измерении воздействия на уровне оборудования, отсутствует систематическое исследование энергосберегающего эффекта методов инженерии подсказок
Отсутствуют стандартизированные руководства по измерению выбросов углерода и информация о них
Оценка потребления LLM сложна из-за более высокой вариативности сгенерированного кода

Исследовательская мотивация

На основе потребностей развития зелёной программной инженерии (GSE) данная работа сосредоточена на использовании методов инженерии подсказок для смягчения энергопотребления LLM на этапе вывода, предлагая новые решения для устойчивого развития систем искусственного интеллекта.

Основные вклады

Первое систематическое исследование: Изучение влияния различных методов инженерии подсказок и пользовательских меток на энергопотребление LLM при выполнении задач завершения кода
Анализ компромиссов: Исследование взаимосвязи между выбросами углерода, временем выполнения и точностью сгенерированного кода, изучение баланса между энергоэффективностью и точностью модели
Экспериментальные результаты: Доказательство того, что использование пользовательских меток может значительно снизить энергопотребление (на 99% при one-shot, на 83% при few-shots)
Вклад в открытый исходный код: Предоставление полного пакета для воспроизведения, способствующего дальнейшим исследованиям в этой области

Подробное описание методологии

Определение задачи

Задача: Завершение кода (Code Completion)

Входные данные: Неполный фрагмент кода на Java
Выходные данные: Одна строка кода для завершения фрагмента
Ограничения: Минимизация энергопотребления при сохранении точности

Архитектура эксперимента

Исследование разработало полный рабочий процесс эксперимента:

Источник данных: Набор данных CodeXGLUE
Генератор подсказок: Преобразование входных данных в формат, понятный Llama 3
Усилитель подсказок: Усиление подсказок с использованием пользовательских меток
Локально развёрнутая Llama 3: Выполнение задач завершения кода
Мониторинг энергопотребления: Использование инструмента CodeCarbon для мониторинга каждого выполнения
Хранилище результатов: Сохранение задач, ответов и результатов измерений

Проектирование конфигураций подсказок

Исследование определило 5 различных конфигураций подсказок:

C0 - Конфигурация по умолчанию:

Определение роли модели, предоставление неполного фрагмента кода без каких-либо пользовательских настроек
Zero-shot без примеров, one-shot с одним примером, few-shots с пятью примерами

C1 - Пользовательские метки без объяснения:

{
  "role": "user",
  "content": "<code>package com.lmax.disruptor.support;</code><incomplete>public final</incomplete>"
}

C2 - Пользовательские метки с объяснением: Встраивание объяснения значения пользовательских меток в подсказку

C3 - Пользовательские подсказки в роли системы: Размещение объяснения меток в части роли системы

C4 - Без определения системы: Полное отсутствие определения роли системы, включение описания задачи непосредственно в пользовательскую подсказку

Технические инновации

Система пользовательских меток: Введение меток <code> и <incomplete> для явного различения входного кода и части, требующей завершения
Многомерная оценка: Одновременное рассмотрение метрик энергопотребления, времени выполнения и точности
Комбинирование количественных методов: Использование 16-битных чисел с плавающей точкой вместо стандартных 32-битных для снижения вычислительных затрат
Изолированная тестовая среда: Обеспечение точности и воспроизводимости измерений

Экспериментальная установка

Набор данных

Набор данных: Задача завершения кода CodeXGLUE
Масштаб: 1000 случайно выбранных неполных фрагментов кода на Java
Причина выбора: Специально разработан для задач LLM, связанных с кодом, поддерживает прямое сравнение с эталонными значениями

Метрики оценки

Метрики энергоэффективности:

Энергопотребление: Потребление энергии GPU (кВт⋅ч), рассчитанное CodeCarbon
Время выполнения: Продолжительность этапа вывода (секунды), исключая время загрузки модели

Метрики точности:

Расстояние редактирования: Использование расстояния Левенштейна для расчёта сходства с эталонным значением
Точное совпадение: Случаи, когда расстояние редактирования ≤ 2, рассматриваются как точное совпадение (с учётом случайных символов в выходных данных LLM)

Методы сравнения

Базовые методы: Три стандартных метода инженерии подсказок (zero-shot, one-shot, few-shots)
Улучшенные методы: Пять конфигураций пользовательских меток

Детали реализации

Модель: Llama 3 8B-Instruct (квантованная версия)
Оборудование: AMD Ryzen 7 5800X CPU + Nvidia RTX 4060 TI (8 ГБ)
Операционная система: Xubuntu 23.04
Количество повторений: Каждый тест повторялся 5 раз с интервалом 10 секунд между тестами
Общее время выполнения: Более 250 часов

Результаты экспериментов

Основные результаты

RQ1: Влияние пользовательских меток на энергоэффективность

Результаты энергопотребления показывают значительное улучшение:

Zero-shot: Снижение с 0,0000157 кВт⋅ч до 0,0000146 кВт⋅ч в конфигурации C2 (-7%)
One-shot: Снижение с 0,0000347 кВт⋅ч до 0,0000174 кВт⋅ч в конфигурации C2 (-99%)
Few-shots: Снижение с 0,0000537 кВт⋅ч до 0,0000293 кВт⋅ч в конфигурации C2 (-83%)

Улучшение времени выполнения:

One-shot: Снижение с 1,54 секунды до 0,74 секунды (-52%)
Few-shots: Снижение с 2,1 секунды до 1,09 секунды (-48%)
Zero-shot: Снижение с 0,74 секунды до 0,63 секунды в конфигурации C1 (-14,8%)

RQ2: Влияние пользовательских меток на точность

Улучшение точного совпадения:

Zero-shot: Повышение с 63 до 82 в конфигурации C1 (+23%)
One-shot и Few-shots: Улучшение примерно на 44% в конфигурации C3

Снижение расстояния редактирования:

Zero-shot: Улучшение на 24% в конфигурации C2
One-shot: Снижение на 64% в конфигурации C2
Few-shots: Улучшение на 70% в конфигурации C2

Ключевые выводы

Оптимальность конфигурации C2: Конфигурация, включающая объяснение меток в подсказку, показала лучшие результаты в большинстве случаев
Проблемы конфигурации C4: Полное отсутствие определения роли системы привело к неконтролируемому генерированию ответов моделью
Надёжность Few-shots: Техника few-shots была наименее подвержена влиянию при отсутствии явного определения роли
Положительная корреляция энергопотребления и точности: Пользовательские метки одновременно улучшили энергоэффективность и точность

Статистическая значимость

Благодаря пятикратному повторению экспериментов и интервалу в 10 секунд между ними обеспечена статистическая надёжность результатов, снижены погрешности измерений и влияние выбросов.

Связанные работы

Исследования оценки энергопотребления LLM

Методы временного сдвига: Jagannadharao и др. исследовали снижение выбросов углерода путём приостановки и возобновления обучения
Сравнение моделей: Liu и Yin сравнили выбросы углерода моделей BERT, DistilBERT и T5
Влияние оборудования: Samsi и др. сравнили энергопотребление различных размеров моделей Llama и конфигураций GPU
Эффективность генерации кода: Cursaro и др. исследовали энергоэффективность генерирования кода CodeLlama в сравнении с кодом, написанным человеком

Исследования настройки подсказок

Влияние характеристик: Fagadau и др. проанализировали влияние 8 характеристик подсказок на выходные данные Copilot
Оптимизация структуры: Reynolds и McDonell исследовали стратегии подсказок без примеров
Тестирование мутаций: Li и др. использовали тестирование мутаций для исследования модификации подсказок
Мягкие подсказки: Wang и др. предложили методы настройки подсказок с использованием виртуальных токенов

Заключение и обсуждение

Основные выводы

Улучшение энергоэффективности: Пользовательские метки могут значительно снизить энергопотребление LLM при выполнении задач завершения кода
Сохранение производительности: Снижение энергопотребления сопровождается повышением точности модели
Зависимость от конфигурации: Энергопотребление LLM в высокой степени зависит от используемого метода инженерии подсказок
Двойная оптимизация: Инженерия подсказок может одновременно оптимизировать энергоэффективность и производительность

Ограничения

Ограничения набора данных: Тестирование проводилось только на 1000 фрагментах кода, что ограничено временными затратами (примерно 900 секунд на фрагмент)
Единственная задача: Исследование сосредоточено только на задаче завершения кода, другие задачи могут требовать различных энергетических ресурсов
Единственная модель: Тестирование проводилось только на Llama 3, обобщаемость результатов требует проверки
Зависимость от оборудования: Эксперименты проводились на конкретной конфигурации оборудования, различные среды могут дать различные результаты

Направления будущих исследований

Расширение исследования: Распространение исследования на большее количество LLM и задач, связанных с кодом
Продвинутые методы: Исследование влияния RAG или тонкой настройки на выбросы углерода
Оценка нескольких задач: Изучение эффективности пользовательских подсказок в различных задачах программной инженерии
Стандартизация: Установление стандартизированной методологии для измерения энергопотребления LLM

Глубокая оценка

Преимущества

Методологическая инновативность:

Первое систематическое исследование влияния инженерии подсказок на энергопотребление LLM
Разработка многомерной схемы конфигураций пользовательских меток
Установление аналитической базы для компромиссов между энергоэффективностью и точностью

Достаточность экспериментов:

Использование стандартизированного эталонного набора CodeXGLUE
Применение изолированной тестовой среды для обеспечения точности измерений
Многократное повторение экспериментов для повышения надёжности результатов
Предоставление полного пакета для воспроизведения

Убедительность результатов:

Значительное снижение энергопотребления (максимум 99%)
Одновременное повышение точности
Подробный анализ абляционных экспериментов

Недостатки

Методологические ограничения:

Использование квантования может повлиять на универсальность результатов
Проектирование пользовательских меток относительно простое, отсутствуют более сложные семантические структуры
Рассмотрено только энергопотребление GPU, игнорируется вклад CPU и памяти

Дефекты экспериментальной установки:

Ограниченный размер выборки (1000 фрагментов)
Единственный язык программирования (Java)
Фиксированное количество примеров few-shots (5)
Отсутствие сравнения с другими методами энергосбережения

Недостаточность анализа:

Отсутствие анализа различной сложности кода
Недостаточное изучение теоретической основы механизма меток
Недостаточный анализ аномальных результатов (например, конфигурация C4)

Влияние

Академический вклад:

Открытие нового направления исследований в области зелёных вычислений для LLM
Установление связи между инженерией подсказок и оптимизацией энергоэффективности
Предоставление практических методов для устойчивого развития искусственного интеллекта

Практическая ценность:

Прямое применение к существующим системам генерации кода
Низкие затраты на реализацию, простота развёртывания
Значительное снижение энергопотребления при сохранении производительности

Воспроизводимость: Предоставление подробного описания экспериментальной установки и пакета с открытым исходным кодом поддерживает проверку и расширение результатов исследования.

Применимые сценарии

Сервисы генерации кода: Онлайн-платформы для дополнения и генерирования кода
Интеграция в среду разработки: Интеллектуальные помощники кода в IDE
Крупномасштабное развёртывание: Корпоративные системы, требующие обработки большого количества запросов на генерирование кода
Приложения в среде с ограниченными ресурсами: Генерирование кода на периферийных вычислениях или мобильных устройствах
Инициативы в области зелёных вычислений: Разработка систем искусственного интеллекта, учитывающих экологическое воздействие

Список литературы

Данная работа цитирует 42 соответствующих источника, охватывающих важные работы в нескольких областях исследований, включая зелёную программную инженерию, оценку энергопотребления LLM и инженерию подсказок, обеспечивая прочную теоретическую базу и справочные материалы для сравнения.

Общая оценка: Это исследование имеет важную практическую ценность, впервые систематически изучая влияние инженерии подсказок на энергопотребление LLM. Несмотря на некоторые ограничения, результаты исследования обнадёживают и предлагают новые идеи и методы для устойчивого развития искусственного интеллекта. Данная работа может способствовать проведению дополнительных исследований в области зелёного искусственного интеллекта и оптимизации энергопотребления.