A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
Разработчики обычно влияют на поведение больших языковых моделей (LLM) посредством тщательно разработанных подсказок, таких как добавление или изменение инструкций. Однако простое добавление большего количества инструкций не гарантирует их выполнение. В данной статье предлагается метод усиления инструкций (Instruction Boosting) как постгенеративный подход для повышения надежности следования LLM инструкциям из подсказок. Исследование показывает, что усиление инструкций может повысить коэффициент следования инструкциям на до 7 процентных пункта при двух инструкциях и на до 4 процентных пункта при десяти инструкциях. Для проверки этих результатов авторы представили эталонный набор SCALEDIF, содержащий до десяти инструкций для каждого образца данных. Статья также анализирует общую тенденцию снижения производительности с увеличением количества инструкций, показывая, что важным фактором, приводящим к этой тенденции, является степень напряженности и конфликтов, возникающих при увеличении количества инструкций.
Ненадежность следования инструкциям: инструкции подсказки, добавленные разработчиками, не гарантируют фактическое выполнение LLM
Проблема масштабирования инструкций: коэффициент следования инструкциям (IF rate) LLM значительно снижается с увеличением количества инструкций
Конфликты инструкций: несколько инструкций могут создавать напряженность или даже прямые противоречия, затрудняя одновременное выполнение всех инструкций
Предложение метода усиления инструкций: постгенеративный метод тестирования, который повышает коэффициент следования инструкциям путем исправления и совершенствования исходного ответа
Создание набора данных SCALEDIF: расширение набора данных IFEval с включением до 10 инструкций для каждого образца в крупномасштабном эталонном наборе следования инструкциям
Инструмент количественной оценки конфликтов: разработка количественного механизма оценки конфликтов инструкций, объясняющего тенденции производительности и предоставляющего обратную связь разработчикам
Концепция мягких конфликтов: формализация концепции "мягких конфликтов" между инструкциями и анализ их влияния на производительность
Учитывая запрос Q, набор инструкций I={I₁, I₂, ..., Iₙ} и исходный ответ R от LLM, цель усиления инструкций состоит в генерировании исправленного ответа R', который следует большему количеству инструкций.
Ограничение попарных конфликтов: текущая оценка конфликта рассматривает только попарные конфликты инструкций, не охватывая сложные взаимодействия нескольких инструкций
Точность детектора: точность детектора LLM-as-a-judge составляет всего 73%, что ограничивает эффект усиления
Вычислительные затраты: стратегии усиления требуют дополнительных затрат на вывод
Риск отклонения от задачи: процесс усиления может привести к отклонению ответа от исходного запроса
Статья цитирует важные работы в смежных областях оценки следования инструкциям, самокоррекции и рассуждений цепочки мыслей, обеспечивая прочную теоретическую основу для исследования. Ключевые ссылки включают эталонный набор IFEval, методы самокоррекции и последние работы по оценке следования инструкциям.