2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy

A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.

academic

Повышение следования инструкциям в масштабе

Основная информация

ID статьи: 2510.14842
Название: Boosting Instruction Following at Scale
Авторы: Ben Elder, Evelyn Duesterwald, Vinod Muthusamy (IBM T.J. Watson Research)
Классификация: cs.AI
Дата публикации: 16 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14842

Аннотация

Разработчики обычно влияют на поведение больших языковых моделей (LLM) посредством тщательно разработанных подсказок, таких как добавление или изменение инструкций. Однако простое добавление большего количества инструкций не гарантирует их выполнение. В данной статье предлагается метод усиления инструкций (Instruction Boosting) как постгенеративный подход для повышения надежности следования LLM инструкциям из подсказок. Исследование показывает, что усиление инструкций может повысить коэффициент следования инструкциям на до 7 процентных пункта при двух инструкциях и на до 4 процентных пункта при десяти инструкциях. Для проверки этих результатов авторы представили эталонный набор SCALEDIF, содержащий до десяти инструкций для каждого образца данных. Статья также анализирует общую тенденцию снижения производительности с увеличением количества инструкций, показывая, что важным фактором, приводящим к этой тенденции, является степень напряженности и конфликтов, возникающих при увеличении количества инструкций.

Исследовательский контекст и мотивация

Основные проблемы

Ненадежность следования инструкциям: инструкции подсказки, добавленные разработчиками, не гарантируют фактическое выполнение LLM
Проблема масштабирования инструкций: коэффициент следования инструкциям (IF rate) LLM значительно снижается с увеличением количества инструкций
Конфликты инструкций: несколько инструкций могут создавать напряженность или даже прямые противоречия, затрудняя одновременное выполнение всех инструкций

Значимость исследования

LLM стали основным компонентом разработки интеллектуальных приложений, но контроль их поведения затруднен
Инженерия подсказок является основным методом влияния на поведение LLM, но ей не хватает гарантий надежности
Существующие исследования не содержат систематического анализа сценариев с большим количеством инструкций

Ограничения существующих методов

Традиционные методы сосредоточены на следовании одной или нескольким инструкциям
Отсутствуют систематические решения для проблем конфликтов инструкций и масштабируемости
Существующие эталонные наборы (например, IFEval) содержат максимум 3 инструкции и не могут оценить сценарии с большим количеством инструкций

Основные вклады

Предложение метода усиления инструкций: постгенеративный метод тестирования, который повышает коэффициент следования инструкциям путем исправления и совершенствования исходного ответа
Создание набора данных SCALEDIF: расширение набора данных IFEval с включением до 10 инструкций для каждого образца в крупномасштабном эталонном наборе следования инструкциям
Инструмент количественной оценки конфликтов: разработка количественного механизма оценки конфликтов инструкций, объясняющего тенденции производительности и предоставляющего обратную связь разработчикам
Концепция мягких конфликтов: формализация концепции "мягких конфликтов" между инструкциями и анализ их влияния на производительность

Подробное описание метода

Определение задачи

Учитывая запрос Q, набор инструкций I={I₁, I₂, ..., Iₙ} и исходный ответ R от LLM, цель усиления инструкций состоит в генерировании исправленного ответа R', который следует большему количеству инструкций.

Архитектура усиления инструкций

Общий процесс

Исходная генерация: LLM генерирует исходный ответ на основе запроса и инструкций
Обнаружение инструкций: использование детектора IF для определения невыполненных инструкций
Алгоритм усиления: применение конкретных стратегий для исправления ответа
Финальный вывод: получение финального ответа, следующего большему количеству инструкций

Четыре стратегии усиления

1. Detect+Repair

Этап обнаружения: использование LLM-as-a-judge детектора для выявления нарушений инструкций
Этап исправления: переписывание ответа для устранения всех обнаруженных нарушений инструкций

2. Best-of-N

Выборка N переписанных ответов (N=5)
Использование judge детектора в качестве модели вознаграждения для оценки
Выбор ответа с наивысшим коэффициентом IF в качестве финального вывода

3. Best-of-N Oracle

Аналогично Best-of-N, но использование детерминированного верификатора IFEval в качестве модели вознаграждения oracle
Используется для оценки потенциального верхнего предела способности модели к переписыванию

4. Map Reduce

Этап Map: создание независимых задач переписывания для каждой нарушенной инструкции
Этап Reduce: объединение независимо сгенерированных переписанных ответов в финальный ответ

Технические инновации

Постгенеративная оптимизация: основана на наблюдении, что "исправление неоптимальных ответов легче, чем прямая генерация идеальных ответов"
Многостратегийный дизайн: предоставление выбора стратегий с различными компромиссами между стоимостью и производительностью
Количественная оценка мягких конфликтов: эмпирическое выявление мягких конфликтов между инструкциями посредством метода самоигры

Экспериментальная установка

Построение набора данных SCALEDIF

Базовые данные

На основе 538 образцов из набора данных IFEval (из 541 исходного)
Каждый образец содержит запрос и 10 уникальных инструкций
26 категорий инструкций, независимых от запроса, разделенных на 8 групп

Категории инструкций

change_case: преобразование регистра
combination: комбинированные ограничения
detectable_content: обнаруживаемое содержание
detectable_format: обнаруживаемый формат
keywords: ограничения по ключевым словам
length_constraints: ограничения по длине
punctuation: пунктуация
startend: ограничения начала и конца

Алгоритм выборки ограничений

Использование Algorithm 1 для обеспечения избежания жестких конфликтов при выборке параметров инструкций:

Попарное выполнение ограничений: вычисление ограничений между новой и существующими инструкциями
Проверка параметров: обеспечение соответствия параметров новой инструкции всем существующим ограничениям
Избежание конфликтов: например, ключевые слова в keywords:existence и keywords:forbidden_words должны быть непересекающимися

Метрики оценки

Коэффициент следования инструкциям (IF Rate): доля инструкций, выполняемых моделью, от общего количества инструкций
Приверженность задаче: релевантен ли ответ исходному запросу
Оценка конфликта: количественная оценка степени мягких конфликтов в наборе инструкций

Экспериментальные модели

Llama-3.3-70B-Instruct
Llama-3.1-8B-Instruct
Qwen2.5-72B-Instruct
Mixtral-8x7B-Instruct-v0.1
Mixtral-8x22B-Instruct-v0.1

Результаты экспериментов

Основные результаты

Базовая производительность

2 инструкции: коэффициент IF от 0,56 (Mixtral-8x7B) до 0,88 (Llama-70B)
10 инструкций: коэффициент IF снижается до 0,39 (Mixtral-8x7B) до 0,66 (Llama-70B)
Все модели демонстрируют тенденцию снижения коэффициента IF с увеличением количества инструкций

Эффект усиления

Стратегия Best-of-N показывает лучшие результаты:
- 2 инструкции: максимальное улучшение на 7 процентных пункта (Mixtral-8x22B)
- 10 инструкций: максимальное улучшение на 4 процентных пункта (Llama-70B)
Best-of-N Oracle демонстрирует потенциальный верхний предел:
- 2 инструкции: может достичь 89% коэффициента IF (+2 процентных пункта)
- 10 инструкций: может достичь 75% коэффициента IF (+8,5 процентных пункта)

Анализ затрат и выгод

Detect+Repair: наименьшие затраты, но ограниченный эффект
Best-of-N: хороший баланс между затратами и производительностью
Map Reduce: наибольшие затраты, ограниченное улучшение производительности
Best-of-N Gen: затраты немного ниже, чем Best-of-N, но эффект хуже, чем переписывание с выборкой

Результаты анализа конфликтов

Оценка мягких конфликтов

Использование формулы для расчета оценки конфликта образца s:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

где cij — количество конфликтов между инструкциями i и j.

Ключевые выводы

Оценка конфликта положительно коррелирует с количеством инструкций:
- 2 инструкции: средняя оценка конфликта 0,24
- 10 инструкций: средняя оценка конфликта 2,03
Оценка конфликта отрицательно коррелирует с коэффициентом IF:
- Коэффициент корреляции -0,37 при 10 инструкциях
- Корреляция ослабевает с увеличением количества инструкций
"Сложные" образцы имеют более высокие оценки конфликта: образцы с низким коэффициентом IF действительно имеют более высокие оценки конфликта

Приверженность задаче

Коэффициент отказа исходного ответа: максимум 4% (22/538 при 8 инструкциях)
Дополнительные отказы после усиления: максимум 1,3% (7 дополнительных отказов при 10 инструкциях)

Связанные работы

Оценка следования инструкциям

IFEval: сосредоточена на детерминированной проверке проверяемых инструкций (1-3 инструкции)
ComplexBench & FollowBench: оценка способности обработки сложных инструкций
InFoBench: введение метрики DRFR для детального анализа
RefuteBench: сосредоточена на следовании инструкциям возражения в диалогах

Методы вмешательства во время тестирования

Самокоррекция: подсказка модели оценить и улучшить собственный вывод
Цепочка мыслей: разложение сложных проблем на управляемые шаги
Самосогласованность: выбор наиболее согласованного результата путем выборки нескольких ответов

Заключение и обсуждение

Основные выводы

Эффективность усиления инструкций: последовательное улучшение коэффициента следования инструкциям на различных моделях
Мягкие конфликты — ключевой фактор: конфликты между инструкциями являются важной причиной сложности следования инструкциям в масштабе
Переписывание превосходит переген: исправление существующих ответов более эффективно, чем генерирование с нуля
Оценка конфликта имеет предсказательную ценность: может служить инструментом обратной связи для разработчиков

Ограничения

Ограничение попарных конфликтов: текущая оценка конфликта рассматривает только попарные конфликты инструкций, не охватывая сложные взаимодействия нескольких инструкций
Точность детектора: точность детектора LLM-as-a-judge составляет всего 73%, что ограничивает эффект усиления
Вычислительные затраты: стратегии усиления требуют дополнительных затрат на вывод
Риск отклонения от задачи: процесс усиления может привести к отклонению ответа от исходного запроса

Направления будущих исследований

Моделирование конфликтов высшего порядка: расширение на анализ сложных конфликтов трех или более инструкций
Более точные детекторы: разработка более точных методов обнаружения следования инструкциям
Адаптивное усиление: динамический выбор стратегии усиления на основе оценки конфликта
Оптимизация во время обучения: интеграция способности следования инструкциям в обучение модели

Глубокая оценка

Преимущества

Четкое определение проблемы: точное выявление основных проблем следования инструкциям в масштабе
Методологические инновации: предложение систематической постгенеративной структуры усиления
Строгий дизайн экспериментов: построение высококачественного крупномасштабного эталонного набора данных следования инструкциям
Теоретический вклад: концепция мягких конфликтов и методы количественной оценки имеют теоретическую ценность
Высокая практичность: предоставление нескольких стратегий с различными компромиссами между стоимостью и выгодой

Недостатки

Упрощенное моделирование конфликтов: рассмотрение только попарных конфликтов может упустить сложные взаимодействия нескольких инструкций
Зависимость от детектора: эффективность метода ограничена точностью детектора LLM
Ограниченный диапазон оценки: проверка в основном на открытых моделях, отсутствие оценки закрытых моделей
Неизвестное долгосрочное влияние: отсутствие анализа долгосрочного влияния повторного усиления на поведение модели

Влияние

Академический вклад: предоставление нового эталонного набора оценки и методологической структуры для исследования следования инструкциям
Практическая ценность: предоставление практических инструментов для повышения надежности инструкций разработчикам приложений LLM
Воспроизводимость: подробное описание методов и шаблоны подсказок поддерживают воспроизведение результатов
Потенциал расширения: методологическая структура может быть расширена на другие задачи генерации языка

Применимые сценарии

Задачи генерации с несколькими ограничениями: сценарии, требующие одновременного выполнения нескольких ограничений формата, содержания и стиля
Приложения с высокой надежностью: бизнес-приложения с высокими требованиями к точности следования инструкциям
Оптимизация инженерии подсказок: помощь разработчикам в выявлении и разрешении конфликтов инструкций
Оценка модели: предоставление стандартизированного инструмента оценки для оценки способности LLM следовать инструкциям

Список литературы

Статья цитирует важные работы в смежных областях оценки следования инструкциям, самокоррекции и рассуждений цепочки мыслей, обеспечивая прочную теоретическую основу для исследования. Ключевые ссылки включают эталонный набор IFEval, методы самокоррекции и последние работы по оценке следования инструкциям.