2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy

A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.

academic

Amélioration du Suivi des Instructions à Grande Échelle

Informations Fondamentales

ID de l'article: 2510.14842
Titre: Boosting Instruction Following at Scale
Auteurs: Ben Elder, Evelyn Duesterwald, Vinod Muthusamy (IBM T.J. Watson Research)
Classification: cs.AI
Date de publication: 16 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.14842

Résumé

Les développeurs influencent généralement le comportement des grands modèles de langage (LLM) par une conception minutieuse des invites, notamment en ajoutant ou en modifiant des instructions. Cependant, l'ajout de plus d'instructions ne garantit pas qu'elles seront suivies. Cet article propose l'amélioration des instructions (Instruction Boosting) comme méthode post-génération pour améliorer la fiabilité des instructions d'invite des LLM. Les résultats montrent que l'amélioration des instructions peut augmenter le taux de suivi des instructions jusqu'à 7 points de pourcentage avec deux instructions et jusqu'à 4 points de pourcentage avec dix instructions. Pour valider ces résultats, les auteurs introduisent l'ensemble de référence SCALEDIF, contenant jusqu'à dix instructions par échantillon de données. L'article analyse également la tendance commune de dégradation des performances avec l'augmentation du nombre d'instructions, montrant que les facteurs importants causant cette tendance sont le degré de tension et de conflit produits par l'augmentation du nombre d'instructions.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Fiabilité insuffisante du suivi des instructions: Les instructions d'invite ajoutées par les développeurs ne peuvent pas garantir qu'elles seront réellement suivies par le LLM
Problème d'extension des instructions: Avec l'augmentation du nombre d'instructions, le taux de suivi des instructions (IF rate) du LLM diminue considérablement
Conflits entre instructions: Plusieurs instructions peuvent créer une tension ou même des contradictions directes, rendant difficile la satisfaction simultanée de toutes les instructions

Importance de la Recherche

Les LLM sont devenus des composants fondamentaux du développement d'applications intelligentes, mais leur contrôle comportemental est difficile
L'ingénierie des invites est la méthode principale pour influencer le comportement des LLM, mais elle manque de garanties de fiabilité
Les recherches existantes manquent d'une analyse systématique des scénarios à grande échelle d'instructions

Limitations des Méthodes Existantes

Les méthodes traditionnelles se concentrent principalement sur le suivi d'une seule instruction ou d'un petit nombre d'instructions
Absence de solutions systématiques pour les problèmes de conflit d'instructions et d'extensibilité
Les ensembles de référence existants (comme IFEval) contiennent au maximum 3 instructions, ce qui ne permet pas d'évaluer les scénarios à grande échelle

Contributions Principales

Proposition de la méthode d'amélioration des instructions: Une méthode post-génération au moment du test qui améliore le taux de suivi des instructions en corrigeant et en affinant la réponse initiale
Construction de l'ensemble de données SCALEDIF: Extension de l'ensemble de données IFEval, contenant un ensemble de référence de suivi des instructions à grande échelle avec jusqu'à 10 instructions par échantillon
Outil de notation quantitative des conflits: Développement d'un mécanisme de notation quantitative des conflits d'instructions, expliquant les tendances de performance et fournissant des retours aux développeurs
Concept de conflit léger: Formalisation du concept de « conflit léger » entre instructions, analysant son impact sur les performances

Détails de la Méthode

Définition de la Tâche

Étant donné une requête Q, un ensemble d'instructions I={I₁, I₂, ..., Iₙ} et une réponse initiale R du LLM, l'objectif de l'amélioration des instructions est de générer une réponse corrigée R' qui suit davantage d'instructions.

Architecture d'Amélioration des Instructions

Flux Global

Génération initiale: Le LLM génère une réponse initiale basée sur la requête et les instructions
Détection des instructions: Un détecteur IF est utilisé pour identifier les instructions non suivies
Algorithme d'amélioration: Application de stratégies spécifiques pour corriger la réponse
Sortie finale: Production d'une réponse finale suivant davantage d'instructions

Quatre Stratégies d'Amélioration

1. Detect+Repair

Phase de détection: Utilisation d'un détecteur LLM-as-a-judge pour identifier les violations d'instructions
Phase de réparation: Réécriture de la réponse pour corriger toutes les violations d'instructions détectées

2. Best-of-N

Échantillonnage de N réponses réécrites (N=5)
Utilisation du détecteur judge comme modèle de récompense
Sélection de la réponse avec le taux IF le plus élevé comme sortie finale

3. Best-of-N Oracle

Similaire à Best-of-N, mais utilisant un vérificateur IFEval déterministe comme modèle de récompense oracle
Utilisé pour évaluer la limite supérieure potentielle des capacités de réécriture du modèle

4. Map Reduce

Phase Map: Création de tâches de réécriture indépendantes pour chaque instruction violée
Phase Reduce: Fusion des réponses réécrites générées indépendamment en une réponse finale

Points d'Innovation Technique

Optimisation post-génération: Basée sur l'observation que « corriger une réponse sous-optimale est plus facile que de générer directement une réponse parfaite »
Conception multi-stratégies: Offre des choix de stratégies avec différents compromis coût-performance
Quantification des conflits légers: Identification empirique des conflits entre instructions par une méthode d'auto-jeu

Configuration Expérimentale

Construction de l'Ensemble de Données SCALEDIF

Données de Base

Basé sur 538 échantillons de l'ensemble de données IFEval (538 sur 541 originaux)
Chaque échantillon contient une requête et 10 instructions uniques
26 catégories d'instructions indépendantes des requêtes, divisées en 8 groupes de catégories

Catégories d'Instructions

change_case: Transformation de la casse
combination: Contraintes de combinaison
detectable_content: Contenu détectable
detectable_format: Format détectable
keywords: Contraintes de mots-clés
length_constraints: Contraintes de longueur
punctuation: Ponctuation
startend: Contraintes de début et fin

Algorithme d'Échantillonnage des Contraintes

Utilisation de l'Algorithme 1 pour assurer que l'échantillonnage des paramètres d'instructions évite les conflits durs:

Exécution par paires de contraintes: Calcul des contraintes avec les instructions existantes lors de l'ajout d'une nouvelle instruction
Validation des paramètres: Assurance que les paramètres de la nouvelle instruction satisfont toutes les contraintes existantes
Évitement des conflits: Par exemple, les mots-clés pour keywords:existence et keywords:forbidden_words doivent être disjoints

Métriques d'Évaluation

Taux de suivi des instructions (IF Rate): Proportion du nombre d'instructions suivies par le modèle par rapport au nombre total d'instructions
Adhérence à la tâche: Si la réponse est pertinente par rapport à la requête originale
Score de conflit: Quantification du degré de conflit léger entre les ensembles d'instructions

Modèles Expérimentaux

Llama-3.3-70B-Instruct
Llama-3.1-8B-Instruct
Qwen2.5-72B-Instruct
Mixtral-8x7B-Instruct-v0.1
Mixtral-8x22B-Instruct-v0.1

Résultats Expérimentaux

Résultats Principaux

Performance de Base

2 instructions: Taux IF de 0,56 (Mixtral-8x7B) à 0,88 (Llama-70B)
10 instructions: Taux IF réduit à 0,39 (Mixtral-8x7B) à 0,66 (Llama-70B)
Tous les modèles montrent une tendance de diminution du taux IF avec l'augmentation du nombre d'instructions

Effets d'Amélioration

La stratégie Best-of-N offre les meilleures performances:
- 2 instructions: Amélioration maximale de 7 points de pourcentage (Mixtral-8x22B)
- 10 instructions: Amélioration maximale de 4 points de pourcentage (Llama-70B)
Best-of-N Oracle montre la limite potentielle:
- 2 instructions: Peut atteindre 89% de taux IF (+2 points de pourcentage)
- 10 instructions: Peut atteindre 75% de taux IF (+8,5 points de pourcentage)

Analyse Coût-Bénéfice

Detect+Repair: Coût le plus faible, mais effet limité
Best-of-N: Bon équilibre entre coût et performance
Map Reduce: Coût le plus élevé, amélioration de performance limitée
Best-of-N Gen: Coût légèrement inférieur à Best-of-N, mais moins efficace que l'échantillonnage de réécriture

Résultats de l'Analyse des Conflits

Score de Conflit Léger

Utilisation de la formule pour calculer le score de conflit de l'échantillon s:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

où cij est le nombre de conflits entre les instructions i et j.

Découvertes Clés

Le score de conflit est positivement corrélé au nombre d'instructions:
- 2 instructions: Score de conflit moyen 0,24
- 10 instructions: Score de conflit moyen 2,03
Le score de conflit est négativement corrélé au taux IF:
- Coefficient de corrélation de -0,37 avec 10 instructions
- La corrélation s'affaiblit avec l'augmentation du nombre d'instructions
Les échantillons « difficiles » ont des scores de conflit plus élevés: Les échantillons avec un taux IF plus faible ont effectivement des scores de conflit plus élevés

Adhérence à la Tâche

Taux d'échec de la réponse initiale: Maximum 4% (22/538 avec 8 instructions)
Échecs supplémentaires après amélioration: Maximum 1,3% (7 échecs supplémentaires avec 10 instructions)

Travaux Connexes

Évaluation du Suivi des Instructions

IFEval: Concentration sur les vérifications déterministes des instructions vérifiables (1-3 instructions)
ComplexBench & FollowBench: Évaluation des capacités de traitement des instructions complexes
InFoBench: Introduction de la métrique DRFR pour une analyse à grain fin
RefuteBench: Concentration sur le suivi des instructions de réfutation dans les conversations

Méthodes d'Intervention au Moment du Test

Auto-correction: Incitation du modèle à évaluer et améliorer sa propre sortie
Chaîne de pensée: Décomposition des problèmes complexes en étapes gérables
Auto-cohérence: Sélection du résultat le plus cohérent par échantillonnage de plusieurs réponses

Conclusions et Discussion

Conclusions Principales

Efficacité de l'amélioration des instructions: Amélioration cohérente du taux de suivi des instructions sur divers modèles
Les conflits légers sont un facteur clé: Les conflits entre instructions sont une raison importante de la difficulté du suivi des instructions à grande échelle
La réécriture surpasse la régénération: La correction des réponses existantes est plus efficace que la génération à partir de zéro
La valeur prédictive du score de conflit: Peut servir d'outil de retour aux développeurs

Limitations

Limitation des conflits par paires: Le score de conflit actuel ne considère que les conflits d'instructions par paires, ne couvrant pas les interactions complexes multi-instructions
Précision du détecteur: La précision du détecteur LLM-as-a-judge n'est que de 73%, limitant l'effet d'amélioration
Coût de calcul: Les stratégies d'amélioration nécessitent un coût d'inférence supplémentaire
Risque de déviation de tâche: Le processus d'amélioration peut entraîner une déviation de la réponse par rapport à la requête originale

Directions Futures

Modélisation des conflits multi-ordres: Extension à l'analyse de conflits complexes de trois instructions ou plus
Détecteurs plus précis: Développement de méthodes de détection du suivi des instructions plus précises
Amélioration adaptative: Sélection dynamique des stratégies d'amélioration en fonction du score de conflit
Optimisation au moment de l'entraînement: Intégration de la capacité de suivi des instructions dans l'entraînement du modèle

Évaluation Approfondie

Avantages

Définition claire du problème: Identification précise des défis fondamentaux du suivi des instructions à grande échelle
Innovation méthodologique: Proposition d'un cadre d'amélioration post-génération systématique
Conception expérimentale rigoureuse: Construction d'un ensemble de données de référence de suivi des instructions de haute qualité à grande échelle
Contribution théorique: Le concept de conflit léger et la méthode de quantification ont une valeur théorique
Forte praticité: Offre plusieurs choix de stratégies avec différents compromis coût-bénéfice

Insuffisances

Simplification de la modélisation des conflits: Considération uniquement des conflits par paires, pouvant omettre les interactions complexes multi-instructions
Dépendance au détecteur: L'efficacité de la méthode est limitée par la précision du détecteur LLM
Portée d'évaluation limitée: Validation principalement sur des modèles open-source, manque d'évaluation sur des modèles propriétaires
Impact à long terme inconnu: Absence d'analyse de l'impact à long terme de l'amélioration répétée sur le comportement du modèle

Impact

Contribution académique: Fourniture d'un nouvel ensemble de référence d'évaluation et d'un cadre méthodologique pour la recherche sur le suivi des instructions
Valeur pratique: Fourniture d'outils pratiques aux développeurs d'applications LLM pour améliorer la fiabilité des instructions
Reproductibilité: Description détaillée de la méthode et modèles d'invites soutenant la reproduction des résultats
Potentiel d'extension: Le cadre méthodologique peut être étendu à d'autres tâches de génération de langage

Scénarios d'Application

Tâches de génération multi-contraintes: Scénarios nécessitant de satisfaire simultanément plusieurs contraintes de format, contenu et style
Applications à haute fiabilité: Applications commerciales avec des exigences élevées de précision du suivi des instructions
Optimisation de l'ingénierie des invites: Aide aux développeurs pour identifier et résoudre les problèmes de conflit d'instructions
Évaluation du modèle: Fourniture d'outils d'évaluation standardisés pour les capacités de suivi des instructions des LLM

Références Bibliographiques

L'article cite des travaux importants dans les domaines connexes de l'évaluation du suivi des instructions, de l'auto-correction et du raisonnement par chaîne de pensée, fournissant une base théorique solide pour la recherche. Les références clés incluent l'ensemble de référence IFEval, les méthodes d'auto-correction et les travaux récents d'évaluation du suivi des instructions.