2025-11-13T03:04:10.509981

Boosting Instruction Following at Scale

Elder, Duesterwald, Muthusamy
A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
academic

Amélioration du Suivi des Instructions à Grande Échelle

Informations Fondamentales

  • ID de l'article: 2510.14842
  • Titre: Boosting Instruction Following at Scale
  • Auteurs: Ben Elder, Evelyn Duesterwald, Vinod Muthusamy (IBM T.J. Watson Research)
  • Classification: cs.AI
  • Date de publication: 16 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.14842

Résumé

Les développeurs influencent généralement le comportement des grands modèles de langage (LLM) par une conception minutieuse des invites, notamment en ajoutant ou en modifiant des instructions. Cependant, l'ajout de plus d'instructions ne garantit pas qu'elles seront suivies. Cet article propose l'amélioration des instructions (Instruction Boosting) comme méthode post-génération pour améliorer la fiabilité des instructions d'invite des LLM. Les résultats montrent que l'amélioration des instructions peut augmenter le taux de suivi des instructions jusqu'à 7 points de pourcentage avec deux instructions et jusqu'à 4 points de pourcentage avec dix instructions. Pour valider ces résultats, les auteurs introduisent l'ensemble de référence SCALEDIF, contenant jusqu'à dix instructions par échantillon de données. L'article analyse également la tendance commune de dégradation des performances avec l'augmentation du nombre d'instructions, montrant que les facteurs importants causant cette tendance sont le degré de tension et de conflit produits par l'augmentation du nombre d'instructions.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Fiabilité insuffisante du suivi des instructions: Les instructions d'invite ajoutées par les développeurs ne peuvent pas garantir qu'elles seront réellement suivies par le LLM
  2. Problème d'extension des instructions: Avec l'augmentation du nombre d'instructions, le taux de suivi des instructions (IF rate) du LLM diminue considérablement
  3. Conflits entre instructions: Plusieurs instructions peuvent créer une tension ou même des contradictions directes, rendant difficile la satisfaction simultanée de toutes les instructions

Importance de la Recherche

  • Les LLM sont devenus des composants fondamentaux du développement d'applications intelligentes, mais leur contrôle comportemental est difficile
  • L'ingénierie des invites est la méthode principale pour influencer le comportement des LLM, mais elle manque de garanties de fiabilité
  • Les recherches existantes manquent d'une analyse systématique des scénarios à grande échelle d'instructions

Limitations des Méthodes Existantes

  • Les méthodes traditionnelles se concentrent principalement sur le suivi d'une seule instruction ou d'un petit nombre d'instructions
  • Absence de solutions systématiques pour les problèmes de conflit d'instructions et d'extensibilité
  • Les ensembles de référence existants (comme IFEval) contiennent au maximum 3 instructions, ce qui ne permet pas d'évaluer les scénarios à grande échelle

Contributions Principales

  1. Proposition de la méthode d'amélioration des instructions: Une méthode post-génération au moment du test qui améliore le taux de suivi des instructions en corrigeant et en affinant la réponse initiale
  2. Construction de l'ensemble de données SCALEDIF: Extension de l'ensemble de données IFEval, contenant un ensemble de référence de suivi des instructions à grande échelle avec jusqu'à 10 instructions par échantillon
  3. Outil de notation quantitative des conflits: Développement d'un mécanisme de notation quantitative des conflits d'instructions, expliquant les tendances de performance et fournissant des retours aux développeurs
  4. Concept de conflit léger: Formalisation du concept de « conflit léger » entre instructions, analysant son impact sur les performances

Détails de la Méthode

Définition de la Tâche

Étant donné une requête Q, un ensemble d'instructions I={I₁, I₂, ..., Iₙ} et une réponse initiale R du LLM, l'objectif de l'amélioration des instructions est de générer une réponse corrigée R' qui suit davantage d'instructions.

Architecture d'Amélioration des Instructions

Flux Global

  1. Génération initiale: Le LLM génère une réponse initiale basée sur la requête et les instructions
  2. Détection des instructions: Un détecteur IF est utilisé pour identifier les instructions non suivies
  3. Algorithme d'amélioration: Application de stratégies spécifiques pour corriger la réponse
  4. Sortie finale: Production d'une réponse finale suivant davantage d'instructions

Quatre Stratégies d'Amélioration

1. Detect+Repair

  • Phase de détection: Utilisation d'un détecteur LLM-as-a-judge pour identifier les violations d'instructions
  • Phase de réparation: Réécriture de la réponse pour corriger toutes les violations d'instructions détectées

2. Best-of-N

  • Échantillonnage de N réponses réécrites (N=5)
  • Utilisation du détecteur judge comme modèle de récompense
  • Sélection de la réponse avec le taux IF le plus élevé comme sortie finale

3. Best-of-N Oracle

  • Similaire à Best-of-N, mais utilisant un vérificateur IFEval déterministe comme modèle de récompense oracle
  • Utilisé pour évaluer la limite supérieure potentielle des capacités de réécriture du modèle

4. Map Reduce

  • Phase Map: Création de tâches de réécriture indépendantes pour chaque instruction violée
  • Phase Reduce: Fusion des réponses réécrites générées indépendamment en une réponse finale

Points d'Innovation Technique

  1. Optimisation post-génération: Basée sur l'observation que « corriger une réponse sous-optimale est plus facile que de générer directement une réponse parfaite »
  2. Conception multi-stratégies: Offre des choix de stratégies avec différents compromis coût-performance
  3. Quantification des conflits légers: Identification empirique des conflits entre instructions par une méthode d'auto-jeu

Configuration Expérimentale

Construction de l'Ensemble de Données SCALEDIF

Données de Base

  • Basé sur 538 échantillons de l'ensemble de données IFEval (538 sur 541 originaux)
  • Chaque échantillon contient une requête et 10 instructions uniques
  • 26 catégories d'instructions indépendantes des requêtes, divisées en 8 groupes de catégories

Catégories d'Instructions

  1. change_case: Transformation de la casse
  2. combination: Contraintes de combinaison
  3. detectable_content: Contenu détectable
  4. detectable_format: Format détectable
  5. keywords: Contraintes de mots-clés
  6. length_constraints: Contraintes de longueur
  7. punctuation: Ponctuation
  8. startend: Contraintes de début et fin

Algorithme d'Échantillonnage des Contraintes

Utilisation de l'Algorithme 1 pour assurer que l'échantillonnage des paramètres d'instructions évite les conflits durs:

  • Exécution par paires de contraintes: Calcul des contraintes avec les instructions existantes lors de l'ajout d'une nouvelle instruction
  • Validation des paramètres: Assurance que les paramètres de la nouvelle instruction satisfont toutes les contraintes existantes
  • Évitement des conflits: Par exemple, les mots-clés pour keywords:existence et keywords:forbidden_words doivent être disjoints

Métriques d'Évaluation

  • Taux de suivi des instructions (IF Rate): Proportion du nombre d'instructions suivies par le modèle par rapport au nombre total d'instructions
  • Adhérence à la tâche: Si la réponse est pertinente par rapport à la requête originale
  • Score de conflit: Quantification du degré de conflit léger entre les ensembles d'instructions

Modèles Expérimentaux

  • Llama-3.3-70B-Instruct
  • Llama-3.1-8B-Instruct
  • Qwen2.5-72B-Instruct
  • Mixtral-8x7B-Instruct-v0.1
  • Mixtral-8x22B-Instruct-v0.1

Résultats Expérimentaux

Résultats Principaux

Performance de Base

  • 2 instructions: Taux IF de 0,56 (Mixtral-8x7B) à 0,88 (Llama-70B)
  • 10 instructions: Taux IF réduit à 0,39 (Mixtral-8x7B) à 0,66 (Llama-70B)
  • Tous les modèles montrent une tendance de diminution du taux IF avec l'augmentation du nombre d'instructions

Effets d'Amélioration

  • La stratégie Best-of-N offre les meilleures performances:
    • 2 instructions: Amélioration maximale de 7 points de pourcentage (Mixtral-8x22B)
    • 10 instructions: Amélioration maximale de 4 points de pourcentage (Llama-70B)
  • Best-of-N Oracle montre la limite potentielle:
    • 2 instructions: Peut atteindre 89% de taux IF (+2 points de pourcentage)
    • 10 instructions: Peut atteindre 75% de taux IF (+8,5 points de pourcentage)

Analyse Coût-Bénéfice

  • Detect+Repair: Coût le plus faible, mais effet limité
  • Best-of-N: Bon équilibre entre coût et performance
  • Map Reduce: Coût le plus élevé, amélioration de performance limitée
  • Best-of-N Gen: Coût légèrement inférieur à Best-of-N, mais moins efficace que l'échantillonnage de réécriture

Résultats de l'Analyse des Conflits

Score de Conflit Léger

Utilisation de la formule pour calculer le score de conflit de l'échantillon s:

cs = Σ(i,j)∈p(s)×p(s),i≠j cij / |p(s)|

où cij est le nombre de conflits entre les instructions i et j.

Découvertes Clés

  1. Le score de conflit est positivement corrélé au nombre d'instructions:
    • 2 instructions: Score de conflit moyen 0,24
    • 10 instructions: Score de conflit moyen 2,03
  2. Le score de conflit est négativement corrélé au taux IF:
    • Coefficient de corrélation de -0,37 avec 10 instructions
    • La corrélation s'affaiblit avec l'augmentation du nombre d'instructions
  3. Les échantillons « difficiles » ont des scores de conflit plus élevés: Les échantillons avec un taux IF plus faible ont effectivement des scores de conflit plus élevés

Adhérence à la Tâche

  • Taux d'échec de la réponse initiale: Maximum 4% (22/538 avec 8 instructions)
  • Échecs supplémentaires après amélioration: Maximum 1,3% (7 échecs supplémentaires avec 10 instructions)

Travaux Connexes

Évaluation du Suivi des Instructions

  • IFEval: Concentration sur les vérifications déterministes des instructions vérifiables (1-3 instructions)
  • ComplexBench & FollowBench: Évaluation des capacités de traitement des instructions complexes
  • InFoBench: Introduction de la métrique DRFR pour une analyse à grain fin
  • RefuteBench: Concentration sur le suivi des instructions de réfutation dans les conversations

Méthodes d'Intervention au Moment du Test

  • Auto-correction: Incitation du modèle à évaluer et améliorer sa propre sortie
  • Chaîne de pensée: Décomposition des problèmes complexes en étapes gérables
  • Auto-cohérence: Sélection du résultat le plus cohérent par échantillonnage de plusieurs réponses

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de l'amélioration des instructions: Amélioration cohérente du taux de suivi des instructions sur divers modèles
  2. Les conflits légers sont un facteur clé: Les conflits entre instructions sont une raison importante de la difficulté du suivi des instructions à grande échelle
  3. La réécriture surpasse la régénération: La correction des réponses existantes est plus efficace que la génération à partir de zéro
  4. La valeur prédictive du score de conflit: Peut servir d'outil de retour aux développeurs

Limitations

  1. Limitation des conflits par paires: Le score de conflit actuel ne considère que les conflits d'instructions par paires, ne couvrant pas les interactions complexes multi-instructions
  2. Précision du détecteur: La précision du détecteur LLM-as-a-judge n'est que de 73%, limitant l'effet d'amélioration
  3. Coût de calcul: Les stratégies d'amélioration nécessitent un coût d'inférence supplémentaire
  4. Risque de déviation de tâche: Le processus d'amélioration peut entraîner une déviation de la réponse par rapport à la requête originale

Directions Futures

  1. Modélisation des conflits multi-ordres: Extension à l'analyse de conflits complexes de trois instructions ou plus
  2. Détecteurs plus précis: Développement de méthodes de détection du suivi des instructions plus précises
  3. Amélioration adaptative: Sélection dynamique des stratégies d'amélioration en fonction du score de conflit
  4. Optimisation au moment de l'entraînement: Intégration de la capacité de suivi des instructions dans l'entraînement du modèle

Évaluation Approfondie

Avantages

  1. Définition claire du problème: Identification précise des défis fondamentaux du suivi des instructions à grande échelle
  2. Innovation méthodologique: Proposition d'un cadre d'amélioration post-génération systématique
  3. Conception expérimentale rigoureuse: Construction d'un ensemble de données de référence de suivi des instructions de haute qualité à grande échelle
  4. Contribution théorique: Le concept de conflit léger et la méthode de quantification ont une valeur théorique
  5. Forte praticité: Offre plusieurs choix de stratégies avec différents compromis coût-bénéfice

Insuffisances

  1. Simplification de la modélisation des conflits: Considération uniquement des conflits par paires, pouvant omettre les interactions complexes multi-instructions
  2. Dépendance au détecteur: L'efficacité de la méthode est limitée par la précision du détecteur LLM
  3. Portée d'évaluation limitée: Validation principalement sur des modèles open-source, manque d'évaluation sur des modèles propriétaires
  4. Impact à long terme inconnu: Absence d'analyse de l'impact à long terme de l'amélioration répétée sur le comportement du modèle

Impact

  1. Contribution académique: Fourniture d'un nouvel ensemble de référence d'évaluation et d'un cadre méthodologique pour la recherche sur le suivi des instructions
  2. Valeur pratique: Fourniture d'outils pratiques aux développeurs d'applications LLM pour améliorer la fiabilité des instructions
  3. Reproductibilité: Description détaillée de la méthode et modèles d'invites soutenant la reproduction des résultats
  4. Potentiel d'extension: Le cadre méthodologique peut être étendu à d'autres tâches de génération de langage

Scénarios d'Application

  1. Tâches de génération multi-contraintes: Scénarios nécessitant de satisfaire simultanément plusieurs contraintes de format, contenu et style
  2. Applications à haute fiabilité: Applications commerciales avec des exigences élevées de précision du suivi des instructions
  3. Optimisation de l'ingénierie des invites: Aide aux développeurs pour identifier et résoudre les problèmes de conflit d'instructions
  4. Évaluation du modèle: Fourniture d'outils d'évaluation standardisés pour les capacités de suivi des instructions des LLM

Références Bibliographiques

L'article cite des travaux importants dans les domaines connexes de l'évaluation du suivi des instructions, de l'auto-correction et du raisonnement par chaîne de pensée, fournissant une base théorique solide pour la recherche. Les références clés incluent l'ensemble de référence IFEval, les méthodes d'auto-correction et les travaux récents d'évaluation du suivi des instructions.