A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
academic
Amélioration du Suivi des Instructions à Grande Échelle
Les développeurs influencent généralement le comportement des grands modèles de langage (LLM) par une conception minutieuse des invites, notamment en ajoutant ou en modifiant des instructions. Cependant, l'ajout de plus d'instructions ne garantit pas qu'elles seront suivies. Cet article propose l'amélioration des instructions (Instruction Boosting) comme méthode post-génération pour améliorer la fiabilité des instructions d'invite des LLM. Les résultats montrent que l'amélioration des instructions peut augmenter le taux de suivi des instructions jusqu'à 7 points de pourcentage avec deux instructions et jusqu'à 4 points de pourcentage avec dix instructions. Pour valider ces résultats, les auteurs introduisent l'ensemble de référence SCALEDIF, contenant jusqu'à dix instructions par échantillon de données. L'article analyse également la tendance commune de dégradation des performances avec l'augmentation du nombre d'instructions, montrant que les facteurs importants causant cette tendance sont le degré de tension et de conflit produits par l'augmentation du nombre d'instructions.
Fiabilité insuffisante du suivi des instructions: Les instructions d'invite ajoutées par les développeurs ne peuvent pas garantir qu'elles seront réellement suivies par le LLM
Problème d'extension des instructions: Avec l'augmentation du nombre d'instructions, le taux de suivi des instructions (IF rate) du LLM diminue considérablement
Conflits entre instructions: Plusieurs instructions peuvent créer une tension ou même des contradictions directes, rendant difficile la satisfaction simultanée de toutes les instructions
Les méthodes traditionnelles se concentrent principalement sur le suivi d'une seule instruction ou d'un petit nombre d'instructions
Absence de solutions systématiques pour les problèmes de conflit d'instructions et d'extensibilité
Les ensembles de référence existants (comme IFEval) contiennent au maximum 3 instructions, ce qui ne permet pas d'évaluer les scénarios à grande échelle
Proposition de la méthode d'amélioration des instructions: Une méthode post-génération au moment du test qui améliore le taux de suivi des instructions en corrigeant et en affinant la réponse initiale
Construction de l'ensemble de données SCALEDIF: Extension de l'ensemble de données IFEval, contenant un ensemble de référence de suivi des instructions à grande échelle avec jusqu'à 10 instructions par échantillon
Outil de notation quantitative des conflits: Développement d'un mécanisme de notation quantitative des conflits d'instructions, expliquant les tendances de performance et fournissant des retours aux développeurs
Concept de conflit léger: Formalisation du concept de « conflit léger » entre instructions, analysant son impact sur les performances
Étant donné une requête Q, un ensemble d'instructions I={I₁, I₂, ..., Iₙ} et une réponse initiale R du LLM, l'objectif de l'amélioration des instructions est de générer une réponse corrigée R' qui suit davantage d'instructions.
Optimisation post-génération: Basée sur l'observation que « corriger une réponse sous-optimale est plus facile que de générer directement une réponse parfaite »
Conception multi-stratégies: Offre des choix de stratégies avec différents compromis coût-performance
Quantification des conflits légers: Identification empirique des conflits entre instructions par une méthode d'auto-jeu
Le score de conflit est positivement corrélé au nombre d'instructions:
2 instructions: Score de conflit moyen 0,24
10 instructions: Score de conflit moyen 2,03
Le score de conflit est négativement corrélé au taux IF:
Coefficient de corrélation de -0,37 avec 10 instructions
La corrélation s'affaiblit avec l'augmentation du nombre d'instructions
Les échantillons « difficiles » ont des scores de conflit plus élevés: Les échantillons avec un taux IF plus faible ont effectivement des scores de conflit plus élevés
Efficacité de l'amélioration des instructions: Amélioration cohérente du taux de suivi des instructions sur divers modèles
Les conflits légers sont un facteur clé: Les conflits entre instructions sont une raison importante de la difficulté du suivi des instructions à grande échelle
La réécriture surpasse la régénération: La correction des réponses existantes est plus efficace que la génération à partir de zéro
La valeur prédictive du score de conflit: Peut servir d'outil de retour aux développeurs
Limitation des conflits par paires: Le score de conflit actuel ne considère que les conflits d'instructions par paires, ne couvrant pas les interactions complexes multi-instructions
Précision du détecteur: La précision du détecteur LLM-as-a-judge n'est que de 73%, limitant l'effet d'amélioration
Coût de calcul: Les stratégies d'amélioration nécessitent un coût d'inférence supplémentaire
Risque de déviation de tâche: Le processus d'amélioration peut entraîner une déviation de la réponse par rapport à la requête originale
Simplification de la modélisation des conflits: Considération uniquement des conflits par paires, pouvant omettre les interactions complexes multi-instructions
Dépendance au détecteur: L'efficacité de la méthode est limitée par la précision du détecteur LLM
Portée d'évaluation limitée: Validation principalement sur des modèles open-source, manque d'évaluation sur des modèles propriétaires
Impact à long terme inconnu: Absence d'analyse de l'impact à long terme de l'amélioration répétée sur le comportement du modèle
Contribution académique: Fourniture d'un nouvel ensemble de référence d'évaluation et d'un cadre méthodologique pour la recherche sur le suivi des instructions
Valeur pratique: Fourniture d'outils pratiques aux développeurs d'applications LLM pour améliorer la fiabilité des instructions
Reproductibilité: Description détaillée de la méthode et modèles d'invites soutenant la reproduction des résultats
Potentiel d'extension: Le cadre méthodologique peut être étendu à d'autres tâches de génération de langage
L'article cite des travaux importants dans les domaines connexes de l'évaluation du suivi des instructions, de l'auto-correction et du raisonnement par chaîne de pensée, fournissant une base théorique solide pour la recherche. Les références clés incluent l'ensemble de référence IFEval, les méthodes d'auto-correction et les travaux récents d'évaluation du suivi des instructions.