A typical approach developers follow to influence an LLM's behavior in an application is through careful manipulation of the prompt, such as by adding or modifying instructions. However, merely adding more instructions provides little assurance that they will actually be followed. We introduce Instruction Boosting as a post-generation method to increase the reliability of LLM prompt instructions. We show that Instruction Boosting improves the instruction following rate by up to 7 points for two instructions and up to 4 points for ten instructions. To demonstrate these results we introduce SCALEDIF, a benchmark with a scaled instruction volume of up to ten instructions per data sample. We also present an analysis of the commonly observed trend that performance degrades as more instructions are added. We show that an important factor contributing to this trend is the degree of tension and conflict that arises as the number of instructions is increased. We contribute a quantitative conflict scoring tool that explains the observed performance trends and provides feedback to developers on the impact that additional prompt instructions have on a model's performance.
개발자들은 일반적으로 명령어를 추가하거나 수정하는 등 신중하게 설계된 프롬프트를 통해 대규모 언어 모델(LLM)의 동작에 영향을 미칩니다. 그러나 단순히 더 많은 명령어를 추가한다고 해서 이들이 실제로 따라질 것이라는 보장은 없습니다. 본 논문은 LLM 프롬프트 명령어의 신뢰성을 향상시키기 위한 사후 생성 방법으로서 명령어 부스팅(Instruction Boosting)을 제안합니다. 연구 결과에 따르면 명령어 부스팅은 2개 명령어에서 명령어 따르기 비율을 최대 7 퍼센트 포인트 향상시키고, 10개 명령어에서는 최대 4 퍼센트 포인트 향상시킵니다. 이러한 결과를 검증하기 위해 저자들은 각 데이터 샘플당 최대 10개의 명령어를 포함하는 SCALEDIF 벤치마크를 도입했습니다. 논문은 또한 명령어 수 증가에 따른 성능 저하의 일반적인 추세를 분석하며, 이러한 추세를 야기하는 중요한 요인이 명령어 수 증가 시 발생하는 긴장과 충돌의 정도임을 보여줍니다.