2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
academic

KnowRL : Enseigner aux Modèles de Langage à Connaître Ce Qu'Ils Savent

Informations Fondamentales

  • ID de l'article : 2510.11407
  • Titre : KnowRL: Teaching Language Models to Know What They Know
  • Auteurs : Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
  • Classification : cs.CL cs.AI
  • Date de publication : 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.11407

Résumé

Une véritable IA fiable ne nécessite pas seulement d'étendre l'échelle des connaissances, mais aussi de posséder la capacité à « savoir ce qu'on sait et quand on ne sait pas ». La recherche montre que même les meilleurs grands modèles de langage se trompent dans plus d'un cinquième des cas concernant l'évaluation de leurs propres capacités, ce qui rend les réponses basées sur l'incertitude intrinsèque peu fiables. Inspiré par les techniques d'apprentissage par renforcement auto-améliorant nécessitant un minimum de données, cet article propose le cadre KnowRL, qui réalise un comportement plus sûr et plus responsable en renforçant la compréhension intrinsèque du modèle concernant ses propres limites de faisabilité. Le cadre combine deux composants : (i) un mécanisme d'introspection, où le modèle génère et classe les tâches qu'il considère comme faisables ou non faisables ; (ii) un mécanisme de récompense basé sur le consensus, qui renforce la stabilité de l'évaluation de l'auto-connaissance par la cohérence interne. En utilisant des données générées en interne, la supervision externe coûteuse est complètement évitée. Les expériences sur LLaMA-3.1-8B et Qwen-2.5-7B montrent que KnowRL améliore régulièrement la capacité d'auto-connaissance, avec une amélioration de la précision jusqu'à 28 % et une amélioration du score F1 de 12 %.

Contexte de Recherche et Motivation

Problème Central

Le problème central que cette recherche vise à résoudre est le manque d'auto-connaissance (self-knowledge) des grands modèles de langage (LLMs), c'est-à-dire l'incapacité du modèle à identifier avec précision les limites de ses propres capacités et à distinguer clairement quelles tâches sont faisables et lesquelles ne le sont pas.

Importance du Problème

  1. Préoccupations de sécurité : La recherche montre que même les LLMs de pointe se trompent dans plus de 20 % des cas concernant l'évaluation de leurs propres capacités, ce qui entraîne des problèmes graves de confiance et de sécurité
  2. Risques de déploiement : Dans les domaines critiques tels que la médecine, le droit et la finance, la surconfiance ou la sous-confiance du modèle peuvent avoir des conséquences graves
  3. Exigences de fiabilité : Les véritables systèmes d'IA fiables doivent posséder des capacités métacognitives, capable de reconnaître les limites de leurs propres connaissances

Limitations des Approches Existantes

  1. Les bases de données externes et les techniques d'échafaudage ne conviennent pas pour résoudre ce défaut intrinsèque
  2. L'étalonnage de la confiance, bien qu'il puisse indiquer qu'une réponse est probablement erronée, ne peut pas garantir que le modèle reste cohérent concernant ce qu'il sait vraiment et ce qu'il ne sait pas
  3. Absence de méthode systématique pour renforcer les limites d'auto-connaissance du modèle

Motivation de la Recherche

Les auteurs considèrent que les LLMs possèdent intrinsèquement des capacités d'introspection et qu'il est nécessaire d'utiliser l'apprentissage par renforcement pour guider et renforcer cette capacité potentielle, permettant au modèle de mieux comprendre et exprimer ses propres limites de connaissances.

Contributions Principales

  1. Proposition du cadre KnowRL : Un cadre d'amélioration de l'auto-connaissance basé sur l'apprentissage par renforcement, capable d'améliorer la conscience des limites d'auto-connaissance des LLMs avec des données initiales limitées et sans supervision externe
  2. Conception innovante à deux composants :
    • Mécanisme d'introspection : Le LLM génère les problèmes qu'il considère comme faisables ou non faisables
    • Mécanisme de récompense basé sur le consensus : Génère des signaux de récompense stables et fiables par la cohérence interne
  3. Améliorations de performance significatives : Réalise une amélioration de la précision jusqu'à 28 % et une amélioration du score F1 de 12 % en seulement quelques itérations, démontrant une capacité d'auto-amélioration évolutive
  4. Praticité et évolutivité : La méthode est simple et indépendante des ressources externes, applicable à l'amélioration de la fiabilité de tous les modèles futurs

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche d'auto-connaissance est définie comme la capacité du modèle à distinguer clairement les tâches faisables des tâches non faisables en fonction de sa compréhension de ses propres capacités et limites de connaissances. L'entrée est une description de tâche, la sortie est un jugement de classification binaire « Faisable » ou « Non faisable », avec la contrainte que le jugement doit être basé sur les véritables limites de capacité du modèle.

Architecture du Modèle

Cadre Global

Le cadre KnowRL adopte une boucle d'entraînement d'apprentissage par renforcement itérative, contenant deux composants principaux :

![Framework](Cadre KnowRL montré dans la Figure 2)

1. Mécanisme d'Introspection

  • Fonction : Le modèle génère de manière autonome les tâches qu'il considère comme faisables ou non faisables
  • Implémentation : Utilise quelques exemples de semences pour guider, chaque exécution d'introspection produit 10-15 itérations, générant environ 50-60 tâches candidates
  • Stratégie d'évolution : À mesure que l'entraînement progresse, en combinant l'ensemble de données initial et les échantillons à haut consensus des étapes antérieures, le modèle affine progressivement et stabilise sa compréhension des limites de faisabilité

2. Mécanisme de Récompense Basé sur le Consensus

  • Objectif : Quantifier et renforcer la cohérence de l'auto-connaissance
  • Méthode : Pour chaque tâche candidate x, extraire k=8 sorties d'auto-analyse indépendantes {yi}, où yi ∈ {Faisable, Non faisable}
  • Calcul de la récompense :
    r(x) = (1/k) * Σ[yi = Majorité{y1, ..., yk}]
    
    La récompense est la proportion de sorties cohérentes avec l'étiquette majoritaire, mesurant directement la cohérence de l'évaluation de faisabilité

3. Filtre de Prévention de l'Exploitation de Récompense

Pour empêcher le modèle d'exploiter la récompense de consensus en générant des tâches trop simples ou trop complexes, les stratégies de filtrage suivantes sont adoptées :

  • Filtrage de redondance sémantique : Utilise un seuil de score ROUGE-L pour filtrer les instructions sémantiquement similaires
  • Filtrage par mots-clés : Filtre les mots-clés évidemment hors de portée tels que la génération d'images et l'entraînement de modèles
  • Filtrage par perplexité : Utilise la log-vraisemblance négative du modèle de base, rejetant les candidats avec une perplexité trop élevée

Points d'Innovation Technique

  1. Stratégie de données auto-générées : Dépend entièrement des données générées en interne par le modèle, évitant l'annotation manuelle coûteuse
  2. Mécanisme de consensus : Utilise la cohérence de plusieurs échantillonnages comme signal de récompense, fournissant un signal d'apprentissage stable et fiable
  3. Boucle d'auto-amélioration : Combine l'apprentissage par renforcement d'auto-jeu, permettant au modèle de s'auto-guider pour améliorer les limites d'auto-connaissance
  4. Minimisation des dépendances externes : Nécessite seulement un petit ensemble de données de semences, sans supervision externe

Configuration Expérimentale

Ensembles de Données

  1. Ensemble de données de semences : 100 exemples validés (50 tâches faisables, 50 tâches non faisables), générés par le modèle lui-même et vérifiés par des experts
  2. Évaluation intrinsèque : Utilise des données auto-générées pour évaluer la cohérence génération-vérification
  3. Évaluation extrinsèque : Ensemble de données SelfAware, contenant des questions répondables et non répondables avec leurs explications

Métriques d'Évaluation

  1. Évaluation intrinsèque : Précision (Accuracy) - Mesure la cohérence du processus génération-vérification
  2. Évaluation extrinsèque : Score F1 - Équilibre entre précision et rappel sur l'ensemble de données SelfAware

Méthodes de Comparaison

En l'absence de méthodes établies pour l'amélioration de l'auto-connaissance intrinsèque, la performance du modèle de base est utilisée comme référence pour l'évaluation.

Détails d'Implémentation

  • Modèles : LLaMA-3.1-8B-Instruct et Qwen-2.5-7B-Instruct
  • Algorithme RL : Utilise l'algorithme Reinforce++ du cadre OpenRLHF
  • Paramètres d'entraînement :
    • Nombre d'échantillons : k=8
    • Température d'introspection : 1.0, température d'auto-analyse : 0.0
    • Taux d'apprentissage : Actor 5×10⁻⁷, Critic 9×10⁻⁶
    • Nombre total d'itérations : 30, évaluation tous les 5 itérations

Résultats Expérimentaux

Résultats Principaux

Résultats d'Évaluation Intrinsèque

ModèleItérationsPrécision (%)Amélioration (%)
LLaMA-3.1-8BModèle de base33.56-
30ème itération42.99+9.43
Qwen-2.5-7BModèle de base39.22-
30ème itération48.29+9.07

Résultats d'Évaluation Extrinsèque (Ensemble de Données SelfAware)

ModèleItérationsScore F1 (%)Amélioration (%)
LLaMA-3.1-8BModèle de base56.12-
30ème itération63.10+6.98
Qwen-2.5-7BModèle de base62.17-
30ème itération68.29+6.12

Découvertes Clés

  1. Amélioration Monotone Stable : Les deux modèles montrent une amélioration monotone claire à presque chaque point de contrôle, reflétant une croissance interne stable de la compréhension des limites de faisabilité propres du modèle
  2. Convergence Rapide : L'amélioration maximale apparaît dans les premiers cycles d'entraînement, indiquant que l'amélioration de l'auto-connaissance peut être peu coûteuse, prévisible et efficace
  3. Plateau d'Amélioration : Autour de la 25ème-30ème itération, la progression commence à s'aplatir, indiquant qu'il existe des limites naturelles à l'auto-amélioration intrinsèque

Analyse de Cas

Exemples Générés à la 25ème Itération de LLaMA-3.1-8B :

  • Tâche Faisable : Traduire la phrase anglaise « The cat sat on the mat » en français, en conservant exactement le même sens, la tonalité, le temps des verbes et la signification
  • Tâche Non Faisable : Déterminer la cause exacte de l'événement d'extinction du Permien-Trias, fournissant une conclusion claire soutenue par des preuves irréfutables

Ces exemples montrent que le modèle peut identifier avec précision les tâches dans l'étendue de ses capacités de traduction et les problèmes scientifiques complexes dépassant ses limites de connaissances certaines.

Travaux Connexes

Recherche sur l'Auto-Connaissance dans les LLMs

  1. Identification du Problème : Plusieurs études soulignent l'incohérence et l'instabilité des LLMs concernant l'auto-connaissance
  2. Méthodes d'Évaluation :
    • Évaluation de classification binaire basée sur la répondabilité des ensembles de données
    • Évaluation intrinsèque basée sur la cohérence interne
    • Recherche sur l'auto-conscience
  3. Méthodes d'Amélioration : Self-Reflect, ajustement fin conscient de l'incertitude, etc.

Auto-Amélioration dans les LLMs

  1. Méthodes d'Auto-Raffinement : Self-Refine permet au LLM de générer une réponse initiale, puis de s'auto-critiquer et d'améliorer itérativement
  2. Méthodes de Données Synthétiques : Self-Taught Evaluator, K2, etc. utilisent des ensembles de tâches de raisonnement auto-générés pour l'entraînement
  3. Méthodes d'Apprentissage par Renforcement : RLRF, R-Zero, SeRL, etc. utilisent le renforcement post-traitement ou des signaux de récompense

Conclusion et Discussion

Conclusions Principales

  1. Validation de l'Efficacité : Le cadre KnowRL peut améliorer significativement la capacité d'auto-connaissance des LLMs, réalisant une amélioration stable sur les deux modèles
  2. Avantages d'Efficacité : En utilisant seulement un petit ensemble de données de semences et sans supervision externe, l'amélioration maximale peut être réalisée en quelques itérations
  3. Valeur Pratique : Fournit un chemin concret pour le déploiement sûr des systèmes d'IA dans les domaines critiques

Limitations

  1. Limitation Monolingue : Toutes les expériences sont menées uniquement en anglais, l'efficacité dans les environnements multilingues et à faibles ressources est inconnue
  2. Restriction de la Portée d'Entraînement : En raison des contraintes de calcul, les performances au-delà de 30 itérations ne peuvent pas être explorées
  3. Incertitude d'Échelle : L'évaluation est limitée aux modèles avec moins de 8B paramètres, l'extensibilité aux modèles plus grands est inconnue

Directions Futures

  1. Extension Multilingue : Tester l'efficacité du cadre dans différentes langues et contextes culturels
  2. Entraînement à Long Terme : Explorer les performances et le potentiel d'amélioration sous des cycles d'entraînement plus longs
  3. Validation à Grande Échelle : Valider la scalabilité de la méthode sur des modèles avec des paramètres plus importants
  4. Spécialisation Domaine : Amélioration de l'auto-connaissance adaptée à des domaines spécifiques (par exemple, médecine, droit)

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Première application systématique de l'apprentissage par renforcement pour résoudre le problème d'auto-connaissance des LLMs, méthode novatrice et efficace
  2. Praticité Élevée : Entièrement basée sur des données internes, sans supervision externe, facile à déployer et à étendre
  3. Expériences Complètes : Utilise à la fois des évaluations intrinsèques et extrinsèques, résultats cohérents et convaincants
  4. Fondations Théoriques Solides : Basée sur le cadre théorique de l'apprentissage par renforcement d'auto-jeu, conception rationnelle

Insuffisances

  1. Comparaisons de Référence Limitées : En l'absence de méthodes de comparaison directes dans le domaine, la comparaison principale est avec le modèle de base, manquant de comparaisons de méthodes plus complètes
  2. Portée d'Évaluation Restreinte : Testé seulement sur deux modèles de taille moyenne, manquant de validation sur des modèles à grande échelle
  3. Effets à Long Terme Inconnus : Le cycle d'entraînement est relativement court, impossible de déterminer le potentiel d'amélioration à long terme
  4. Capacité de Généralisation à Vérifier : Testé seulement en anglais, la capacité de généralisation multilingue est inconnue

Impact

  1. Contribution Académique : Fournit une nouvelle direction de recherche et un cadre méthodologique pour le domaine de la sécurité de l'IA
  2. Valeur Pratique : Fournit une solution réalisable pour le déploiement de systèmes d'IA plus fiables dans la pratique
  3. Reproductibilité : Les auteurs s'engagent à rendre le code et les données publics, favorisant le suivi par la communauté de recherche
  4. Signification Inspiratrice : Démontre le potentiel d'auto-amélioration des LLMs, pouvant inspirer davantage de recherches connexes

Scénarios Applicables

  1. Applications à Haut Risque : Diagnostic médical, consultation juridique, prise de décision financière et autres domaines nécessitant une fiabilité élevée
  2. Systèmes Éducatifs : Applications pédagogiques nécessitant que le modèle exprime honnêtement les limites de ses connaissances
  3. Assistants de Recherche : Outils d'assistance à la recherche nécessitant de distinguer les limites entre connaissances et inconnues
  4. Systèmes d'IA Généraliste : Toute application d'IA nécessitant d'améliorer la crédibilité et la sécurité

Références

L'article cite une littérature riche et pertinente, comprenant principalement :

  1. Recherche sur l'auto-connaissance et la métacognition 1-7
  2. Applications de l'apprentissage par renforcement dans les LLMs 14, 22-24
  3. Méthodes d'auto-amélioration et d'auto-jeu 15, 30-32, 44-49
  4. Recherche sur la sécurité et la fiabilité de l'IA 11-12, 16-17

Évaluation Globale : Ceci est un article de recherche de haute qualité qui propose une solution innovante et pratique au problème important d'auto-connaissance des LLMs. Bien qu'il présente certaines limitations, ses contributions sont significatives, la méthode est novatrice, les résultats expérimentaux sont convaincants, et il a une importance significative pour le domaine de la sécurité de l'IA.