2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami

Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.

academic

KnowRL : Enseigner aux Modèles de Langage à Connaître Ce Qu'Ils Savent

Informations Fondamentales

ID de l'article : 2510.11407
Titre : KnowRL: Teaching Language Models to Know What They Know
Auteurs : Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
Classification : cs.CL cs.AI
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.11407

Résumé

Une véritable IA fiable ne nécessite pas seulement d'étendre l'échelle des connaissances, mais aussi de posséder la capacité à « savoir ce qu'on sait et quand on ne sait pas ». La recherche montre que même les meilleurs grands modèles de langage se trompent dans plus d'un cinquième des cas concernant l'évaluation de leurs propres capacités, ce qui rend les réponses basées sur l'incertitude intrinsèque peu fiables. Inspiré par les techniques d'apprentissage par renforcement auto-améliorant nécessitant un minimum de données, cet article propose le cadre KnowRL, qui réalise un comportement plus sûr et plus responsable en renforçant la compréhension intrinsèque du modèle concernant ses propres limites de faisabilité. Le cadre combine deux composants : (i) un mécanisme d'introspection, où le modèle génère et classe les tâches qu'il considère comme faisables ou non faisables ; (ii) un mécanisme de récompense basé sur le consensus, qui renforce la stabilité de l'évaluation de l'auto-connaissance par la cohérence interne. En utilisant des données générées en interne, la supervision externe coûteuse est complètement évitée. Les expériences sur LLaMA-3.1-8B et Qwen-2.5-7B montrent que KnowRL améliore régulièrement la capacité d'auto-connaissance, avec une amélioration de la précision jusqu'à 28 % et une amélioration du score F1 de 12 %.

Contexte de Recherche et Motivation

Problème Central

Le problème central que cette recherche vise à résoudre est le manque d'auto-connaissance (self-knowledge) des grands modèles de langage (LLMs), c'est-à-dire l'incapacité du modèle à identifier avec précision les limites de ses propres capacités et à distinguer clairement quelles tâches sont faisables et lesquelles ne le sont pas.

Importance du Problème

Préoccupations de sécurité : La recherche montre que même les LLMs de pointe se trompent dans plus de 20 % des cas concernant l'évaluation de leurs propres capacités, ce qui entraîne des problèmes graves de confiance et de sécurité
Risques de déploiement : Dans les domaines critiques tels que la médecine, le droit et la finance, la surconfiance ou la sous-confiance du modèle peuvent avoir des conséquences graves
Exigences de fiabilité : Les véritables systèmes d'IA fiables doivent posséder des capacités métacognitives, capable de reconnaître les limites de leurs propres connaissances

Limitations des Approches Existantes

Les bases de données externes et les techniques d'échafaudage ne conviennent pas pour résoudre ce défaut intrinsèque
L'étalonnage de la confiance, bien qu'il puisse indiquer qu'une réponse est probablement erronée, ne peut pas garantir que le modèle reste cohérent concernant ce qu'il sait vraiment et ce qu'il ne sait pas
Absence de méthode systématique pour renforcer les limites d'auto-connaissance du modèle

Motivation de la Recherche

Les auteurs considèrent que les LLMs possèdent intrinsèquement des capacités d'introspection et qu'il est nécessaire d'utiliser l'apprentissage par renforcement pour guider et renforcer cette capacité potentielle, permettant au modèle de mieux comprendre et exprimer ses propres limites de connaissances.

Contributions Principales

Proposition du cadre KnowRL : Un cadre d'amélioration de l'auto-connaissance basé sur l'apprentissage par renforcement, capable d'améliorer la conscience des limites d'auto-connaissance des LLMs avec des données initiales limitées et sans supervision externe
Conception innovante à deux composants :
- Mécanisme d'introspection : Le LLM génère les problèmes qu'il considère comme faisables ou non faisables
- Mécanisme de récompense basé sur le consensus : Génère des signaux de récompense stables et fiables par la cohérence interne
Améliorations de performance significatives : Réalise une amélioration de la précision jusqu'à 28 % et une amélioration du score F1 de 12 % en seulement quelques itérations, démontrant une capacité d'auto-amélioration évolutive
Praticité et évolutivité : La méthode est simple et indépendante des ressources externes, applicable à l'amélioration de la fiabilité de tous les modèles futurs

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche d'auto-connaissance est définie comme la capacité du modèle à distinguer clairement les tâches faisables des tâches non faisables en fonction de sa compréhension de ses propres capacités et limites de connaissances. L'entrée est une description de tâche, la sortie est un jugement de classification binaire « Faisable » ou « Non faisable », avec la contrainte que le jugement doit être basé sur les véritables limites de capacité du modèle.

Architecture du Modèle

Cadre Global

Le cadre KnowRL adopte une boucle d'entraînement d'apprentissage par renforcement itérative, contenant deux composants principaux :

![Framework](Cadre KnowRL montré dans la Figure 2)

1. Mécanisme d'Introspection

Fonction : Le modèle génère de manière autonome les tâches qu'il considère comme faisables ou non faisables
Implémentation : Utilise quelques exemples de semences pour guider, chaque exécution d'introspection produit 10-15 itérations, générant environ 50-60 tâches candidates
Stratégie d'évolution : À mesure que l'entraînement progresse, en combinant l'ensemble de données initial et les échantillons à haut consensus des étapes antérieures, le modèle affine progressivement et stabilise sa compréhension des limites de faisabilité

2. Mécanisme de Récompense Basé sur le Consensus

Objectif : Quantifier et renforcer la cohérence de l'auto-connaissance
Méthode : Pour chaque tâche candidate x, extraire k=8 sorties d'auto-analyse indépendantes {yi}, où yi ∈ {Faisable, Non faisable}
Calcul de la récompense :
```
r(x) = (1/k) * Σ[yi = Majorité{y1, ..., yk}]
```
La récompense est la proportion de sorties cohérentes avec l'étiquette majoritaire, mesurant directement la cohérence de l'évaluation de faisabilité

3. Filtre de Prévention de l'Exploitation de Récompense

Pour empêcher le modèle d'exploiter la récompense de consensus en générant des tâches trop simples ou trop complexes, les stratégies de filtrage suivantes sont adoptées :

Filtrage de redondance sémantique : Utilise un seuil de score ROUGE-L pour filtrer les instructions sémantiquement similaires
Filtrage par mots-clés : Filtre les mots-clés évidemment hors de portée tels que la génération d'images et l'entraînement de modèles
Filtrage par perplexité : Utilise la log-vraisemblance négative du modèle de base, rejetant les candidats avec une perplexité trop élevée

Points d'Innovation Technique

Stratégie de données auto-générées : Dépend entièrement des données générées en interne par le modèle, évitant l'annotation manuelle coûteuse
Mécanisme de consensus : Utilise la cohérence de plusieurs échantillonnages comme signal de récompense, fournissant un signal d'apprentissage stable et fiable
Boucle d'auto-amélioration : Combine l'apprentissage par renforcement d'auto-jeu, permettant au modèle de s'auto-guider pour améliorer les limites d'auto-connaissance
Minimisation des dépendances externes : Nécessite seulement un petit ensemble de données de semences, sans supervision externe

Configuration Expérimentale

Ensembles de Données

Ensemble de données de semences : 100 exemples validés (50 tâches faisables, 50 tâches non faisables), générés par le modèle lui-même et vérifiés par des experts
Évaluation intrinsèque : Utilise des données auto-générées pour évaluer la cohérence génération-vérification
Évaluation extrinsèque : Ensemble de données SelfAware, contenant des questions répondables et non répondables avec leurs explications

Métriques d'Évaluation

Évaluation intrinsèque : Précision (Accuracy) - Mesure la cohérence du processus génération-vérification
Évaluation extrinsèque : Score F1 - Équilibre entre précision et rappel sur l'ensemble de données SelfAware

Méthodes de Comparaison

En l'absence de méthodes établies pour l'amélioration de l'auto-connaissance intrinsèque, la performance du modèle de base est utilisée comme référence pour l'évaluation.

Détails d'Implémentation

Modèles : LLaMA-3.1-8B-Instruct et Qwen-2.5-7B-Instruct
Algorithme RL : Utilise l'algorithme Reinforce++ du cadre OpenRLHF
Paramètres d'entraînement :
- Nombre d'échantillons : k=8
- Température d'introspection : 1.0, température d'auto-analyse : 0.0
- Taux d'apprentissage : Actor 5×10⁻⁷, Critic 9×10⁻⁶
- Nombre total d'itérations : 30, évaluation tous les 5 itérations

Résultats Expérimentaux

Résultats Principaux

Résultats d'Évaluation Intrinsèque

Modèle	Itérations	Précision (%)	Amélioration (%)
LLaMA-3.1-8B	Modèle de base	33.56	-
	30ème itération	42.99	+9.43
Qwen-2.5-7B	Modèle de base	39.22	-
	30ème itération	48.29	+9.07

Résultats d'Évaluation Extrinsèque (Ensemble de Données SelfAware)

Modèle	Itérations	Score F1 (%)	Amélioration (%)
LLaMA-3.1-8B	Modèle de base	56.12	-
	30ème itération	63.10	+6.98
Qwen-2.5-7B	Modèle de base	62.17	-
	30ème itération	68.29	+6.12

Découvertes Clés

Amélioration Monotone Stable : Les deux modèles montrent une amélioration monotone claire à presque chaque point de contrôle, reflétant une croissance interne stable de la compréhension des limites de faisabilité propres du modèle
Convergence Rapide : L'amélioration maximale apparaît dans les premiers cycles d'entraînement, indiquant que l'amélioration de l'auto-connaissance peut être peu coûteuse, prévisible et efficace
Plateau d'Amélioration : Autour de la 25ème-30ème itération, la progression commence à s'aplatir, indiquant qu'il existe des limites naturelles à l'auto-amélioration intrinsèque

Analyse de Cas

Exemples Générés à la 25ème Itération de LLaMA-3.1-8B :

Tâche Faisable : Traduire la phrase anglaise « The cat sat on the mat » en français, en conservant exactement le même sens, la tonalité, le temps des verbes et la signification
Tâche Non Faisable : Déterminer la cause exacte de l'événement d'extinction du Permien-Trias, fournissant une conclusion claire soutenue par des preuves irréfutables

Ces exemples montrent que le modèle peut identifier avec précision les tâches dans l'étendue de ses capacités de traduction et les problèmes scientifiques complexes dépassant ses limites de connaissances certaines.

Travaux Connexes

Recherche sur l'Auto-Connaissance dans les LLMs

Identification du Problème : Plusieurs études soulignent l'incohérence et l'instabilité des LLMs concernant l'auto-connaissance
Méthodes d'Évaluation :
- Évaluation de classification binaire basée sur la répondabilité des ensembles de données
- Évaluation intrinsèque basée sur la cohérence interne
- Recherche sur l'auto-conscience
Méthodes d'Amélioration : Self-Reflect, ajustement fin conscient de l'incertitude, etc.

Auto-Amélioration dans les LLMs

Méthodes d'Auto-Raffinement : Self-Refine permet au LLM de générer une réponse initiale, puis de s'auto-critiquer et d'améliorer itérativement
Méthodes de Données Synthétiques : Self-Taught Evaluator, K2, etc. utilisent des ensembles de tâches de raisonnement auto-générés pour l'entraînement
Méthodes d'Apprentissage par Renforcement : RLRF, R-Zero, SeRL, etc. utilisent le renforcement post-traitement ou des signaux de récompense

Conclusion et Discussion

Conclusions Principales

Validation de l'Efficacité : Le cadre KnowRL peut améliorer significativement la capacité d'auto-connaissance des LLMs, réalisant une amélioration stable sur les deux modèles
Avantages d'Efficacité : En utilisant seulement un petit ensemble de données de semences et sans supervision externe, l'amélioration maximale peut être réalisée en quelques itérations
Valeur Pratique : Fournit un chemin concret pour le déploiement sûr des systèmes d'IA dans les domaines critiques

Limitations

Limitation Monolingue : Toutes les expériences sont menées uniquement en anglais, l'efficacité dans les environnements multilingues et à faibles ressources est inconnue
Restriction de la Portée d'Entraînement : En raison des contraintes de calcul, les performances au-delà de 30 itérations ne peuvent pas être explorées
Incertitude d'Échelle : L'évaluation est limitée aux modèles avec moins de 8B paramètres, l'extensibilité aux modèles plus grands est inconnue

Directions Futures

Extension Multilingue : Tester l'efficacité du cadre dans différentes langues et contextes culturels
Entraînement à Long Terme : Explorer les performances et le potentiel d'amélioration sous des cycles d'entraînement plus longs
Validation à Grande Échelle : Valider la scalabilité de la méthode sur des modèles avec des paramètres plus importants
Spécialisation Domaine : Amélioration de l'auto-connaissance adaptée à des domaines spécifiques (par exemple, médecine, droit)

Évaluation Approfondie

Points Forts

Innovation Forte : Première application systématique de l'apprentissage par renforcement pour résoudre le problème d'auto-connaissance des LLMs, méthode novatrice et efficace
Praticité Élevée : Entièrement basée sur des données internes, sans supervision externe, facile à déployer et à étendre
Expériences Complètes : Utilise à la fois des évaluations intrinsèques et extrinsèques, résultats cohérents et convaincants
Fondations Théoriques Solides : Basée sur le cadre théorique de l'apprentissage par renforcement d'auto-jeu, conception rationnelle

Insuffisances

Comparaisons de Référence Limitées : En l'absence de méthodes de comparaison directes dans le domaine, la comparaison principale est avec le modèle de base, manquant de comparaisons de méthodes plus complètes
Portée d'Évaluation Restreinte : Testé seulement sur deux modèles de taille moyenne, manquant de validation sur des modèles à grande échelle
Effets à Long Terme Inconnus : Le cycle d'entraînement est relativement court, impossible de déterminer le potentiel d'amélioration à long terme
Capacité de Généralisation à Vérifier : Testé seulement en anglais, la capacité de généralisation multilingue est inconnue

Impact

Contribution Académique : Fournit une nouvelle direction de recherche et un cadre méthodologique pour le domaine de la sécurité de l'IA
Valeur Pratique : Fournit une solution réalisable pour le déploiement de systèmes d'IA plus fiables dans la pratique
Reproductibilité : Les auteurs s'engagent à rendre le code et les données publics, favorisant le suivi par la communauté de recherche
Signification Inspiratrice : Démontre le potentiel d'auto-amélioration des LLMs, pouvant inspirer davantage de recherches connexes

Scénarios Applicables

Applications à Haut Risque : Diagnostic médical, consultation juridique, prise de décision financière et autres domaines nécessitant une fiabilité élevée
Systèmes Éducatifs : Applications pédagogiques nécessitant que le modèle exprime honnêtement les limites de ses connaissances
Assistants de Recherche : Outils d'assistance à la recherche nécessitant de distinguer les limites entre connaissances et inconnues
Systèmes d'IA Généraliste : Toute application d'IA nécessitant d'améliorer la crédibilité et la sécurité

Références

L'article cite une littérature riche et pertinente, comprenant principalement :

Recherche sur l'auto-connaissance et la métacognition 1-7
Applications de l'apprentissage par renforcement dans les LLMs 14, 22-24
Méthodes d'auto-amélioration et d'auto-jeu 15, 30-32, 44-49
Recherche sur la sécurité et la fiabilité de l'IA 11-12, 16-17

Évaluation Globale : Ceci est un article de recherche de haute qualité qui propose une solution innovante et pratique au problème important d'auto-connaissance des LLMs. Bien qu'il présente certaines limitations, ses contributions sont significatives, la méthode est novatrice, les résultats expérimentaux sont convaincants, et il a une importance significative pour le domaine de la sécurité de l'IA.