2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami

Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.

academic

KnowRL: Sprachmodelle lehren, zu wissen, was sie wissen

Grundinformationen

Paper-ID: 2510.11407
Titel: KnowRL: Teaching Language Models to Know What They Know
Autoren: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.11407

Zusammenfassung

Wirklich zuverlässige KI erfordert nicht nur die Erweiterung des Wissensspeichers, sondern auch die Fähigkeit, „zu wissen, was man weiß und wann man nicht weiß". Forschungen zeigen, dass selbst die besten großen Sprachmodelle in über einem Fünftel der Fälle ihre eigenen Fähigkeiten falsch einschätzen, was dazu führt, dass Reaktionen auf der Grundlage innerer Unsicherheit nicht vollständig vertrauenswürdig sind. Inspiriert durch Selbstverbesserungstechniken des Reinforcement Learning, die minimale Datenmengen erfordern, wird in diesem Papier das KnowRL-Framework vorgestellt, das sichereres und verantwortungsvolleres Verhalten durch Stärkung des inneren Verständnisses des Modells für seine eigenen Machbarkeitsgrenzen ermöglicht. Das Framework kombiniert zwei Komponenten: (i) einen Introspektionsmechanismus, bei dem das Modell Aufgaben generiert und klassifiziert, die es für machbar oder nicht machbar hält; (ii) einen konsensbasierten Belohnungsmechanismus, der die Stabilität der Selbstwissenseinschätzung durch innere Konsistenz verstärkt. Durch die Verwendung intern generierter Daten wird teure externe Überwachung vollständig vermieden. Experimente mit LLaMA-3.1-8B und Qwen-2.5-7B zeigen, dass KnowRL die Selbstwissenskapazität kontinuierlich verbessert, mit Genauigkeitssteigerungen von bis zu 28% und F1-Score-Verbesserungen von 12%.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist das Fehlen von Selbstwissen (Self-Knowledge) bei großen Sprachmodellen (LLMs), d.h. die Unfähigkeit des Modells, die Grenzen seiner eigenen Fähigkeiten genau zu erkennen und klar zu unterscheiden, welche Aufgaben machbar und welche nicht machbar sind.

Bedeutung des Problems

Sicherheitsbedenken: Forschungen zeigen, dass selbst führende LLMs in über 20% der Fälle ihre eigenen Fähigkeiten falsch einschätzen, was zu ernsthaften Vertrauens- und Sicherheitsproblemen führt
Bereitstellungsrisiken: In kritischen Bereichen wie Medizin, Recht und Finanzen können sowohl Überconfidence als auch Underconfidence des Modells schwerwiegende Folgen haben
Zuverlässigkeitsanforderungen: Wirklich zuverlässige KI-Systeme benötigen Metakognitionsfähigkeiten und müssen die Grenzen ihres eigenen Wissens erkennen können

Einschränkungen bestehender Methoden

Externe Datenbanken und Scaffolding-Techniken sind nicht geeignet, um diesen inneren Mangel zu beheben
Konfidenzkalibration kann zwar anzeigen, dass eine Antwort möglicherweise falsch ist, garantiert aber nicht, dass das Modell konsistent bleibt, was es wirklich weiß und nicht weiß
Fehlende systematische Methoden zur Verstärkung der Selbstwissens-Grenzen des Modells

Forschungsmotivation

Die Autoren vertreten die Ansicht, dass LLMs bereits intrinsische Introspektionsfähigkeiten besitzen und dass Reinforcement Learning erforderlich ist, um diese potenziellen Fähigkeiten zu lenken und zu verstärken, damit das Modell seine Wissensgrenzen besser verstehen und ausdrücken kann.

Kernbeiträge

Vorstellung des KnowRL-Frameworks: Ein auf Reinforcement Learning basierendes Framework zur Verbesserung des Selbstwissens, das die Bewusstsein der Selbstwissens-Grenzen von LLMs mit begrenzten Anfangsdaten und ohne externe Überwachung verbessern kann
Innovative Zweikomponenten-Gestaltung:
- Introspektionsmechanismus: Das LLM generiert Probleme, die es für machbar oder nicht machbar hält
- Konsensbasierter Belohnungsmechanismus: Erzeugt stabile und vertrauenswürdige Belohnungssignale durch innere Konsistenz
Signifikante Leistungssteigerungen: Erreicht Genauigkeitssteigerungen von bis zu 28% und F1-Score-Verbesserungen von 12% in nur wenigen Iterationen und demonstriert skalierbare Selbstverbesserungsfähigkeiten
Praktikabilität und Skalierbarkeit: Die Methode ist einfach und unabhängig von externen Ressourcen, anwendbar auf alle zukünftigen Modelle zur Zuverlässigkeitsverbesserung

Methodische Details

Aufgabendefinition

Die Selbstwissens-Aufgabe wird definiert als die Fähigkeit des Modells, basierend auf seinem Verständnis seiner eigenen Fähigkeiten und Wissensgrenzen, klar zwischen machbaren und nicht machbaren Aufgaben zu unterscheiden. Die Eingabe ist eine Aufgabenbeschreibung, die Ausgabe ist eine binäre Klassifizierung von „Machbar" oder „Nicht machbar", mit der Einschränkung, dass die Beurteilung auf den tatsächlichen Fähigkeitsgrenzen des Modells basieren sollte.

Modellarchitektur

Gesamtrahmen

Das KnowRL-Framework nutzt eine iterative Reinforcement-Learning-Trainingsschleife mit zwei Kernkomponenten:

![Framework](KnowRL-Framework wie in Abbildung 2 dargestellt)

1. Introspektionsmechanismus (Introspection)

Funktion: Das Modell generiert eigenständig Aufgaben, die es für machbar oder nicht machbar hält
Implementierung: Verwendet wenige Seed-Beispiele zur Anleitung, führt bei jeder Introspektionsausführung 10-15 Durchläufe durch und erzeugt etwa 50-60 Kandidatenaufgaben
Evolutionsstrategie: Mit Fortschritt der Trainingsschritte kombiniert das Modell den anfänglichen Datensatz und frühere hochkonsensuale Stichproben, um sein Verständnis der Machbarkeitsgrenzen schrittweise zu verfeinern und zu stabilisieren

2. Konsensbasierter Belohnungsmechanismus (Consensus-based Rewarding)

Ziel: Quantifizierung und Verstärkung der Selbstwissens-Konsistenz
Methode: Für jede Kandidatenaufgabe x werden k=8 unabhängige Selbstanalyseergebnisse {yi} extrahiert, wobei yi ∈ {Machbar, Nicht machbar}
Belohnungsberechnung:
```
r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
```
Die Belohnung ist der Anteil der Ausgaben, die mit dem Mehrheitslabel übereinstimmen, und misst direkt die innere Konsistenz der Machbarkeitsbewertung

3. Reward-Hacking-Filter

Um zu verhindern, dass das Modell die Konsensbelohnung durch die Generierung zu einfacher oder komplexer Aufgaben manipuliert, werden folgende Filterstrategien angewendet:

Semantische Redundanzfilterung: Verwendet ROUGE-L-Score-Schwellenwerte, um semantisch ähnliche Anweisungen zu filtern
Schlüsselwortfilterung: Filtert Kandidaten mit Schlüsselwörtern, die eindeutig außerhalb des Fähigkeitsbereichs liegen, wie Bildgenerierung oder Modelltraining
Perplexitätsfilterung: Verwendet die negative Log-Wahrscheinlichkeit des Basismodells und verwirft Kandidaten mit zu hoher Perplexität

Technische Innovationen

Selbstgenerierte Datenstrategie: Verlässt sich vollständig auf intern vom Modell generierte Daten und vermeidet teure manuelle Annotation
Konsensmechanismus: Nutzt die Konsistenz mehrfacher Stichproben als Belohnungssignal und bietet stabile und vertrauenswürdige Lernsignale
Selbstverbesserungsschleife: Kombiniert Self-Play-Reinforcement-Learning, um das Modell zur Selbstverbesserung seiner Selbstwissens-Grenzen zu befähigen
Minimierung externer Abhängigkeiten: Benötigt nur einen kleinen Seed-Datensatz ohne externe Überwachung

Experimentelle Einrichtung

Datensätze

Seed-Datensatz: 100 validierte Beispiele (50 machbare Aufgaben, 50 nicht machbare Aufgaben), vom Modell selbst generiert und von Experten validiert
Innere Bewertung: Verwendet selbstgenerierte Daten zur Bewertung der Generierungs-Validierungs-Konsistenz
Äußere Bewertung: SelfAware-Datensatz mit beantwortbaren und nicht beantwortbaren Fragen sowie deren Erklärungen

Bewertungsmetriken

Innere Bewertung: Genauigkeit (Accuracy) - misst die Konsistenz des Generierungs-Validierungsprozesses
Äußere Bewertung: F1-Score - ausgewogene Präzision und Recall auf dem SelfAware-Datensatz

Vergleichsmethoden

Da es keine etablierten Methoden zur Verbesserung des inneren Selbstwissens gibt, wird die Leistung des Basismodells als Baseline verwendet.

Implementierungsdetails

Modelle: LLaMA-3.1-8B-Instruct und Qwen-2.5-7B-Instruct
RL-Algorithmus: Reinforce++-Algorithmus des OpenRLHF-Frameworks
Trainingsparameter:
- Stichprobenzahl: k=8
- Introspektionstemperatur: 1,0, Selbstanalystemperatur: 0,0
- Lernrate: Actor 5×10⁻⁷, Critic 9×10⁻⁶
- Gesamtiterationen: 30, Bewertung alle 5 Iterationen

Experimentelle Ergebnisse

Hauptergebnisse

Innere Bewertungsergebnisse

Modell	Iterationen	Genauigkeit (%)	Verbesserung (%)
LLaMA-3.1-8B	Basismodell	33,56	-
	30. Iteration	42,99	+9,43
Qwen-2.5-7B	Basismodell	39,22	-
	30. Iteration	48,29	+9,07

Äußere Bewertungsergebnisse (SelfAware-Datensatz)

Modell	Iterationen	F1-Score (%)	Verbesserung (%)
LLaMA-3.1-8B	Basismodell	56,12	-
	30. Iteration	63,10	+6,98
Qwen-2.5-7B	Basismodell	62,17	-
	30. Iteration	68,29	+6,12

Wichtigste Erkenntnisse

Stabile monotone Verbesserung: Beide Modelle zeigen an fast jedem Kontrollpunkt eindeutige monotone Verbesserungen, was auf stabiles inneres Wachstum im Verständnis der eigenen Machbarkeitsgrenzen hindeutet
Schnelle Konvergenz: Die größten Verbesserungen treten in den ersten Trainingszyklen auf, was zeigt, dass Selbstwissensverbesserung kostengünstig, vorhersehbar und effizient sein kann
Verbesserungsplateau: Um die 25.-30. Iteration herum beginnt der Fortschritt zu stagnieren, was auf natürliche Grenzen der inneren Selbstverbesserung hindeutet

Fallstudienanalyse

Generierungsbeispiele von LLaMA-3.1-8B in der 25. Iteration:

Machbare Aufgabe: Übersetzen Sie den englischen Satz „The cat sat on the mat" ins Französische und bewahren Sie dabei die exakt gleiche Bedeutung, den Ton, die Verbform und die Bedeutung
Nicht machbare Aufgabe: Bestimmen Sie die genaue Ursache des Perm-Trias-Aussterbeereignisses und liefern Sie eine eindeutige, unwiderlegbar bewiesene Schlussfolgerung

Diese Beispiele zeigen, dass das Modell Aufgaben innerhalb seines Übersetzungsfähigkeitsbereichs genau identifizieren kann und komplexe wissenschaftliche Probleme, die über seine Grenzen des sicheren Wissens hinausgehen, erkennt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Validierung der Wirksamkeit: Das KnowRL-Framework kann die Selbstwissenskapazität von LLMs erheblich verbessern und erreicht stabile Verbesserungen bei beiden Modellen
Effizienzvorteile: Mit nur einem kleinen Seed-Datensatz und ohne externe Überwachung können maximale Verbesserungen in wenigen Iterationen erreicht werden
Praktischer Wert: Bietet einen konkreten Weg zur sicheren Bereitstellung von KI-Systemen in kritischen Bereichen

Einschränkungen

Einsprachige Einschränkung: Alle Experimente wurden nur in englischer Sprache durchgeführt, die Wirksamkeit in mehrsprachigen und ressourcenknappen Umgebungen ist unbekannt
Trainingsbereichsbeschränkung: Aufgrund von Rechenbeschränkungen konnte die Leistung über 30 Iterationen hinaus nicht untersucht werden
Skalierungsunsicherheit: Die Bewertung ist auf Modelle mit weniger als 8B Parametern beschränkt, die Skalierbarkeit auf größere Modelle ist unbekannt

Zukünftige Richtungen

Mehrsprachige Erweiterung: Testen Sie die Wirksamkeit des Frameworks in verschiedenen Sprachen und kulturellen Kontexten
Langfristiges Training: Erkunden Sie die Leistung und Verbesserungspotenziale über längere Trainingszyklen
Großflächige Validierung: Validieren Sie die Skalierbarkeit der Methode auf Modellen mit größeren Parametern
Domänenspezifische Anpassung: Selbstwissensverbesserung für spezifische Bereiche (z.B. Medizin, Recht)

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste systematische Anwendung von Reinforcement Learning zur Lösung des Selbstwissensproblems bei LLMs, neuartige und effektive Methode
Hohe Praktikabilität: Vollständig auf internen Daten basierend, keine externe Überwachung erforderlich, leicht bereitzustellen und zu skalieren
Umfangreiche Experimente: Verwendet innere und äußere Bewertungsmethoden, Ergebnisse sind konsistent und überzeugend
Solide theoretische Grundlagen: Basiert auf theoretischem Rahmen des Self-Play-Reinforcement-Learning mit vernünftiger Gestaltung

Mängel

Begrenzte Baseline-Vergleiche: Da es im Bereich keine direkten Vergleichsmethoden gibt, erfolgt der Vergleich hauptsächlich mit dem Basismodell, es fehlen umfassendere Methodenvergleiche
Begrenzte Bewertungsreichweite: Nur auf zwei mittelgroßen Modellen getestet, Validierung auf großen Modellen fehlt
Langzeiteffekte unbekannt: Der Trainingszyklus ist relativ kurz, das langfristige Verbesserungspotenzial kann nicht bestimmt werden
Generalisierungsfähigkeit zu validieren: Nur in englischer Sprache getestet, sprachübergreifende Generalisierungsfähigkeit unbekannt

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtungen und Methodenrahmen für den Bereich KI-Sicherheit
Praktischer Wert: Bietet machbare Lösungen für die Bereitstellung zuverlässigerer KI-Systeme in der Praxis
Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code und Daten, was der Forschungsgemeinschaft folgen kann
Inspirationswert: Demonstriert das Potenzial der Selbstverbesserung von LLMs und kann weitere verwandte Forschung inspirieren

Anwendungsszenarien

Hochrisikoapplikationen: Medizinische Diagnose, Rechtsberatung, Finanzentscheidungen und andere Bereiche, die hohe Zuverlässigkeit erfordern
Bildungssysteme: Unterrichtsanwendungen, bei denen das Modell ehrlich seine Wissensgrenzen ausdrücken muss
Forschungsassistenten: Forschungsunterstützungswerkzeuge, die zwischen bekannten und unbekannten Wissensgrenzen unterscheiden müssen
Allgemeine KI-Systeme: Alle KI-Anwendungen, die Vertrauenswürdigkeit und Sicherheit verbessern müssen

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Literatur, hauptsächlich einschließlich:

Forschung zu Selbstwissen und Metakognition 1-7
Anwendung von Reinforcement Learning in LLMs 14, 22-24
Selbstverbesserungs- und Self-Play-Methoden 15, 30-32, 44-49
KI-Sicherheits- und Zuverlässigkeitsforschung 11-12, 16-17

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative und praktische Lösung für das wichtige Problem des Selbstwissens bei LLMs bietet. Obwohl es einige Einschränkungen gibt, sind seine Beiträge erheblich, die Methode neuartig und die experimentellen Ergebnisse überzeugend, mit großer Bedeutung für den Bereich der KI-Sicherheit.