2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
academic

KnowRL: Sprachmodelle lehren, zu wissen, was sie wissen

Grundinformationen

  • Paper-ID: 2510.11407
  • Titel: KnowRL: Teaching Language Models to Know What They Know
  • Autoren: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11407

Zusammenfassung

Wirklich zuverlässige KI erfordert nicht nur die Erweiterung des Wissensspeichers, sondern auch die Fähigkeit, „zu wissen, was man weiß und wann man nicht weiß". Forschungen zeigen, dass selbst die besten großen Sprachmodelle in über einem Fünftel der Fälle ihre eigenen Fähigkeiten falsch einschätzen, was dazu führt, dass Reaktionen auf der Grundlage innerer Unsicherheit nicht vollständig vertrauenswürdig sind. Inspiriert durch Selbstverbesserungstechniken des Reinforcement Learning, die minimale Datenmengen erfordern, wird in diesem Papier das KnowRL-Framework vorgestellt, das sichereres und verantwortungsvolleres Verhalten durch Stärkung des inneren Verständnisses des Modells für seine eigenen Machbarkeitsgrenzen ermöglicht. Das Framework kombiniert zwei Komponenten: (i) einen Introspektionsmechanismus, bei dem das Modell Aufgaben generiert und klassifiziert, die es für machbar oder nicht machbar hält; (ii) einen konsensbasierten Belohnungsmechanismus, der die Stabilität der Selbstwissenseinschätzung durch innere Konsistenz verstärkt. Durch die Verwendung intern generierter Daten wird teure externe Überwachung vollständig vermieden. Experimente mit LLaMA-3.1-8B und Qwen-2.5-7B zeigen, dass KnowRL die Selbstwissenskapazität kontinuierlich verbessert, mit Genauigkeitssteigerungen von bis zu 28% und F1-Score-Verbesserungen von 12%.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung ist das Fehlen von Selbstwissen (Self-Knowledge) bei großen Sprachmodellen (LLMs), d.h. die Unfähigkeit des Modells, die Grenzen seiner eigenen Fähigkeiten genau zu erkennen und klar zu unterscheiden, welche Aufgaben machbar und welche nicht machbar sind.

Bedeutung des Problems

  1. Sicherheitsbedenken: Forschungen zeigen, dass selbst führende LLMs in über 20% der Fälle ihre eigenen Fähigkeiten falsch einschätzen, was zu ernsthaften Vertrauens- und Sicherheitsproblemen führt
  2. Bereitstellungsrisiken: In kritischen Bereichen wie Medizin, Recht und Finanzen können sowohl Überconfidence als auch Underconfidence des Modells schwerwiegende Folgen haben
  3. Zuverlässigkeitsanforderungen: Wirklich zuverlässige KI-Systeme benötigen Metakognitionsfähigkeiten und müssen die Grenzen ihres eigenen Wissens erkennen können

Einschränkungen bestehender Methoden

  1. Externe Datenbanken und Scaffolding-Techniken sind nicht geeignet, um diesen inneren Mangel zu beheben
  2. Konfidenzkalibration kann zwar anzeigen, dass eine Antwort möglicherweise falsch ist, garantiert aber nicht, dass das Modell konsistent bleibt, was es wirklich weiß und nicht weiß
  3. Fehlende systematische Methoden zur Verstärkung der Selbstwissens-Grenzen des Modells

Forschungsmotivation

Die Autoren vertreten die Ansicht, dass LLMs bereits intrinsische Introspektionsfähigkeiten besitzen und dass Reinforcement Learning erforderlich ist, um diese potenziellen Fähigkeiten zu lenken und zu verstärken, damit das Modell seine Wissensgrenzen besser verstehen und ausdrücken kann.

Kernbeiträge

  1. Vorstellung des KnowRL-Frameworks: Ein auf Reinforcement Learning basierendes Framework zur Verbesserung des Selbstwissens, das die Bewusstsein der Selbstwissens-Grenzen von LLMs mit begrenzten Anfangsdaten und ohne externe Überwachung verbessern kann
  2. Innovative Zweikomponenten-Gestaltung:
    • Introspektionsmechanismus: Das LLM generiert Probleme, die es für machbar oder nicht machbar hält
    • Konsensbasierter Belohnungsmechanismus: Erzeugt stabile und vertrauenswürdige Belohnungssignale durch innere Konsistenz
  3. Signifikante Leistungssteigerungen: Erreicht Genauigkeitssteigerungen von bis zu 28% und F1-Score-Verbesserungen von 12% in nur wenigen Iterationen und demonstriert skalierbare Selbstverbesserungsfähigkeiten
  4. Praktikabilität und Skalierbarkeit: Die Methode ist einfach und unabhängig von externen Ressourcen, anwendbar auf alle zukünftigen Modelle zur Zuverlässigkeitsverbesserung

Methodische Details

Aufgabendefinition

Die Selbstwissens-Aufgabe wird definiert als die Fähigkeit des Modells, basierend auf seinem Verständnis seiner eigenen Fähigkeiten und Wissensgrenzen, klar zwischen machbaren und nicht machbaren Aufgaben zu unterscheiden. Die Eingabe ist eine Aufgabenbeschreibung, die Ausgabe ist eine binäre Klassifizierung von „Machbar" oder „Nicht machbar", mit der Einschränkung, dass die Beurteilung auf den tatsächlichen Fähigkeitsgrenzen des Modells basieren sollte.

Modellarchitektur

Gesamtrahmen

Das KnowRL-Framework nutzt eine iterative Reinforcement-Learning-Trainingsschleife mit zwei Kernkomponenten:

![Framework](KnowRL-Framework wie in Abbildung 2 dargestellt)

1. Introspektionsmechanismus (Introspection)

  • Funktion: Das Modell generiert eigenständig Aufgaben, die es für machbar oder nicht machbar hält
  • Implementierung: Verwendet wenige Seed-Beispiele zur Anleitung, führt bei jeder Introspektionsausführung 10-15 Durchläufe durch und erzeugt etwa 50-60 Kandidatenaufgaben
  • Evolutionsstrategie: Mit Fortschritt der Trainingsschritte kombiniert das Modell den anfänglichen Datensatz und frühere hochkonsensuale Stichproben, um sein Verständnis der Machbarkeitsgrenzen schrittweise zu verfeinern und zu stabilisieren

2. Konsensbasierter Belohnungsmechanismus (Consensus-based Rewarding)

  • Ziel: Quantifizierung und Verstärkung der Selbstwissens-Konsistenz
  • Methode: Für jede Kandidatenaufgabe x werden k=8 unabhängige Selbstanalyseergebnisse {yi} extrahiert, wobei yi ∈ {Machbar, Nicht machbar}
  • Belohnungsberechnung:
    r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
    
    Die Belohnung ist der Anteil der Ausgaben, die mit dem Mehrheitslabel übereinstimmen, und misst direkt die innere Konsistenz der Machbarkeitsbewertung

3. Reward-Hacking-Filter

Um zu verhindern, dass das Modell die Konsensbelohnung durch die Generierung zu einfacher oder komplexer Aufgaben manipuliert, werden folgende Filterstrategien angewendet:

  • Semantische Redundanzfilterung: Verwendet ROUGE-L-Score-Schwellenwerte, um semantisch ähnliche Anweisungen zu filtern
  • Schlüsselwortfilterung: Filtert Kandidaten mit Schlüsselwörtern, die eindeutig außerhalb des Fähigkeitsbereichs liegen, wie Bildgenerierung oder Modelltraining
  • Perplexitätsfilterung: Verwendet die negative Log-Wahrscheinlichkeit des Basismodells und verwirft Kandidaten mit zu hoher Perplexität

Technische Innovationen

  1. Selbstgenerierte Datenstrategie: Verlässt sich vollständig auf intern vom Modell generierte Daten und vermeidet teure manuelle Annotation
  2. Konsensmechanismus: Nutzt die Konsistenz mehrfacher Stichproben als Belohnungssignal und bietet stabile und vertrauenswürdige Lernsignale
  3. Selbstverbesserungsschleife: Kombiniert Self-Play-Reinforcement-Learning, um das Modell zur Selbstverbesserung seiner Selbstwissens-Grenzen zu befähigen
  4. Minimierung externer Abhängigkeiten: Benötigt nur einen kleinen Seed-Datensatz ohne externe Überwachung

Experimentelle Einrichtung

Datensätze

  1. Seed-Datensatz: 100 validierte Beispiele (50 machbare Aufgaben, 50 nicht machbare Aufgaben), vom Modell selbst generiert und von Experten validiert
  2. Innere Bewertung: Verwendet selbstgenerierte Daten zur Bewertung der Generierungs-Validierungs-Konsistenz
  3. Äußere Bewertung: SelfAware-Datensatz mit beantwortbaren und nicht beantwortbaren Fragen sowie deren Erklärungen

Bewertungsmetriken

  1. Innere Bewertung: Genauigkeit (Accuracy) - misst die Konsistenz des Generierungs-Validierungsprozesses
  2. Äußere Bewertung: F1-Score - ausgewogene Präzision und Recall auf dem SelfAware-Datensatz

Vergleichsmethoden

Da es keine etablierten Methoden zur Verbesserung des inneren Selbstwissens gibt, wird die Leistung des Basismodells als Baseline verwendet.

Implementierungsdetails

  • Modelle: LLaMA-3.1-8B-Instruct und Qwen-2.5-7B-Instruct
  • RL-Algorithmus: Reinforce++-Algorithmus des OpenRLHF-Frameworks
  • Trainingsparameter:
    • Stichprobenzahl: k=8
    • Introspektionstemperatur: 1,0, Selbstanalystemperatur: 0,0
    • Lernrate: Actor 5×10⁻⁷, Critic 9×10⁻⁶
    • Gesamtiterationen: 30, Bewertung alle 5 Iterationen

Experimentelle Ergebnisse

Hauptergebnisse

Innere Bewertungsergebnisse

ModellIterationenGenauigkeit (%)Verbesserung (%)
LLaMA-3.1-8BBasismodell33,56-
30. Iteration42,99+9,43
Qwen-2.5-7BBasismodell39,22-
30. Iteration48,29+9,07

Äußere Bewertungsergebnisse (SelfAware-Datensatz)

ModellIterationenF1-Score (%)Verbesserung (%)
LLaMA-3.1-8BBasismodell56,12-
30. Iteration63,10+6,98
Qwen-2.5-7BBasismodell62,17-
30. Iteration68,29+6,12

Wichtigste Erkenntnisse

  1. Stabile monotone Verbesserung: Beide Modelle zeigen an fast jedem Kontrollpunkt eindeutige monotone Verbesserungen, was auf stabiles inneres Wachstum im Verständnis der eigenen Machbarkeitsgrenzen hindeutet
  2. Schnelle Konvergenz: Die größten Verbesserungen treten in den ersten Trainingszyklen auf, was zeigt, dass Selbstwissensverbesserung kostengünstig, vorhersehbar und effizient sein kann
  3. Verbesserungsplateau: Um die 25.-30. Iteration herum beginnt der Fortschritt zu stagnieren, was auf natürliche Grenzen der inneren Selbstverbesserung hindeutet

Fallstudienanalyse

Generierungsbeispiele von LLaMA-3.1-8B in der 25. Iteration:

  • Machbare Aufgabe: Übersetzen Sie den englischen Satz „The cat sat on the mat" ins Französische und bewahren Sie dabei die exakt gleiche Bedeutung, den Ton, die Verbform und die Bedeutung
  • Nicht machbare Aufgabe: Bestimmen Sie die genaue Ursache des Perm-Trias-Aussterbeereignisses und liefern Sie eine eindeutige, unwiderlegbar bewiesene Schlussfolgerung

Diese Beispiele zeigen, dass das Modell Aufgaben innerhalb seines Übersetzungsfähigkeitsbereichs genau identifizieren kann und komplexe wissenschaftliche Probleme, die über seine Grenzen des sicheren Wissens hinausgehen, erkennt.

Verwandte Arbeiten

Forschung zu Selbstwissen in LLMs

  1. Problemidentifikation: Mehrere Studien weisen auf Inkonsistenzen und Schwankungen bei LLMs im Bereich Selbstwissen hin
  2. Bewertungsmethoden:
    • Datensatzbasierte binäre Klassifizierung der Beantwortbarkeit
    • Innere Bewertung basierend auf innerer Konsistenz
    • Selbsterkenntnisforschung
  3. Verbesserungsmethoden: Self-Reflect, Unsicherheitsbewusste Anweisungsabstimmung usw.

Selbstverbesserung in LLMs

  1. Selbstrefinement-Methoden: Self-Refine lässt das LLM nach der Generierung einer anfänglichen Antwort Selbstkritik üben und iterativ verbessern
  2. Synthetische Datenmethoden: Self-Taught Evaluator, K2 usw. verwenden selbstgenerierte Reasoning-Aufgabensätze zum Training
  3. Reinforcement-Learning-Methoden: RLRF, R-Zero, SeRL usw. verwenden Nachbearbeitungsverstärkung oder Belohnungssignale

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Validierung der Wirksamkeit: Das KnowRL-Framework kann die Selbstwissenskapazität von LLMs erheblich verbessern und erreicht stabile Verbesserungen bei beiden Modellen
  2. Effizienzvorteile: Mit nur einem kleinen Seed-Datensatz und ohne externe Überwachung können maximale Verbesserungen in wenigen Iterationen erreicht werden
  3. Praktischer Wert: Bietet einen konkreten Weg zur sicheren Bereitstellung von KI-Systemen in kritischen Bereichen

Einschränkungen

  1. Einsprachige Einschränkung: Alle Experimente wurden nur in englischer Sprache durchgeführt, die Wirksamkeit in mehrsprachigen und ressourcenknappen Umgebungen ist unbekannt
  2. Trainingsbereichsbeschränkung: Aufgrund von Rechenbeschränkungen konnte die Leistung über 30 Iterationen hinaus nicht untersucht werden
  3. Skalierungsunsicherheit: Die Bewertung ist auf Modelle mit weniger als 8B Parametern beschränkt, die Skalierbarkeit auf größere Modelle ist unbekannt

Zukünftige Richtungen

  1. Mehrsprachige Erweiterung: Testen Sie die Wirksamkeit des Frameworks in verschiedenen Sprachen und kulturellen Kontexten
  2. Langfristiges Training: Erkunden Sie die Leistung und Verbesserungspotenziale über längere Trainingszyklen
  3. Großflächige Validierung: Validieren Sie die Skalierbarkeit der Methode auf Modellen mit größeren Parametern
  4. Domänenspezifische Anpassung: Selbstwissensverbesserung für spezifische Bereiche (z.B. Medizin, Recht)

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste systematische Anwendung von Reinforcement Learning zur Lösung des Selbstwissensproblems bei LLMs, neuartige und effektive Methode
  2. Hohe Praktikabilität: Vollständig auf internen Daten basierend, keine externe Überwachung erforderlich, leicht bereitzustellen und zu skalieren
  3. Umfangreiche Experimente: Verwendet innere und äußere Bewertungsmethoden, Ergebnisse sind konsistent und überzeugend
  4. Solide theoretische Grundlagen: Basiert auf theoretischem Rahmen des Self-Play-Reinforcement-Learning mit vernünftiger Gestaltung

Mängel

  1. Begrenzte Baseline-Vergleiche: Da es im Bereich keine direkten Vergleichsmethoden gibt, erfolgt der Vergleich hauptsächlich mit dem Basismodell, es fehlen umfassendere Methodenvergleiche
  2. Begrenzte Bewertungsreichweite: Nur auf zwei mittelgroßen Modellen getestet, Validierung auf großen Modellen fehlt
  3. Langzeiteffekte unbekannt: Der Trainingszyklus ist relativ kurz, das langfristige Verbesserungspotenzial kann nicht bestimmt werden
  4. Generalisierungsfähigkeit zu validieren: Nur in englischer Sprache getestet, sprachübergreifende Generalisierungsfähigkeit unbekannt

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtungen und Methodenrahmen für den Bereich KI-Sicherheit
  2. Praktischer Wert: Bietet machbare Lösungen für die Bereitstellung zuverlässigerer KI-Systeme in der Praxis
  3. Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code und Daten, was der Forschungsgemeinschaft folgen kann
  4. Inspirationswert: Demonstriert das Potenzial der Selbstverbesserung von LLMs und kann weitere verwandte Forschung inspirieren

Anwendungsszenarien

  1. Hochrisikoapplikationen: Medizinische Diagnose, Rechtsberatung, Finanzentscheidungen und andere Bereiche, die hohe Zuverlässigkeit erfordern
  2. Bildungssysteme: Unterrichtsanwendungen, bei denen das Modell ehrlich seine Wissensgrenzen ausdrücken muss
  3. Forschungsassistenten: Forschungsunterstützungswerkzeuge, die zwischen bekannten und unbekannten Wissensgrenzen unterscheiden müssen
  4. Allgemeine KI-Systeme: Alle KI-Anwendungen, die Vertrauenswürdigkeit und Sicherheit verbessern müssen

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Literatur, hauptsächlich einschließlich:

  1. Forschung zu Selbstwissen und Metakognition 1-7
  2. Anwendung von Reinforcement Learning in LLMs 14, 22-24
  3. Selbstverbesserungs- und Self-Play-Methoden 15, 30-32, 44-49
  4. KI-Sicherheits- und Zuverlässigkeitsforschung 11-12, 16-17

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative und praktische Lösung für das wichtige Problem des Selbstwissens bei LLMs bietet. Obwohl es einige Einschränkungen gibt, sind seine Beiträge erheblich, die Methode neuartig und die experimentellen Ergebnisse überzeugend, mit großer Bedeutung für den Bereich der KI-Sicherheit.