2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
academic

KnowRL: Enseñando a los Modelos de Lenguaje a Saber Lo Que Saben

Información Básica

  • ID del Artículo: 2510.11407
  • Título: KnowRL: Teaching Language Models to Know What They Know
  • Autores: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11407

Resumen

La verdadera confiabilidad de la IA no solo requiere expandir la escala del conocimiento, sino también poseer la capacidad de "saber qué se sabe y cuándo no se sabe". La investigación demuestra que incluso los mejores modelos de lenguaje grande (LLMs) juzgan erróneamente sus propias capacidades en más del veinte por ciento de los casos, lo que hace que las respuestas basadas en incertidumbre intrínseca no sean completamente confiables. Inspirado por técnicas de aprendizaje por refuerzo de auto-mejora que requieren datos mínimos, este artículo propone el marco KnowRL, que logra un comportamiento más seguro y responsable mediante el fortalecimiento de la comprensión intrínseca del modelo sobre sus propios límites de viabilidad. El marco combina dos componentes: (i) un mecanismo de introspección, donde el modelo genera y clasifica tareas que considera viables o inviables; (ii) un mecanismo de recompensa basado en consenso, que refuerza la estabilidad de la evaluación del auto-conocimiento a través de la consistencia interna. Al utilizar datos generados internamente, se evita completamente la supervisión externa costosa. Los experimentos en LLaMA-3.1-8B y Qwen-2.5-7B demuestran que KnowRL mejora consistentemente la capacidad de auto-conocimiento, con mejoras de precisión de hasta el 28% y mejoras de puntuación F1 del 12%.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es la falta de auto-conocimiento (self-knowledge) en los modelos de lenguaje grande, es decir, la incapacidad del modelo para identificar con precisión los límites de sus propias capacidades y no poder distinguir claramente qué tareas son viables y cuáles no.

Importancia del Problema

  1. Preocupaciones de Seguridad: La investigación demuestra que incluso los LLMs líderes juzgan erróneamente sus propias capacidades en más del 20% de los casos, lo que genera problemas graves de confianza y seguridad
  2. Riesgos de Implementación: En campos críticos como medicina, derecho y finanzas, tanto la excesiva confianza como la insuficiente confianza del modelo pueden tener consecuencias graves
  3. Requisitos de Confiabilidad: Los sistemas de IA verdaderamente confiables necesitan poseer capacidades metacognitivas y ser capaces de reconocer las limitaciones de su propio conocimiento

Limitaciones de Métodos Existentes

  1. Bases de datos externas y técnicas de andamiaje no son adecuadas para resolver este defecto intrínseco
  2. La calibración de confianza, aunque puede indicar que una respuesta es probablemente incorrecta, no garantiza que el modelo mantenga consistencia sobre qué realmente sabe y no sabe
  3. Falta de un enfoque sistemático para reforzar los límites del auto-conocimiento del modelo

Motivación de la Investigación

Los autores creen que los LLMs ya poseen intrínsecamente capacidades de introspección y necesitan ser guiados y reforzados a través del aprendizaje por refuerzo para potenciar estas capacidades latentes, permitiendo que el modelo comprenda y exprese mejor sus propios límites de conocimiento.

Contribuciones Principales

  1. Propuesta del Marco KnowRL: Un marco de mejora del auto-conocimiento basado en aprendizaje por refuerzo que puede mejorar la conciencia de los límites del auto-conocimiento de los LLMs con datos iniciales limitados y sin supervisión externa
  2. Diseño Innovador de Dos Componentes:
    • Mecanismo de Introspección: El LLM genera problemas que considera viables o inviables
    • Mecanismo de Recompensa Basado en Consenso: Genera señales de recompensa estables y confiables a través de consistencia interna
  3. Mejoras de Rendimiento Significativas: Logra mejoras de precisión de hasta el 28% y mejoras de puntuación F1 del 12% en solo algunas iteraciones, demostrando capacidades de auto-mejora escalables
  4. Practicidad y Escalabilidad: El método es simple e independiente de recursos externos, aplicable al mejoramiento de confiabilidad de todos los modelos futuros

Explicación Detallada del Método

Definición de Tarea

La tarea de auto-conocimiento se define como la capacidad del modelo de distinguir claramente entre tareas viables e inviables basándose en la comprensión de sus propias capacidades y límites de conocimiento. La entrada es una descripción de tarea, la salida es un juicio de clasificación binaria de "viable" o "inviable", con la restricción de que el juicio debe basarse en los verdaderos límites de capacidad del modelo.

Arquitectura del Modelo

Marco General

El marco KnowRL emplea un ciclo de entrenamiento iterativo de aprendizaje por refuerzo que contiene dos componentes principales:

![Marco](Marco KnowRL mostrado en la Figura 2)

1. Mecanismo de Introspección (Introspection)

  • Funcionalidad: El modelo genera autónomamente tareas que considera viables o inviables
  • Implementación: Utiliza algunos ejemplos semilla para guiar, ejecutando 10-15 ejecuciones de introspección cada vez, produciendo aproximadamente 50-60 tareas candidatas
  • Estrategia de Evolución: A medida que avanza el entrenamiento, combinando el conjunto de datos inicial y muestras de alto consenso de etapas anteriores, el modelo refina y estabiliza gradualmente su comprensión de los límites de viabilidad

2. Mecanismo de Recompensa Basado en Consenso (Consensus-based Rewarding)

  • Objetivo: Cuantificar y reforzar la consistencia del auto-conocimiento
  • Método: Para cada tarea candidata x, se extraen k=8 salidas de auto-análisis independientes {yi}, donde yi ∈ {Viable, Inviable}
  • Cálculo de Recompensa:
    r(x) = (1/k) * Σ[yi = Mayoría{y1, ..., yk}]
    
    La recompensa es la proporción de salidas que coinciden con la etiqueta mayoritaria, midiendo directamente la consistencia interna de la evaluación de viabilidad

3. Filtro de Prevención de Explotación de Recompensa

Para prevenir que el modelo explote la recompensa de consenso generando tareas demasiado simples o complejas, se emplean las siguientes estrategias de filtrado:

  • Filtrado de Redundancia Semántica: Utiliza un umbral de puntuación ROUGE-L para filtrar instrucciones semánticamente similares
  • Filtrado de Palabras Clave: Filtra palabras clave que indican generación de imágenes, entrenamiento de modelos y otras capacidades claramente fuera del alcance
  • Filtrado de Perplejidad: Utiliza la probabilidad logarítmica negativa del modelo base, descartando candidatos con perplejidad excesivamente alta

Puntos de Innovación Técnica

  1. Estrategia de Datos Auto-Generados: Depende completamente de datos generados internamente por el modelo, evitando anotaciones manuales costosas
  2. Mecanismo de Consenso: Utiliza la consistencia de múltiples muestreos como señal de recompensa, proporcionando una señal de aprendizaje estable y confiable
  3. Ciclo de Auto-Mejora: Combina aprendizaje por refuerzo de auto-juego, permitiendo que el modelo se auto-guíe en la mejora de los límites del auto-conocimiento
  4. Minimización de Dependencias Externas: Solo requiere un conjunto de datos semilla de pequeña escala, sin necesidad de supervisión externa

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de Datos Semilla: 100 ejemplos validados (50 tareas viables, 50 tareas inviables), generados por el propio modelo y verificados por expertos
  2. Evaluación Intrínseca: Utiliza datos auto-generados para evaluar la consistencia del proceso de generación-verificación
  3. Evaluación Extrínseca: Conjunto de datos SelfAware, que contiene preguntas respondibles e inrespondibles con explicaciones

Métricas de Evaluación

  1. Evaluación Intrínseca: Precisión (Accuracy) - mide la consistencia del proceso de generación-verificación
  2. Evaluación Extrínseca: Puntuación F1 - equilibrio entre precisión y exhaustividad en el conjunto de datos SelfAware

Métodos de Comparación

Debido a la falta de métodos establecidos para la mejora intrínseca del auto-conocimiento, se utiliza el rendimiento del modelo base como línea de base para la evaluación.

Detalles de Implementación

  • Modelos: LLaMA-3.1-8B-Instruct y Qwen-2.5-7B-Instruct
  • Algoritmo RL: Algoritmo Reinforce++ del marco OpenRLHF
  • Parámetros de Entrenamiento:
    • Número de muestreos: k=8
    • Temperatura de introspección: 1.0, temperatura de auto-análisis: 0.0
    • Tasa de aprendizaje: Actor 5×10⁻⁷, Crítico 9×10⁻⁶
    • Iteraciones totales: 30, evaluación cada 5 iteraciones

Resultados Experimentales

Resultados Principales

Resultados de Evaluación Intrínseca

ModeloIteracionesPrecisión (%)Mejora (%)
LLaMA-3.1-8BModelo Base33.56-
Iteración 3042.99+9.43
Qwen-2.5-7BModelo Base39.22-
Iteración 3048.29+9.07

Resultados de Evaluación Extrínseca (Conjunto de Datos SelfAware)

ModeloIteracionesPuntuación F1 (%)Mejora (%)
LLaMA-3.1-8BModelo Base56.12-
Iteración 3063.10+6.98
Qwen-2.5-7BModelo Base62.17-
Iteración 3068.29+6.12

Hallazgos Clave

  1. Mejora Monótona Estable: Ambos modelos muestran mejora clara y monótona en casi todos los puntos de verificación, reflejando un crecimiento intrínseco estable en la comprensión de los límites de viabilidad propios
  2. Convergencia Rápida: La mejora máxima ocurre en los primeros ciclos de entrenamiento, indicando que la mejora del auto-conocimiento puede ser de bajo costo, predecible y eficiente
  3. Meseta de Mejora: Alrededor de las iteraciones 25-30, el progreso comienza a estabilizarse, indicando que existe un límite natural en la auto-mejora intrínseca

Análisis de Casos

Ejemplos Generados en la Iteración 25 de LLaMA-3.1-8B:

  • Tarea Viable: Traducir la oración en inglés "The cat sat on the mat" al francés, manteniendo exactamente el mismo significado, matiz, tiempo verbal y significado
  • Tarea Inviable: Determinar la causa exacta del evento de extinción del Pérmico-Triásico, proporcionando una conclusión clara respaldada por evidencia irrefutable

Estos ejemplos demuestran que el modelo puede identificar con precisión tareas dentro del alcance de sus capacidades de traducción y problemas científicos complejos que superan sus límites de conocimiento determinista.

Trabajo Relacionado

Investigación del Auto-Conocimiento en LLMs

  1. Identificación de Problemas: Múltiples estudios señalan la inconsistencia y vacilación de los LLMs en el auto-conocimiento
  2. Métodos de Evaluación:
    • Evaluación de clasificación binaria de respondibilidad basada en conjuntos de datos
    • Evaluación intrínseca basada en consistencia interna
    • Investigación de auto-conciencia
  3. Métodos de Mejora: Self-Reflect, ajuste fino consciente de la incertidumbre, etc.

Auto-Mejora en LLMs

  1. Métodos de Auto-Refinamiento: Self-Refine permite que el LLM genere una respuesta inicial y luego se auto-critique e itere para mejorar
  2. Métodos de Datos Sintéticos: Self-Taught Evaluator, K2 y otros utilizan conjuntos de tareas de razonamiento auto-generadas para entrenamiento
  3. Métodos de Aprendizaje por Refuerzo: RLRF, R-Zero, SeRL y otros utilizan refuerzo posterior o señales de recompensa

Conclusiones y Discusión

Conclusiones Principales

  1. Validación de Efectividad: El marco KnowRL puede mejorar significativamente la capacidad de auto-conocimiento de los LLMs, logrando mejoras consistentes en ambos modelos
  2. Ventajas de Eficiencia: Utilizando solo un conjunto de datos semilla de pequeña escala y sin supervisión externa, se logran mejoras máximas en solo algunas iteraciones
  3. Valor Práctico: Proporciona un camino concreto para la implementación segura de sistemas de IA en campos críticos

Limitaciones

  1. Limitación Monolingüe: Todos los experimentos se realizan solo en entornos en inglés, con efectos desconocidos en entornos multilingües y de recursos limitados
  2. Restricción del Rango de Entrenamiento: Debido a restricciones computacionales, no se pueden explorar rendimientos más allá de 30 iteraciones
  3. Incertidumbre de Escala: La evaluación se limita a modelos con parámetros inferiores a 8B, con escalabilidad desconocida a modelos más grandes

Direcciones Futuras

  1. Expansión Multilingüe: Probar la efectividad del marco en diferentes idiomas y contextos culturales
  2. Entrenamiento a Largo Plazo: Explorar el rendimiento y el potencial de mejora bajo ciclos de entrenamiento más largos
  3. Validación a Gran Escala: Verificar la escalabilidad del método en modelos con parámetros de mayor escala
  4. Especialización por Dominio: Mejora del auto-conocimiento específica para dominios particulares (como medicina y derecho)

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación sistemática del aprendizaje por refuerzo para resolver el problema del auto-conocimiento en LLMs, método novedoso y efectivo
  2. Alta Practicidad: Completamente basado en datos internos, sin necesidad de supervisión externa, fácil de implementar y escalar
  3. Experimentación Suficiente: Utiliza evaluación intrínseca y extrínseca, resultados consistentes y convincentes
  4. Base Teórica Sólida: Marco teórico basado en aprendizaje por refuerzo de auto-juego, diseño razonable

Insuficiencias

  1. Comparación de Líneas de Base Limitada: Debido a la falta de métodos de comparación directa en el campo, principalmente se compara con el modelo base, faltando comparaciones de métodos más completas
  2. Rango de Evaluación Limitado: Pruebas solo en dos modelos de tamaño medio, faltando validación en modelos de gran escala
  3. Efectos a Largo Plazo Desconocidos: El ciclo de entrenamiento es relativamente corto, no se puede determinar el potencial de mejora a largo plazo
  4. Capacidad de Generalización Pendiente de Verificación: Solo probado en entornos en inglés, capacidad de generalización entre idiomas desconocida

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación y marco de métodos para el campo de la seguridad de la IA
  2. Valor Práctico: Proporciona una solución viable para la implementación de sistemas de IA más confiables
  3. Reproducibilidad: Los autores se comprometen a publicar código y datos, facilitando el seguimiento por parte de la comunidad investigadora
  4. Significado Inspirador: Demuestra el potencial de auto-mejora de los LLMs, que puede inspirar más investigación relacionada

Escenarios Aplicables

  1. Aplicaciones de Alto Riesgo: Diagnóstico médico, asesoramiento legal, toma de decisiones financieras y otros campos que requieren alta confiabilidad
  2. Sistemas Educativos: Aplicaciones de enseñanza que requieren que el modelo exprese honestamente los límites de su conocimiento
  3. Asistentes de Investigación: Herramientas de asistencia de investigación que necesitan distinguir entre conocimiento conocido y desconocido
  4. Sistemas de IA General: Cualquier aplicación de IA que necesite mejorar la confiabilidad y seguridad

Referencias

El artículo cita literatura relacionada abundante, incluyendo principalmente:

  1. Investigación relacionada con auto-conocimiento y metacognición 1-7
  2. Aplicaciones de aprendizaje por refuerzo en LLMs 14, 22-24
  3. Métodos de auto-mejora y auto-juego 15, 30-32, 44-49
  4. Investigación de seguridad y confiabilidad de IA 11-12, 16-17

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora y práctica para el importante problema del auto-conocimiento en LLMs. Aunque tiene algunas limitaciones, sus contribuciones son significativas, el método es novedoso, los resultados experimentales son convincentes y tiene importancia significativa para el campo de la seguridad de la IA.