2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami

Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.

academic

KnowRL: Обучение языковых моделей пониманию того, что они знают

Основная информация

ID статьи: 2510.11407
Название: KnowRL: Teaching Language Models to Know What They Know
Авторы: Sahil Kale (KnowledgeVerse AI), Devendra Singh Dhami (TU Eindhoven)
Классификация: cs.CL cs.AI
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.11407

Аннотация

По-настоящему надёжный искусственный интеллект требует не только расширения масштабов знаний, но и способности "знать, что ты знаешь, и когда ты не знаешь". Исследования показывают, что даже лучшие большие языковые модели (LLM) ошибочно оценивают свои возможности более чем в одном из пяти случаев, что делает ответы, основанные на внутренней неопределённости, ненадёжными. Вдохновлённые методами самосовершенствования с подкреплением, требующими минимального объёма данных, авторы предлагают фреймворк KnowRL, который обеспечивает более безопасное и ответственное поведение путём усиления внутреннего понимания моделью своих границ возможностей. Фреймворк объединяет два компонента: (i) механизм интроспекции, при котором модель генерирует и классифицирует задачи, которые она считает выполнимыми или невыполнимыми; (ii) механизм вознаграждения на основе консенсуса, который усиливает стабильность оценки самопознания путём внутренней согласованности. Используя внутренне генерируемые данные, метод полностью избегает дорогостоящего внешнего контроля. Эксперименты на LLaMA-3.1-8B и Qwen-2.5-7B демонстрируют, что KnowRL последовательно повышает способность самопознания с улучшением точности до 28% и улучшением F1-оценки на 12%.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование, заключается в недостатке самопознания (self-knowledge) у больших языковых моделей, то есть неспособности модели точно определить границы своих возможностей и чётко различить, какие задачи выполнимы, а какие нет.

Значимость проблемы

Проблемы безопасности: Исследования показывают, что даже ведущие LLM ошибочно оценивают свои возможности более чем в 20% случаев, что приводит к серьёзным проблемам доверия и безопасности
Риски развёртывания: В критических областях, таких как здравоохранение, право, финансы, чрезмерная уверенность или недостаточная уверенность модели могут иметь серьёзные последствия
Требования надёжности: По-настоящему надёжные системы искусственного интеллекта должны обладать метакогнитивными способностями и осознавать ограничения своих знаний

Ограничения существующих методов

Внешние базы данных и методы лесов не подходят для решения этого внутреннего дефекта
Калибровка уверенности, хотя и может указывать на возможность ошибки ответа, не гарантирует, что модель остаётся последовательной в отношении того, что она действительно знает и не знает
Отсутствие систематического подхода к усилению границ самопознания модели

Исследовательская мотивация

Авторы считают, что LLM уже обладают внутренней способностью к интроспекции, и необходимо использовать обучение с подкреплением для направления и усиления этого потенциального навыка, позволяя моделям лучше понимать и выражать границы своих знаний.

Основной вклад

Предложение фреймворка KnowRL: Фреймворк обучения с подкреплением для повышения самопознания, способный повышать осведомлённость LLM о границах своих возможностей при ограниченных начальных данных и без внешнего контроля
Инновационный двухкомпонентный дизайн:
- Механизм интроспекции: LLM генерирует задачи, которые она считает выполнимыми или невыполнимыми
- Механизм вознаграждения на основе консенсуса: Создание стабильных и надёжных сигналов вознаграждения посредством внутренней согласованности
Значительное улучшение производительности: Достижение улучшения точности до 28% и F1-оценки на 12% за несколько итераций, демонстрирующее масштабируемую способность к самосовершенствованию
Практичность и масштабируемость: Метод простой и независим от внешних ресурсов, применим для повышения надёжности всех будущих моделей

Подробное описание методологии

Определение задачи

Задача самопознания определяется как способность модели чётко различать выполнимые и невыполнимые задачи на основе понимания своих возможностей и границ знаний. Входные данные — описание задачи, выходные данные — двоичная классификация "выполнимо" или "невыполнимо", с ограничением, что классификация должна основываться на истинных границах возможностей модели.

Архитектура модели

Общий фреймворк

Фреймворк KnowRL использует итеративный цикл обучения с подкреплением, содержащий два основных компонента:

![Фреймворк](Фреймворк KnowRL, показанный на рисунке 2)

1. Механизм интроспекции (Introspection)

Функция: Модель самостоятельно генерирует задачи, которые она считает выполнимыми или невыполнимыми
Реализация: Использование небольшого количества примеров-семян для направления, каждый запуск интроспекции производит 10-15 итераций, создавая примерно 50-60 кандидатов задач
Стратегия эволюции: По мере прогресса обучения, в сочетании с начальным набором данных и образцами с высоким консенсусом из ранних этапов, модель постепенно уточняет и стабилизирует своё понимание границ выполнимости

2. Механизм вознаграждения на основе консенсуса (Consensus-based Rewarding)

Цель: Количественно оценить и усилить согласованность самопознания
Метод: Для каждой кандидат-задачи x извлекаются k=8 независимых выходов самоанализа {yi}, где yi ∈ {Feasible, Infeasible}
Расчёт вознаграждения:
```
r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
```
Вознаграждение представляет собой долю выходов, согласующихся с большинством, непосредственно измеряя внутреннюю согласованность оценки выполнимости

3. Фильтр защиты от взлома вознаграждения

Для предотвращения того, чтобы модель взламывала консенсус-вознаграждение путём генерирования чрезмерно простых или сложных задач, применяются следующие стратегии фильтрации:

Фильтр семантической избыточности: Использование порога оценки ROUGE-L для фильтрации семантически похожих инструкций
Фильтр ключевых слов: Фильтрация кандидатов, содержащих ключевые слова, явно выходящие за пределы возможностей, такие как генерация изображений или обучение моделей
Фильтр растерянности: Использование отрицательного логарифма правдоподобия базовой модели для отбрасывания кандидатов с чрезмерно высокой растерянностью

Технические инновации

Стратегия самогенерирующихся данных: Полная зависимость от внутренне генерируемых моделью данных, избегание дорогостоящей ручной аннотации
Механизм консенсуса: Использование согласованности нескольких выборок в качестве сигнала вознаграждения, обеспечивающее стабильный и надёжный сигнал обучения
Цикл самосовершенствования: Объединение самоигрового обучения с подкреплением, позволяющее модели самостоятельно направлять улучшение границ самопознания
Минимизация внешних зависимостей: Требуется только небольшой набор данных-семян, без внешнего контроля

Экспериментальная установка

Наборы данных

Набор данных-семян: 100 проверенных примеров (50 выполнимых задач, 50 невыполнимых задач), самостоятельно сгенерированные моделью и проверенные экспертами
Внутренняя оценка: Использование самогенерируемых данных для оценки согласованности процесса генерирования-проверки
Внешняя оценка: Набор данных SelfAware, содержащий отвечаемые и неотвечаемые вопросы с объяснениями

Метрики оценки

Внутренняя оценка: Точность (Accuracy) — измерение согласованности процесса генерирования-проверки
Внешняя оценка: F1-оценка — сбалансированная точность и полнота на наборе данных SelfAware

Методы сравнения

Поскольку в области отсутствуют установленные методы для улучшения внутреннего самопознания, оценка проводится в сравнении с производительностью базовой модели.

Детали реализации

Модели: LLaMA-3.1-8B-Instruct и Qwen-2.5-7B-Instruct
Алгоритм RL: Алгоритм Reinforce++ из фреймворка OpenRLHF
Параметры обучения:
- Количество выборок: k=8
- Температура интроспекции: 1.0, температура самоанализа: 0.0
- Скорость обучения: Actor 5×10⁻⁷, Critic 9×10⁻⁶
- Общее количество итераций: 30, оценка каждые 5 итераций

Результаты экспериментов

Основные результаты

Результаты внутренней оценки

Модель	Итерация	Точность (%)	Улучшение (%)
LLaMA-3.1-8B	Базовая модель	33.56	-
	30-я итерация	42.99	+9.43
Qwen-2.5-7B	Базовая модель	39.22	-
	30-я итерация	48.29	+9.07

Результаты внешней оценки (набор данных SelfAware)

Модель	Итерация	F1-оценка (%)	Улучшение (%)
LLaMA-3.1-8B	Базовая модель	56.12	-
	30-я итерация	63.10	+6.98
Qwen-2.5-7B	Базовая модель	62.17	-
	30-я итерация	68.29	+6.12

Ключевые находки

Стабильное монотонное улучшение: Обе модели демонстрируют явное монотонное улучшение почти в каждой контрольной точке, отражая стабильный внутренний рост понимания собственных границ выполнимости
Быстрая сходимость: Максимальное улучшение происходит в первые несколько циклов обучения, указывая на то, что улучшение самопознания может быть экономичным, предсказуемым и эффективным
Плато улучшения: Около 25-30-й итерации прогресс начинает замедляться, указывая на естественные ограничения внутреннего самосовершенствования

Анализ примеров

Примеры, сгенерированные LLaMA-3.1-8B на 25-й итерации:

Выполнимая задача: Перевести английское предложение "The cat sat on the mat" на французский язык, сохраняя полностью идентичное значение, тон, время глагола и смысл
Невыполнимая задача: Определить точную причину события вымирания пермского-триасового периода, предоставив неопровержимые доказательства в поддержку явного вывода

Эти примеры показывают, что модель может точно определить задачи в пределах своих способностей перевода и сложные научные проблемы, выходящие за границы её определённых знаний.

Связанные работы

Исследования самопознания в LLM

Выявление проблем: Многочисленные исследования указывают на непоследовательность и колебания LLM в отношении самопознания
Методы оценки:
- Двоичная классификация отвечаемости на основе набора данных
- Внутренняя оценка на основе внутренней согласованности
- Исследования самосознания
Методы улучшения: Self-Reflect, обучение с учётом неопределённости и другие

Самосовершенствование в LLM

Методы самоуточнения: Self-Refine позволяет LLM генерировать начальный ответ, а затем выполнять самокритику и итеративное улучшение
Методы синтетических данных: Self-Taught Evaluator, K2 и другие используют самогенерируемые наборы задач рассуждений для обучения
Методы обучения с подкреплением: RLRF, R-Zero, SeRL и другие используют постобработку с подкреплением или сигналы вознаграждения

Выводы и обсуждение

Основные выводы

Проверка эффективности: Фреймворк KnowRL может значительно повысить способность самопознания LLM, достигая стабильного улучшения на обеих моделях
Преимущества эффективности: Используя только небольшой набор данных-семян и без внешнего контроля, можно достичь максимального улучшения за несколько итераций
Практическая ценность: Предоставляет конкретный путь для безопасного развёртывания систем искусственного интеллекта в критических областях

Ограничения

Ограничение одного языка: Все эксперименты проводились только в англоязычной среде, эффективность в многоязычной и низкоресурсной среде неизвестна
Ограничение диапазона обучения: Из-за вычислительных ограничений невозможно исследовать производительность за пределами 30 итераций
Неопределённость масштабирования: Оценка ограничена моделями с параметрами менее 8B, масштабируемость на более крупные модели неизвестна

Направления будущих исследований

Многоязычное расширение: Тестирование эффективности фреймворка в различных языках и культурных контекстах
Долгосрочное обучение: Исследование производительности и потенциала улучшения при более длительных циклах обучения
Крупномасштабная валидация: Проверка масштабируемости метода на моделях с большим количеством параметров
Специализация по доменам: Улучшение самопознания для конкретных областей (например, здравоохранение, право)

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое использование обучения с подкреплением для решения проблемы самопознания в LLM, метод новаторский и эффективный
Высокая практичность: Полностью основан на внутренних данных, не требует внешнего контроля, легко развёртывается и масштабируется
Достаточные эксперименты: Использование внутренней и внешней оценки, результаты согласованны и убедительны
Прочная теоретическая база: Основан на теоретическом фреймворке самоигрового обучения с подкреплением, дизайн рационален

Недостатки

Ограниченное сравнение базовых линий: Из-за отсутствия прямых методов сравнения в области, сравнение в основном проводится с базовой моделью, отсутствует более полное сравнение методов
Ограниченный диапазон оценки: Тестирование только на двух моделях среднего размера, отсутствует валидация на крупномасштабных моделях
Долгосрочные эффекты неизвестны: Относительно короткий цикл обучения, невозможно определить долгосрочный потенциал улучшения
Способность обобщения требует проверки: Тестирование только в англоязычной среде, способность кросс-языкового обобщения неизвестна

Влияние

Академический вклад: Предоставляет новое направление исследований и методологический фреймворк для области безопасности искусственного интеллекта
Практическая ценность: Предоставляет осуществимое решение для развёртывания более надёжных систем искусственного интеллекта на практике
Воспроизводимость: Авторы обещают опубликовать код и данные, что способствует последующим исследованиям научного сообщества
Вдохновляющее значение: Демонстрирует потенциал самосовершенствования LLM, может вдохновить больше связанных исследований

Применимые сценарии

Высокорисковые приложения: Медицинская диагностика, юридические консультации, финансовые решения и другие области, требующие высокой надёжности
Образовательные системы: Приложения обучения, требующие, чтобы модель честно выражала границы своих знаний
Научные помощники: Инструменты исследовательской поддержки, требующие различения известных и неизвестных границ знаний
Системы универсального искусственного интеллекта: Любые приложения искусственного интеллекта, требующие повышения доверия и безопасности

Библиография

Статья цитирует богатую литературу по соответствующим темам, включая в основном:

Исследования самопознания и метакогнитивности 1-7
Применение обучения с подкреплением в LLM 14, 22-24
Методы самосовершенствования и самоигры 15, 30-32, 44-49
Исследования безопасности и надёжности искусственного интеллекта 11-12, 16-17

Общая оценка: Это высококачественная исследовательская статья, которая предлагает инновационное и практичное решение важной проблемы самопознания в LLM. Хотя существуют некоторые ограничения, её вклад значителен, метод новаторский, результаты экспериментов убедительны и имеют важное значение для области безопасности искусственного интеллекта.