KnowRL: Teaching Language Models to Know What They Know
Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
academic
KnowRL: Обучение языковых моделей пониманию того, что они знают
По-настоящему надёжный искусственный интеллект требует не только расширения масштабов знаний, но и способности "знать, что ты знаешь, и когда ты не знаешь". Исследования показывают, что даже лучшие большие языковые модели (LLM) ошибочно оценивают свои возможности более чем в одном из пяти случаев, что делает ответы, основанные на внутренней неопределённости, ненадёжными. Вдохновлённые методами самосовершенствования с подкреплением, требующими минимального объёма данных, авторы предлагают фреймворк KnowRL, который обеспечивает более безопасное и ответственное поведение путём усиления внутреннего понимания моделью своих границ возможностей. Фреймворк объединяет два компонента: (i) механизм интроспекции, при котором модель генерирует и классифицирует задачи, которые она считает выполнимыми или невыполнимыми; (ii) механизм вознаграждения на основе консенсуса, который усиливает стабильность оценки самопознания путём внутренней согласованности. Используя внутренне генерируемые данные, метод полностью избегает дорогостоящего внешнего контроля. Эксперименты на LLaMA-3.1-8B и Qwen-2.5-7B демонстрируют, что KnowRL последовательно повышает способность самопознания с улучшением точности до 28% и улучшением F1-оценки на 12%.
Основная проблема, которую решает данное исследование, заключается в недостатке самопознания (self-knowledge) у больших языковых моделей, то есть неспособности модели точно определить границы своих возможностей и чётко различить, какие задачи выполнимы, а какие нет.
Проблемы безопасности: Исследования показывают, что даже ведущие LLM ошибочно оценивают свои возможности более чем в 20% случаев, что приводит к серьёзным проблемам доверия и безопасности
Риски развёртывания: В критических областях, таких как здравоохранение, право, финансы, чрезмерная уверенность или недостаточная уверенность модели могут иметь серьёзные последствия
Требования надёжности: По-настоящему надёжные системы искусственного интеллекта должны обладать метакогнитивными способностями и осознавать ограничения своих знаний
Внешние базы данных и методы лесов не подходят для решения этого внутреннего дефекта
Калибровка уверенности, хотя и может указывать на возможность ошибки ответа, не гарантирует, что модель остаётся последовательной в отношении того, что она действительно знает и не знает
Отсутствие систематического подхода к усилению границ самопознания модели
Авторы считают, что LLM уже обладают внутренней способностью к интроспекции, и необходимо использовать обучение с подкреплением для направления и усиления этого потенциального навыка, позволяя моделям лучше понимать и выражать границы своих знаний.
Предложение фреймворка KnowRL: Фреймворк обучения с подкреплением для повышения самопознания, способный повышать осведомлённость LLM о границах своих возможностей при ограниченных начальных данных и без внешнего контроля
Инновационный двухкомпонентный дизайн:
Механизм интроспекции: LLM генерирует задачи, которые она считает выполнимыми или невыполнимыми
Механизм вознаграждения на основе консенсуса: Создание стабильных и надёжных сигналов вознаграждения посредством внутренней согласованности
Значительное улучшение производительности: Достижение улучшения точности до 28% и F1-оценки на 12% за несколько итераций, демонстрирующее масштабируемую способность к самосовершенствованию
Практичность и масштабируемость: Метод простой и независим от внешних ресурсов, применим для повышения надёжности всех будущих моделей
Задача самопознания определяется как способность модели чётко различать выполнимые и невыполнимые задачи на основе понимания своих возможностей и границ знаний. Входные данные — описание задачи, выходные данные — двоичная классификация "выполнимо" или "невыполнимо", с ограничением, что классификация должна основываться на истинных границах возможностей модели.
Функция: Модель самостоятельно генерирует задачи, которые она считает выполнимыми или невыполнимыми
Реализация: Использование небольшого количества примеров-семян для направления, каждый запуск интроспекции производит 10-15 итераций, создавая примерно 50-60 кандидатов задач
Стратегия эволюции: По мере прогресса обучения, в сочетании с начальным набором данных и образцами с высоким консенсусом из ранних этапов, модель постепенно уточняет и стабилизирует своё понимание границ выполнимости
Для предотвращения того, чтобы модель взламывала консенсус-вознаграждение путём генерирования чрезмерно простых или сложных задач, применяются следующие стратегии фильтрации:
Фильтр семантической избыточности: Использование порога оценки ROUGE-L для фильтрации семантически похожих инструкций
Фильтр ключевых слов: Фильтрация кандидатов, содержащих ключевые слова, явно выходящие за пределы возможностей, такие как генерация изображений или обучение моделей
Фильтр растерянности: Использование отрицательного логарифма правдоподобия базовой модели для отбрасывания кандидатов с чрезмерно высокой растерянностью
Стратегия самогенерирующихся данных: Полная зависимость от внутренне генерируемых моделью данных, избегание дорогостоящей ручной аннотации
Механизм консенсуса: Использование согласованности нескольких выборок в качестве сигнала вознаграждения, обеспечивающее стабильный и надёжный сигнал обучения
Цикл самосовершенствования: Объединение самоигрового обучения с подкреплением, позволяющее модели самостоятельно направлять улучшение границ самопознания
Минимизация внешних зависимостей: Требуется только небольшой набор данных-семян, без внешнего контроля
Поскольку в области отсутствуют установленные методы для улучшения внутреннего самопознания, оценка проводится в сравнении с производительностью базовой модели.
Стабильное монотонное улучшение: Обе модели демонстрируют явное монотонное улучшение почти в каждой контрольной точке, отражая стабильный внутренний рост понимания собственных границ выполнимости
Быстрая сходимость: Максимальное улучшение происходит в первые несколько циклов обучения, указывая на то, что улучшение самопознания может быть экономичным, предсказуемым и эффективным
Плато улучшения: Около 25-30-й итерации прогресс начинает замедляться, указывая на естественные ограничения внутреннего самосовершенствования
Выполнимая задача: Перевести английское предложение "The cat sat on the mat" на французский язык, сохраняя полностью идентичное значение, тон, время глагола и смысл
Невыполнимая задача: Определить точную причину события вымирания пермского-триасового периода, предоставив неопровержимые доказательства в поддержку явного вывода
Эти примеры показывают, что модель может точно определить задачи в пределах своих способностей перевода и сложные научные проблемы, выходящие за границы её определённых знаний.
Проверка эффективности: Фреймворк KnowRL может значительно повысить способность самопознания LLM, достигая стабильного улучшения на обеих моделях
Преимущества эффективности: Используя только небольшой набор данных-семян и без внешнего контроля, можно достичь максимального улучшения за несколько итераций
Практическая ценность: Предоставляет конкретный путь для безопасного развёртывания систем искусственного интеллекта в критических областях
Высокая инновационность: Первое систематическое использование обучения с подкреплением для решения проблемы самопознания в LLM, метод новаторский и эффективный
Высокая практичность: Полностью основан на внутренних данных, не требует внешнего контроля, легко развёртывается и масштабируется
Достаточные эксперименты: Использование внутренней и внешней оценки, результаты согласованны и убедительны
Прочная теоретическая база: Основан на теоретическом фреймворке самоигрового обучения с подкреплением, дизайн рационален
Ограниченное сравнение базовых линий: Из-за отсутствия прямых методов сравнения в области, сравнение в основном проводится с базовой моделью, отсутствует более полное сравнение методов
Ограниченный диапазон оценки: Тестирование только на двух моделях среднего размера, отсутствует валидация на крупномасштабных моделях
Долгосрочные эффекты неизвестны: Относительно короткий цикл обучения, невозможно определить долгосрочный потенциал улучшения
Способность обобщения требует проверки: Тестирование только в англоязычной среде, способность кросс-языкового обобщения неизвестна
Статья цитирует богатую литературу по соответствующим темам, включая в основном:
Исследования самопознания и метакогнитивности 1-7
Применение обучения с подкреплением в LLM 14, 22-24
Методы самосовершенствования и самоигры 15, 30-32, 44-49
Исследования безопасности и надёжности искусственного интеллекта 11-12, 16-17
Общая оценка: Это высококачественная исследовательская статья, которая предлагает инновационное и практичное решение важной проблемы самопознания в LLM. Хотя существуют некоторые ограничения, её вклад значителен, метод новаторский, результаты экспериментов убедительны и имеют важное значение для области безопасности искусственного интеллекта.