Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- ID статьи: 2511.04902
- Название: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- Авторы: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- Классификация: cs.LG, cs.AI
- Конференция: NeurIPS 2025 Workshop: MATH-AI
- Ссылка на статью: https://arxiv.org/abs/2511.04902
- Ссылка на код: https://github.com/BorealisAI/CuMa
В данной работе систематически исследуется производительность методов безметочного обучения с подкреплением (Label-Free RL) на языковых моделях различных размеров (от 0,5B до 7B параметров) с разными способностями к рассуждению. Исследование выявляет критическое ограничение: безметочный RL в высокой степени зависит от предсуществующих способностей к рассуждению базовой модели, и для более слабых моделей производительность часто падает ниже базового уровня. Исследование показывает, что малые модели не могут генерировать достаточно длинные или разнообразные цепочки мыслей (CoT) для эффективной самокритики, и сложность обучающих данных играет ключевую роль в определении успеха. Для решения этих проблем авторы предлагают метод CuMa, который использует обучение по программе для постепенного введения более сложных задач и маскирует образцы без результатов большинства голосов во время обучения. Этот метод демонстрирует последовательные улучшения на всех размерах моделей.
В последние годы повышение способностей к рассуждению больших языковых моделей в основном зависит от методов обучения с подкреплением, однако традиционные подходы (такие как RLHF, RLVR) в значительной степени зависят от внешних сигналов контроля (человеческих аннотаций или специфичных для домена истинных меток). Для решения этого узкого места масштабируемости исследователи предложили методы безметочного RL (такие как TTRL и Intuitor), но эти методы были в основном проверены на больших моделях с сильными способностями к рассуждению (например, Qwen2.5-Math-7B). Основная проблема, которую решает данная работа: могут ли эти методы безметочного RL обобщаться на малые базовые модели с ограниченными способностями к рассуждению?
- Сценарии с ограниченными ресурсами: На граничных устройствах или в средах с ограниченными вычислительными ресурсами малые модели имеют большую практическую ценность
- Масштабируемость: Понимание механизмов обучения малых моделей критически важно для построения масштабируемых систем рассуждения
- Теоретическое значение: Выявление минимальных предпосылок для самозагрузки способностей к рассуждению
- TTRL: Оценивает награду через большинство голосов на немаркированных тестовых данных, но малые модели на ранних этапах обучения генерируют слишком мало правильных выходов, что приводит к ошибкам псевдо-меток
- Intuitor: Использует уверенность самой модели (self-certainty) в качестве внутренней награды, но малые модели имеют плохую калибровку уверенности
- Отсутствие исследований для слабых моделей: Существующие методы не учитывают режимы отказа при недостаточных базовых способностях к рассуждению
Через систематические эксперименты выявить коренные причины отказа методов безметочного RL на слабых моделях и предложить целевые решения, позволяющие моделям с ограниченными ресурсами также получать пользу от неконтролируемого RL.
- Первый систематический анализ: Выявляет различия в производительности методов безметочного RL на разных размерах моделей (0,5B-7B), обнаруживая значительную деградацию производительности и даже коллапс на слабых моделях
- Ключевые находки:
- Безметочный RL в высокой степени зависит от предсуществующих способностей к рассуждению базовой модели
- Малые модели не могут генерировать достаточно длинные или разнообразные цепочки мыслей для самокритики
- Сложность обучающих данных является ключевым фактором, определяющим успех
- Длина CoT не является прямым отражением сильных способностей к рассуждению
- Предложен метод CuMa: Комплексная структура, объединяющая обучение по программе, маскирование наград и генерацию данных
- Прогрессивная стратегия обучения от простого к сложному
- Маскирование сигналов награды для образцов без консенсуса большинства
- Управляемый по сложности конвейер генерации данных на основе LLM
- Эмпирическая верификация: Проверка на нескольких эталонах рассуждения (Math 500, GPQA, AIME24, GSM8K, LCB) доказывает, что метод эффективен на всех размерах моделей, особенно с значительным улучшением для слабых моделей
Вход: Немаркированный набор данных задач рассуждения D={x1,...,xM} (например, математические задачи)
Выход: Оптимизированная политика модели πθ, способная генерировать правильные цепочки рассуждения и ответы
Ограничения: Во время обучения нет доступа к истинным меткам, обучение возможно только через несколько кандидатских решений, генерируемых самой моделью
Набор данных разделяется на K=5 уровней сложности:
D=D1∪D2∪...∪DK
где D1 содержит самые простые задачи, а DK содержит самые сложные задачи. Обучение проводится в порядке D1→DK.
Для каждого запроса xi генерируются N кандидатских решений {yi(1),...,yi(N)}, функция награды определяется как:
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
Когда образец не имеет консенсуса большинства (т.е. максимальное количество появлений < 2), его сигнал обучения маскируется:
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
Это предотвращает обучение модели на шумных обратных связях от неопределённых предсказаний.
Использует LLM для генерации синтетических данных предопределённой сложности:
- Структурированная стратегия подсказок с явным указанием уровня сложности (1-5)
- Примеры задач для каждого уровня в качестве справочного материала
- Динамическое обновление примеров для увеличения разнообразия
- Генерация 25 образцов за раз, охватывающих различные математические подтемы
Отличие от baseline:
- TTRL/Intuitor: Обучение на данных фиксированной сложности
- CuMa: Начало с простых задач, постепенное увеличение сложности
Обоснование дизайна:
- Малые модели почти не могут генерировать правильные решения на сложных задачах (как показано на рис. 2, модель 0,5B на ранних этапах обучения имеет почти нулевую точность)
- Построение базовых способностей к рассуждению на простых задачах перед переходом к сложным
- Соответствует когнитивным закономерностям человеческого обучения
Инновация: Обновление модели только при наличии явного консенсуса большинства
Решаемая проблема:
- На ранних этапах обучения кандидатские решения, генерируемые малой моделью, сильно разнообразны
- Отсутствие консенсуса большинства означает неопределённость модели в отношении задачи
- Принудительное обучение вводит шум, приводящий к деградации производительности
Экспериментальное доказательство: Таблица 2 показывает, что удаление маскирования наград снижает производительность с 32,8 до 30,7
Технические детали:
- Использование структурированной инженерии подсказок для генерации математических задач различной сложности
- Охватывает несколько подобластей: алгебра, геометрия, вероятность и т.д.
- Динамическая выборка примеров задач для избежания переобучения специфичным паттернам
Назначение: Обеспечение достаточного количества образцов каждого уровня сложности для обучения по программе
- Math 500: 500 высококачественных математических задач
- GPQA: Вопросы и ответы уровня выпускника по физике
- AIME24: Задачи американского математического приглашительного турнира 2024
- GSM8K: Задачи начальной школы по математике (8000+ задач)
- LCB: Эталон логического рассуждения
- Точность (Accuracy): Доля сгенерированных ответов, полностью совпадающих со стандартными ответами
- Все эксперименты сообщают процентную точность
- Base Model: Базовая модель без обучения RL
- GRPO: Контролируемое обучение с подкреплением с использованием истинных меток (верхняя граница)
- Intuitor: Безметочный RL на основе самоуверенности
- TTRL: Тестовый RL на основе большинства голосов
- Оптимизатор: AdamW
- Скорость обучения: Пиковое значение 3×10⁻⁶, косинусное затухание
- Стратегия выборки: Генерация 8 кандидатов на запрос, температура 0,6
- Максимальная длина генерации: 3072 токена
- Количество эпох обучения: 1 эпизод
- Оборудование: 4×NVIDIA H100 80GB GPU
- Семейство моделей: Qwen2.5 (0,5B, 1,5B, 3B, 7B)
Модель 0,5B:
- Base: Math 500=23,4, GSM8K=26,38
- TTRL: Полный коллапс (Math 500=0,0)
- Intuitor: Снижение производительности (GSM8K=0,68)
- CuMa: Math 500=32,8 (+40%), GSM8K=32,9 (+25%)
Модель 7B:
- Base: Math 500=58,2, GSM8K=81,5
- GRPO: 73,8, 85,67 (верхняя граница с метками)
- TTRL/Intuitor: 73,6/72,2, 84,39/78,19
- CuMa: 74,0, 84,49 (близко к методам с метками)
Ключевые находки:
- Все методы безметочного RL эффективны на больших моделях
- На малых моделях только CuMa обеспечивает стабильное улучшение, другие методы деградируют или коллапсируют
- CuMa на модели 0,5B избегает коллапса и достигает значительного улучшения
CuMa демонстрирует улучшения на 5 различных эталонах рассуждения:
- Math 500: Улучшение на всех размерах моделей
- GPQA: Модель 7B от 27,77→32,32
- AIME24: Модель 7B от 6,67→13,33 (удвоение)
- LCB: Модель 3B от 5,20→8,04
Таблица 2 показывает вклад каждого компонента CuMa (модель 0,5B, Math 500):
| Конфигурация | Производительность | Снижение |
|---|
| Полный CuMa | 32,8 | - |
| Без маскирования наград | 30,7 | -6,4% |
| Без генерации данных | 24,5 | -25,3% |
| Без обучения по программе | 20,1 | -38,7% |
Ключевые выводы:
- Обучение по программе наиболее критично: Его удаление приводит производительность близко к коллапсу (20,1 vs base 23,4)
- Генерация данных важна: Обеспечивает достаточное количество образцов каждой сложности для поддержки обучения по программе
- Маскирование наград эффективно: Предотвращает обучение на шумных сигналах, стабилизирует обучение
- Модель 0,5B: На первых 50 шагах почти нет правильных выходов
- Последствие: Большинство голосов TTRL генерирует неправильные псевдо-метки→модель коллапсирует
- Решение CuMa: Начало с простых задач, ранние этапы генерируют частично правильные ответы
- Модель 7B: Длина от 500→1400 токенов, включает самокритику
- Модели 0,5B/1,5B: Длина остаётся 500-700, без значительного роста
- Находка: Увеличение длины не является надёжным показателем для малых моделей
Тестирование различных уровней сложности (Level 1-2 до 1-5) на модели 0,5B:
- Math 500: От 0,35 при L1-2 к близкому к 0 при L1-4 (коллапс)
- GSM8K: Постепенное снижение от 0,28 до 0,15
- Вывод: Чрезмерно сложные данные приводят к отказу малой модели обучаться
- Порог способностей к рассуждению: Безметочный RL требует минимальных способностей к рассуждению в качестве предпосылки
- Соответствие данных и способностей: Сложность обучающих данных должна соответствовать способностям модели
- Надёжность большинства голосов: Зависит от того, может ли базовая модель генерировать частично правильные решения
- Универсальность обучения по программе: Помогает всем размерам моделей, но критичнее для слабых моделей
- Вводящая в заблуждение длина CoT: Не может быть единственным показателем улучшения рассуждения на малых моделях
- RLHF: Выравнивание модели через обратную связь человека
- GRPO: Метод наград на основе правил для математического рассуждения
- DeepSeek-R1: Большая модель рассуждения
- Ограничение: Зависимость от аннотированных данных, ограниченная масштабируемость
- Self-rewarding LMs: Самооценка моделей
- Self-play fine-tuning: Улучшение через самоигру
- DPO: Прямая оптимизация предпочтений
- Отличие данной работы: Сосредоточение на применимости методов RL на слабых моделях
- TTRL: Тестовый RL на основе большинства голосов
- Intuitor: На основе самоуверенности
- Вклад данной работы: Выявление режимов отказа этих методов на слабых моделях и предложение решений
- Традиционное обучение по программе в основном используется в контролируемом обучении
- Инновация данной работы: Первое систематическое применение обучения по программе к задачам RL рассуждения без меток
- Ключевая находка: Безметочный RL не является "бесплатным обедом", требует базовых способностей к рассуждению в качестве предпосылки
- Механизмы отказа:
- Слабые модели не могут генерировать достаточно правильных решений→большинство голосов неэффективно
- Отсутствие разнообразных CoT→механизм самокритики неэффективен
- Чрезмерно сложные данные→редкие сигналы обучения
- Эффективность решения: CuMa улучшает производительность на всех размерах 0,5B-7B, особенно значительно для слабых моделей
- Теоретическое значение: Выявляет минимальные условия и пути самозагрузки способностей к рассуждению
- Диапазон моделей: Проверено только на моделях Qwen, обобщаемость на другие архитектуры (LLaMA, Mistral) неизвестна
- Ограничение по областям: Сосредоточено на математическом рассуждении, применимость к другим типам рассуждения (здравый смысл, логика) требует дальнейшей проверки
- Дизайн программы: Классификация по сложности зависит от ручного определения или генерации LLM, отсутствует автоматизированный механизм оценки сложности
- Вычислительные затраты: Требует генерации большого количества кандидатских решений (8 на задачу), высокие затраты на вывод
- Минимальный порог способностей: Не определён количественный стандарт "достаточных способностей к рассуждению"
- Качество генерируемых данных: Разнообразие и качество синтетических данных зависят от генерирующей модели
- Адаптивная программа: Динамическая регулировка сложности на основе реальной производительности модели
- Гибридные награды: Объединение сигналов большинства голосов и уверенности
- Проверка между областями: Расширение на генерацию кода, научное рассуждение и т.д.
- Теоретический анализ: Установление формальных отношений между способностями к рассуждению и эффективностью RL
- Оптимизация эффективности: Снижение количества генерируемых кандидатских решений, уменьшение вычислительных затрат
- Первое систематическое выявление явления отказа безметочного RL на слабых моделях
- Глубокий анализ коренных причин через многомерные эксперименты (размер модели, сложность данных, длина CoT)
- Визуализация на рис. 2 наглядно демонстрирует механизм коллапса на ранних этапах обучения
- Простота и эффективность: Три компонента (обучение по программе, маскирование наград, генерация данных) имеют явное обоснование
- Теоретическая поддержка: Обучение по программе соответствует теории когнитивной науки и машинного обучения
- Инженерная осуществимость: Легко реализуется, не вводит сложные новые компоненты
- Полное покрытие масштаба: Охватывает четыре размера моделей 0,5B-7B
- Разнообразие эталонов: 5 различных типов задач рассуждения
- Полное сравнение: Включает верхнюю границу с метками (GRPO) и несколько базовых методов без меток
- Детальная абляция: Последовательная проверка вклада каждого компонента
- Предоставляет осуществимое решение для сценариев с ограниченными ресурсами (граничные устройства, низкостоимостное развёртывание)
- Открытый исходный код, сильная воспроизводимость
- Универсальный метод, расширяемый на другие парадигмы RL
- Строгая логическая структура: проблема→анализ→метод→проверка
- Хороший эффект визуализации (рис. 1-4 наглядно демонстрируют ключевые находки)
- Чёткое резюме основных вкладов
- Отсутствие формального анализа: Не установлены формальные отношения между способностями к рассуждению и сходимостью RL
- Нечёткое определение сложности: Классификация Level 1-5 зависит от субъективного суждения
- Неквантифицированный порог: Какой уровень способностей к рассуждению достаточен для поддержки безметочного RL?
- Единственное семейство моделей: Только модели Qwen, архитектурные смещения не исключены
- Зависимость генерации данных: Качество синтетических данных зависит от Qwen-72B, может вводить смещения
- Отсутствие статистической значимости: Не сообщаются дисперсия и доверительные интервалы при множественных запусках
- Не раскрыты вычислительные затраты: Время обучения, использование GPU и другие затраты ресурсов не указаны
- Фиксированная программа: 5 уровней сложности и порядок являются гиперпараметрами, отсутствует адаптивный механизм
- Хрупкость большинства голосов: По-прежнему зависит от того, может ли базовая модель генерировать частично правильные решения
- Консервативное маскирование: Может пропустить образцы с потенциальной ценностью обучения среди сложных задач
- Отсутствие примеров отказа: Не показаны случаи, когда CuMa всё ещё не работает
- Отсутствие сравнения с человеческим обучением: Аналогия обучения по программе не исследована глубоко
- Неизвестны долгосрочные эффекты: Только одна эпоха обучения, стабильность при продолжительном обучении не проверена
- Единственная задача: В основном математическое рассуждение, другие типы рассуждения недостаточно проверены
- Языковое ограничение: Только английские данные, многоязычные сценарии не рассмотрены
- Специальные знания: Применимость к задачам, требующим специальных знаний (медицина, право) неизвестна
- Заполнение пробела в исследованиях: Первое систематическое исследование поведения безметочного RL на слабых моделях
- Методологическое озарение: Доказывает эффективность обучения по программе в задачах RL рассуждения
- Практическое руководство: Предоставляет осуществимый путь для улучшения способностей рассуждения малых моделей
- Теоретическая основа: Закладывает основу для последующих исследований механизмов самозагрузки способностей к рассуждению
- Развёртывание на граничных устройствах: Позволяет малым моделям также улучшаться через RL, снижая затраты развёртывания
- Приложения в образовании: Стратегия прогрессивного обучения может применяться в системах персонализированного образования
- Инструменты исследования: Открытый исходный код и конвейер генерации данных доступны для сообщества
- ✅ Открытый исходный код (GitHub)
- ✅ Подробные гиперпараметры (скорость обучения, температура, длина генерации и т.д.)
- ✅ Открытые подсказки генерации данных (приложение B)
- ⚠️ Высокие требования к вычислительным ресурсам (4×H100)
- ⚠️ Синтетические данные не опубликованы напрямую
- Среды с ограниченными ресурсами: Требуется улучшение способностей рассуждения на малых моделях
- Немаркированные данные: Большое количество задач рассуждения, но отсутствуют стандартные ответы
- Прогрессивное обучение: Задачи имеют явные уровни сложности (образование, подготовка к конкурсам)
- Математическое/кодовое рассуждение: Закрытые задачи с объективными правильными ответами
- Открытая генерация: Творческое письмо, диалоговые системы (нет явного правильного ответа)
- Экстремально слабые модели: <0,5B или базовые способности к рассуждению близки к случайным
- Системы реального времени: Требуется быстрый ответ, невозможно выдержать затраты множественной выборки
- Субъективные задачи: Анализ тональности, трансформация стиля (большинство голосов бессмысленно)
Данная работа проводит глубокое эмпирическое исследование и методологическую инновацию проблемы отказа безметочного обучения с подкреплением на слабых моделях рассуждения. Основная ценность заключается в выявлении предпосылок самозагрузки способностей к рассуждению: базовая модель должна обладать минимальными способностями к рассуждению, чтобы получать пользу от неконтролируемого RL. Метод CuMa через синергетический дизайн обучения по программе, маскирования наград и генерации данных успешно позволяет даже слабым моделям, таким как 0,5B, стабильно улучшаться.
Сильные стороны: Точное выявление проблемы, простой и эффективный метод, полное экспериментальное покрытие, высокая практическая ценность.
Слабые стороны: Недостаточный теоретический анализ, ограниченная проверка обобщаемости, отсутствие статистической значимости.
Рекомендуемая оценка: ⭐⭐⭐⭐ (4/5)
Рекомендуется для исследователей, интересующихся рассуждением малых моделей, неконтролируемым обучением и обучением по программе. Также имеет важное справочное значение для промышленности при развёртывании моделей рассуждения в сценариях с ограниченными ресурсами.