2025-11-22T18:43:16.829121

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

Roy, Hajimirsadeghi, Zhai et al.
Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
academic

Вам нужны рассуждения, чтобы научиться рассуждать: Ограничения безметочного RL в слабых базовых моделях

Основная информация

  • ID статьи: 2511.04902
  • Название: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
  • Авторы: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
  • Классификация: cs.LG, cs.AI
  • Конференция: NeurIPS 2025 Workshop: MATH-AI
  • Ссылка на статью: https://arxiv.org/abs/2511.04902
  • Ссылка на код: https://github.com/BorealisAI/CuMa

Аннотация

В данной работе систематически исследуется производительность методов безметочного обучения с подкреплением (Label-Free RL) на языковых моделях различных размеров (от 0,5B до 7B параметров) с разными способностями к рассуждению. Исследование выявляет критическое ограничение: безметочный RL в высокой степени зависит от предсуществующих способностей к рассуждению базовой модели, и для более слабых моделей производительность часто падает ниже базового уровня. Исследование показывает, что малые модели не могут генерировать достаточно длинные или разнообразные цепочки мыслей (CoT) для эффективной самокритики, и сложность обучающих данных играет ключевую роль в определении успеха. Для решения этих проблем авторы предлагают метод CuMa, который использует обучение по программе для постепенного введения более сложных задач и маскирует образцы без результатов большинства голосов во время обучения. Этот метод демонстрирует последовательные улучшения на всех размерах моделей.

Исследовательский контекст и мотивация

Основная проблема, которую необходимо решить

В последние годы повышение способностей к рассуждению больших языковых моделей в основном зависит от методов обучения с подкреплением, однако традиционные подходы (такие как RLHF, RLVR) в значительной степени зависят от внешних сигналов контроля (человеческих аннотаций или специфичных для домена истинных меток). Для решения этого узкого места масштабируемости исследователи предложили методы безметочного RL (такие как TTRL и Intuitor), но эти методы были в основном проверены на больших моделях с сильными способностями к рассуждению (например, Qwen2.5-Math-7B). Основная проблема, которую решает данная работа: могут ли эти методы безметочного RL обобщаться на малые базовые модели с ограниченными способностями к рассуждению?

Важность проблемы

  1. Сценарии с ограниченными ресурсами: На граничных устройствах или в средах с ограниченными вычислительными ресурсами малые модели имеют большую практическую ценность
  2. Масштабируемость: Понимание механизмов обучения малых моделей критически важно для построения масштабируемых систем рассуждения
  3. Теоретическое значение: Выявление минимальных предпосылок для самозагрузки способностей к рассуждению

Ограничения существующих методов

  1. TTRL: Оценивает награду через большинство голосов на немаркированных тестовых данных, но малые модели на ранних этапах обучения генерируют слишком мало правильных выходов, что приводит к ошибкам псевдо-меток
  2. Intuitor: Использует уверенность самой модели (self-certainty) в качестве внутренней награды, но малые модели имеют плохую калибровку уверенности
  3. Отсутствие исследований для слабых моделей: Существующие методы не учитывают режимы отказа при недостаточных базовых способностях к рассуждению

Исследовательская мотивация

Через систематические эксперименты выявить коренные причины отказа методов безметочного RL на слабых моделях и предложить целевые решения, позволяющие моделям с ограниченными ресурсами также получать пользу от неконтролируемого RL.

Основные вклады

  1. Первый систематический анализ: Выявляет различия в производительности методов безметочного RL на разных размерах моделей (0,5B-7B), обнаруживая значительную деградацию производительности и даже коллапс на слабых моделях
  2. Ключевые находки:
    • Безметочный RL в высокой степени зависит от предсуществующих способностей к рассуждению базовой модели
    • Малые модели не могут генерировать достаточно длинные или разнообразные цепочки мыслей для самокритики
    • Сложность обучающих данных является ключевым фактором, определяющим успех
    • Длина CoT не является прямым отражением сильных способностей к рассуждению
  3. Предложен метод CuMa: Комплексная структура, объединяющая обучение по программе, маскирование наград и генерацию данных
    • Прогрессивная стратегия обучения от простого к сложному
    • Маскирование сигналов награды для образцов без консенсуса большинства
    • Управляемый по сложности конвейер генерации данных на основе LLM
  4. Эмпирическая верификация: Проверка на нескольких эталонах рассуждения (Math 500, GPQA, AIME24, GSM8K, LCB) доказывает, что метод эффективен на всех размерах моделей, особенно с значительным улучшением для слабых моделей

Подробное описание метода

Определение задачи

Вход: Немаркированный набор данных задач рассуждения D={x1,...,xM}D = \{x_1, ..., x_M\} (например, математические задачи)
Выход: Оптимизированная политика модели πθ\pi_\theta, способная генерировать правильные цепочки рассуждения и ответы
Ограничения: Во время обучения нет доступа к истинным меткам, обучение возможно только через несколько кандидатских решений, генерируемых самой моделью

Архитектура модели

1. Структура обучения по программе

Набор данных разделяется на K=5 уровней сложности: D=D1D2...DKD = D_1 \cup D_2 \cup ... \cup D_K где D1D_1 содержит самые простые задачи, а DKD_K содержит самые сложные задачи. Обучение проводится в порядке D1DKD_1 \to D_K.

2. Механизм награды большинства голосов

Для каждого запроса xix_i генерируются N кандидатских решений {yi(1),...,yi(N)}\{y_i^{(1)}, ..., y_i^{(N)}\}, функция награды определяется как: r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]r(x_i, y_i^{(j)}) = \mathbb{I}[y_i^{(j)} = \text{majority\_vote}(\{y_i^{(1)}, ..., y_i^{(N)}\})]

3. Механизм маскирования наград

Когда образец не имеет консенсуса большинства (т.е. максимальное количество появлений < 2), его сигнал обучения маскируется: mask(xi)=I[maxj{k:yi(k)=yi(j)}2]\text{mask}(x_i) = \mathbb{I}\left[\max_j |\{k : y_i^{(k)} = y_i^{(j)}\}| \geq 2\right]

Это предотвращает обучение модели на шумных обратных связях от неопределённых предсказаний.

4. Конвейер генерации данных

Использует LLM для генерации синтетических данных предопределённой сложности:

  • Структурированная стратегия подсказок с явным указанием уровня сложности (1-5)
  • Примеры задач для каждого уровня в качестве справочного материала
  • Динамическое обновление примеров для увеличения разнообразия
  • Генерация 25 образцов за раз, охватывающих различные математические подтемы

Технические инновации

1. Прогрессивная регулировка сложности

Отличие от baseline:

  • TTRL/Intuitor: Обучение на данных фиксированной сложности
  • CuMa: Начало с простых задач, постепенное увеличение сложности

Обоснование дизайна:

  • Малые модели почти не могут генерировать правильные решения на сложных задачах (как показано на рис. 2, модель 0,5B на ранних этапах обучения имеет почти нулевую точность)
  • Построение базовых способностей к рассуждению на простых задачах перед переходом к сложным
  • Соответствует когнитивным закономерностям человеческого обучения

2. Избирательный сигнал обучения

Инновация: Обновление модели только при наличии явного консенсуса большинства

Решаемая проблема:

  • На ранних этапах обучения кандидатские решения, генерируемые малой моделью, сильно разнообразны
  • Отсутствие консенсуса большинства означает неопределённость модели в отношении задачи
  • Принудительное обучение вводит шум, приводящий к деградации производительности

Экспериментальное доказательство: Таблица 2 показывает, что удаление маскирования наград снижает производительность с 32,8 до 30,7

3. Управляемое по сложности расширение данных

Технические детали:

  • Использование структурированной инженерии подсказок для генерации математических задач различной сложности
  • Охватывает несколько подобластей: алгебра, геометрия, вероятность и т.д.
  • Динамическая выборка примеров задач для избежания переобучения специфичным паттернам

Назначение: Обеспечение достаточного количества образцов каждого уровня сложности для обучения по программе

Экспериментальная установка

Наборы данных

  1. Math 500: 500 высококачественных математических задач
  2. GPQA: Вопросы и ответы уровня выпускника по физике
  3. AIME24: Задачи американского математического приглашительного турнира 2024
  4. GSM8K: Задачи начальной школы по математике (8000+ задач)
  5. LCB: Эталон логического рассуждения

Метрики оценки

  • Точность (Accuracy): Доля сгенерированных ответов, полностью совпадающих со стандартными ответами
  • Все эксперименты сообщают процентную точность

Методы сравнения

  1. Base Model: Базовая модель без обучения RL
  2. GRPO: Контролируемое обучение с подкреплением с использованием истинных меток (верхняя граница)
  3. Intuitor: Безметочный RL на основе самоуверенности
  4. TTRL: Тестовый RL на основе большинства голосов

Детали реализации

  • Оптимизатор: AdamW
  • Скорость обучения: Пиковое значение 3×10⁻⁶, косинусное затухание
  • Стратегия выборки: Генерация 8 кандидатов на запрос, температура 0,6
  • Максимальная длина генерации: 3072 токена
  • Количество эпох обучения: 1 эпизод
  • Оборудование: 4×NVIDIA H100 80GB GPU
  • Семейство моделей: Qwen2.5 (0,5B, 1,5B, 3B, 7B)

Результаты экспериментов

Основные результаты

1. Сравнение производительности на разных размерах моделей (таблица 1)

Модель 0,5B:

  • Base: Math 500=23,4, GSM8K=26,38
  • TTRL: Полный коллапс (Math 500=0,0)
  • Intuitor: Снижение производительности (GSM8K=0,68)
  • CuMa: Math 500=32,8 (+40%), GSM8K=32,9 (+25%)

Модель 7B:

  • Base: Math 500=58,2, GSM8K=81,5
  • GRPO: 73,8, 85,67 (верхняя граница с метками)
  • TTRL/Intuitor: 73,6/72,2, 84,39/78,19
  • CuMa: 74,0, 84,49 (близко к методам с метками)

Ключевые находки:

  • Все методы безметочного RL эффективны на больших моделях
  • На малых моделях только CuMa обеспечивает стабильное улучшение, другие методы деградируют или коллапсируют
  • CuMa на модели 0,5B избегает коллапса и достигает значительного улучшения

2. Способность к обобщению между эталонами

CuMa демонстрирует улучшения на 5 различных эталонах рассуждения:

  • Math 500: Улучшение на всех размерах моделей
  • GPQA: Модель 7B от 27,77→32,32
  • AIME24: Модель 7B от 6,67→13,33 (удвоение)
  • LCB: Модель 3B от 5,20→8,04

Абляционные исследования

Таблица 2 показывает вклад каждого компонента CuMa (модель 0,5B, Math 500):

КонфигурацияПроизводительностьСнижение
Полный CuMa32,8-
Без маскирования наград30,7-6,4%
Без генерации данных24,5-25,3%
Без обучения по программе20,1-38,7%

Ключевые выводы:

  1. Обучение по программе наиболее критично: Его удаление приводит производительность близко к коллапсу (20,1 vs base 23,4)
  2. Генерация данных важна: Обеспечивает достаточное количество образцов каждой сложности для поддержки обучения по программе
  3. Маскирование наград эффективно: Предотвращает обучение на шумных сигналах, стабилизирует обучение

Анализ примеров

Рисунок 2: Генерация правильных ответов на ранних этапах обучения

  • Модель 0,5B: На первых 50 шагах почти нет правильных выходов
  • Последствие: Большинство голосов TTRL генерирует неправильные псевдо-метки→модель коллапсирует
  • Решение CuMa: Начало с простых задач, ранние этапы генерируют частично правильные ответы

Рисунок 3: Изменение длины CoT во время обучения

  • Модель 7B: Длина от 500→1400 токенов, включает самокритику
  • Модели 0,5B/1,5B: Длина остаётся 500-700, без значительного роста
  • Находка: Увеличение длины не является надёжным показателем для малых моделей

Рисунок 4: Влияние сложности обучающих данных

Тестирование различных уровней сложности (Level 1-2 до 1-5) на модели 0,5B:

  • Math 500: От 0,35 при L1-2 к близкому к 0 при L1-4 (коллапс)
  • GSM8K: Постепенное снижение от 0,28 до 0,15
  • Вывод: Чрезмерно сложные данные приводят к отказу малой модели обучаться

Экспериментальные находки

  1. Порог способностей к рассуждению: Безметочный RL требует минимальных способностей к рассуждению в качестве предпосылки
  2. Соответствие данных и способностей: Сложность обучающих данных должна соответствовать способностям модели
  3. Надёжность большинства голосов: Зависит от того, может ли базовая модель генерировать частично правильные решения
  4. Универсальность обучения по программе: Помогает всем размерам моделей, но критичнее для слабых моделей
  5. Вводящая в заблуждение длина CoT: Не может быть единственным показателем улучшения рассуждения на малых моделях

Связанные работы

1. Контролируемое обучение с подкреплением

  • RLHF: Выравнивание модели через обратную связь человека
  • GRPO: Метод наград на основе правил для математического рассуждения
  • DeepSeek-R1: Большая модель рассуждения
  • Ограничение: Зависимость от аннотированных данных, ограниченная масштабируемость

2. Методы без меток/самоулучшения

  • Self-rewarding LMs: Самооценка моделей
  • Self-play fine-tuning: Улучшение через самоигру
  • DPO: Прямая оптимизация предпочтений
  • Отличие данной работы: Сосредоточение на применимости методов RL на слабых моделях

3. Оптимизация во время тестирования

  • TTRL: Тестовый RL на основе большинства голосов
  • Intuitor: На основе самоуверенности
  • Вклад данной работы: Выявление режимов отказа этих методов на слабых моделях и предложение решений

4. Обучение по программе

  • Традиционное обучение по программе в основном используется в контролируемом обучении
  • Инновация данной работы: Первое систематическое применение обучения по программе к задачам RL рассуждения без меток

Заключение и обсуждение

Основные выводы

  1. Ключевая находка: Безметочный RL не является "бесплатным обедом", требует базовых способностей к рассуждению в качестве предпосылки
  2. Механизмы отказа:
    • Слабые модели не могут генерировать достаточно правильных решений→большинство голосов неэффективно
    • Отсутствие разнообразных CoT→механизм самокритики неэффективен
    • Чрезмерно сложные данные→редкие сигналы обучения
  3. Эффективность решения: CuMa улучшает производительность на всех размерах 0,5B-7B, особенно значительно для слабых моделей
  4. Теоретическое значение: Выявляет минимальные условия и пути самозагрузки способностей к рассуждению

Ограничения

  1. Диапазон моделей: Проверено только на моделях Qwen, обобщаемость на другие архитектуры (LLaMA, Mistral) неизвестна
  2. Ограничение по областям: Сосредоточено на математическом рассуждении, применимость к другим типам рассуждения (здравый смысл, логика) требует дальнейшей проверки
  3. Дизайн программы: Классификация по сложности зависит от ручного определения или генерации LLM, отсутствует автоматизированный механизм оценки сложности
  4. Вычислительные затраты: Требует генерации большого количества кандидатских решений (8 на задачу), высокие затраты на вывод
  5. Минимальный порог способностей: Не определён количественный стандарт "достаточных способностей к рассуждению"
  6. Качество генерируемых данных: Разнообразие и качество синтетических данных зависят от генерирующей модели

Будущие направления

  1. Адаптивная программа: Динамическая регулировка сложности на основе реальной производительности модели
  2. Гибридные награды: Объединение сигналов большинства голосов и уверенности
  3. Проверка между областями: Расширение на генерацию кода, научное рассуждение и т.д.
  4. Теоретический анализ: Установление формальных отношений между способностями к рассуждению и эффективностью RL
  5. Оптимизация эффективности: Снижение количества генерируемых кандидатских решений, уменьшение вычислительных затрат

Глубокая оценка

Преимущества

1. Точное выявление проблемы

  • Первое систематическое выявление явления отказа безметочного RL на слабых моделях
  • Глубокий анализ коренных причин через многомерные эксперименты (размер модели, сложность данных, длина CoT)
  • Визуализация на рис. 2 наглядно демонстрирует механизм коллапса на ранних этапах обучения

2. Разумный дизайн метода

  • Простота и эффективность: Три компонента (обучение по программе, маскирование наград, генерация данных) имеют явное обоснование
  • Теоретическая поддержка: Обучение по программе соответствует теории когнитивной науки и машинного обучения
  • Инженерная осуществимость: Легко реализуется, не вводит сложные новые компоненты

3. Полные эксперименты

  • Полное покрытие масштаба: Охватывает четыре размера моделей 0,5B-7B
  • Разнообразие эталонов: 5 различных типов задач рассуждения
  • Полное сравнение: Включает верхнюю границу с метками (GRPO) и несколько базовых методов без меток
  • Детальная абляция: Последовательная проверка вклада каждого компонента

4. Высокая практическая ценность

  • Предоставляет осуществимое решение для сценариев с ограниченными ресурсами (граничные устройства, низкостоимостное развёртывание)
  • Открытый исходный код, сильная воспроизводимость
  • Универсальный метод, расширяемый на другие парадигмы RL

5. Ясное изложение

  • Строгая логическая структура: проблема→анализ→метод→проверка
  • Хороший эффект визуализации (рис. 1-4 наглядно демонстрируют ключевые находки)
  • Чёткое резюме основных вкладов

Недостатки

1. Ограниченная теоретическая глубина

  • Отсутствие формального анализа: Не установлены формальные отношения между способностями к рассуждению и сходимостью RL
  • Нечёткое определение сложности: Классификация Level 1-5 зависит от субъективного суждения
  • Неквантифицированный порог: Какой уровень способностей к рассуждению достаточен для поддержки безметочного RL?

2. Дефекты экспериментального дизайна

  • Единственное семейство моделей: Только модели Qwen, архитектурные смещения не исключены
  • Зависимость генерации данных: Качество синтетических данных зависит от Qwen-72B, может вводить смещения
  • Отсутствие статистической значимости: Не сообщаются дисперсия и доверительные интервалы при множественных запусках
  • Не раскрыты вычислительные затраты: Время обучения, использование GPU и другие затраты ресурсов не указаны

3. Ограничения метода

  • Фиксированная программа: 5 уровней сложности и порядок являются гиперпараметрами, отсутствует адаптивный механизм
  • Хрупкость большинства голосов: По-прежнему зависит от того, может ли базовая модель генерировать частично правильные решения
  • Консервативное маскирование: Может пропустить образцы с потенциальной ценностью обучения среди сложных задач

4. Недостаточный анализ

  • Отсутствие примеров отказа: Не показаны случаи, когда CuMa всё ещё не работает
  • Отсутствие сравнения с человеческим обучением: Аналогия обучения по программе не исследована глубоко
  • Неизвестны долгосрочные эффекты: Только одна эпоха обучения, стабильность при продолжительном обучении не проверена

5. Сомнительная обобщаемость

  • Единственная задача: В основном математическое рассуждение, другие типы рассуждения недостаточно проверены
  • Языковое ограничение: Только английские данные, многоязычные сценарии не рассмотрены
  • Специальные знания: Применимость к задачам, требующим специальных знаний (медицина, право) неизвестна

Влияние

Вклад в область

  1. Заполнение пробела в исследованиях: Первое систематическое исследование поведения безметочного RL на слабых моделях
  2. Методологическое озарение: Доказывает эффективность обучения по программе в задачах RL рассуждения
  3. Практическое руководство: Предоставляет осуществимый путь для улучшения способностей рассуждения малых моделей
  4. Теоретическая основа: Закладывает основу для последующих исследований механизмов самозагрузки способностей к рассуждению

Практическая ценность

  • Развёртывание на граничных устройствах: Позволяет малым моделям также улучшаться через RL, снижая затраты развёртывания
  • Приложения в образовании: Стратегия прогрессивного обучения может применяться в системах персонализированного образования
  • Инструменты исследования: Открытый исходный код и конвейер генерации данных доступны для сообщества

Воспроизводимость

  • ✅ Открытый исходный код (GitHub)
  • ✅ Подробные гиперпараметры (скорость обучения, температура, длина генерации и т.д.)
  • ✅ Открытые подсказки генерации данных (приложение B)
  • ⚠️ Высокие требования к вычислительным ресурсам (4×H100)
  • ⚠️ Синтетические данные не опубликованы напрямую

Применимые сценарии

Подходящие сценарии

  1. Среды с ограниченными ресурсами: Требуется улучшение способностей рассуждения на малых моделях
  2. Немаркированные данные: Большое количество задач рассуждения, но отсутствуют стандартные ответы
  3. Прогрессивное обучение: Задачи имеют явные уровни сложности (образование, подготовка к конкурсам)
  4. Математическое/кодовое рассуждение: Закрытые задачи с объективными правильными ответами

Неподходящие сценарии

  1. Открытая генерация: Творческое письмо, диалоговые системы (нет явного правильного ответа)
  2. Экстремально слабые модели: <0,5B или базовые способности к рассуждению близки к случайным
  3. Системы реального времени: Требуется быстрый ответ, невозможно выдержать затраты множественной выборки
  4. Субъективные задачи: Анализ тональности, трансформация стиля (большинство голосов бессмысленно)

Резюме

Данная работа проводит глубокое эмпирическое исследование и методологическую инновацию проблемы отказа безметочного обучения с подкреплением на слабых моделях рассуждения. Основная ценность заключается в выявлении предпосылок самозагрузки способностей к рассуждению: базовая модель должна обладать минимальными способностями к рассуждению, чтобы получать пользу от неконтролируемого RL. Метод CuMa через синергетический дизайн обучения по программе, маскирования наград и генерации данных успешно позволяет даже слабым моделям, таким как 0,5B, стабильно улучшаться.

Сильные стороны: Точное выявление проблемы, простой и эффективный метод, полное экспериментальное покрытие, высокая практическая ценность.
Слабые стороны: Недостаточный теоретический анализ, ограниченная проверка обобщаемости, отсутствие статистической значимости.

Рекомендуемая оценка: ⭐⭐⭐⭐ (4/5)
Рекомендуется для исследователей, интересующихся рассуждением малых моделей, неконтролируемым обучением и обучением по программе. Также имеет важное справочное значение для промышленности при развёртывании моделей рассуждения в сценариях с ограниченными ресурсами.