2025-11-22T18:43:16.829121

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

Roy, Hajimirsadeghi, Zhai et al.
Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
academic

Necesitas Razonamiento para Aprender Razonamiento: Las Limitaciones del RL sin Etiquetas en Modelos Base Débiles

Información Básica

  • ID del Artículo: 2511.04902
  • Título: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
  • Autores: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
  • Clasificación: cs.LG, cs.AI
  • Conferencia de Publicación: NeurIPS 2025 Workshop: MATH-AI
  • Enlace del Artículo: https://arxiv.org/abs/2511.04902
  • Enlace del Código: https://github.com/BorealisAI/CuMa

Resumen

Este artículo estudia sistemáticamente el desempeño de métodos de aprendizaje por refuerzo sin etiquetas (Label-Free RL) en modelos de lenguaje de diferentes escalas (0.5B a 7B parámetros) y capacidades de razonamiento. La investigación revela una limitación crítica: el RL sin etiquetas depende altamente de la capacidad de razonamiento preexistente del modelo base, y para modelos más débiles, el desempeño frecuentemente cae por debajo del nivel de referencia. El estudio descubre que los modelos pequeños no pueden generar cadenas de pensamiento (CoT) suficientemente largas o diversificadas para lograr una autorreflexión efectiva, y la dificultad de los datos de entrenamiento juega un papel clave en determinar el éxito o el fracaso. Para abordar estos desafíos, los autores proponen el método CuMa, que utiliza aprendizaje curricular para introducir progresivamente problemas más difíciles y enmascarar muestras sin resultados de votación mayoritaria durante el entrenamiento. Este método demuestra mejoras consistentes en todas las escalas de modelos.

Antecedentes de Investigación y Motivación

Problema Central a Resolver

En años recientes, la mejora de las capacidades de razonamiento de los grandes modelos de lenguaje se ha basado principalmente en técnicas de aprendizaje por refuerzo, pero los métodos tradicionales (como RLHF, RLVR) dependen fuertemente de señales de supervisión externa (anotaciones humanas o etiquetas de verdad fundamental específicas del dominio). Para abordar este cuello de botella de escalabilidad, los investigadores han propuesto métodos de RL sin etiquetas (como TTRL e Intuitor), pero estos métodos se han validado principalmente en modelos grandes con capacidades de razonamiento sólidas (como Qwen2.5-Math-7B). El problema central que este artículo aborda es: ¿pueden estos métodos de RL sin etiquetas generalizarse a modelos base pequeños con capacidades de razonamiento limitadas?

Importancia del Problema

  1. Escenarios con Recursos Limitados: En dispositivos periféricos o entornos con recursos computacionales limitados, los modelos pequeños tienen mayor valor práctico
  2. Escalabilidad: Comprender los mecanismos de aprendizaje de modelos pequeños es crucial para construir sistemas de razonamiento escalables
  3. Significado Teórico: Revelar las condiciones previas mínimas para el arranque (bootstrap) de capacidades de razonamiento

Limitaciones de Métodos Existentes

  1. TTRL: Estima recompensas mediante votación mayoritaria en datos de prueba sin etiquetar, pero los modelos pequeños generan muy pocas salidas correctas en el entrenamiento temprano, lo que resulta en pseudoetiquetas erróneas
  2. Intuitor: Utiliza la certeza propia del modelo (self-certainty) como recompensa intrínseca, pero los modelos pequeños tienen peor calibración de certeza
  3. Falta de Investigación en Modelos Débiles: Los métodos existentes no consideran los modos de fallo cuando la capacidad de razonamiento fundamental es insuficiente

Motivación de la Investigación

Revelar sistemáticamente a través de experimentos las razones fundamentales del fracaso de los métodos de RL sin etiquetas en modelos débiles, y proponer soluciones específicas que permitan que modelos con recursos limitados también se beneficien del RL no supervisado.

Contribuciones Principales

  1. Primer Análisis Sistemático: Revela las diferencias de desempeño de métodos de RL sin etiquetas en diferentes escalas de modelos (0.5B-7B), descubriendo degradación significativa e incluso colapso de desempeño en modelos débiles
  2. Hallazgos Clave:
    • El RL sin etiquetas depende altamente de la capacidad de razonamiento preexistente del modelo base
    • Los modelos pequeños no pueden generar cadenas de pensamiento suficientemente largas o diversas para la autorreflexión
    • La dificultad de los datos de entrenamiento es un factor clave que determina el éxito
    • La longitud de CoT no es un reflejo directo de una capacidad de razonamiento sólida
  3. Propuesta del Método CuMa: Marco integral que combina aprendizaje curricular, enmascaramiento de recompensas y generación de datos
    • Estrategia de entrenamiento progresivo de lo simple a lo difícil
    • Enmascaramiento de señales de recompensa para muestras sin consenso mayoritario
    • Tubería de generación de datos controlable por dificultad basada en LLM
  4. Verificación Empírica: Validación en múltiples puntos de referencia de razonamiento incluyendo Math 500, GPQA, AIME24, GSM8K, LCB, demostrando que el método es efectivo en todas las escalas de modelos, con mejoras particularmente significativas para modelos débiles

Explicación Detallada del Método

Definición de la Tarea

Entrada: Conjunto de datos de problemas de razonamiento sin etiquetar D={x1,...,xM}D = \{x_1, ..., x_M\} (como problemas matemáticos)
Salida: Política de modelo optimizada πθ\pi_\theta capaz de generar cadenas de razonamiento y respuestas correctas
Restricción: Durante el entrenamiento, no se puede acceder a etiquetas de verdad fundamental, solo se pueden utilizar múltiples soluciones candidatas generadas por el modelo mismo para aprender

Arquitectura del Modelo

1. Marco de Aprendizaje Curricular

Dividir el conjunto de datos en K=5 niveles de dificultad: D=D1D2...DKD = D_1 \cup D_2 \cup ... \cup D_K donde D1D_1 contiene los problemas más simples y DKD_K contiene los problemas más difíciles. El entrenamiento procede en el orden D1DKD_1 \to D_K.

2. Mecanismo de Recompensa por Votación Mayoritaria

Para cada indicación xix_i, generar N soluciones candidatas {yi(1),...,yi(N)}\{y_i^{(1)}, ..., y_i^{(N)}\}, la función de recompensa se define como: r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]r(x_i, y_i^{(j)}) = \mathbb{I}[y_i^{(j)} = \text{majority\_vote}(\{y_i^{(1)}, ..., y_i^{(N)}\})]

3. Mecanismo de Enmascaramiento de Recompensas

Cuando una muestra carece de consenso mayoritario (es decir, la frecuencia máxima de aparición < 2), enmascarar su señal de aprendizaje: mask(xi)=I[maxj{k:yi(k)=yi(j)}2]\text{mask}(x_i) = \mathbb{I}\left[\max_j |\{k : y_i^{(k)} = y_i^{(j)}\}| \geq 2\right]

Esto previene que el modelo aprenda retroalimentación ruidosa de predicciones inciertas.

4. Tubería de Generación de Datos

Utilizar LLM para generar datos sintéticos de dificultad predefinida:

  • Estrategia de indicación estructurada que especifica explícitamente el nivel de dificultad (1-5)
  • Proporcionar problemas de ejemplo para cada nivel como referencia
  • Actualizar dinámicamente ejemplos para aumentar la diversidad
  • Generar 25 muestras por iteración, cubriendo diferentes subtemas matemáticos

Puntos de Innovación Técnica

1. Ajuste Progresivo de Dificultad

Diferencia con baseline:

  • TTRL/Intuitor: Entrenar en datos de dificultad fija
  • CuMa: Comenzar con problemas simples, aumentar progresivamente la dificultad

Justificación del Diseño:

  • Los modelos pequeños casi no pueden generar soluciones correctas en problemas difíciles (como se muestra en la Figura 2, la tasa de precisión del modelo 0.5B es cercana a 0 en el entrenamiento temprano)
  • Construir capacidad de razonamiento fundamental a partir de problemas simples, luego transferir a problemas complejos
  • Se alinea con la teoría del aprendizaje cognitivo humano

2. Señal de Aprendizaje Selectiva

Punto de Innovación: Actualizar el modelo solo cuando hay consenso mayoritario claro

Problema que Resuelve:

  • En el entrenamiento temprano, las soluciones candidatas generadas por modelos pequeños están altamente dispersas
  • La falta de consenso mayoritario significa que el modelo es incierto sobre ese problema
  • El aprendizaje forzado introduce ruido, causando degradación de desempeño

Demostración Experimental: El experimento de ablación en la Tabla 2 muestra que sin enmascaramiento de recompensas, el desempeño cae de 32.8 a 30.7

3. Aumento de Datos Controlable por Dificultad

Detalles Técnicos:

  • Utilizar ingeniería de indicaciones estructurada para generar problemas matemáticos de diferentes dificultades
  • Incluir múltiples subdominios como álgebra, geometría, probabilidad
  • Muestreo dinámico de problemas de ejemplo para evitar sobreajuste a patrones específicos

Función: Proporcionar muestras suficientes de cada nivel de dificultad para apoyar el aprendizaje curricular

Configuración Experimental

Conjuntos de Datos

  1. Math 500: 500 problemas matemáticos de alta calidad
  2. GPQA: Preguntas y respuestas de física a nivel de posgrado
  3. AIME24: Problemas de la Competencia Matemática de Invitación Estadounidense 2024
  4. GSM8K: Problemas de matemáticas de primaria (8,000+ problemas)
  5. LCB: Punto de referencia de razonamiento lógico

Métricas de Evaluación

  • Precisión (Accuracy): Proporción de respuestas generadas que coinciden exactamente con respuestas estándar
  • Todos los experimentos reportan precisión en porcentaje

Métodos de Comparación

  1. Modelo Base: Modelo base sin entrenamiento de RL
  2. GRPO: Aprendizaje por refuerzo supervisado utilizando etiquetas de verdad fundamental (referencia de límite superior)
  3. Intuitor: RL sin etiquetas basado en certeza propia
  4. TTRL: RL de tiempo de prueba basado en votación mayoritaria

Detalles de Implementación

  • Optimizador: AdamW
  • Tasa de Aprendizaje: Pico de 3×10⁻⁶, decaimiento coseno
  • Estrategia de Muestreo: Generar 8 candidatos por indicación, temperatura 0.6
  • Longitud Máxima de Generación: 3,072 tokens
  • Rondas de Entrenamiento: 1 episodio
  • Hardware: 4×NVIDIA H100 80GB GPU
  • Familia de Modelos: Qwen2.5 (0.5B, 1.5B, 3B, 7B)

Resultados Experimentales

Resultados Principales

1. Comparación de Desempeño en Diferentes Escalas de Modelos (Tabla 1)

Modelo 0.5B:

  • Base: Math 500=23.4, GSM8K=26.38
  • TTRL: Colapso completo (Math 500=0.0)
  • Intuitor: Degradación de desempeño (GSM8K=0.68)
  • CuMa: Math 500=32.8 (+40%), GSM8K=32.9 (+25%)

Modelo 7B:

  • Base: Math 500=58.2, GSM8K=81.5
  • GRPO: 73.8, 85.67 (límite superior con etiquetas)
  • TTRL/Intuitor: 73.6/72.2, 84.39/78.19
  • CuMa: 74.0, 84.49 (cercano a métodos con etiquetas)

Hallazgos Clave:

  • Todos los métodos sin etiquetas son efectivos en modelos grandes
  • Solo CuMa mejora consistentemente en modelos pequeños; otros métodos se degradan o colapsan
  • CuMa evita el colapso en el modelo 0.5B, logrando mejoras significativas

2. Capacidad de Generalización Transversal a Puntos de Referencia

CuMa demuestra mejoras en 5 diferentes puntos de referencia de razonamiento:

  • Math 500: Mejora en todas las escalas de modelos
  • GPQA: Modelo 7B de 27.77→32.32
  • AIME24: Modelo 7B de 6.67→13.33 (duplicado)
  • LCB: Modelo 3B de 5.20→8.04

Experimentos de Ablación

La Tabla 2 muestra la contribución de cada componente de CuMa (modelo 0.5B, Math 500):

ConfiguraciónDesempeñoMagnitud de Caída
CuMa Completo32.8-
Sin Enmascaramiento de Recompensas30.7-6.4%
Sin Generación de Datos24.5-25.3%
Sin Aprendizaje Curricular20.1-38.7%

Perspectivas Clave:

  1. Aprendizaje Curricular es Más Crítico: Sin él, el desempeño es casi un colapso (20.1 vs base 23.4)
  2. Generación de Datos es Importante: Proporciona muestras suficientes de cada dificultad para apoyar el aprendizaje curricular
  3. Enmascaramiento de Recompensas es Efectivo: Evita aprender de señales ruidosas, estabiliza el entrenamiento

Análisis de Casos

Figura 2: Generación de Respuestas Correctas en Entrenamiento Temprano

  • Modelo 0.5B: Casi sin salidas correctas en los primeros 50 pasos
  • Consecuencia: La votación mayoritaria de TTRL produce pseudoetiquetas erróneas → colapso del modelo
  • Solución de CuMa: Comenzar con problemas simples, generar respuestas parcialmente correctas temprano

Figura 3: Cambio de Longitud de CoT Durante el Entrenamiento

  • Modelo 7B: Longitud de 500→1400 tokens, incluye autorreflexión
  • Modelos 0.5B/1.5B: Longitud mantiene 500-700, sin crecimiento significativo
  • Hallazgo: El crecimiento de longitud no es un indicador confiable para modelos pequeños

Figura 4: Impacto de la Dificultad de Datos de Entrenamiento

Prueba en modelo 0.5B con diferentes niveles de dificultad (Nivel 1-2 a 1-5):

  • Math 500: L1-2 de 0.35→L1-4 cercano a 0 (colapso)
  • GSM8K: Disminuye progresivamente de 0.28 a 0.15
  • Conclusión: Datos demasiado difíciles causan que modelos pequeños no puedan aprender

Hallazgos Experimentales

  1. Umbral de Capacidad de Razonamiento: El RL sin etiquetas requiere una capacidad de razonamiento mínima como prerequisito
  2. Coincidencia Datos-Capacidad: La dificultad de los datos de entrenamiento debe alinearse con la capacidad del modelo
  3. Confiabilidad de Votación Mayoritaria: Depende de que el modelo base genere al menos algunas soluciones correctas
  4. Universalidad del Aprendizaje Curricular: Ayuda en todas las escalas de modelos, pero es más crítico para modelos débiles
  5. Naturaleza Engañosa de la Longitud de CoT: No puede ser el único indicador de mejora de razonamiento en modelos pequeños

Trabajo Relacionado

1. Aprendizaje por Refuerzo Supervisado

  • RLHF: Alineación de modelos a través de retroalimentación humana
  • GRPO: Método de recompensa basado en reglas para razonamiento matemático
  • DeepSeek-R1: Modelo de razonamiento a gran escala
  • Limitaciones: Depende de datos anotados, escalabilidad limitada

2. Métodos sin Etiquetas/Automejorados

  • Self-rewarding LMs: Autoevaluación de modelos
  • Self-play fine-tuning: Mejora mediante autojuego
  • DPO: Optimización de preferencias directas
  • Distinción de este Artículo: Se enfoca en la aplicabilidad de métodos de RL en modelos débiles

3. Optimización en Tiempo de Prueba

  • TTRL: RL de tiempo de prueba con votación mayoritaria
  • Intuitor: Basado en certeza propia
  • Contribución de este Artículo: Revela modos de fallo de estos métodos en modelos débiles y propone soluciones

4. Aprendizaje Curricular

  • El aprendizaje curricular tradicional se utiliza principalmente en aprendizaje supervisado
  • Innovación de este Artículo: Primera aplicación sistemática de aprendizaje curricular a tareas de razonamiento de RL sin etiquetas

Conclusiones y Discusión

Conclusiones Principales

  1. Hallazgo Central: El RL sin etiquetas no es un "almuerzo gratis", requiere capacidad de razonamiento fundamental como prerequisito
  2. Mecanismo de Fallo:
    • Modelos débiles no pueden generar suficientes soluciones correctas → votación mayoritaria falla
    • Falta de CoT diversificado → mecanismo de autorreflexión inefectivo
    • Datos demasiado difíciles → señal de aprendizaje escasa
  3. Efectividad de la Solución: CuMa mejora el desempeño en todas las escalas 0.5B-7B, con mejoras particularmente significativas para modelos débiles
  4. Significado Teórico: Revela las condiciones mínimas y la ruta para el arranque de capacidades de razonamiento

Limitaciones

  1. Rango de Modelos: Validado solo en modelos de la serie Qwen; la generalización a otras arquitecturas (como LLaMA, Mistral) es desconocida
  2. Restricción de Dominio: Se enfoca principalmente en razonamiento matemático; la aplicabilidad a otros tipos de razonamiento (como razonamiento de sentido común, razonamiento lógico) requiere verificación adicional
  3. Diseño Curricular: La clasificación de dificultad depende de definición manual o generación por LLM, carece de mecanismo de evaluación de dificultad automatizado
  4. Costo Computacional: Requiere generar muchas soluciones candidatas (8 por problema), costo de inferencia relativamente alto
  5. Umbral de Capacidad Mínima: No se define claramente el estándar cuantitativo de "capacidad de razonamiento suficiente"
  6. Calidad de Generación de Datos: La diversidad y calidad de datos sintéticos dependen del modelo generador

Direcciones Futuras

  1. Currículo Adaptativo: Ajustar dinámicamente la dificultad basado en desempeño en tiempo real del modelo
  2. Recompensa Híbrida: Combinar señales de múltiples recompensas de votación mayoritaria y certeza
  3. Verificación Transdominio: Extender a generación de código, razonamiento científico y otros dominios
  4. Análisis Teórico: Establecer relaciones formalizadas entre capacidad de razonamiento y efectividad de RL
  5. Optimización de Eficiencia: Reducir la cantidad de generación de soluciones candidatas, disminuir costo computacional

Evaluación Profunda

Fortalezas

1. Identificación Precisa del Problema

  • Primera revelación sistemática del fenómeno de fallo de RL sin etiquetas en modelos débiles
  • Análisis profundo de causas raíz a través de experimentos multidimensionales (escala de modelo, dificultad de datos, longitud de CoT)
  • Visualización en Figura 2 que muestra intuitivamente el mecanismo de colapso en entrenamiento temprano

2. Diseño de Método Razonable

  • Simple y Efectivo: Los tres componentes (aprendizaje curricular, enmascaramiento de recompensas, generación de datos) tienen motivación clara
  • Apoyo Teórico: El aprendizaje curricular se alinea con teoría de ciencia cognitiva y aprendizaje automático
  • Viabilidad de Ingeniería: Fácil de implementar, no introduce componentes nuevos complejos

3. Experimentos Suficientes

  • Cobertura Completa: Cubre cuatro escalas de modelos 0.5B-7B
  • Diversidad de Puntos de Referencia: 5 tareas de razonamiento de diferentes tipos
  • Comparación Completa: Incluye límite superior con etiquetas (GRPO) y múltiples baselines sin etiquetas
  • Ablación Detallada: Verifica la contribución de cada componente individualmente

4. Valor Práctico Alto

  • Proporciona solución viable para escenarios con recursos limitados (dispositivos periféricos, despliegue de bajo costo)
  • Código de código abierto, fuerte reproducibilidad
  • Método universal, extensible a otros paradigmas de RL

5. Escritura Clara

  • Estructura lógica rigurosa: problema → análisis → método → verificación
  • Efectos de visualización excelentes (Figuras 1-4 muestran intuitivamente hallazgos clave)
  • Resumen de contribuciones principales bien posicionado

Insuficiencias

1. Profundidad Teórica Limitada

  • Falta de Análisis Formalizado: No establece relaciones teóricas entre capacidad de razonamiento y convergencia de RL
  • Definición de Dificultad Vaga: La división de Nivel 1-5 depende de juicio subjetivo
  • Umbral sin Cuantificar: ¿Qué grado de capacidad de razonamiento es suficiente para apoyar RL sin etiquetas?

2. Defectos en Diseño Experimental

  • Serie de Modelo Única: Solo modelos Qwen, sesgo arquitectónico no eliminado
  • Dependencia de Generación de Datos: La calidad de datos sintéticos depende de Qwen-72B, puede introducir sesgo
  • Falta de Significancia Estadística: No reporta varianza y intervalos de confianza de múltiples ejecuciones
  • Costo Computacional no Reportado: Tiempo de entrenamiento, consumo de GPU y otros costos de recursos no divulgados

3. Limitaciones del Método

  • Currículo Fijo: 5 niveles de dificultad y orden son hiperparámetros, carece de mecanismo adaptativo
  • Votación Mayoritaria Frágil: Aún depende de que el modelo base genere al menos algunas soluciones correctas
  • Enmascaramiento de Recompensas Conservador: Puede perder muestras difíciles con valor de aprendizaje

4. Análisis Insuficiente

  • Falta de Casos de Fallo: No muestra casos donde CuMa aún falla
  • Comparación con Aprendizaje Humano Superficial: La analogía de aprendizaje curricular no se explora profundamente
  • Efectos a Largo Plazo Desconocidos: Solo entrena 1 episodio, la estabilidad del entrenamiento continuo no se verifica

5. Generalización Cuestionable

  • Tarea Única: Principalmente razonamiento matemático, otros tipos de razonamiento no suficientemente verificados
  • Limitación de Idioma: Solo datos en inglés, escenarios multilingües no considerados
  • Conocimiento de Dominio: Aplicabilidad a tareas que requieren conocimiento especializado (medicina, derecho) desconocida

Impacto

Contribución al Campo

  1. Llena Vacío de Investigación: Primer estudio sistemático del comportamiento de RL sin etiquetas en modelos débiles
  2. Inspiración Metodológica: Demuestra la efectividad del aprendizaje curricular en tareas de razonamiento de RL
  3. Guía Práctica: Proporciona ruta viable para mejorar capacidades de razonamiento de modelos pequeños
  4. Fundación Teórica: Establece base para investigación posterior sobre mecanismos de arranque de capacidades de razonamiento

Valor Práctico

  • Despliegue Periférico: Permite que modelos pequeños también mejoren mediante RL, reduciendo costo de despliegue
  • Aplicaciones Educativas: La estrategia de aprendizaje progresivo puede aplicarse a sistemas de educación personalizada
  • Herramienta de Investigación: Código de código abierto y tubería de generación de datos disponibles para la comunidad

Reproducibilidad

  • ✅ Código de código abierto (GitHub)
  • ✅ Hiperparámetros detallados (tasa de aprendizaje, temperatura, longitud de generación, etc.)
  • ✅ Indicaciones de generación de datos públicas (Apéndice B)
  • ⚠️ Requisitos de recursos computacionales altos (4×H100)
  • ⚠️ Datos sintéticos no publicados directamente

Escenarios Aplicables

Escenarios Apropiados

  1. Entornos con Recursos Limitados: Necesidad de mejorar capacidades de razonamiento en modelos pequeños
  2. Datos sin Etiquetar: Abundancia de problemas de razonamiento pero falta de respuestas estándar
  3. Aprendizaje Progresivo: Tareas con niveles de dificultad claros (educación, entrenamiento de competencia)
  4. Razonamiento Matemático/Código: Tareas de dominio cerrado con respuestas objetivamente correctas

Escenarios Inapropiados

  1. Generación de Dominio Abierto: Como escritura creativa, sistemas de diálogo (sin respuesta correcta clara)
  2. Modelos Extremadamente Débiles: <0.5B o capacidad de razonamiento fundamental cercana a aleatoria
  3. Sistemas en Tiempo Real: Requieren respuesta rápida, no pueden permitirse múltiples muestreos
  4. Tareas Subjetivas: Como análisis de sentimiento, transferencia de estilo (votación mayoritaria sin sentido)

Referencias

Trabajos Relacionados Principales

  1. DeepSeekMath 1: Punto de referencia de modelo abierto para razonamiento matemático
  2. DeepSeek-R1 2: Modelo de razonamiento a gran escala y entrenamiento de RL
  3. TTRL 3: Marco de aprendizaje por refuerzo en tiempo de prueba
  4. Intuitor 4: RL no supervisado basado en certeza intrínseca
  5. RLHF 6: Método clásico de aprendizaje de retroalimentación humana
  6. PPO 7: Algoritmo de optimización de política proximal
  7. Chain-of-Thought 8: Técnica de indicación de cadena de pensamiento

Relacionado con Metodología

  • Fundamentos de Aprendizaje por Refuerzo 5: Libro de texto clásico de Sutton & Barto
  • DPO 17: Optimización de preferencias directas
  • Self-rewarding LMs 14-16: Autorrecompensa y automejora

Resumen

Este artículo realiza investigación empírica profunda e innovación metodológica sobre el problema del fallo de aprendizaje por refuerzo sin etiquetas en modelos de razonamiento débiles. El valor central radica en revelar las condiciones previas para el arranque de capacidades de razonamiento: el modelo base debe poseer una capacidad de razonamiento mínima para beneficiarse del RL no supervisado. El método CuMa, a través del diseño sinérgico de aprendizaje curricular, enmascaramiento de recompensas y generación de datos, logra exitosamente que incluso modelos débiles como 0.5B mejoren de manera estable.

Puntos Destacados: Identificación precisa del problema, método simple y efectivo, cobertura experimental completa, alto valor práctico.
Insuficiencias: Análisis teórico limitado, verificación de generalización limitada, falta de significancia estadística.

Índice de Recomendación: ⭐⭐⭐⭐ (4/5)
Recomendado para investigadores interesados en razonamiento de modelos pequeños, aprendizaje no supervisado y aprendizaje curricular. También tiene valor de referencia importante para la industria en el despliegue de modelos de razonamiento en escenarios con recursos limitados.