2025-11-22T18:43:16.829121

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

Roy, Hajimirsadeghi, Zhai et al.

Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa

academic

Necesitas Razonamiento para Aprender Razonamiento: Las Limitaciones del RL sin Etiquetas en Modelos Base Débiles

Información Básica

ID del Artículo: 2511.04902
Título: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
Autores: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
Clasificación: cs.LG, cs.AI
Conferencia de Publicación: NeurIPS 2025 Workshop: MATH-AI
Enlace del Artículo: https://arxiv.org/abs/2511.04902
Enlace del Código: https://github.com/BorealisAI/CuMa

Resumen

Este artículo estudia sistemáticamente el desempeño de métodos de aprendizaje por refuerzo sin etiquetas (Label-Free RL) en modelos de lenguaje de diferentes escalas (0.5B a 7B parámetros) y capacidades de razonamiento. La investigación revela una limitación crítica: el RL sin etiquetas depende altamente de la capacidad de razonamiento preexistente del modelo base, y para modelos más débiles, el desempeño frecuentemente cae por debajo del nivel de referencia. El estudio descubre que los modelos pequeños no pueden generar cadenas de pensamiento (CoT) suficientemente largas o diversificadas para lograr una autorreflexión efectiva, y la dificultad de los datos de entrenamiento juega un papel clave en determinar el éxito o el fracaso. Para abordar estos desafíos, los autores proponen el método CuMa, que utiliza aprendizaje curricular para introducir progresivamente problemas más difíciles y enmascarar muestras sin resultados de votación mayoritaria durante el entrenamiento. Este método demuestra mejoras consistentes en todas las escalas de modelos.

Antecedentes de Investigación y Motivación

Problema Central a Resolver

En años recientes, la mejora de las capacidades de razonamiento de los grandes modelos de lenguaje se ha basado principalmente en técnicas de aprendizaje por refuerzo, pero los métodos tradicionales (como RLHF, RLVR) dependen fuertemente de señales de supervisión externa (anotaciones humanas o etiquetas de verdad fundamental específicas del dominio). Para abordar este cuello de botella de escalabilidad, los investigadores han propuesto métodos de RL sin etiquetas (como TTRL e Intuitor), pero estos métodos se han validado principalmente en modelos grandes con capacidades de razonamiento sólidas (como Qwen2.5-Math-7B). El problema central que este artículo aborda es: ¿pueden estos métodos de RL sin etiquetas generalizarse a modelos base pequeños con capacidades de razonamiento limitadas?

Importancia del Problema

Escenarios con Recursos Limitados: En dispositivos periféricos o entornos con recursos computacionales limitados, los modelos pequeños tienen mayor valor práctico
Escalabilidad: Comprender los mecanismos de aprendizaje de modelos pequeños es crucial para construir sistemas de razonamiento escalables
Significado Teórico: Revelar las condiciones previas mínimas para el arranque (bootstrap) de capacidades de razonamiento

Limitaciones de Métodos Existentes

TTRL: Estima recompensas mediante votación mayoritaria en datos de prueba sin etiquetar, pero los modelos pequeños generan muy pocas salidas correctas en el entrenamiento temprano, lo que resulta en pseudoetiquetas erróneas
Intuitor: Utiliza la certeza propia del modelo (self-certainty) como recompensa intrínseca, pero los modelos pequeños tienen peor calibración de certeza
Falta de Investigación en Modelos Débiles: Los métodos existentes no consideran los modos de fallo cuando la capacidad de razonamiento fundamental es insuficiente

Motivación de la Investigación

Revelar sistemáticamente a través de experimentos las razones fundamentales del fracaso de los métodos de RL sin etiquetas en modelos débiles, y proponer soluciones específicas que permitan que modelos con recursos limitados también se beneficien del RL no supervisado.

Contribuciones Principales

Primer Análisis Sistemático: Revela las diferencias de desempeño de métodos de RL sin etiquetas en diferentes escalas de modelos (0.5B-7B), descubriendo degradación significativa e incluso colapso de desempeño en modelos débiles
Hallazgos Clave:
- El RL sin etiquetas depende altamente de la capacidad de razonamiento preexistente del modelo base
- Los modelos pequeños no pueden generar cadenas de pensamiento suficientemente largas o diversas para la autorreflexión
- La dificultad de los datos de entrenamiento es un factor clave que determina el éxito
- La longitud de CoT no es un reflejo directo de una capacidad de razonamiento sólida
Propuesta del Método CuMa: Marco integral que combina aprendizaje curricular, enmascaramiento de recompensas y generación de datos
- Estrategia de entrenamiento progresivo de lo simple a lo difícil
- Enmascaramiento de señales de recompensa para muestras sin consenso mayoritario
- Tubería de generación de datos controlable por dificultad basada en LLM
Verificación Empírica: Validación en múltiples puntos de referencia de razonamiento incluyendo Math 500, GPQA, AIME24, GSM8K, LCB, demostrando que el método es efectivo en todas las escalas de modelos, con mejoras particularmente significativas para modelos débiles

Explicación Detallada del Método

Definición de la Tarea

Entrada: Conjunto de datos de problemas de razonamiento sin etiquetar $D = \{x_1, ..., x_M\}$ (como problemas matemáticos)
Salida: Política de modelo optimizada $\pi_\theta$ capaz de generar cadenas de razonamiento y respuestas correctas
Restricción: Durante el entrenamiento, no se puede acceder a etiquetas de verdad fundamental, solo se pueden utilizar múltiples soluciones candidatas generadas por el modelo mismo para aprender

Arquitectura del Modelo

1. Marco de Aprendizaje Curricular

Dividir el conjunto de datos en K=5 niveles de dificultad: $D = D_1 \cup D_2 \cup ... \cup D_K$ donde $D_1$ contiene los problemas más simples y $D_K$ contiene los problemas más difíciles. El entrenamiento procede en el orden $D_1 \to D_K$ .

2. Mecanismo de Recompensa por Votación Mayoritaria

Para cada indicación $x_i$ , generar N soluciones candidatas $\{y_i^{(1)}, ..., y_i^{(N)}\}$ , la función de recompensa se define como: $r(x_i, y_i^{(j)}) = \mathbb{I}[y_i^{(j)} = \text{majority\_vote}(\{y_i^{(1)}, ..., y_i^{(N)}\})]$

3. Mecanismo de Enmascaramiento de Recompensas

Cuando una muestra carece de consenso mayoritario (es decir, la frecuencia máxima de aparición < 2), enmascarar su señal de aprendizaje: $\text{mask}(x_i) = \mathbb{I}\left[\max_j |\{k : y_i^{(k)} = y_i^{(j)}\}| \geq 2\right]$

Esto previene que el modelo aprenda retroalimentación ruidosa de predicciones inciertas.

4. Tubería de Generación de Datos

Utilizar LLM para generar datos sintéticos de dificultad predefinida:

Estrategia de indicación estructurada que especifica explícitamente el nivel de dificultad (1-5)
Proporcionar problemas de ejemplo para cada nivel como referencia
Actualizar dinámicamente ejemplos para aumentar la diversidad
Generar 25 muestras por iteración, cubriendo diferentes subtemas matemáticos

Puntos de Innovación Técnica

1. Ajuste Progresivo de Dificultad

Diferencia con baseline:

TTRL/Intuitor: Entrenar en datos de dificultad fija
CuMa: Comenzar con problemas simples, aumentar progresivamente la dificultad

Justificación del Diseño:

Los modelos pequeños casi no pueden generar soluciones correctas en problemas difíciles (como se muestra en la Figura 2, la tasa de precisión del modelo 0.5B es cercana a 0 en el entrenamiento temprano)
Construir capacidad de razonamiento fundamental a partir de problemas simples, luego transferir a problemas complejos
Se alinea con la teoría del aprendizaje cognitivo humano

2. Señal de Aprendizaje Selectiva

Punto de Innovación: Actualizar el modelo solo cuando hay consenso mayoritario claro

Problema que Resuelve:

En el entrenamiento temprano, las soluciones candidatas generadas por modelos pequeños están altamente dispersas
La falta de consenso mayoritario significa que el modelo es incierto sobre ese problema
El aprendizaje forzado introduce ruido, causando degradación de desempeño

Demostración Experimental: El experimento de ablación en la Tabla 2 muestra que sin enmascaramiento de recompensas, el desempeño cae de 32.8 a 30.7

3. Aumento de Datos Controlable por Dificultad

Detalles Técnicos:

Utilizar ingeniería de indicaciones estructurada para generar problemas matemáticos de diferentes dificultades
Incluir múltiples subdominios como álgebra, geometría, probabilidad
Muestreo dinámico de problemas de ejemplo para evitar sobreajuste a patrones específicos

Función: Proporcionar muestras suficientes de cada nivel de dificultad para apoyar el aprendizaje curricular

Configuración Experimental

Conjuntos de Datos

Math 500: 500 problemas matemáticos de alta calidad
GPQA: Preguntas y respuestas de física a nivel de posgrado
AIME24: Problemas de la Competencia Matemática de Invitación Estadounidense 2024
GSM8K: Problemas de matemáticas de primaria (8,000+ problemas)
LCB: Punto de referencia de razonamiento lógico

Métricas de Evaluación

Precisión (Accuracy): Proporción de respuestas generadas que coinciden exactamente con respuestas estándar
Todos los experimentos reportan precisión en porcentaje

Métodos de Comparación

Modelo Base: Modelo base sin entrenamiento de RL
GRPO: Aprendizaje por refuerzo supervisado utilizando etiquetas de verdad fundamental (referencia de límite superior)
Intuitor: RL sin etiquetas basado en certeza propia
TTRL: RL de tiempo de prueba basado en votación mayoritaria

Detalles de Implementación

Optimizador: AdamW
Tasa de Aprendizaje: Pico de 3×10⁻⁶, decaimiento coseno
Estrategia de Muestreo: Generar 8 candidatos por indicación, temperatura 0.6
Longitud Máxima de Generación: 3,072 tokens
Rondas de Entrenamiento: 1 episodio
Hardware: 4×NVIDIA H100 80GB GPU
Familia de Modelos: Qwen2.5 (0.5B, 1.5B, 3B, 7B)

Resultados Experimentales

Resultados Principales

1. Comparación de Desempeño en Diferentes Escalas de Modelos (Tabla 1)

Modelo 0.5B:

Base: Math 500=23.4, GSM8K=26.38
TTRL: Colapso completo (Math 500=0.0)
Intuitor: Degradación de desempeño (GSM8K=0.68)
CuMa: Math 500=32.8 (+40%), GSM8K=32.9 (+25%)

Modelo 7B:

Base: Math 500=58.2, GSM8K=81.5
GRPO: 73.8, 85.67 (límite superior con etiquetas)
TTRL/Intuitor: 73.6/72.2, 84.39/78.19
CuMa: 74.0, 84.49 (cercano a métodos con etiquetas)

Hallazgos Clave:

Todos los métodos sin etiquetas son efectivos en modelos grandes
Solo CuMa mejora consistentemente en modelos pequeños; otros métodos se degradan o colapsan
CuMa evita el colapso en el modelo 0.5B, logrando mejoras significativas

2. Capacidad de Generalización Transversal a Puntos de Referencia

CuMa demuestra mejoras en 5 diferentes puntos de referencia de razonamiento:

Math 500: Mejora en todas las escalas de modelos
GPQA: Modelo 7B de 27.77→32.32
AIME24: Modelo 7B de 6.67→13.33 (duplicado)
LCB: Modelo 3B de 5.20→8.04

Experimentos de Ablación

La Tabla 2 muestra la contribución de cada componente de CuMa (modelo 0.5B, Math 500):

Configuración	Desempeño	Magnitud de Caída
CuMa Completo	32.8	-
Sin Enmascaramiento de Recompensas	30.7	-6.4%
Sin Generación de Datos	24.5	-25.3%
Sin Aprendizaje Curricular	20.1	-38.7%

Perspectivas Clave:

Aprendizaje Curricular es Más Crítico: Sin él, el desempeño es casi un colapso (20.1 vs base 23.4)
Generación de Datos es Importante: Proporciona muestras suficientes de cada dificultad para apoyar el aprendizaje curricular
Enmascaramiento de Recompensas es Efectivo: Evita aprender de señales ruidosas, estabiliza el entrenamiento

Análisis de Casos

Figura 2: Generación de Respuestas Correctas en Entrenamiento Temprano

Modelo 0.5B: Casi sin salidas correctas en los primeros 50 pasos
Consecuencia: La votación mayoritaria de TTRL produce pseudoetiquetas erróneas → colapso del modelo
Solución de CuMa: Comenzar con problemas simples, generar respuestas parcialmente correctas temprano

Figura 3: Cambio de Longitud de CoT Durante el Entrenamiento

Modelo 7B: Longitud de 500→1400 tokens, incluye autorreflexión
Modelos 0.5B/1.5B: Longitud mantiene 500-700, sin crecimiento significativo
Hallazgo: El crecimiento de longitud no es un indicador confiable para modelos pequeños

Figura 4: Impacto de la Dificultad de Datos de Entrenamiento

Prueba en modelo 0.5B con diferentes niveles de dificultad (Nivel 1-2 a 1-5):

Math 500: L1-2 de 0.35→L1-4 cercano a 0 (colapso)
GSM8K: Disminuye progresivamente de 0.28 a 0.15
Conclusión: Datos demasiado difíciles causan que modelos pequeños no puedan aprender

Hallazgos Experimentales

Umbral de Capacidad de Razonamiento: El RL sin etiquetas requiere una capacidad de razonamiento mínima como prerequisito
Coincidencia Datos-Capacidad: La dificultad de los datos de entrenamiento debe alinearse con la capacidad del modelo
Confiabilidad de Votación Mayoritaria: Depende de que el modelo base genere al menos algunas soluciones correctas
Universalidad del Aprendizaje Curricular: Ayuda en todas las escalas de modelos, pero es más crítico para modelos débiles
Naturaleza Engañosa de la Longitud de CoT: No puede ser el único indicador de mejora de razonamiento en modelos pequeños

Trabajo Relacionado

1. Aprendizaje por Refuerzo Supervisado

RLHF: Alineación de modelos a través de retroalimentación humana
GRPO: Método de recompensa basado en reglas para razonamiento matemático
DeepSeek-R1: Modelo de razonamiento a gran escala
Limitaciones: Depende de datos anotados, escalabilidad limitada

2. Métodos sin Etiquetas/Automejorados

Self-rewarding LMs: Autoevaluación de modelos
Self-play fine-tuning: Mejora mediante autojuego
DPO: Optimización de preferencias directas
Distinción de este Artículo: Se enfoca en la aplicabilidad de métodos de RL en modelos débiles

3. Optimización en Tiempo de Prueba

TTRL: RL de tiempo de prueba con votación mayoritaria
Intuitor: Basado en certeza propia
Contribución de este Artículo: Revela modos de fallo de estos métodos en modelos débiles y propone soluciones

4. Aprendizaje Curricular

El aprendizaje curricular tradicional se utiliza principalmente en aprendizaje supervisado
Innovación de este Artículo: Primera aplicación sistemática de aprendizaje curricular a tareas de razonamiento de RL sin etiquetas

Conclusiones y Discusión

Conclusiones Principales

Hallazgo Central: El RL sin etiquetas no es un "almuerzo gratis", requiere capacidad de razonamiento fundamental como prerequisito
Mecanismo de Fallo:
- Modelos débiles no pueden generar suficientes soluciones correctas → votación mayoritaria falla
- Falta de CoT diversificado → mecanismo de autorreflexión inefectivo
- Datos demasiado difíciles → señal de aprendizaje escasa
Efectividad de la Solución: CuMa mejora el desempeño en todas las escalas 0.5B-7B, con mejoras particularmente significativas para modelos débiles
Significado Teórico: Revela las condiciones mínimas y la ruta para el arranque de capacidades de razonamiento

Limitaciones

Rango de Modelos: Validado solo en modelos de la serie Qwen; la generalización a otras arquitecturas (como LLaMA, Mistral) es desconocida
Restricción de Dominio: Se enfoca principalmente en razonamiento matemático; la aplicabilidad a otros tipos de razonamiento (como razonamiento de sentido común, razonamiento lógico) requiere verificación adicional
Diseño Curricular: La clasificación de dificultad depende de definición manual o generación por LLM, carece de mecanismo de evaluación de dificultad automatizado
Costo Computacional: Requiere generar muchas soluciones candidatas (8 por problema), costo de inferencia relativamente alto
Umbral de Capacidad Mínima: No se define claramente el estándar cuantitativo de "capacidad de razonamiento suficiente"
Calidad de Generación de Datos: La diversidad y calidad de datos sintéticos dependen del modelo generador

Direcciones Futuras

Currículo Adaptativo: Ajustar dinámicamente la dificultad basado en desempeño en tiempo real del modelo
Recompensa Híbrida: Combinar señales de múltiples recompensas de votación mayoritaria y certeza
Verificación Transdominio: Extender a generación de código, razonamiento científico y otros dominios
Análisis Teórico: Establecer relaciones formalizadas entre capacidad de razonamiento y efectividad de RL
Optimización de Eficiencia: Reducir la cantidad de generación de soluciones candidatas, disminuir costo computacional

Evaluación Profunda

Fortalezas

1. Identificación Precisa del Problema

Primera revelación sistemática del fenómeno de fallo de RL sin etiquetas en modelos débiles
Análisis profundo de causas raíz a través de experimentos multidimensionales (escala de modelo, dificultad de datos, longitud de CoT)
Visualización en Figura 2 que muestra intuitivamente el mecanismo de colapso en entrenamiento temprano

2. Diseño de Método Razonable

Simple y Efectivo: Los tres componentes (aprendizaje curricular, enmascaramiento de recompensas, generación de datos) tienen motivación clara
Apoyo Teórico: El aprendizaje curricular se alinea con teoría de ciencia cognitiva y aprendizaje automático
Viabilidad de Ingeniería: Fácil de implementar, no introduce componentes nuevos complejos

3. Experimentos Suficientes

Cobertura Completa: Cubre cuatro escalas de modelos 0.5B-7B
Diversidad de Puntos de Referencia: 5 tareas de razonamiento de diferentes tipos
Comparación Completa: Incluye límite superior con etiquetas (GRPO) y múltiples baselines sin etiquetas
Ablación Detallada: Verifica la contribución de cada componente individualmente

4. Valor Práctico Alto

Proporciona solución viable para escenarios con recursos limitados (dispositivos periféricos, despliegue de bajo costo)
Código de código abierto, fuerte reproducibilidad
Método universal, extensible a otros paradigmas de RL

5. Escritura Clara

Estructura lógica rigurosa: problema → análisis → método → verificación
Efectos de visualización excelentes (Figuras 1-4 muestran intuitivamente hallazgos clave)
Resumen de contribuciones principales bien posicionado

Insuficiencias

1. Profundidad Teórica Limitada

Falta de Análisis Formalizado: No establece relaciones teóricas entre capacidad de razonamiento y convergencia de RL
Definición de Dificultad Vaga: La división de Nivel 1-5 depende de juicio subjetivo
Umbral sin Cuantificar: ¿Qué grado de capacidad de razonamiento es suficiente para apoyar RL sin etiquetas?

2. Defectos en Diseño Experimental

Serie de Modelo Única: Solo modelos Qwen, sesgo arquitectónico no eliminado
Dependencia de Generación de Datos: La calidad de datos sintéticos depende de Qwen-72B, puede introducir sesgo
Falta de Significancia Estadística: No reporta varianza y intervalos de confianza de múltiples ejecuciones
Costo Computacional no Reportado: Tiempo de entrenamiento, consumo de GPU y otros costos de recursos no divulgados

3. Limitaciones del Método

Currículo Fijo: 5 niveles de dificultad y orden son hiperparámetros, carece de mecanismo adaptativo
Votación Mayoritaria Frágil: Aún depende de que el modelo base genere al menos algunas soluciones correctas
Enmascaramiento de Recompensas Conservador: Puede perder muestras difíciles con valor de aprendizaje

4. Análisis Insuficiente

Falta de Casos de Fallo: No muestra casos donde CuMa aún falla
Comparación con Aprendizaje Humano Superficial: La analogía de aprendizaje curricular no se explora profundamente
Efectos a Largo Plazo Desconocidos: Solo entrena 1 episodio, la estabilidad del entrenamiento continuo no se verifica

5. Generalización Cuestionable

Tarea Única: Principalmente razonamiento matemático, otros tipos de razonamiento no suficientemente verificados
Limitación de Idioma: Solo datos en inglés, escenarios multilingües no considerados
Conocimiento de Dominio: Aplicabilidad a tareas que requieren conocimiento especializado (medicina, derecho) desconocida

Impacto

Contribución al Campo

Llena Vacío de Investigación: Primer estudio sistemático del comportamiento de RL sin etiquetas en modelos débiles
Inspiración Metodológica: Demuestra la efectividad del aprendizaje curricular en tareas de razonamiento de RL
Guía Práctica: Proporciona ruta viable para mejorar capacidades de razonamiento de modelos pequeños
Fundación Teórica: Establece base para investigación posterior sobre mecanismos de arranque de capacidades de razonamiento

Valor Práctico

Despliegue Periférico: Permite que modelos pequeños también mejoren mediante RL, reduciendo costo de despliegue
Aplicaciones Educativas: La estrategia de aprendizaje progresivo puede aplicarse a sistemas de educación personalizada
Herramienta de Investigación: Código de código abierto y tubería de generación de datos disponibles para la comunidad

Reproducibilidad

✅ Código de código abierto (GitHub)
✅ Hiperparámetros detallados (tasa de aprendizaje, temperatura, longitud de generación, etc.)
✅ Indicaciones de generación de datos públicas (Apéndice B)
⚠️ Requisitos de recursos computacionales altos (4×H100)
⚠️ Datos sintéticos no publicados directamente

Escenarios Aplicables

Escenarios Apropiados

Entornos con Recursos Limitados: Necesidad de mejorar capacidades de razonamiento en modelos pequeños
Datos sin Etiquetar: Abundancia de problemas de razonamiento pero falta de respuestas estándar
Aprendizaje Progresivo: Tareas con niveles de dificultad claros (educación, entrenamiento de competencia)
Razonamiento Matemático/Código: Tareas de dominio cerrado con respuestas objetivamente correctas

Escenarios Inapropiados

Generación de Dominio Abierto: Como escritura creativa, sistemas de diálogo (sin respuesta correcta clara)
Modelos Extremadamente Débiles: <0.5B o capacidad de razonamiento fundamental cercana a aleatoria
Sistemas en Tiempo Real: Requieren respuesta rápida, no pueden permitirse múltiples muestreos
Tareas Subjetivas: Como análisis de sentimiento, transferencia de estilo (votación mayoritaria sin sentido)

Referencias

Trabajos Relacionados Principales

DeepSeekMath 1: Punto de referencia de modelo abierto para razonamiento matemático
DeepSeek-R1 2: Modelo de razonamiento a gran escala y entrenamiento de RL
TTRL 3: Marco de aprendizaje por refuerzo en tiempo de prueba
Intuitor 4: RL no supervisado basado en certeza intrínseca
RLHF 6: Método clásico de aprendizaje de retroalimentación humana
PPO 7: Algoritmo de optimización de política proximal
Chain-of-Thought 8: Técnica de indicación de cadena de pensamiento

Relacionado con Metodología

Fundamentos de Aprendizaje por Refuerzo 5: Libro de texto clásico de Sutton & Barto
DPO 17: Optimización de preferencias directas
Self-rewarding LMs 14-16: Autorrecompensa y automejora

Resumen

Este artículo realiza investigación empírica profunda e innovación metodológica sobre el problema del fallo de aprendizaje por refuerzo sin etiquetas en modelos de razonamiento débiles. El valor central radica en revelar las condiciones previas para el arranque de capacidades de razonamiento: el modelo base debe poseer una capacidad de razonamiento mínima para beneficiarse del RL no supervisado. El método CuMa, a través del diseño sinérgico de aprendizaje curricular, enmascaramiento de recompensas y generación de datos, logra exitosamente que incluso modelos débiles como 0.5B mejoren de manera estable.

Puntos Destacados: Identificación precisa del problema, método simple y efectivo, cobertura experimental completa, alto valor práctico.
Insuficiencias: Análisis teórico limitado, verificación de generalización limitada, falta de significancia estadística.

Índice de Recomendación: ⭐⭐⭐⭐ (4/5)
Recomendado para investigadores interesados en razonamiento de modelos pequeños, aprendizaje no supervisado y aprendizaje curricular. También tiene valor de referencia importante para la industria en el despliegue de modelos de razonamiento en escenarios con recursos limitados.