2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng

Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.

academic

ARS: Supresión Adaptativa de Razonamiento para Modelos de Lenguaje de Razonamiento Extenso Eficientes

Información Básica

ID del Artículo: 2510.00071
Título: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Autor: Dongqi Zheng (Investigador Independiente)
Clasificación: cs.AI cs.CL
Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.00071v2

Resumen

Los modelos de lenguaje de razonamiento extenso (LRLMs) demuestran capacidades excepcionales en tareas de razonamiento complejo, pero enfrentan problemas significativos de eficiencia computacional debido al fenómeno de "pensamiento excesivo". Los métodos de razonamiento eficiente existentes enfrentan el desafío de equilibrar la calidad del razonamiento con la reducción de costos de razonamiento. Este artículo propone Supresión Adaptativa de Razonamiento (ARS), un método novedoso sin entrenamiento que suprime dinámicamente pasos de razonamiento redundantes mediante monitoreo determinista adaptativo, manteniendo simultáneamente la precisión. ARS introduce un mecanismo de estimación determinista de múltiples puntos de control y umbrales de supresión progresiva, logrando una eficiencia superior en comparación con métodos de supresión estática. En puntos de referencia de razonamiento matemático en múltiples arquitecturas de modelos, ARS logra reducciones de hasta 53%, 46.1% y 57.9% en tokens, latencia y consumo de energía respectivamente, mientras mantiene o mejora la precisión.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de razonamiento extenso (LRMs) como o1/o3 de OpenAI y DeepSeek-R1 han logrado avances revolucionarios en tareas complejas como matemáticas, programación e razonamiento científico mediante mecanismos sofisticados de cadena de pensamiento (CoT). Sin embargo, estos modelos sufren del grave fenómeno de "pensamiento excesivo", donde el modelo continúa generando pasos de razonamiento redundantes incluso después de haber obtenido la solución intermedia correcta.

Importancia del Problema

El fenómeno de pensamiento excesivo resulta en:

Sobrecarga Computacional: tiempo de razonamiento innecesariamente largo
Desperdicio de Recursos: aumento del consumo de tokens y costos computacionales
Ineficiencia: impacto en el despliegue y aplicación práctica

Limitaciones de Métodos Existentes

Las soluciones existentes se dividen en tres categorías:

Métodos Guiados por Indicaciones: guían el razonamiento del modelo dentro de presupuestos de tokens predefinidos
Métodos Basados en Entrenamiento: ajustan el modelo para lograr razonamiento conciso
Métodos de Operaciones de Decodificación: ajustan dinámicamente el proceso de razonamiento

Estos métodos sufren universalmente de umbrales estáticos y falta de adaptabilidad.

Motivación de la Investigación

Este artículo tiene como objetivo desarrollar un método adaptativo independiente del entrenamiento que pueda:

Monitorear dinámicamente el determinismo del modelo
Ajustar progresivamente la intensidad de supresión
Mejorar significativamente la eficiencia mientras se mantiene la calidad del razonamiento

Contribuciones Principales

Propuesta del Marco ARS: primer método de supresión de razonamiento guiado por determinismo adaptativo, logrando supresión dinámica mediante ajuste de umbral progresivo
Mecanismo de Múltiples Puntos de Control: establece múltiples puntos de control para estimación determinista, superando las limitaciones de evaluación de punto único
Garantías Teóricas: proporciona análisis teórico y garantías de eficiencia del desempeño de ARS
Evaluación Integral: verifica la efectividad del método en múltiples arquitecturas de modelos y puntos de referencia de razonamiento matemático
Mejora de Desempeño Significativa: logra reducciones sustanciales en tokens, latencia y consumo de energía mientras mantiene la precisión

Explicación Detallada del Método

Definición de la Tarea

Dado una consulta de razonamiento q y un modelo de lenguaje de razonamiento extenso π, el proceso de generación estándar produce tokens de salida o = {o₁, o₂, ..., oₜ}, donde oₜ ~ π(·|q, o<ₜ). El objetivo es minimizar la longitud de salida esperada ET mientras se mantiene la precisión del razonamiento:

min E[T] subject to E[L(f(o), y)] ≤ ε

donde f(o) extrae la respuesta final de la salida o, y es la respuesta verdadera, L es la función de pérdida, y ε es el umbral de degradación de precisión aceptable.

Arquitectura del Modelo

El marco ARS contiene tres componentes principales:

1. Estimación Determinista de Múltiples Puntos de Control

Establece múltiples puntos de control {c₁, c₂, ..., cₖ} durante el proceso de generación
Estima el determinismo del modelo en cada punto de control cᵢ mediante sondeo de respuestas tentativas
Utiliza función de estimación de dificultad heurística:

D(q) = 0.4 · min(1, |q|palabras/80) + 0.4 · Σcount(k,q)/(3|K|) + 0.2 · min(1, |símbolos(q)|/10)

2. Adaptación Progresiva de Umbral

Ajusta dinámicamente el umbral de supresión según patrones de progreso de razonamiento
Ajuste adaptativo basado en tendencias de determinismo
Soporta tres modos: FAST, MOD, DeepReflect

3. Mecanismo de Supresión Dinámica

Control de intensidad de supresión adaptativa
Basado en conjunto de palabras desencadenantes T = {"Wait", "But", "Alternatively", ...}
Suprime comportamiento reflexivo cuando se detecta alto determinismo

Puntos de Innovación Técnica

Adaptabilidad: A diferencia de métodos de supresión estática, ARS se adapta dinámicamente según la trayectoria de razonamiento de cada modelo
Diseño de Múltiples Puntos de Control: supera la inestabilidad de evaluación de punto único
Ajuste Progresivo: ajusta dinámicamente la estrategia de supresión según tendencias de determinismo
Característica Sin Entrenamiento: puede desplegarse directamente en modelos existentes sin microajuste adicional

Análisis Teórico

Teorema 1 (Garantía de Eficiencia): Para consultas con complejidad de razonamiento R(q) ≤ Rmax, la longitud de salida TARS producida por ARS satisface:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

con probabilidad al menos 1-δ, donde εR → 0 conforme aumenta el número de puntos de control.

Configuración Experimental

Conjuntos de Datos

GSM8K: conjunto de datos de problemas de aplicación matemática de primaria
MATH500: problemas de competencia matemática de nivel de secundaria y universidad
Evaluación de n=200 problemas por conjunto de datos

Métricas de Evaluación

Acc↑: Precisión (mayor es mejor)
Lat↓: Latencia (segundos, menor es mejor)
TPC↓: Tokens por respuesta correcta (menor es mejor)
JPC↓: Julios por respuesta correcta (menor es mejor)

Métodos de Comparación

Vanilla: generación estándar
TALE: razonamiento con restricción de longitud consciente de tokens
CGRS: supresión de razonamiento guiada por confianza

Detalles de Implementación

Modelos: Qwen2.5-Math-1.5B/7B-Instruct, DeepSeek-R1-Distill-Qwen-7B
Hardware: GPU V100-32GB
Límite máximo de tokens: 1200 tokens por respuesta

Resultados Experimentales

Resultados Principales

Desempeño en Conjunto de Datos GSM8K:

Qwen-1.5B: precisión 91.0%, reducción de latencia 27.3%, reducción de tokens 22.5%, reducción de consumo de energía 24.5%
Qwen-7B: precisión 94.5% (mejora 8%), reducción de latencia 6.3%, reducción de tokens 16.7%, reducción de consumo de energía 14.3%
DeepSeek-7B: precisión 93.0%, reducción de latencia 46.1%, reducción de tokens 43.5%, reducción de consumo de energía 46.6%

Desempeño en Conjunto de Datos MATH500:

En el más desafiante MATH500, ARS logra igualmente mejoras significativas de eficiencia
En el modelo DeepSeek-7B, la reducción de tokens alcanza hasta 53.0%

Hallazgos Clave

Ganancias de Eficiencia Variables: ARS demuestra mejoras de desempeño dependientes del contexto, con reducciones de tokens de hasta 53%
Mantenimiento de Precisión: A pesar de estar orientado a eficiencia, ARS mantiene tasas de precisión competitivas en todos los puntos de referencia
Desempeño Dependiente de Arquitectura: DeepSeek-7B muestra las mejoras más consistentes, mientras que los modelos Qwen muestran desempeño más variable
Mejora de Múltiples Métricas: además de tokens, logra reducción de latencia de 46.1% y ahorro de energía de 57.9%

Análisis de Casos

El artículo demuestra la efectividad de ARS a través de un problema de secuencia geométrica de MATH500:

Selección de modo consciente de dificultad que elige profundidad de razonamiento apropiada
Monitoreo determinista progresivo que detecta tempranamente estabilidad de confianza
Supresión adaptativa que se vuelve más agresiva conforme se establece confianza
Ajuste basado en tendencias que previene ciclos de reflexión innecesarios

Trabajo Relacionado

Direcciones Principales de Investigación

Métodos de Ingeniería de Indicaciones: guían el modelo a través de instrucciones para razonar dentro de presupuestos
Optimización de Entrenamiento de Modelos: entrenan modelos para generar razonamiento conciso
Estrategias de Decodificación: ajustan dinámicamente el proceso de razonamiento

Ventajas de Este Artículo

Diseño sin entrenamiento permite despliegue inmediato
Mecanismo adaptativo proporciona equilibrio más refinado entre calidad y eficiencia
Mecanismo de múltiples puntos de control mejora estabilidad

Conclusiones y Discusión

Conclusiones Principales

ARS resuelve exitosamente las limitaciones clave de métodos existentes mediante la integración de monitoreo determinista adaptativo, ajuste de umbral progresivo y control de intensidad de supresión dinámica. Los experimentos demuestran que ARS logra mejoras significativas de eficiencia computacional mientras mantiene o mejora la precisión.

Limitaciones

Límite de Longitud de Generación Máxima: la restricción de 1200 tokens puede afectar la precisión en problemas complejos
Dependencia de Arquitectura: el desempeño varía considerablemente entre diferentes arquitecturas de modelos
Alcance de Evaluación: se concentra principalmente en tareas de razonamiento matemático

Direcciones Futuras

Extensión a paradigmas de razonamiento más amplios más allá de resolución de problemas matemáticos
Exploración de estrategias de programación conscientes de puntos de control
Desarrollo de mecanismos de estimación determinista más ricos adaptados a comportamientos específicos de modelos

Evaluación Profunda

Fortalezas

Innovación de Método: propone por primera vez el concepto de supresión de razonamiento adaptativo, con ruta técnica novedosa
Fundamento Teórico: proporciona análisis teórico y garantías de desempeño
Suficiencia Experimental: evaluación integral en múltiples modelos y conjuntos de datos
Valor Práctico: característica sin entrenamiento facilita despliegue
Desempeño Significativo: logra mejoras sustanciales en métricas de eficiencia

Insuficiencias

Limitaciones de Evaluación: evaluación principalmente en tareas de razonamiento matemático, generalización por verificar
Comparación de Líneas Base: métodos de comparación relativamente limitados, faltan más métodos recientes
Análisis Teórico: pruebas de garantías teóricas demasiado breves
Sensibilidad de Parámetros: falta análisis de sensibilidad de hiperparámetros clave
Sobrecarga Computacional: análisis insuficiente de sobrecarga computacional del mecanismo de múltiples puntos de control

Impacto

Contribución Académica: proporciona nueva dirección de investigación para optimización de eficiencia de razonamiento
Valor Práctico: significancia importante para despliegue de modelos extensos
Reproducibilidad: descripción de algoritmo clara, fácil de reproducir

Escenarios Aplicables

Entornos con Recursos Limitados: dispositivos móviles, computación perimetral, etc.
Aplicaciones en Tiempo Real: tareas de razonamiento que requieren respuesta rápida
Aplicaciones Sensibles a Costos: aplicaciones comerciales que necesitan controlar costos computacionales
Tareas de Razonamiento Matemático: campo de aplicación principal verificado actualmente

Referencias

El artículo cita 21 referencias relacionadas, cubriendo trabajos importantes en campos como razonamiento de modelos de lenguaje extenso, cadena de pensamiento, resolución de problemas matemáticos, etc., proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo con contribuciones importantes en optimización de eficiencia de modelos de razonamiento extenso. El método ARS está ingeniosamente diseñado, los resultados experimentales son convincentes, y proporciona una solución efectiva para el problema de pensamiento excesivo en modelos de razonamiento. Aunque existen algunas limitaciones, su innovación y valor práctico lo convierten en un progreso importante en este campo.