2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic

ARS: Supresión Adaptativa de Razonamiento para Modelos de Lenguaje de Razonamiento Extenso Eficientes

Información Básica

  • ID del Artículo: 2510.00071
  • Título: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
  • Autor: Dongqi Zheng (Investigador Independiente)
  • Clasificación: cs.AI cs.CL
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.00071v2

Resumen

Los modelos de lenguaje de razonamiento extenso (LRLMs) demuestran capacidades excepcionales en tareas de razonamiento complejo, pero enfrentan problemas significativos de eficiencia computacional debido al fenómeno de "pensamiento excesivo". Los métodos de razonamiento eficiente existentes enfrentan el desafío de equilibrar la calidad del razonamiento con la reducción de costos de razonamiento. Este artículo propone Supresión Adaptativa de Razonamiento (ARS), un método novedoso sin entrenamiento que suprime dinámicamente pasos de razonamiento redundantes mediante monitoreo determinista adaptativo, manteniendo simultáneamente la precisión. ARS introduce un mecanismo de estimación determinista de múltiples puntos de control y umbrales de supresión progresiva, logrando una eficiencia superior en comparación con métodos de supresión estática. En puntos de referencia de razonamiento matemático en múltiples arquitecturas de modelos, ARS logra reducciones de hasta 53%, 46.1% y 57.9% en tokens, latencia y consumo de energía respectivamente, mientras mantiene o mejora la precisión.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de razonamiento extenso (LRMs) como o1/o3 de OpenAI y DeepSeek-R1 han logrado avances revolucionarios en tareas complejas como matemáticas, programación e razonamiento científico mediante mecanismos sofisticados de cadena de pensamiento (CoT). Sin embargo, estos modelos sufren del grave fenómeno de "pensamiento excesivo", donde el modelo continúa generando pasos de razonamiento redundantes incluso después de haber obtenido la solución intermedia correcta.

Importancia del Problema

El fenómeno de pensamiento excesivo resulta en:

  1. Sobrecarga Computacional: tiempo de razonamiento innecesariamente largo
  2. Desperdicio de Recursos: aumento del consumo de tokens y costos computacionales
  3. Ineficiencia: impacto en el despliegue y aplicación práctica

Limitaciones de Métodos Existentes

Las soluciones existentes se dividen en tres categorías:

  1. Métodos Guiados por Indicaciones: guían el razonamiento del modelo dentro de presupuestos de tokens predefinidos
  2. Métodos Basados en Entrenamiento: ajustan el modelo para lograr razonamiento conciso
  3. Métodos de Operaciones de Decodificación: ajustan dinámicamente el proceso de razonamiento

Estos métodos sufren universalmente de umbrales estáticos y falta de adaptabilidad.

Motivación de la Investigación

Este artículo tiene como objetivo desarrollar un método adaptativo independiente del entrenamiento que pueda:

  • Monitorear dinámicamente el determinismo del modelo
  • Ajustar progresivamente la intensidad de supresión
  • Mejorar significativamente la eficiencia mientras se mantiene la calidad del razonamiento

Contribuciones Principales

  1. Propuesta del Marco ARS: primer método de supresión de razonamiento guiado por determinismo adaptativo, logrando supresión dinámica mediante ajuste de umbral progresivo
  2. Mecanismo de Múltiples Puntos de Control: establece múltiples puntos de control para estimación determinista, superando las limitaciones de evaluación de punto único
  3. Garantías Teóricas: proporciona análisis teórico y garantías de eficiencia del desempeño de ARS
  4. Evaluación Integral: verifica la efectividad del método en múltiples arquitecturas de modelos y puntos de referencia de razonamiento matemático
  5. Mejora de Desempeño Significativa: logra reducciones sustanciales en tokens, latencia y consumo de energía mientras mantiene la precisión

Explicación Detallada del Método

Definición de la Tarea

Dado una consulta de razonamiento q y un modelo de lenguaje de razonamiento extenso π, el proceso de generación estándar produce tokens de salida o = {o₁, o₂, ..., oₜ}, donde oₜ ~ π(·|q, o<ₜ). El objetivo es minimizar la longitud de salida esperada ET mientras se mantiene la precisión del razonamiento:

min E[T] subject to E[L(f(o), y)] ≤ ε

donde f(o) extrae la respuesta final de la salida o, y es la respuesta verdadera, L es la función de pérdida, y ε es el umbral de degradación de precisión aceptable.

Arquitectura del Modelo

El marco ARS contiene tres componentes principales:

1. Estimación Determinista de Múltiples Puntos de Control

  • Establece múltiples puntos de control {c₁, c₂, ..., cₖ} durante el proceso de generación
  • Estima el determinismo del modelo en cada punto de control cᵢ mediante sondeo de respuestas tentativas
  • Utiliza función de estimación de dificultad heurística:
D(q) = 0.4 · min(1, |q|palabras/80) + 0.4 · Σcount(k,q)/(3|K|) + 0.2 · min(1, |símbolos(q)|/10)

2. Adaptación Progresiva de Umbral

  • Ajusta dinámicamente el umbral de supresión según patrones de progreso de razonamiento
  • Ajuste adaptativo basado en tendencias de determinismo
  • Soporta tres modos: FAST, MOD, DeepReflect

3. Mecanismo de Supresión Dinámica

  • Control de intensidad de supresión adaptativa
  • Basado en conjunto de palabras desencadenantes T = {"Wait", "But", "Alternatively", ...}
  • Suprime comportamiento reflexivo cuando se detecta alto determinismo

Puntos de Innovación Técnica

  1. Adaptabilidad: A diferencia de métodos de supresión estática, ARS se adapta dinámicamente según la trayectoria de razonamiento de cada modelo
  2. Diseño de Múltiples Puntos de Control: supera la inestabilidad de evaluación de punto único
  3. Ajuste Progresivo: ajusta dinámicamente la estrategia de supresión según tendencias de determinismo
  4. Característica Sin Entrenamiento: puede desplegarse directamente en modelos existentes sin microajuste adicional

Análisis Teórico

Teorema 1 (Garantía de Eficiencia): Para consultas con complejidad de razonamiento R(q) ≤ Rmax, la longitud de salida TARS producida por ARS satisface:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

con probabilidad al menos 1-δ, donde εR → 0 conforme aumenta el número de puntos de control.

Configuración Experimental

Conjuntos de Datos

  • GSM8K: conjunto de datos de problemas de aplicación matemática de primaria
  • MATH500: problemas de competencia matemática de nivel de secundaria y universidad
  • Evaluación de n=200 problemas por conjunto de datos

Métricas de Evaluación

  • Acc↑: Precisión (mayor es mejor)
  • Lat↓: Latencia (segundos, menor es mejor)
  • TPC↓: Tokens por respuesta correcta (menor es mejor)
  • JPC↓: Julios por respuesta correcta (menor es mejor)

Métodos de Comparación

  1. Vanilla: generación estándar
  2. TALE: razonamiento con restricción de longitud consciente de tokens
  3. CGRS: supresión de razonamiento guiada por confianza

Detalles de Implementación

  • Modelos: Qwen2.5-Math-1.5B/7B-Instruct, DeepSeek-R1-Distill-Qwen-7B
  • Hardware: GPU V100-32GB
  • Límite máximo de tokens: 1200 tokens por respuesta

Resultados Experimentales

Resultados Principales

Desempeño en Conjunto de Datos GSM8K:

  • Qwen-1.5B: precisión 91.0%, reducción de latencia 27.3%, reducción de tokens 22.5%, reducción de consumo de energía 24.5%
  • Qwen-7B: precisión 94.5% (mejora 8%), reducción de latencia 6.3%, reducción de tokens 16.7%, reducción de consumo de energía 14.3%
  • DeepSeek-7B: precisión 93.0%, reducción de latencia 46.1%, reducción de tokens 43.5%, reducción de consumo de energía 46.6%

Desempeño en Conjunto de Datos MATH500:

  • En el más desafiante MATH500, ARS logra igualmente mejoras significativas de eficiencia
  • En el modelo DeepSeek-7B, la reducción de tokens alcanza hasta 53.0%

Hallazgos Clave

  1. Ganancias de Eficiencia Variables: ARS demuestra mejoras de desempeño dependientes del contexto, con reducciones de tokens de hasta 53%
  2. Mantenimiento de Precisión: A pesar de estar orientado a eficiencia, ARS mantiene tasas de precisión competitivas en todos los puntos de referencia
  3. Desempeño Dependiente de Arquitectura: DeepSeek-7B muestra las mejoras más consistentes, mientras que los modelos Qwen muestran desempeño más variable
  4. Mejora de Múltiples Métricas: además de tokens, logra reducción de latencia de 46.1% y ahorro de energía de 57.9%

Análisis de Casos

El artículo demuestra la efectividad de ARS a través de un problema de secuencia geométrica de MATH500:

  • Selección de modo consciente de dificultad que elige profundidad de razonamiento apropiada
  • Monitoreo determinista progresivo que detecta tempranamente estabilidad de confianza
  • Supresión adaptativa que se vuelve más agresiva conforme se establece confianza
  • Ajuste basado en tendencias que previene ciclos de reflexión innecesarios

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Métodos de Ingeniería de Indicaciones: guían el modelo a través de instrucciones para razonar dentro de presupuestos
  2. Optimización de Entrenamiento de Modelos: entrenan modelos para generar razonamiento conciso
  3. Estrategias de Decodificación: ajustan dinámicamente el proceso de razonamiento

Ventajas de Este Artículo

  • Diseño sin entrenamiento permite despliegue inmediato
  • Mecanismo adaptativo proporciona equilibrio más refinado entre calidad y eficiencia
  • Mecanismo de múltiples puntos de control mejora estabilidad

Conclusiones y Discusión

Conclusiones Principales

ARS resuelve exitosamente las limitaciones clave de métodos existentes mediante la integración de monitoreo determinista adaptativo, ajuste de umbral progresivo y control de intensidad de supresión dinámica. Los experimentos demuestran que ARS logra mejoras significativas de eficiencia computacional mientras mantiene o mejora la precisión.

Limitaciones

  1. Límite de Longitud de Generación Máxima: la restricción de 1200 tokens puede afectar la precisión en problemas complejos
  2. Dependencia de Arquitectura: el desempeño varía considerablemente entre diferentes arquitecturas de modelos
  3. Alcance de Evaluación: se concentra principalmente en tareas de razonamiento matemático

Direcciones Futuras

  1. Extensión a paradigmas de razonamiento más amplios más allá de resolución de problemas matemáticos
  2. Exploración de estrategias de programación conscientes de puntos de control
  3. Desarrollo de mecanismos de estimación determinista más ricos adaptados a comportamientos específicos de modelos

Evaluación Profunda

Fortalezas

  1. Innovación de Método: propone por primera vez el concepto de supresión de razonamiento adaptativo, con ruta técnica novedosa
  2. Fundamento Teórico: proporciona análisis teórico y garantías de desempeño
  3. Suficiencia Experimental: evaluación integral en múltiples modelos y conjuntos de datos
  4. Valor Práctico: característica sin entrenamiento facilita despliegue
  5. Desempeño Significativo: logra mejoras sustanciales en métricas de eficiencia

Insuficiencias

  1. Limitaciones de Evaluación: evaluación principalmente en tareas de razonamiento matemático, generalización por verificar
  2. Comparación de Líneas Base: métodos de comparación relativamente limitados, faltan más métodos recientes
  3. Análisis Teórico: pruebas de garantías teóricas demasiado breves
  4. Sensibilidad de Parámetros: falta análisis de sensibilidad de hiperparámetros clave
  5. Sobrecarga Computacional: análisis insuficiente de sobrecarga computacional del mecanismo de múltiples puntos de control

Impacto

  1. Contribución Académica: proporciona nueva dirección de investigación para optimización de eficiencia de razonamiento
  2. Valor Práctico: significancia importante para despliegue de modelos extensos
  3. Reproducibilidad: descripción de algoritmo clara, fácil de reproducir

Escenarios Aplicables

  1. Entornos con Recursos Limitados: dispositivos móviles, computación perimetral, etc.
  2. Aplicaciones en Tiempo Real: tareas de razonamiento que requieren respuesta rápida
  3. Aplicaciones Sensibles a Costos: aplicaciones comerciales que necesitan controlar costos computacionales
  4. Tareas de Razonamiento Matemático: campo de aplicación principal verificado actualmente

Referencias

El artículo cita 21 referencias relacionadas, cubriendo trabajos importantes en campos como razonamiento de modelos de lenguaje extenso, cadena de pensamiento, resolución de problemas matemáticos, etc., proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo con contribuciones importantes en optimización de eficiencia de modelos de razonamiento extenso. El método ARS está ingeniosamente diseñado, los resultados experimentales son convincentes, y proporciona una solución efectiva para el problema de pensamiento excesivo en modelos de razonamiento. Aunque existen algunas limitaciones, su innovación y valor práctico lo convierten en un progreso importante en este campo.