AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size?
In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks.
Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
academic
Agentes de IA como Solucionadores Universales de Tareas: Todo se Trata del Tiempo
Este artículo reexamina el papel de los agentes de IA en el aprendizaje del razonamiento, viéndolos como sistemas dinámicos estocásticos con capacidad computacional, enfatizando el papel crítico del tiempo en los principios fundamentales del aprendizaje del razonamiento. Los autores proponen una transición del aprendizaje inductivo clásico al aprendizaje transductivo, cuyo objetivo no es aproximar la distribución de datos históricos, sino capturar la estructura algorítmica en los datos para reducir el tiempo necesario para resolver nuevas tareas. La investigación demuestra que la aceleración óptima que un solucionador universal puede lograr utilizando datos históricos está estrechamente relacionada con su información algorítmica, y proporciona una derivación teórica para la ley de potencia observada entre el tiempo de razonamiento y el tiempo de entrenamiento.
El aprendizaje automático tradicional se enfoca en el aprendizaje inductivo, es decir, ajustar una función a datos etiquetados y esperar que generalice a entradas similares. Sin embargo, en la configuración de agentes, necesitamos que el modelo preentrenado pueda procesar instancias específicas de nuevas tareas y resolver esa instancia. Este proceso se denomina transducción: en tiempo de prueba, el modelo utiliza todos los datos disponibles y razona activamente para resolver la tarea en cuestión.
Las leyes de escalado actuales utilizan el error de predicción como proxy de inteligencia, ignorando los costos de tiempo
A medida que los modelos se vuelven más poderosos, el aprendizaje se vuelve innecesario, ya que los modelos pueden depender de la computación exhaustiva en lugar de obtener información de la estructura de datos
En el límite de recursos infinitos, los modelos pueden resolver cualquier tarea mediante fuerza bruta sin necesidad de aprendizaje alguno
Marco Teórico: Modelar agentes de IA como sistemas dinámicos estocásticos, extendiendo la teoría de solucionadores universales desde máquinas de Turing a sistemas dinámicos generales
Redefinición del Concepto de Tiempo: Introducir el concepto de "proper time" (tiempo propio), abordando el problema no trivial de definir el tiempo en sistemas estocásticos
Equivalencia Información-Velocidad: Demostrar que la información es velocidad (Teorema 1.1: log speed-up = I(h : D))
Teoría de Leyes de Escalado: Proporcionar derivación teórica para la ley de potencia observada entre tiempo de razonamiento y tiempo de entrenamiento en modelos de razonamiento
Inversión de Leyes de Escalado: Revelar la naturaleza engañosa de gráficos de precisión-escala, proponiendo la importancia de la optimización del tiempo
La investigación se enfoca en tareas verificables: cada instancia de problema x se empareja con una función específica de tarea f(x,y), que puede verificar o calificar interactivamente cualquier solución candidata y.
El artículo es principalmente un trabajo teórico, verificando varios teoremas mediante pruebas matemáticas. La verificación experimental se manifiesta principalmente en:
Construcción de Procesos Santa Fe: Construir explícitamente procesos generadores de datos que satisfacen el escalado GHC
Derivación Teórica de Escalado de Ley de Potencia: Proporcionar base teórica para la relación de ley de potencia observada empíricamente entre tiempo de razonamiento y tiempo de entrenamiento
Paradoja de Complejidad: Contrariamente al principio de la navaja de Occam, los procesos generadores de datos complejos son en realidad más favorables para el aprendizaje
Inversión de Leyes de Escalado: A medida que aumenta la escala del modelo, puede entrar en un "régimen de sabio" (savant regime), logrando alta precisión mediante computación bruta pero careciendo de verdadera perspicacia
Posición Central del Tiempo: El comportamiento inteligente debe medirse mediante la reducción de error por unidad de tiempo/computación, no solo por precisión
El Tiempo es el Núcleo de la Inteligencia: La verdadera inteligencia debe optimizar la eficiencia del tiempo, no solo perseguir precisión
La Esencia del Aprendizaje es Aceleración: En la configuración transductiva, el valor del aprendizaje radica en reducir el tiempo para resolver tareas no vistas
El Valor de la Complejidad: Los procesos generadores de datos complejos proporcionan más oportunidades para el aprendizaje
Repensar Estrategias de Escalado: Debe optimizarse el tiempo en lugar de simplemente aumentar la escala del modelo
Solomonoff (1964): A formal theory of inductive inference
Hilberg (1990): Trabajo clásico sobre información redundante en texto
Investigación moderna relacionada con aprendizaje profundo y LLM
Este artículo proporciona perspectivas teóricas profundas sobre las capacidades de razonamiento de agentes de IA, enfatizando particularmente el papel central del tiempo en el aprendizaje. Aunque es principalmente trabajo teórico, sus perspectivas pueden tener un impacto importante en el diseño de futuros sistemas de IA.