AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size?
In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks.
Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
본 논문은 AI 에이전트의 역할을 계산 능력을 갖춘 확률적 동역학 시스템으로 재검토하며, 추론 학습의 기초 원리에서 시간의 핵심적 역할을 강조한다. 저자들은 고전적인 귀납 학습에서 전도 학습(transductive learning)으로의 전환을 제안하며, 목표는 역사적 데이터의 분포를 근사하는 것이 아니라 데이터의 알고리즘 구조를 포착하여 새로운 작업 해결에 필요한 시간을 줄이는 것이다. 연구 결과는 범용 해결자가 역사적 데이터를 활용하여 달성할 수 있는 최적 가속이 알고리즘 정보와 밀접한 관련이 있으며, 관찰된 추론 시간과 훈련 시간의 멱법칙 스케일링에 대한 이론적 유도를 제공한다.
전통적인 기계학습은 귀납 학습(inductive learning)에 중점을 두며, 이는 표시된 데이터의 함수를 적합시키고 유사한 입력으로의 일반화를 기대한다. 그러나 에이전트 설정에서는 사전 훈련된 모델이 새로운 작업의 특정 인스턴스를 처리하고 해당 인스턴스를 해결할 수 있어야 한다. 이 과정을 **전도(transduction)**라고 부른다: 테스트 시간에 모델은 모든 사용 가능한 데이터를 활용하고 현재 작업을 해결하기 위해 적극적으로 추론한다.