AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size?
In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks.
Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
academic
KI-Agenten als universelle Aufgabenlöser: Es geht um die Zeit
Dieses Paper überprüft die Rolle von KI-Agenten beim Erlernen von Reasoning neu und betrachtet sie als stochastische dynamische Systeme mit Rechenfähigkeit. Die Autoren betonen die Schlüsselrolle der Zeit in den theoretischen Grundlagen des Reasoning-Lernens. Sie schlagen einen Übergang vom klassischen induktiven Lernen zum transduktiven Lernen vor, wobei das Ziel nicht darin besteht, die Verteilung historischer Daten anzunähern, sondern die algorithmische Struktur in den Daten zu erfassen, um die für die Lösung neuer Aufgaben erforderliche Zeit zu reduzieren. Die Forschung zeigt, dass die optimale Beschleunigung, die universelle Solver mit historischen Daten erreichen können, eng mit ihrer algorithmischen Information zusammenhängt, und liefert eine theoretische Herleitung für die beobachtete Potenzgesetz-Skalierung zwischen Reasoning-Zeit und Trainingszeit.
Traditionelles maschinelles Lernen konzentriert sich auf induktives Lernen, d.h. das Anpassen einer Funktion an gekennzeichnete Daten mit der Erwartung der Verallgemeinerung auf ähnliche Eingaben. In Agent-Szenarien muss das vortrainierte Modell jedoch neue Aufgabeninstanzen verarbeiten und diese Instanz lösen können. Dieser Prozess wird als Transduktion bezeichnet: Zur Testzeit nutzt das Modell alle verfügbaren Daten und führt aktiv Reasoning durch, um die vorliegende Aufgabe zu lösen.
Aktuelle Skalierungsgesetze verwenden Vorhersagefehler als Proxy für Intelligenz und ignorieren Zeitkosten
Mit stärkeren Modellen wird Lernen unnötig, da Modelle sich auf erschöpfende Berechnung statt auf aus Datenstrukturen gewonnene Erkenntnisse verlassen können
Im Grenzfall unbegrenzter Ressourcen können Modelle jede Aufgabe durch Brute-Force lösen, ohne dass Lernen erforderlich ist
Theoretischer Rahmen: Modellierung von KI-Agenten als stochastische dynamische Systeme, Erweiterung der Theorie universeller Solver von Turingmaschinen auf allgemeine dynamische Systeme
Neudefinition des Zeitkonzepts: Einführung des Konzepts der "proper time", um das nicht-triviale Problem der Zeitdefinition in stochastischen Systemen zu lösen
Information-Geschwindigkeits-Äquivalenz: Beweis, dass Information Geschwindigkeit ist (Theorem 1.1: log speed-up = I(h : D))
Skalierungsgesetze-Theorie: Theoretische Herleitung der beobachteten Potenzgesetz-Skalierung zwischen Reasoning-Zeit und Trainingszeit in Reasoning-Modellen
Umkehrung von Skalierungsgesetzen: Offenlegung der Irreführung durch Genauigkeits-Skalierungs-Diagramme, Betonung der Bedeutung von Zeitoptimierung
Die Forschung konzentriert sich auf verifizierbare Aufgaben: Jede Probleminstanz x ist mit einer aufgabenspezifischen Funktion f(x,y) gekoppelt, die jede Kandidatenlösung y interaktiv verifizieren oder bewerten kann.
Das Paper ist hauptsächlich eine theoretische Arbeit, die verschiedene Theoreme durch mathematische Beweise verifiziert. Die experimentelle Verifikation zeigt sich hauptsächlich in:
Santa-Fe-Prozess-Konstruktion: Explizite Konstruktion von Datengenerierungsprozessen, die GHC-Skalierung erfüllen
Theoretische Herleitung von Potenzgesetz-Skalierung: Bereitstellung einer theoretischen Grundlage für empirisch beobachtete Potenzgesetz-Beziehungen zwischen Reasoning-Zeit und Trainingszeit
Komplexitätsparadoxon: Im Gegensatz zum Occam-Rasiermesser-Prinzip sind tatsächlich komplexe Datengenerierungsprozesse vorteilhafter für das Lernen
Umkehrung von Skalierungsgesetzen: Mit zunehmender Modellgröße kann ein "Gelehrten-Modus" (savant regime) erreicht werden, in dem hohe Genauigkeit durch Brute-Force-Berechnung ohne echte Einsicht erreicht wird
Zentrale Rolle der Zeit: Intelligentes Verhalten sollte durch Fehlerreduktion pro Zeiteinheit/Berechnung gemessen werden, nicht nur durch Genauigkeit
Zeit ist der Kern von Intelligenz: Echte Intelligenz sollte Zeiteffizienz optimieren, nicht nur Genauigkeit anstreben
Das Wesen des Lernens ist Beschleunigung: In transduktiven Szenarien liegt der Wert des Lernens in der Reduzierung der Zeit zur Lösung ungesehener Aufgaben
Der Wert von Komplexität: Komplexe Datengenerierungsprozesse bieten mehr Lernmöglichkeiten
Neubewertung von Skalierungsstrategien: Zeit sollte optimiert werden, nicht nur reine Modellgröße
Solomonoff (1964): A formal theory of inductive inference
Hilberg (1990): Klassische Arbeiten zur Textredundanzinformation
Moderne Deep-Learning- und LLM-bezogene Forschung
Dieses Paper bietet tiefe theoretische Erkenntnisse für die Reasoning-Fähigkeiten von KI-Agenten, insbesondere durch die Betonung der Schlüsselrolle der Zeit beim Lernen. Obwohl es hauptsächlich eine theoretische Arbeit ist, könnten ihre Perspektiven einen wichtigen Einfluss auf die zukünftige Gestaltung von KI-Systemen haben.