AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size?
In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks.
Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
academic
Les Agents IA en tant que Solveurs de Tâches Universels : Tout est une Question de Temps
Cet article réexamine le rôle des agents IA dans l'apprentissage du raisonnement, les considérant comme des systèmes dynamiques stochastiques dotés de capacités de calcul, en soulignant le rôle critique du temps dans les principes fondamentaux de l'apprentissage du raisonnement. Les auteurs proposent une transition de l'apprentissage inductif classique vers l'apprentissage transductif, dont l'objectif n'est pas d'approximer la distribution des données historiques, mais de capturer la structure algorithmique des données pour réduire le temps nécessaire à la résolution de nouvelles tâches. La recherche démontre que l'accélération optimale réalisable par les solveurs universels utilisant des données historiques est étroitement liée à l'information algorithmique, et fournit une dérivation théorique pour les lois de puissance observées entre le temps de raisonnement et le temps d'entraînement.
Universalité des agents IA : Le raisonnement par chaîne de pensée peut-il résoudre toute tâche calculable ?
Mécanismes d'apprentissage : Comment les agents IA apprennent-ils à raisonner ? S'agit-il d'une question d'échelle du modèle ou de volume de données d'entraînement ?
Essence des lois de mise à l'échelle : Les lois de mise à l'échelle actuelles basées sur la précision reflètent-elles véritablement l'intelligence ?
L'apprentissage automatique traditionnel se concentre sur l'apprentissage inductif (inductive learning), c'est-à-dire l'ajustement d'une fonction aux données étiquetées en espérant une généralisation à des entrées similaires. Cependant, dans le contexte des agents, nous avons besoin que le modèle préentraîné soit capable de traiter des instances spécifiques de nouvelles tâches et de résoudre cette instance. Ce processus est appelé transduction : au moment du test, le modèle utilise toutes les données disponibles et raisonne activement pour résoudre la tâche en question.
Les lois de mise à l'échelle actuelles utilisent l'erreur de prédiction comme proxy de l'intelligence, ignorant les coûts temporels
À mesure que les modèles deviennent plus puissants, l'apprentissage devient inutile, car le modèle peut dépendre du calcul exhaustif plutôt que des intuitions tirées de la structure des données
À la limite des ressources infinies, le modèle peut résoudre toute tâche par force brute sans aucun apprentissage
Cadre théorique : Modélisation des agents IA comme systèmes dynamiques stochastiques, extension de la théorie des solveurs universels des machines de Turing aux systèmes dynamiques généraux
Redéfinition du concept de temps : Introduction du concept de « proper time », résolvant le problème non trivial de la définition du temps dans les systèmes stochastiques
Équivalence information-vitesse : Preuve que l'information est la vitesse (Théorème 1.1 : log speed-up = I(h : D))
Théorie des lois de mise à l'échelle : Dérivation théorique des lois de puissance observées entre le temps de raisonnement et le temps d'entraînement dans les modèles de raisonnement
Inversion des lois de mise à l'échelle : Révélation du caractère trompeur des graphiques précision-échelle, proposition de l'importance de l'optimisation temporelle
La recherche se concentre sur les tâches vérifiables (verifiable tasks) : chaque instance de problème x est associée à une fonction spécifique à la tâche f(x,y), permettant de vérifier ou d'évaluer interactivement toute solution candidate y.
L'article est principalement un travail théorique, validant chaque théorème par preuve mathématique. La vérification expérimentale se manifeste principalement par :
Construction de processus Santa Fe : Construction explicite de processus de génération de données satisfaisant la mise à l'échelle GHC
Dérivation théorique des lois de puissance : Fourniture d'une base théorique pour les relations de loi de puissance observées empiriquement entre le temps de raisonnement et le temps d'entraînement
Paradoxe de la Complexité : Contrairement au rasoir d'Occam, les processus de génération de données complexes sont en réalité plus favorables à l'apprentissage
Inversion des Lois de Mise à l'Échelle : À mesure que la taille du modèle augmente, on peut entrer dans un « régime de savant » (savant regime), obtenant une haute précision par calcul brute mais manquant de véritable intuition
Centralité du Temps : Le comportement intelligent devrait être mesuré par la réduction d'erreur par unité de temps/calcul, et non uniquement par la précision
Extension de la théorie de la recherche universelle des machines de Turing aux systèmes dynamiques stochastiques généraux
Proposition du rôle fondamental du temps dans l'apprentissage, remettant en question la vision traditionnelle de la théorie de l'information de Shannon
Fourniture d'une base théorique pour les capacités de raisonnement des LLM
Le Temps est le Cœur de l'Intelligence : La véritable intelligence devrait optimiser l'efficacité temporelle, plutôt que de poursuivre uniquement la précision
L'Essence de l'Apprentissage est l'Accélération : Dans le contexte transductif, la valeur de l'apprentissage réside dans la réduction du temps nécessaire pour résoudre des tâches non vues
Valeur de la Complexité : Les processus de génération de données complexes offrent plus d'opportunités d'apprentissage
Repenser les Stratégies de Mise à l'Échelle : Devrait optimiser le temps plutôt que simplement l'échelle du modèle
Solomonoff (1964) : A formal theory of inductive inference
Hilberg (1990) : Travail classique sur l'information redondante dans les textes
Recherches récentes en apprentissage profond et LLM
Cet article fournit des intuitions théoriques profondes sur les capacités de raisonnement des agents IA, en particulier en soulignant le rôle central du temps dans l'apprentissage. Bien que principalement un travail théorique, ses perspectives pourraient avoir un impact important sur la conception des futurs systèmes IA.