2025-11-12T10:58:10.220342

AI Agents as Universal Task Solvers

Achille, Soatto
AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size? In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks. Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
academic

Les Agents IA en tant que Solveurs de Tâches Universels : Tout est une Question de Temps

Informations Fondamentales

  • ID de l'article : 2510.12066
  • Titre : AI Agents as Universal Task Solvers: It's All About Time
  • Auteurs : Alessandro Achille, Stefano Soatto (AWS Agentic AI)
  • Classification : cs.AI, cs.LG
  • Date de publication : 12 septembre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.12066

Résumé

Cet article réexamine le rôle des agents IA dans l'apprentissage du raisonnement, les considérant comme des systèmes dynamiques stochastiques dotés de capacités de calcul, en soulignant le rôle critique du temps dans les principes fondamentaux de l'apprentissage du raisonnement. Les auteurs proposent une transition de l'apprentissage inductif classique vers l'apprentissage transductif, dont l'objectif n'est pas d'approximer la distribution des données historiques, mais de capturer la structure algorithmique des données pour réduire le temps nécessaire à la résolution de nouvelles tâches. La recherche démontre que l'accélération optimale réalisable par les solveurs universels utilisant des données historiques est étroitement liée à l'information algorithmique, et fournit une dérivation théorique pour les lois de puissance observées entre le temps de raisonnement et le temps d'entraînement.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Universalité des agents IA : Le raisonnement par chaîne de pensée peut-il résoudre toute tâche calculable ?
  2. Mécanismes d'apprentissage : Comment les agents IA apprennent-ils à raisonner ? S'agit-il d'une question d'échelle du modèle ou de volume de données d'entraînement ?
  3. Essence des lois de mise à l'échelle : Les lois de mise à l'échelle actuelles basées sur la précision reflètent-elles véritablement l'intelligence ?

Motivation de la Recherche

L'apprentissage automatique traditionnel se concentre sur l'apprentissage inductif (inductive learning), c'est-à-dire l'ajustement d'une fonction aux données étiquetées en espérant une généralisation à des entrées similaires. Cependant, dans le contexte des agents, nous avons besoin que le modèle préentraîné soit capable de traiter des instances spécifiques de nouvelles tâches et de résoudre cette instance. Ce processus est appelé transduction : au moment du test, le modèle utilise toutes les données disponibles et raisonne activement pour résoudre la tâche en question.

Limitations des Approches Existantes

  • Les lois de mise à l'échelle actuelles utilisent l'erreur de prédiction comme proxy de l'intelligence, ignorant les coûts temporels
  • À mesure que les modèles deviennent plus puissants, l'apprentissage devient inutile, car le modèle peut dépendre du calcul exhaustif plutôt que des intuitions tirées de la structure des données
  • À la limite des ressources infinies, le modèle peut résoudre toute tâche par force brute sans aucun apprentissage

Contributions Fondamentales

  1. Cadre théorique : Modélisation des agents IA comme systèmes dynamiques stochastiques, extension de la théorie des solveurs universels des machines de Turing aux systèmes dynamiques généraux
  2. Redéfinition du concept de temps : Introduction du concept de « proper time », résolvant le problème non trivial de la définition du temps dans les systèmes stochastiques
  3. Équivalence information-vitesse : Preuve que l'information est la vitesse (Théorème 1.1 : log speed-up = I(h : D))
  4. Théorie des lois de mise à l'échelle : Dérivation théorique des lois de puissance observées entre le temps de raisonnement et le temps d'entraînement dans les modèles de raisonnement
  5. Inversion des lois de mise à l'échelle : Révélation du caractère trompeur des graphiques précision-échelle, proposition de l'importance de l'optimisation temporelle

Détails de la Méthode

Définition des Tâches

La recherche se concentre sur les tâches vérifiables (verifiable tasks) : chaque instance de problème x est associée à une fonction spécifique à la tâche f(x,y), permettant de vérifier ou d'évaluer interactivement toute solution candidate y.

Construction Théorique Fondamentale

1. Systèmes Dynamiques en tant que Calcul

Modélisation du raisonnement par chaîne de pensée des LLM comme système dynamique stochastique :

  • Espace d'états : états s dans S
  • Trajectoires : h = (s₁, ..., sₙ), longueur T(h) = n
  • Probabilités de transition : ν(sₜ₊₁|sₜ)
  • Probabilité de trajectoire : ν(h) = ∏ν(sₜ₊₁|sₜ)

2. Définition du Proper Time

Définition 2.3 : Pour un système dynamique stochastique, le proper time de l'entrée x à la sortie a est défini comme :

τᵥ(x ↓ a) = min[T(h)/ν(h|x)]

où le minimum est pris sur toutes les trajectoires h commençant par enc(x) et se terminant par la sortie a.

Théorème 2.4 : Il existe une machine de Turing déterministe Mᵥ telle que :

T_Mᵥ(x ↓ a) ≤ 2τᵥ(x ↓ a)

3. Existence de Solveurs Universels

Théorème 3.2 : Étant donné toute distribution m de programmes codés, il existe un système dynamique Uₘ tel que pour tout solveur A :

τ_Uₘ(x ↓ y) ≤ C'_A 2^(-log m(A)) τ_A(x ↓ y)

Points d'Innovation Technique

1. Équivalence Information-Vitesse

Théorème 4.2 : L'accélération logarithmique d'un algorithme de recherche après observation des données est :

log[τᵥ(h)/τᵥ(h|D)] = Iᵥ(h : D)

où Iᵥ(h : D) est l'information mutuelle algorithmique ν.

2. Généralisation de la Conjecture de Hilberg

Définition 4.4 : Mise à l'échelle de la conjecture de Hilberg généralisée (GHC) :

I(Xₙ : Yₘ) ∝ n^β + m^β - (m+n)^β

3. Lois de Mise à l'Échelle Temporelle

Théorème 4.5 : L'accélération logarithmique obtenue par entraînement sur un ensemble de données suffisamment grand D (n tokens) est :

log[τᵥ(h)/τᵥ(h|D)] = T(h)^β - βT(h)/n^(1-β)

Configuration Expérimentale

Vérification Théorique

L'article est principalement un travail théorique, validant chaque théorème par preuve mathématique. La vérification expérimentale se manifeste principalement par :

  1. Construction de processus Santa Fe : Construction explicite de processus de génération de données satisfaisant la mise à l'échelle GHC
  2. Dérivation théorique des lois de puissance : Fourniture d'une base théorique pour les relations de loi de puissance observées empiriquement entre le temps de raisonnement et le temps d'entraînement

Paramètres Clés

  • β ∈ (0,1) : paramètre de complexité contrôlant la distribution à queue longue des « faits utiles »
  • Pour le langage naturel : β ≈ 0,5, impliquant une relation de mise à l'échelle n ∝ L²

Résultats Expérimentaux

Résultats Théoriques Principaux

1. Limites d'Accélération Maximale

Théorème 4.3 : L'accélération maximale réalisable à partir de données générées par le processus q est :

log[τᵥ(h)/τᵥ(h|D)] ≤ K(q)

où K(q) est la complexité de Kolmogorov de q.

2. Apprentissage et Optimisation Temporelle

Théorème 1.5 :

  • Sans pénalité temporelle, le raisonnement optimal peut être réalisé par force brute sans apprentissage
  • Tout système optimisant le temps doit apprendre au moins I(h : D) = log speed-up bits à partir des données historiques

3. Compromis Mémoire-Temps

Corollaire 4.7 : En supposant une utilisation optimale de la mémoire, l'accélération en fonction de la mémoire utilisée est :

log[τᵥ(h)/τᵥ(h|D)] = T(h)^β - T(h)/M^(1/β-1)

Découvertes Clés

  1. Paradoxe de la Complexité : Contrairement au rasoir d'Occam, les processus de génération de données complexes sont en réalité plus favorables à l'apprentissage
  2. Inversion des Lois de Mise à l'Échelle : À mesure que la taille du modèle augmente, on peut entrer dans un « régime de savant » (savant regime), obtenant une haute précision par calcul brute mais manquant de véritable intuition
  3. Centralité du Temps : Le comportement intelligent devrait être mesuré par la réduction d'erreur par unité de temps/calcul, et non uniquement par la précision

Travaux Connexes

Domaines de Recherche Principaux

  1. Induction de Solomonoff et Recherche Universelle : Travaux classiques de Levin et Solomonoff
  2. Apprentissage Transductif : Cadre de raisonnement transductif de Vapnik et al.
  3. Apprentissage en Contexte : Capacités d'apprentissage en contexte des LLM modernes
  4. Théorie de l'Information Algorithmique : Complexité de Kolmogorov et information mutuelle algorithmique

Contributions de cet Article

  • Extension de la théorie de la recherche universelle des machines de Turing aux systèmes dynamiques stochastiques généraux
  • Proposition du rôle fondamental du temps dans l'apprentissage, remettant en question la vision traditionnelle de la théorie de l'information de Shannon
  • Fourniture d'une base théorique pour les capacités de raisonnement des LLM

Conclusions et Discussion

Conclusions Principales

  1. Le Temps est le Cœur de l'Intelligence : La véritable intelligence devrait optimiser l'efficacité temporelle, plutôt que de poursuivre uniquement la précision
  2. L'Essence de l'Apprentissage est l'Accélération : Dans le contexte transductif, la valeur de l'apprentissage réside dans la réduction du temps nécessaire pour résoudre des tâches non vues
  3. Valeur de la Complexité : Les processus de génération de données complexes offrent plus d'opportunités d'apprentissage
  4. Repenser les Stratégies de Mise à l'Échelle : Devrait optimiser le temps plutôt que simplement l'échelle du modèle

Limitations

  1. Nature Théorique : Principalement un travail théorique, manquant de vérification empirique à grande échelle
  2. Restrictions d'Hypothèses : Dépend de l'hypothèse de mise à l'échelle GHC, les données réelles pouvant ne pas s'y conformer complètement
  3. Problèmes de Calculabilité : Certains résultats théoriques impliquent des quantités non calculables (comme la complexité de Kolmogorov)

Directions Futures

  1. Vérification Empirique : Validation des prédictions théoriques dans les systèmes LLM réels
  2. Conception d'Algorithmes : Conception d'algorithmes d'entraînement et de raisonnement meilleurs basés sur les intuitions théoriques
  3. Métriques d'Évaluation : Développement de métriques d'évaluation de l'intelligence tenant compte des coûts temporels

Évaluation Approfondie

Points Forts

  1. Profondeur Théorique : Fournit une base théorique profonde pour les capacités de raisonnement des agents IA
  2. Innovation Conceptuelle : Redéfinition de l'objectif de l'apprentissage (de la précision à l'efficacité temporelle)
  3. Rigueur Mathématique : Preuves complètes, logique claire
  4. Signification Pratique : Fournit une réflexion importante sur les stratégies actuelles de mise à l'échelle des LLM

Insuffisances

  1. Manque d'Empirisme : Les résultats théoriques nécessitent plus de vérification expérimentale
  2. Complexité : Le contenu mathématique est plutôt abstrait, seuil d'application pratique élevé
  3. Force des Hypothèses : L'universalité de certaines hypothèses clés (comme GHC) reste à vérifier

Impact

  1. Contribution Théorique : Fournit un nouveau cadre théorique pour la recherche sur le raisonnement IA
  2. Valeur Pratique : Guide la conception et l'évaluation des futurs systèmes IA
  3. Changement de Paradigme : Peut promouvoir une transition de la recherche orientée vers la précision à celle orientée vers l'efficacité

Scénarios d'Application

  • Conception de stratégies d'entraînement pour les grands modèles de langage
  • Évaluation des capacités de raisonnement des agents IA
  • Optimisation des modèles dans les environnements aux ressources informatiques limitées
  • Analyse théorique des systèmes de raisonnement automatique

Références

L'article cite de nombreux travaux connexes, notamment :

  • Levin (1973) : Universal sequential search problems
  • Solomonoff (1964) : A formal theory of inductive inference
  • Hilberg (1990) : Travail classique sur l'information redondante dans les textes
  • Recherches récentes en apprentissage profond et LLM

Cet article fournit des intuitions théoriques profondes sur les capacités de raisonnement des agents IA, en particulier en soulignant le rôle central du temps dans l'apprentissage. Bien que principalement un travail théorique, ses perspectives pourraient avoir un impact important sur la conception des futurs systèmes IA.