2025-11-12T10:58:10.220342

AI Agents as Universal Task Solvers

Achille, Soatto

AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size? In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks. Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.

academic

AI エージェントを普遍的タスク解決者として：すべては時間についてである

基本情報

論文ID: 2510.12066
タイトル: AI Agents as Universal Task Solvers: It's All About Time
著者: Alessandro Achille, Stefano Soatto (AWS Agentic AI)
分類: cs.AI, cs.LG
発表日: 2025年9月12日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2510.12066

要旨

本論文は、AI エージェントが推論学習において果たす役割を再検討し、計算能力を持つ確率動力学系として捉え、推論学習の基礎原理における時間の重要な役割を強調している。著者らは古典的な帰納学習から転導学習への転換を提案し、目標は履歴データの分布を近似することではなく、データ内のアルゴリズム構造を捉えて新しいタスク解決に必要な時間を削減することである。研究により、普遍的求解器が履歴データを用いて達成できる最適加速はそのアルゴリズム情報と密接に関連していることが示され、観測された推論時間と訓練時間のべき乗則スケーリングに対する理論的導出が提供される。

研究背景と動機

核心的問題

AI エージェントの普遍性：連鎖思考推論は任意の計算可能タスクを解決できるか？
学習メカニズム：AI エージェントはいかにして推論を学ぶのか？モデルスケールか訓練データスケールか？
スケーリング則の本質：現在の精度ベースのスケーリング則は真の知能を反映しているか？

研究動機

従来の機械学習は帰納学習（inductive learning）に焦点を当てており、ラベル付きデータの関数を適合させ、類似入力への汎化を期待している。しかし、エージェント設定では、事前訓練されたモデルが新しいタスクの特定インスタンスを処理し、そのインスタンスを解決できる必要がある。このプロセスは**転導（transduction）**と呼ばれる：テスト時に、モデルは利用可能なすべてのデータを活用し、手元のタスクを解決するために積極的に推論する。

既存手法の限界

現在のスケーリング則は予測誤差を知能の代理として使用し、時間コストを無視している
モデルがより強力になるにつれ、学習は不要になる可能性がある。なぜなら、モデルは全探索計算に依存でき、データ構造から得られた洞察は不要だからである
無限リソースの極限では、モデルは学習なしに総当たり攻撃によって任意のタスクを解決できる

核心的貢献

理論的枠組み：AI エージェントを確率動力学系としてモデル化し、普遍的求解器理論をチューリングマシンから一般動力学系に拡張
時間概念の再定義：「固有時間（proper time）」の概念を導入し、確率系における時間定義の非自明な問題を解決
情報-速度等価性：情報は速度であることを証明（定理1.1: log speed-up = I(h : D)）
スケーリング則理論：推論モデルで観測されるべき乗則スケーリングに対する理論的導出を提供
スケーリング則の反転：精度-スケール図の誤導性を明らかにし、時間最適化の重要性を提案

方法の詳細

タスク定義

研究は**検証可能タスク（verifiable tasks）**に焦点を当てている：各問題インスタンス x は、タスク特定関数 f(x,y) とペアになっており、任意の候補解 y を対話的に検証または採点できる。

核心的理論構築

1. 計算としての動力学系

LLM の連鎖思考推論を確率動力学系としてモデル化：

状態空間：S 内の状態 s
軌跡：h = (s₁, ..., sₙ)、長さ T(h) = n
遷移確率：ν(sₜ₊₁|sₜ)
軌跡確率：ν(h) = ∏ν(sₜ₊₁|sₜ)

2. 固有時間の定義

定義2.3：確率動力学系について、入力 x から出力 a への固有時間は以下のように定義される：

τᵥ(x ↓ a) = min[T(h)/ν(h|x)]

ここで最小値は enc(x) から開始し出力 a で終了するすべての軌跡 h に対して取られる。

定理2.4：決定性チューリングマシン Mᵥ が存在して：

T_Mᵥ(x ↓ a) ≤ 2τᵥ(x ↓ a)

3. 普遍的求解器の存在性

定理3.2：プログラムの分布 m が与えられたとき、任意の求解器 A に対して動力学系 Uₘ が存在して：

τ_Uₘ(x ↓ y) ≤ C'_A 2^(-log m(A)) τ_A(x ↓ y)

技術的革新点

1. 情報-速度等価性

定理4.2：データ観測後の検索アルゴリズムの対数加速は：

log[τᵥ(h)/τᵥ(h|D)] = Iᵥ(h : D)

ここで Iᵥ(h : D) は ν-アルゴリズム相互情報である。

2. Hilberg 予想の一般化

定義4.4：一般化 Hilberg 予想（GHC）スケーリング：

I(Xₙ : Yₘ) ∝ n^β + m^β - (m+n)^β

3. 時間スケーリング則

定理4.5：十分に大きいデータセット D（n トークン）で訓練して得られた対数加速は：

log[τᵥ(h)/τᵥ(h|D)] = T(h)^β - βT(h)/n^(1-β)

実験設定

理論的検証

論文は主に理論的研究であり、数学的証明により各定理を検証する。実験的検証は主に以下に現れる：

Santa Fe プロセスの構築：GHC スケーリングを満たすデータ生成プロセスの明示的構築
べき乗則スケーリングの理論的導出：経験的に観測された推論時間と訓練時間のべき乗関係に対する理論的基礎

主要パラメータ

β ∈ (0,1)：複雑度パラメータ、「有用な事実」分布の長尾性を制御
自然言語の場合：β ≈ 0.5、n ∝ L² のスケーリング関係を意味する

実験結果

主要な理論的結果

1. 最大加速界

定理4.3：プロセス q で生成されたデータから得られる最大加速は：

log[τᵥ(h)/τᵥ(h|D)] ≤ K(q)

ここで K(q) は q のコルモゴロフ複雑度である。

2. 学習と時間最適化

定理1.5：

時間ペナルティがない場合、最適推論は学習なしに総当たり攻撃で実現できる
時間を最適化するシステムは、履歴データから少なくとも I(h : D) = log speed-up ビットを学習する必要がある

3. メモリ-時間トレードオフ

系4.7：メモリ使用が最適と仮定すると、使用メモリの関数としての加速は：

log[τᵥ(h)/τᵥ(h|D)] = T(h)^β - T(h)/M^(1/β-1)

主要な発見

複雑性のパラドックス：オッカムの剃刀原理とは逆に、複雑なデータ生成プロセスは実際には学習に有利である
スケーリング則の反転：モデルスケールが増大するにつれ、「学者モード」（savant regime）に入る可能性があり、総当たり計算によって高精度を達成するが真の洞察に欠ける
時間の中心的地位：知的行動は単なる精度ではなく、単位時間/計算当たりの誤差削減によって測定されるべきである