AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size?
In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks.
Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
academic
Agenti AI come Risolutori di Compiti Universali: È Tutto Una Questione di Tempo
Questo articolo riesamina il ruolo degli agenti AI nell'apprendimento del ragionamento, considerandoli come sistemi dinamici stocastici dotati di capacità computazionali, enfatizzando il ruolo cruciale del tempo nei principi fondamentali dell'apprendimento del ragionamento. Gli autori propongono una transizione dall'apprendimento induttivo classico all'apprendimento transduttivo, con l'obiettivo non di approssimare la distribuzione dei dati storici, ma di catturare la struttura algoritmica nei dati per ridurre il tempo necessario a risolvere nuovi compiti. La ricerca dimostra che l'accelerazione ottimale raggiungibile dai risolutori universali utilizzando dati storici è strettamente correlata alla loro informazione algoritmica e fornisce una derivazione teorica per il ridimensionamento della legge di potenza osservato tra il tempo di ragionamento e il tempo di addestramento.
L'apprendimento automatico tradizionale si concentra sull'apprendimento induttivo, ovvero l'adattamento di una funzione ai dati etichettati con l'aspettativa di generalizzazione a input simili. Tuttavia, nel contesto degli agenti, è necessario che il modello preaddestrato sia in grado di gestire istanze specifiche di nuovi compiti e risolvere tale istanza. Questo processo è denominato transduzione: al momento del test, il modello utilizza tutti i dati disponibili e ragiona attivamente per risolvere il compito in questione.
Le attuali leggi di ridimensionamento utilizzano l'errore di predizione come proxy dell'intelligenza, ignorando i costi temporali
Con modelli sempre più potenti, l'apprendimento diventa non necessario, poiché il modello può affidarsi al calcolo esaustivo piuttosto che alle intuizioni derivate dalla struttura dei dati
Nel limite di risorse infinite, il modello può risolvere qualsiasi compito mediante forza bruta senza alcun apprendimento
Quadro teorico: Modellazione degli agenti AI come sistemi dinamici stocastici, estensione della teoria dei risolutori universali dalle macchine di Turing ai sistemi dinamici generali
Ridefinizione del concetto di tempo: Introduzione del concetto di "proper time" per affrontare il problema non banale della definizione del tempo nei sistemi stocastici
Equivalenza informazione-velocità: Dimostrazione che l'informazione è velocità (Teorema 1.1: log speed-up = I(h : D))
Teoria delle leggi di ridimensionamento: Derivazione teorica del ridimensionamento della legge di potenza osservato tra il tempo di ragionamento e il tempo di addestramento nei modelli di ragionamento
Inversione delle leggi di ridimensionamento: Rivelazione della natura fuorviante dei grafici precisione-scala, proposizione dell'importanza dell'ottimizzazione del tempo
La ricerca si concentra su compiti verificabili: ogni istanza di problema x è accoppiata a una funzione specifica del compito f(x,y), che può verificare o valutare interattivamente qualsiasi soluzione candidata y.
L'articolo è principalmente un lavoro teorico, con verifica attraverso prove matematiche di vari teoremi. La verifica sperimentale si manifesta principalmente in:
Costruzione del Processo di Santa Fe: Costruzione esplicita di processi di generazione dei dati che soddisfano il ridimensionamento GHC
Derivazione teorica del ridimensionamento della legge di potenza: Fornire una base teorica per la relazione di legge di potenza osservata empiricamente tra il tempo di ragionamento e il tempo di addestramento
Paradosso della Complessità: Contrariamente al principio del rasoio di Occam, i processi di generazione dei dati più complessi sono effettivamente più vantaggiosi per l'apprendimento
Inversione delle Leggi di Ridimensionamento: Con l'aumento della dimensione del modello, si può entrare nel "regime del savant" (savant regime), ottenendo alta precisione attraverso il calcolo bruto ma mancando di vera intuizione
Ruolo Centrale del Tempo: Il comportamento intelligente dovrebbe essere misurato attraverso la riduzione dell'errore per unità di tempo/calcolo, non semplicemente attraverso la precisione
Il Tempo è il Nucleo dell'Intelligenza: La vera intelligenza dovrebbe ottimizzare l'efficienza temporale, non semplicemente perseguire la precisione
L'Essenza dell'Apprendimento è l'Accelerazione: Nel contesto transduttivo, il valore dell'apprendimento risiede nella riduzione del tempo necessario per risolvere compiti non visti
Il Valore della Complessità: I processi di generazione dei dati più complessi forniscono maggiori opportunità di apprendimento
Ripensamento delle Strategie di Ridimensionamento: Dovrebbe ottimizzare il tempo piuttosto che la semplice dimensione del modello
Solomonoff (1964): A formal theory of inductive inference
Hilberg (1990): Lavoro classico sulla ridondanza informativa del testo
Ricerche moderne relative all'apprendimento profondo e ai LLM
Questo articolo fornisce intuizioni teoriche profonde sulle capacità di ragionamento degli agenti AI, enfatizzando in particolare il ruolo centrale del tempo nell'apprendimento. Sebbene sia principalmente un lavoro teorico, le sue prospettive potrebbero avere un impatto significativo sulla progettazione dei futuri sistemi AI.