AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size?
In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks.
Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
academic
وكلاء الذكاء الاصطناعي كحلّالات مهام عالمية: كل شيء يتعلق بالوقت
تعيد هذه الورقة النظر في دور وكلاء الذكاء الاصطناعي في تعلم الاستدلال، حيث تعتبرهم أنظمة ديناميكية عشوائية ذات قدرات حسابية، مع التركيز على الدور الحاسم للوقت في المبادئ الأساسية لتعلم الاستدلال. يقترح المؤلفون الانتقال من التعلم الاستقرائي الكلاسيكي إلى التعلم الاستقرائي الموضعي (Transductive Learning)، حيث الهدف ليس تقريب توزيع البيانات التاريخية، بل التقاط البنية الخوارزمية في البيانات لتقليل الوقت المطلوب لحل المهام الجديدة. تُظهر الدراسة أن أقصى تسريع يمكن للحلّالات العالمية تحقيقه باستخدام البيانات التاريخية يرتبط ارتباطاً وثيقاً بالمعلومات الخوارزمية، وتوفر اشتقاقاً نظرياً لقانون القوة المرصود في تحجيم وقت الاستدلال مع وقت التدريب.
يركز التعلم الآلي التقليدي على التعلم الاستقرائي (Inductive Learning)، أي ملاءمة دالة للبيانات المصنفة مع توقع التعميم على مدخلات مشابهة. لكن في إعدادات الوكيل، نحتاج إلى نموذج مدرب مسبقاً يمكنه التعامل مع حالات معينة من المهام الجديدة وحل تلك الحالة. تُسمى هذه العملية التعلم الاستقرائي الموضعي (Transduction): في وقت الاختبار، يستخدم النموذج جميع البيانات المتاحة ويقوم باستدلال استباقي لحل المهمة المطروحة.
يركز البحث على المهام القابلة للتحقق (Verifiable Tasks): كل حالة مشكلة x مقترنة بدالة خاصة بالمهمة f(x,y)، يمكن التحقق منها أو تقييم أي حل مرشح y بشكل تفاعلي.
Solomonoff (1964): نظرية رسمية للاستدلال الاستقرائي
Hilberg (1990): العمل الكلاسيكي حول المعلومات الزائدة في النصوص
الأبحاث الحديثة المتعلقة بالتعلم العميق ونماذج اللغة الكبيرة
توفر هذه الورقة رؤى نظرية عميقة لقدرات الاستدلال في وكلاء الذكاء الاصطناعي، خاصة بالتركيز على الدور الأساسي للوقت في التعلم. على الرغم من أنها عمل نظري بشكل أساسي، فإن وجهات نظرها قد تؤثر بشكل كبير على تصميم أنظمة الذكاء الاصطناعي المستقبلية.