Thought Flow Nets: From Single Predictions to Trains of Model Thought
Schuff, Adel, Vu
When humans solve complex problems, they typically create a sequence of ideas (involving an intuitive decision, reflection, error correction, etc.) in order to reach a conclusive decision. Contrary to this, today's models are mostly trained to map an input to one single and fixed output. In this paper, we investigate how we can give models the opportunity of a second, third and $k$-th thought. Taking inspiration from Hegel's dialectics, we propose the concept of a thought flow which creates a sequence of predictions. We present a self-correction mechanism that is trained to estimate the model's correctness and performs iterative prediction updates based on the correctness prediction's gradient. We introduce our method at the example of question answering and conduct extensive experiments that demonstrate (i) our method's ability to correct its own predictions and (ii) its potential to notably improve model performances. In addition, we conduct a qualitative analysis of thought flow correction patterns and explore how thought flow predictions affect human users within a crowdsourcing study. We find that (iii) thought flows enable improved user performance and are perceived as more natural, correct, and intelligent as single and/or top-3 predictions.
academic
شبكات تدفق الفكر: من التنبؤات الفردية إلى قطارات فكر النموذج
عندما يحل البشر مشاكل معقدة، يقومون عادة بإنشاء سلسلة من الأفكار (تشمل القرارات الحدسية والتأمل والتصحيح الذاتي وغيرها) للوصول إلى القرار النهائي. على النقيض من ذلك، يتم تدريب معظم النماذج الحالية لتعيين المدخلات إلى مخرجات فردية وثابتة. تبحث هذه الورقة عن كيفية إتاحة الفرصة للنموذج للتفكير مرة ثانية وثالثة وحتى المرة k. مستوحاة من الجدلية الهيغيلية، يقترح المؤلفون مفهوم "تدفق الفكر" لإنشاء سلسلة من التنبؤات. تقدم الورقة آلية تصحيح ذاتي يتم تدريبها لتقدير صحة النموذج، وتنفيذ تحديثات تنبؤية متكررة بناءً على تدرجات تنبؤات الصحة.
تعتمد نماذج التعلم الآلي التقليدية على نمط التنبؤ بخطوة واحدة (x → ŷ)، أي تعيين المدخلات مباشرة إلى مخرجات ثابتة، وتفتقر إلى القدرة على التأمل والتصحيح الذاتي الموجودة في الفكر البشري. يوجد هذا قيودًا عند التعامل مع المهام المعقدة (مثل الإجابة على الأسئلة والاستدلال متعدد الخطوات).
مع أخذ استخراج الإجابة على الأسئلة كمثال، بالنظر إلى سؤال وسياق يحتوي على L من الرموز، يجب على النموذج التنبؤ بمواضع البداية والنهاية للإجابة. تنتج الطرق التقليدية توزيعين احتماليين: ŷ_start ∈ 0,1^L و ŷ_end ∈ 0,1^L.
تستشهد الورقة بأعمال مهمة من مجالات متعددة، بما في ذلك:
الأدبيات الفلسفية للجدلية الهيغيلية
أبحاث العلوم المعرفية والعلوم العصبية
طرق تقدير الثقة وتصحيح النموذج في التعلم الآلي
الأعمال ذات الصلة بالتنبؤ المتسلسل والتحسين المتكرر
التقييم الشامل: هذه ورقة ابتكارية جداً، تجمع بنجاح بين النظرية الفلسفية وتقنيات التعلم الآلي الحديثة، وتقدم مفهوم تدفق الفكر الذي له قيمة عملية. على الرغم من أن هناك حاجة إلى مزيد من التحسين في جوانب مثل آلية التوقف، فإن نهجها الرائد ونتائجها التجريبية المقنعة تجعلها مساهمة مهمة في هذا المجال.