2025-11-13T02:10:10.682654

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Schuff, Adel, Vu

When humans solve complex problems, they typically create a sequence of ideas (involving an intuitive decision, reflection, error correction, etc.) in order to reach a conclusive decision. Contrary to this, today's models are mostly trained to map an input to one single and fixed output. In this paper, we investigate how we can give models the opportunity of a second, third and $k$-th thought. Taking inspiration from Hegel's dialectics, we propose the concept of a thought flow which creates a sequence of predictions. We present a self-correction mechanism that is trained to estimate the model's correctness and performs iterative prediction updates based on the correctness prediction's gradient. We introduce our method at the example of question answering and conduct extensive experiments that demonstrate (i) our method's ability to correct its own predictions and (ii) its potential to notably improve model performances. In addition, we conduct a qualitative analysis of thought flow correction patterns and explore how thought flow predictions affect human users within a crowdsourcing study. We find that (iii) thought flows enable improved user performance and are perceived as more natural, correct, and intelligent as single and/or top-3 predictions.

academic

থট ফ্লো নেটস: একক পূর্বাভাস থেকে মডেল চিন্তার ট্রেনে

মৌলিক তথ্য

পেপার আইডি: 2107.12220
শিরোনাম: Thought Flow Nets: From Single Predictions to Trains of Model Thought
লেখক: Hendrik Schuff (Bosch Center for AI & University of Stuttgart), Heike Adel (Bosch Center for AI), Ngoc Thang Vu (University of Stuttgart)
শ্রেণীবিভাগ: cs.LG cs.AI cs.CL cs.CV
প্রকাশনার সময়: ২০২১ সালের জুলাই (arXiv)
পেপার লিঙ্ক: https://arxiv.org/abs/2107.12220

সারসংক্ষেপ

যখন মানুষ জটিল সমস্যা সমাধান করে, তখন সাধারণত একটি সিরিজ চিন্তা তৈরি করে (যার মধ্যে রয়েছে স্বজ্ঞাত সিদ্ধান্ত, প্রতিফলন, ত্রুটি সংশোধন ইত্যাদি) চূড়ান্ত সিদ্ধান্তে পৌঁছানোর জন্য। বিপরীতে, আজকের বেশিরভাগ মডেল ইনপুটকে একটি একক এবং নির্দিষ্ট আউটপুটে ম্যাপ করার জন্য প্রশিক্ষিত হয়। এই পেপারটি অনুসন্ধান করে যে কীভাবে মডেলগুলিকে দ্বিতীয়, তৃতীয় এবং কে-তম চিন্তার সুযোগ দেওয়া যায়। হেগেলীয় দ্বান্দ্বিকতা দ্বারা অনুপ্রাণিত, লেখকরা "থট ফ্লো" ধারণা প্রস্তাব করেছেন, যা পূর্বাভাসের ক্রম তৈরি করে। নিবন্ধটি একটি স্ব-সংশোধন প্রক্রিয়া উপস্থাপন করে যা মডেলের সঠিকতা অনুমান করার জন্য প্রশিক্ষিত এবং সঠিকতা পূর্বাভাসের গ্রেডিয়েন্টের উপর ভিত্তি করে পুনরাবৃত্তিমূলক পূর্বাভাস আপডেট সম্পাদন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

ঐতিহ্যবাহী মেশিন লার্নিং মডেল একক-পদক্ষেপ পূর্বাভাস মোড (x → ŷ) গ্রহণ করে, অর্থাৎ ইনপুটকে সরাসরি একটি নির্দিষ্ট আউটপুটে ম্যাপ করে, মানুষের চিন্তাভাবনায় প্রতিফলন এবং স্ব-সংশোধন ক্ষমতার অভাব রয়েছে। এটি জটিল কাজ (যেমন প্রশ্নোত্তর, বহু-পদক্ষেপ যুক্তি) পরিচালনা করার সময় সীমাবদ্ধতা উপস্থাপন করে।

গবেষণা প্রেরণা

মানব জ্ঞানীয় অনুপ্রেরণা: মানুষ সমস্যা সমাধান করার সময় জটিল চিন্তা প্রক্রিয়ার মধ্য দিয়ে যায়, যার মধ্যে প্রাথমিক বিচার, প্রতিফলন, অনুমান তুলনা, বৈপরীত্য সমাধান ইত্যাদি অন্তর্ভুক্ত
দার্শনিক তত্ত্বের ভিত্তি: হেগেলীয় দ্বান্দ্বিকতার তিনটি পর্যায় মেশিন লার্নিংয়ে পুনরাবৃত্তিমূলক উন্নতির জন্য একটি তাত্ত্বিক কাঠামো প্রদান করে
ব্যবহারিক চাহিদা: কাজের জটিলতা বৃদ্ধির সাথে সাথে, সরাসরি সঠিক পূর্বাভাস শেখা পুনরাবৃত্তিমূলক স্ব-সংশোধন শেখার চেয়ে আরও কঠিন হতে পারে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

একক-পদক্ষেপ পূর্বাভাস জটিল যুক্তি কাজের একাধিক পদক্ষেপ পরিচালনা করতে পারে না
স্ব-প্রতিফলন এবং ত্রুটি সংশোধন প্রক্রিয়ার অভাব
বড় আউটপুট স্পেস কাজে (যেমন QA মডেল 16 মিলিয়ন সম্ভাব্য স্প্যান আউটপুট করতে পারে) সরাসরি সর্বোত্তম সমাধান পাওয়া কঠিন

মূল অবদান

তাত্ত্বিক অবদান: হেগেলীয় দ্বান্দ্বিকতার উপর ভিত্তি করে থট ফ্লো ধারণার গাণিতিক আনুষ্ঠানিকীকরণ প্রস্তাব করা
প্রযুক্তিগত উদ্ভাবন: উপন্যাস সংশোধন মডিউল এবং সংশ্লিষ্ট গ্রেডিয়েন্ট-ভিত্তিক আপডেট স্কিম ডিজাইন করা
পরীক্ষামূলক যাচাইকরণ: প্রশ্নোত্তর কাজে শক্তিশালী স্ব-সংশোধন ক্ষমতা প্রদর্শন করা, F1 স্কোর 9.6% পর্যন্ত উন্নতি
প্যাটার্ন আবিষ্কার: গুণগত স্ব-সংশোধন প্যাটার্ন চিহ্নিত করা (ক্রস-সেন্টেন্স জাম্প, স্প্যান হ্রাস/সম্প্রসারণ ইত্যাদি)
ব্যবহারকারী গবেষণা: ক্রাউডসোর্সিং গবেষণার মাধ্যমে প্রমাণ করা যে থট ফ্লো পূর্বাভাস ব্যবহারকারীর অভিজ্ঞতা এবং কাজের কর্মক্ষমতা উন্নত করতে পারে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

নিষ্কাশনমূলক প্রশ্নোত্তরের উদাহরণ হিসাবে, একটি প্রশ্ন এবং L টোকেন সহ একটি প্রসঙ্গ দেওয়া হলে, মডেলকে উত্তরের শুরু এবং শেষ অবস্থান পূর্বাভাস দিতে হবে। ঐতিহ্যবাহী পদ্ধতি দুটি সম্ভাব্যতা বিতরণ আউটপুট করে: ŷ_start ∈ 0,1^L এবং ŷ_end ∈ 0,1^L।

হেগেলীয় দ্বান্দ্বিকতার তিনটি পর্যায়

1. বোঝার পর্যায় (Moment of Understanding)

প্রাথমিক পূর্বাভাস ẑ^(0) এর সাথে সামঞ্জস্যপূর্ণ, পূর্বাভাস ফাংশন f_pred : Φ → Z এর মাধ্যমে প্রাপ্ত
মডেলের প্রাথমিক "সিদ্ধান্ত অবস্থা" প্রতিনিধিত্ব করে

2. দ্বান্দ্বিক পর্যায় (Dialectical Moment)

সংশোধন ফাংশন f_corr : Z × Φ → R প্রবর্তন করা, বর্তমান পূর্বাভাসের সঠিকতা স্কোর s পূর্বাভাস দেওয়া
লজিটের সাপেক্ষে সঠিকতা স্কোরের গ্রেডিয়েন্ট গণনা করা: ∇^T_{ẑ^(0)} s
গ্রেডিয়েন্ট "বর্তমান পূর্বাভাস কীভাবে পরিবর্তিত হওয়া উচিত আরও সঠিক হতে" প্রতিনিধিত্ব করে

3. অনুমানমূলক পর্যায় (Speculative Moment)

প্রাথমিক পূর্বাভাস এবং গ্রেডিয়েন্ট তথ্য একত্রিত করে পূর্বাভাস আপডেট করা:
```
ẑ^(1) := ẑ^(0) + α^(0) · ∇^T_{ẑ^(0)} s
```

মডেল আর্কিটেকচার

ইনপুট প্রতিনিধিত্ব φ(x)

সমস্ত টোকেন এমবেডিংয়ের ওজনযুক্ত গড় ব্যবহার করা, যেখানে ওজন হল পূর্বাভাস শুরু এবং শেষ সম্ভাব্যতার উপাদান-ভিত্তিক পণ্য:

w̃^(i) := (ŷ_start^(i) ⊙ ŷ_end^(i) + ε · 1)
φ(x)^(i) := [e1, e2, ..., eL] · (w̃^(i) / Σ_j w̃_j^(i))

সংশোধন ফাংশন f_corr

দুই-স্তরের MLP ব্যবহার করা, ইনপুট হল সংযুক্ত ভেক্টর:

[dropout(φ(x)^(i)), ẑ_start^(i), ẑ_end^(i)]^T ∈ R^{d+2·L}

পদক্ষেপ আকার নির্বাচন

গতিশীলভাবে পদক্ষেপ আকার α নির্বাচন করা, যাতে পূর্বনির্ধারিত সম্ভাব্যতা ভর δ স্থানান্তরিত হয়:

α := δ / (||σ(ẑ^(i)) - σ(ẑ^(i) + ∇^T_{ẑ^(i)} s)||_1 + ε)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

পার্থক্যযোগ্য স্ব-মূল্যায়ন: সংশোধন মডিউল সরাসরি লজিট ব্যবহার করে ডিকোড করা পাঠ নয়, পার্থক্যযোগ্যতা বজায় রাখে
মন্টে কার্লো ড্রপআউট স্থিতিশীলতা: গ্রেডিয়েন্ট অনুমান স্থিতিশীল করতে 5টি গ্রেডিয়েন্ট নমুনা এবং গড় করা
গতিশীল পদক্ষেপ আকার সামঞ্জস্য: সম্ভাব্যতা বিতরণ পরিবর্তনের উপর ভিত্তি করে আপডেট প্রশস্ততা স্বয়ংক্রিয়ভাবে সামঞ্জস্য করা
মডুলার ডিজাইন: যেকোনো আউটপুট লজিট সহ বিদ্যমান মডেলে প্রয়োগ করা যায়

পরীক্ষামূলক সেটআপ

ডেটাসেট

HotpotQA (বাধা সেটিং): বহু-হপ যুক্তি প্রয়োজনীয় জটিল প্রশ্ন সহ
প্রশিক্ষণ সেট: 80,564 উদাহরণ
যাচাইকরণ সেট: 10,000 উদাহরণ (প্রশিক্ষণ সেট থেকে নমুনা)
পরীক্ষা সেট: অফিসিয়াল যাচাইকরণ সেট পরীক্ষা সেট হিসাবে ব্যবহার করা

ভিত্তি মডেল

Longformer-large: 435 মিলিয়ন পরামিতি, 4096 টোকেন ইনপুট দৈর্ঘ্য সমর্থন করে
ভিত্তি কর্মক্ষমতা: HotpotQA যাচাইকরণ সেটে F1 স্কোর 63.5% (SD=0.6)
সংশোধন মডিউল মাত্র 331k পরামিতি যোগ করে

প্রশিক্ষণ বিবরণ

ভিত্তি মডেল: 5 epoch, শেখার হার 10^-5, ব্যাচ আকার 64
সংশোধন মডিউল: MSE ক্ষতি ব্যবহার করে F1 স্কোর পূর্বাভাস প্রশিক্ষণ
হার্ডওয়্যার: একক V100 GPU, প্রতিটি মডেল প্রায় 3 দিন প্রশিক্ষণ সময়

মূল্যায়ন মেট্রিক্স

F1 স্কোর (প্রধান মেট্রিক)
নির্ভুল ম্যাচ স্কোর
ব্যবহারকারী গবেষণায় বহু-মাত্রিক মূল্যায়ন

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পদক্ষেপ সংখ্যার সাথে কর্মক্ষমতা পরিবর্তন

δ=0.1: স্থিতিশীল কিন্তু ছোট F1 উন্নতি প্রদান করে
বৃহত্তর δ মান: প্রাথমিক উন্নতি স্পষ্ট কিন্তু পরবর্তী পর্যায়ে "অত্যধিক সংশোধন" হবে
মূল আবিষ্কার: প্রায় সমস্ত কর্মক্ষমতা উন্নতি প্রথম সিদ্ধান্ত পরিবর্তন থেকে আসে

Oracle স্টপ পরীক্ষা

সর্বোত্তম F1 কর্মক্ষমতায় থামার সময়, থট ফ্লো 9.6% F1 পরম উন্নতি অর্জন করতে পারে (SD=0.61)
সময়োপযোগী থামার গুরুত্ব প্রদর্শন করে

থট ফ্লো সংশোধন প্যাটার্ন বিশ্লেষণ

150টি র্যান্ডম নমুনার গুণগত বিশ্লেষণের মাধ্যমে, 6টি প্রধান সংশোধন প্যাটার্ন চিহ্নিত করা হয়েছে:

ক্রস-সেন্টেন্স জাম্প (52.7%): সবচেয়ে ঘন ঘন সংশোধন প্রকার, উত্তর এক বাক্য থেকে অন্য বাক্যে লাফ দেয়
স্প্যান হ্রাস (23.3%): পূর্বাভাসিত উত্তর স্প্যান সংক্ষিপ্ত করা
স্প্যান সম্প্রসারণ (21.3%): পূর্বাভাসিত উত্তর স্প্যান প্রসারিত করা
বাক্য-অভ্যন্তরীণ জাম্প (7.3%): একই বাক্যের মধ্যে অ-ওভারল্যাপিং স্প্যানের মধ্যে লাফ দেওয়া
সত্তা পরিমার্জন (8%): একই সত্তার বিভিন্ন উল্লেখে লাফ দেওয়া
যুক্তি জাম্প (4%): বহু-পদক্ষেপ যুক্তি সম্পাদন করা, প্রথমে প্রথম পদক্ষেপ সমাধান করে তারপর সঠিক উত্তরে লাফ দেওয়া

মানব মূল্যায়ন ফলাফল

পরীক্ষামূলক ডিজাইন

অংশগ্রহণকারী: 55 জন MTurk কর্মী
শর্ত: SINGLE (একক পূর্বাভাস), TOP-3 (শীর্ষ 3 পূর্বাভাস), TF (থট ফ্লো)
মূল্যায়ন মাত্রা: সঠিকতা, বোধগম্যতা, উপযোগিতা, ব্যবহারযোগ্যতা, মানসিক প্রচেষ্টা, মানবিকীকরণ, বুদ্ধিমত্তা উপলব্ধি ইত্যাদি

মূল আবিষ্কার

মাত্রা	SINGLE	TOP-3	TF	উল্লেখযোগ্য পার্থক্য
উপলব্ধ সঠিকতা	A	A	B	TF > SINGLE, TOP-3
বোধগম্যতা	A	B	B	TF, TOP-3 > SINGLE
উপযোগিতা	A	B	B	TF, TOP-3 > SINGLE
মানবিকীকরণ	A	AB	B	TF > SINGLE
বুদ্ধিমত্তা উপলব্ধি	A	B	B	TF, TOP-3 > SINGLE
ব্যবহারকারী কর্মক্ষমতা F1	A	B	C	TF > TOP-3 > SINGLE
সমাপ্তির সময়	A	B	AB	TOP-3 অন্যদের চেয়ে ধীর

গুরুত্বপূর্ণ সিদ্ধান্ত:

থট ফ্লো উপলব্ধ সঠিকতা, মানবিকীকরণ এবং ব্যবহারকারী কর্মক্ষমতায় অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত
থট ফ্লো TOP-3 এর সাথে তুলনীয় বোধগম্যতা এবং উপযোগিতা উন্নতি প্রদান করে, কিন্তু সমাপ্তির সময় বৃদ্ধি করে না
ব্যবহারকারীরা থট ফ্লো সিস্টেম ব্যবহার করার সময় সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

তাত্ত্বিক অবদান: হেগেলীয় দ্বান্দ্বিকতা সফলভাবে মেশিন লার্নিং কাঠামোতে আনুষ্ঠানিক করা হয়েছে
প্রযুক্তিগত কার্যকারিতা: থট ফ্লো জটিল স্ব-সংশোধন অর্জন করতে পারে, কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
ব্যবহারকারী অভিজ্ঞতা: থট ফ্লো পূর্বাভাস আরও প্রাকৃতিক, সঠিক এবং বুদ্ধিমান হিসাবে অনুভূত হয়
সর্বজনীনতা: পদ্ধতি যেকোনো আউটপুট লজিট সহ শ্রেণীবিভাগ মডেলে প্রয়োগ করা যায়

সীমাবদ্ধতা

থামার সমস্যা: সর্বোত্তম কর্মক্ষমতা অর্জনের জন্য oracle থামার ফাংশন প্রয়োজন, ব্যবহারিক প্রয়োগে কখন থামতে হবে তা শিখতে হবে
গণনামূলক ওভারহেড: পুনরাবৃত্তিমূলক আপডেট অনুমান সময় এবং গণনামূলক খরচ বৃদ্ধি করে
কাজের সীমাবদ্ধতা: প্রধানত প্রশ্নোত্তর কাজে যাচাই করা হয়েছে, অন্যান্য কাজে কার্যকারিতা যাচাইকরণ অপেক্ষা করছে
গ্রেডিয়েন্ট সংবেদনশীলতা: গ্রেডিয়েন্ট অনুমান স্থিতিশীল করতে Monte Carlo Dropout প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

শেখার থামা: স্বয়ংক্রিয়ভাবে থামার সময় শেখার পদ্ধতি বিকাশ করা
দক্ষতা অপ্টিমাইজেশন: গণনামূলক ওভারহেড হ্রাস করা, অনুমান দক্ষতা উন্নত করা
কাজ সম্প্রসারণ: অন্যান্য জটিল কাজে পদ্ধতির কার্যকারিতা যাচাই করা
তাত্ত্বিক গভীরতা: দার্শনিক তত্ত্ব এবং মেশিন লার্নিংয়ের সংমিশ্রণ আরও অন্বেষণ করা

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: দার্শনিক তত্ত্ব এবং মেশিন লার্নিং একত্রিত করে, থট ফ্লো ধারণা উপস্থাপন করে
প্রযুক্তিগত দৃঢ়তা: গাণিতিক আনুষ্ঠানিকীকরণ স্পষ্ট, বাস্তবায়ন বিবরণ সম্পূর্ণ
ব্যাপক পরীক্ষা: পরিমাণগত বিশ্লেষণ, গুণগত বিশ্লেষণ এবং মানব মূল্যায়ন অন্তর্ভুক্ত সম্পূর্ণ পরীক্ষা
ব্যবহারিক মূল্য: পদ্ধতি বিদ্যমান মডেলে প্রয়োগ করা যায়, পুনরায় প্রশিক্ষণের প্রয়োজন নেই
বিশ্বাসযোগ্য ফলাফল: একাধিক মাত্রায় উল্লেখযোগ্য উন্নতি প্রদর্শন করে

অপূর্ণতা

Oracle উপর থামার প্রক্রিয়া নির্ভরতা: পদ্ধতির ব্যবহারিক প্রয়োগ সীমিত করে
গণনামূলক দক্ষতা: পুনরাবৃত্তিমূলক আপডেট অনুমান খরচ বৃদ্ধি করে
সীমিত কাজ কভারেজ: প্রধানত প্রশ্নোত্তর কাজ যাচাই করা হয়েছে
তাত্ত্বিক সংযোগ: দার্শনিক তত্ত্ব থেকে গাণিতিক মডেলে ম্যাপিং সম্ভবত অত্যধিক সরলীকৃত

প্রভাব

একাডেমিক অবদান: ক্রম পূর্বাভাস এবং স্ব-সংশোধন গবেষণায় নতুন দিকনির্দেশনা খোলে
ব্যবহারিক মূল্য: বিদ্যমান transformer মডেলে সরাসরি প্রয়োগ করা যায়
আন্তঃশৃঙ্খলা তাৎপর্য: দার্শনিক তত্ত্ব AI গবেষণা নির্দেশনা দেওয়ার সম্ভাবনা প্রদর্শন করে
পুনরুৎপাদনযোগ্যতা: বাস্তবায়ন বিবরণ বিস্তারিত, পুনরুৎপাদন এবং সম্প্রসারণ সহজ করে

প্রযোজ্য পরিস্থিতি

জটিল যুক্তি কাজ: বহু-পদক্ষেপ চিন্তা প্রয়োজনীয় সমস্যা সমাধান
বড় আউটপুট স্পেস: সরাসরি পূর্বাভাস কঠিন কাজ
ব্যবহারকারী ইন্টারঅ্যাকশন সিস্টেম: চিন্তা প্রক্রিয়া প্রদান প্রয়োজনীয় AI সহায়ক
ত্রুটি-সংবেদনশীল প্রয়োগ: স্ব-সংশোধন ক্ষমতা প্রয়োজনীয় গুরুত্বপূর্ণ কাজ

সংদর্ভ

পেপারটি একাধিক গুরুত্বপূর্ণ ক্ষেত্রের কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

হেগেলীয় দ্বান্দ্বিকতার দার্শনিক সাহিত্য
জ্ঞানীয় বিজ্ঞান এবং স্নায়ুবিজ্ঞান গবেষণা
মেশিন লার্নিংয়ে আত্মবিশ্বাস অনুমান এবং মডেল সংশোধন পদ্ধতি
ক্রম পূর্বাভাস এবং পুনরাবৃত্তিমূলক অপ্টিমাইজেশন সম্পর্কিত কাজ

সামগ্রিক মূল্যায়ন: এটি একটি অত্যন্ত উদ্ভাবনী পেপার যা সফলভাবে দার্শনিক তত্ত্ব এবং আধুনিক মেশিন লার্নিং প্রযুক্তি একত্রিত করে, ব্যবহারিক মূল্য সহ থট ফ্লো ধারণা প্রস্তাব করে। যদিও থামার প্রক্রিয়া ইত্যাদি দিকে আরও উন্নতির অবকাশ রয়েছে, তবে এর অগ্রগামী চিন্তাভাবনা এবং বিশ্বাসযোগ্য পরীক্ষামূলক ফলাফল এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।