Thought Flow Nets: From Single Predictions to Trains of Model Thought
Schuff, Adel, Vu
When humans solve complex problems, they typically create a sequence of ideas (involving an intuitive decision, reflection, error correction, etc.) in order to reach a conclusive decision. Contrary to this, today's models are mostly trained to map an input to one single and fixed output. In this paper, we investigate how we can give models the opportunity of a second, third and $k$-th thought. Taking inspiration from Hegel's dialectics, we propose the concept of a thought flow which creates a sequence of predictions. We present a self-correction mechanism that is trained to estimate the model's correctness and performs iterative prediction updates based on the correctness prediction's gradient. We introduce our method at the example of question answering and conduct extensive experiments that demonstrate (i) our method's ability to correct its own predictions and (ii) its potential to notably improve model performances. In addition, we conduct a qualitative analysis of thought flow correction patterns and explore how thought flow predictions affect human users within a crowdsourcing study. We find that (iii) thought flows enable improved user performance and are perceived as more natural, correct, and intelligent as single and/or top-3 predictions.
academic
Thought Flow Nets: Von einzelnen Vorhersagen zu Gedankenzügen von Modellen
Wenn Menschen komplexe Probleme lösen, erstellen sie typischerweise eine Reihe von Gedanken (einschließlich intuitiver Entscheidungen, Reflexion, Fehlerkorrektur usw.), um zu einer endgültigen Entscheidung zu gelangen. Im Gegensatz dazu werden heutige Modelle meist so trainiert, dass sie Eingaben auf eine einzelne und feste Ausgabe abbilden. Dieses Paper untersucht, wie man Modellen die Möglichkeit gibt, ein zweites, drittes oder k-tes Mal nachzudenken. Inspiriert von der Hegelschen Dialektik schlagen die Autoren das Konzept des "Gedankenflusses" vor, um Vorhersagesequenzen zu erstellen. Der Artikel präsentiert einen Selbstkorrekturmechanismus, der trainiert wird, um die Korrektheit des Modells zu schätzen, und führt iterative Vorhersageupdates basierend auf Gradienten der Korrektheitsprognose durch.
Traditionelle maschinelle Lernmodelle verwenden einen einstufigen Vorhersagemodus (x → ŷ), der Eingaben direkt auf feste Ausgaben abbildet und der Reflexion und Selbstkorrektur menschlichen Denkens entbehrt. Dies zeigt Einschränkungen bei der Bearbeitung komplexer Aufgaben wie Frage-Antwort-Systeme und mehrstufiges Schlussfolgern.
Kognitive Inspiration: Menschen durchlaufen bei der Problemlösung komplexe Gedankenprozesse, einschließlich Anfangsurteil, Reflexion, Hypothesenvergleich und Widerspruchsauflösung
Philosophische Grundlagen: Die drei Phasen der Hegelschen Dialektik bieten einen theoretischen Rahmen für iterative Verbesserungen im maschinellen Lernen
Praktische Anforderungen: Mit zunehmender Aufgabenkomplexität kann das Erlernen direkter korrekter Vorhersagen schwieriger sein als das Erlernen iterativer Selbstkorrektur
Am Beispiel der extraktiven Frage-Antwort-Systeme: Gegeben eine Frage und ein Kontext mit L Token muss das Modell die Start- und Endposition der Antwort vorhersagen. Traditionelle Methoden geben zwei Wahrscheinlichkeitsverteilungen aus: ŷ_start ∈ 0,1^L und ŷ_end ∈ 0,1^L.
Verwendet gewichteten Durchschnitt aller Token-Einbettungen, wobei Gewichte das elementweise Produkt der Start- und Endvorhersagewahrscheinlichkeiten sind:
Das Paper zitiert wichtige Arbeiten aus mehreren Bereichen:
Philosophische Literatur zur Hegelschen Dialektik
Kognitionswissenschaft und Neurowissenschaftsforschung
Methoden zur Konfidenzschätzung und Modellkorrektur im maschinellen Lernen
Arbeiten zu Sequenzvorhersage und iterativer Optimierung
Gesamtbewertung: Dies ist ein hochinnovativer Artikel, der erfolgreich philosophische Theorie mit moderner Maschinenlern-Technologie verbindet und das praktisch wertvolle Konzept des Gedankenflusses vorstellt. Obwohl noch Verbesserungen beim Stoppemechanismus erforderlich sind, machen die bahnbrechenden Ideen und überzeugenden experimentellen Ergebnisse dies zu einem wichtigen Beitrag in diesem Forschungsbereich.