Thought Flow Nets: From Single Predictions to Trains of Model Thought
Schuff, Adel, Vu
When humans solve complex problems, they typically create a sequence of ideas (involving an intuitive decision, reflection, error correction, etc.) in order to reach a conclusive decision. Contrary to this, today's models are mostly trained to map an input to one single and fixed output. In this paper, we investigate how we can give models the opportunity of a second, third and $k$-th thought. Taking inspiration from Hegel's dialectics, we propose the concept of a thought flow which creates a sequence of predictions. We present a self-correction mechanism that is trained to estimate the model's correctness and performs iterative prediction updates based on the correctness prediction's gradient. We introduce our method at the example of question answering and conduct extensive experiments that demonstrate (i) our method's ability to correct its own predictions and (ii) its potential to notably improve model performances. In addition, we conduct a qualitative analysis of thought flow correction patterns and explore how thought flow predictions affect human users within a crowdsourcing study. We find that (iii) thought flows enable improved user performance and are perceived as more natural, correct, and intelligent as single and/or top-3 predictions.
인간이 복잡한 문제를 해결할 때, 일반적으로 일련의 사고(직관적 결정, 성찰, 오류 수정 등을 포함)를 생성하여 최종 결정에 도달한다. 반대로 현재의 모델 대부분은 입력을 단일하고 고정된 출력으로 매핑하도록 훈련된다. 본 논문은 모델에 두 번째, 세 번째, 그리고 k번째 사고의 기회를 제공하는 방법을 연구한다. 헤겔 변증법에서 영감을 받아, 저자들은 "사고 흐름" 개념을 제안하여 예측 수열을 생성한다. 본 논문은 모델의 정확성을 추정하도록 훈련된 자기 수정 메커니즘을 제시하며, 정확성 예측의 기울기를 기반으로 반복적 예측 업데이트를 수행한다.
종합 평가: 이는 철학 이론과 현대 기계학습 기술을 성공적으로 결합하여 실용적 가치가 있는 사고 흐름 개념을 제시한 매우 혁신적인 논문이다. 중지 메커니즘 등의 측면에서 아직 개선의 여지가 있지만, 개척적인 사고와 설득력 있는 실험 결과는 이를 해당 분야의 중요한 기여로 만든다.