When humans solve complex problems, they typically create a sequence of ideas (involving an intuitive decision, reflection, error correction, etc.) in order to reach a conclusive decision. Contrary to this, today's models are mostly trained to map an input to one single and fixed output. In this paper, we investigate how we can give models the opportunity of a second, third and $k$-th thought. Taking inspiration from Hegel's dialectics, we propose the concept of a thought flow which creates a sequence of predictions. We present a self-correction mechanism that is trained to estimate the model's correctness and performs iterative prediction updates based on the correctness prediction's gradient. We introduce our method at the example of question answering and conduct extensive experiments that demonstrate (i) our method's ability to correct its own predictions and (ii) its potential to notably improve model performances. In addition, we conduct a qualitative analysis of thought flow correction patterns and explore how thought flow predictions affect human users within a crowdsourcing study. We find that (iii) thought flows enable improved user performance and are perceived as more natural, correct, and intelligent as single and/or top-3 predictions.
論文ID : 2107.12220タイトル : Thought Flow Nets: From Single Predictions to Trains of Model Thought著者 : Hendrik Schuff (ボッシュAI研究センター & シュトゥットガルト大学)、Heike Adel (ボッシュAI研究センター)、Ngoc Thang Vu (シュトゥットガルト大学)分類 : cs.LG cs.AI cs.CL cs.CV発表時期 : 2021年7月 (arXiv)論文リンク : https://arxiv.org/abs/2107.12220 人間が複雑な問題を解く際、通常は一連の思考(直感的判断、反省、誤り訂正など)を経て最終的な決定に至る。一方、現在のモデルの大多数は入力を単一かつ固定の出力にマッピングするように訓練されている。本論文は、モデルに第2次、第3次、さらにはk次の思考の機会を与える方法を研究する。ヘーゲル弁証法に着想を得て、著者らは「思考フロー」の概念を提案し、予測の列を生成する。本論文は自己訂正メカニズムを提案し、これはモデルの正確性を推定するよう訓練され、正確性予測の勾配に基づいて反復的な予測更新を実行する。
従来の機械学習モデルは単一ステップ予測モード(x → ŷ)を採用しており、入力を固定出力に直接マッピングするため、人間の思考における反省と自己訂正能力が欠けている。これは複雑なタスク(質問応答、多段階推論など)の処理において制限がある。
人間の認知に基づく着想 :人間が問題を解く際、初期判断、反省、仮説の比較、矛盾の解決を含む複雑な思考プロセスを経験する哲学的理論的基礎 :ヘーゲル弁証法の3つの段階は、機械学習における反復的改善に理論的枠組みを提供する実際的必要性 :タスクの複雑性が増すにつれ、正しい予測に直接到達することを学ぶことが、反復的な自己訂正を学ぶことより困難である可能性がある単一ステップ予測は複雑な推論タスクの複数ステップを処理できない 自己反省と誤り訂正メカニズムが欠けている 大規模出力空間タスク(QAモデルが1,600万の可能なスパンを出力できるなど)では最適解を直接得ることが困難である 理論的貢献 :ヘーゲル弁証法に基づく思考フロー概念の数学的形式化を提案技術的革新 :新規な訂正モジュールと対応する勾配ベースの更新スキームを設計実験的検証 :質問応答タスクで強力な自己訂正能力を実証し、F1スコアで最大9.6%の向上を達成パターン発見 :定性的な自己訂正パターン(文間ジャンプ、スパン縮小/拡張など)を識別ユーザー研究 :クラウドソーシング研究を通じて思考フロー予測がユーザー体験とタスク性能を改善することを証明抽出型質問応答を例として、問題とL個のトークンを含むコンテキストが与えられた場合、モデルは答えの開始位置と終了位置を予測する必要がある。従来の手法は2つの確率分布を出力する:ŷ_start ∈ 0,1 ^L および ŷ_end ∈ 0,1 ^L。
初期予測 ẑ^(0) に対応し、予測関数 f_pred : Φ → Z を通じて取得される モデルの初期「決定状態」を表す 訂正関数 f_corr : Z × Φ → R を導入し、現在の予測の正確性スコアsを予測する 正確性スコアのロジットに関する勾配を計算:∇^T_{ẑ^(0)} s 勾配は「現在の予測がより正確になるためにどのように変わるべきか」を表す 初期予測と勾配情報を組み合わせて予測を更新:
ẑ^(1) := ẑ^(0) + α^(0) · ∇^T_{ẑ^(0)} s
すべてのトークン埋め込みの加重平均を使用し、重みは予測開始および終了確率の要素ごとの積:
w̃^(i) := (ŷ_start^(i) ⊙ ŷ_end^(i) + ε · 1)
φ(x)^(i) := [e1, e2, ..., eL] · (w̃^(i) / Σ_j w̃_j^(i))
2層MLPを採用し、入力は連結ベクトル:
[dropout(φ(x)^(i)), ẑ_start^(i), ẑ_end^(i)]^T ∈ R^{d+2·L}
動的にステップサイズαを選択し、事前定義された確率質量δが移動するようにする:
α := δ / (||σ(ẑ^(i)) - σ(ẑ^(i) + ∇^T_{ẑ^(i)} s)||_1 + ε)
微分可能な自己評価 :訂正モジュールはデコードされたテキストではなくロジットを直接使用し、微分可能性を保持モンテカルロドロップアウト安定化 :5つの勾配をサンプリングして平均化することで勾配推定を安定化動的ステップサイズ調整 :確率分布の変化に基づいて更新幅を適応的に調整モジュール設計 :ロジットを出力する既存のあらゆるモデルに適用可能HotpotQA(干渉設定) :複数ホップ推論を必要とする複雑な質問を含む訓練セット:80,564インスタンス 検証セット:10,000インスタンス(訓練セットからサンプリング) テストセット:公式検証セットをテストセットとして使用 Longformer-large :4.35億パラメータ、4096トークン入力長をサポート基本性能:HotpotQA検証セットでF1スコア63.5%(SD=0.6) 訂正モジュールは331kパラメータのみを追加 基本モデル:5エポック、学習率10^-5、バッチサイズ64 訂正モジュール:MSE損失を使用してF1スコア予測を訓練 ハードウェア:単一V100 GPU、各モデルの訓練時間は約3日 F1スコア(主要指標) 完全一致スコア ユーザー研究における多次元評価 δ=0.1:安定したが比較的小さいF1改善を提供 より大きなδ値:初期段階では明らかな改善があるが、後期段階では「過度な訂正」が発生 重要な発見 :ほぼすべての性能向上は最初の決定変更から生じる最適なF1性能で停止した場合、思考フローはF1で9.6%の絶対的向上 を達成可能(SD=0.61) 適時停止の重要性を示す 150個のランダムサンプルの定性分析を通じて、6つの主要な訂正パターンを識別:
文間ジャンプ (52.7%):最も頻繁な訂正タイプで、答えがある文から別の文へジャンプスパン縮小 (23.3%):予測答えスパンを短縮スパン拡張 (21.3%):予測答えスパンを拡大文内ジャンプ (7.3%):同じ文内の非重複スパン間でジャンプエンティティ精緻化 (8%):同じエンティティの異なる言及へジャンプ論理的ジャンプ (4%):段階的推論を実行し、最初のステップを解決してから正しい答えへジャンプ被験者:55名のMTurkワーカー 条件:SINGLE(単一予測)、TOP-3(上位3予測)、TF(思考フロー) 評価次元:正確性、理解可能性、有用性、使用可能性、心理的努力、擬人化、知能認知など 次元 SINGLE TOP-3 TF 有意差 正確性認知 A A B TF > SINGLE, TOP-3 理解可能性 A B B TF, TOP-3 > SINGLE 有用性 A B B TF, TOP-3 > SINGLE 擬人化 A AB B TF > SINGLE 知能認知 A B B TF, TOP-3 > SINGLE ユーザー性能F1 A B C TF > TOP-3 > SINGLE 完了時間 A B AB TOP-3は他より遅い
重要な結論 :
思考フローは正確性認知、擬人化、ユーザー性能の面で他の手法を大きく上回る 思考フローはTOP-3と同等の理解可能性と有用性の向上を提供するが、完了時間を増加させない ユーザーが思考フロー・システムを使用する場合、性能が最も良い 認知科学と認知システム分野は人間の思考の多くのモデルを提供 本論文は認知プロセスを正確に記述することを目指さず、哲学的概念を機械学習に適用 ConfidNet :主モデルの真の類別確率を予測勾配ブースティング :弱学習器アンサンブルを使用した学習訂正本論文の訂正モジュールは主モデル予測を直接受け取り適応 古典的手法 :ホップフィールドネットワーク、信念伝播、MCMC現代的手法 :ACT、PonderNet(基本モデルの再訓練が必要)思考の鎖プロンプティング :推論プロセスを示すが予測を反復的に改善しない本論文の手法は既存モデルに適用可能で反復的改善に焦点 理論的貢献 :ヘーゲル弁証法を機械学習フレームワークとして正式化することに成功技術的有効性 :思考フローは複雑な自己訂正を実現でき、性能を大幅に向上ユーザー体験 :思考フロー予測はより自然で正確で知的であると認知される汎用性 :ロジットを出力する任意の分類モデルに適用可能停止問題 :最適性能を達成するにはオラクル停止関数が必要で、実際の応用では停止時期を学習する必要がある計算オーバーヘッド :反復更新は推論時間と計算コストを増加させるタスク限定 :主に質問応答タスクで検証され、他のタスクでの有効性は未検証勾配感度 :勾配推定を安定化させるためにモンテカルロドロップアウトが必要停止学習 :停止時期を自動的に学習する方法を開発効率最適化 :計算オーバーヘッドを削減し、推論効率を向上タスク拡張 :他の複雑なタスクでの手法の有効性を検証理論深化 :哲学理論と機械学習の結合をさらに探究革新性が高い :哲学理論と機械学習を結合し、新規な思考フロー概念を提案技術が堅実 :数学的形式化が明確で、実装の詳細が完全実験が充分 :定量分析、定性分析、人間評価を含む包括的な実験実用的価値 :既存モデルに適用可能で、再訓練が不要結果が説得力がある :複数の次元で有意な改善を示す停止メカニズムがオラクルに依存 :手法の実際の応用を制限計算効率 :反復更新は推論コストを増加させるタスク適用範囲が限定的 :主に質問応答タスクで検証理論的接続 :哲学理論から数学モデルへのマッピングが過度に単純化されている可能性学術的貢献 :シーケンス予測と自己訂正研究に新しい方向を開く実用的価値 :既存のトランスフォーマーモデルに直接適用可能学際的意義 :哲学理論がAI研究を指導する可能性を示す再現性 :実装の詳細が詳細で、再現と拡張が容易複雑な推論タスク :複数ステップの思考が必要な問題解決大規模出力空間 :直接予測が困難なタスクユーザー対話システム :思考プロセスを提供する必要があるAIアシスタント誤り敏感応用 :自己訂正能力が必要な重要なタスク論文は複数の重要な分野の研究を引用しており、以下を含む:
ヘーゲル弁証法の哲学文献 認知科学と神経科学研究 機械学習における信頼度推定とモデル訂正手法 シーケンス予測と反復最適化関連研究 総合評価 :これは革新性が非常に高い論文で、哲学理論と現代的な機械学習技術を成功裏に結合し、実用的価値のある思考フロー概念を提案している。停止メカニズムなどの面でまだ改善の余地があるが、その開拓的なアプローチと説得力のある実験結果により、この分野の重要な貢献となっている。