Hybrid thinking enables LLMs to switch between reasoning and direct answering, offering a balance between efficiency and reasoning capability. Yet our experiments reveal that current hybrid thinking LLMs only achieve partial mode separation: reasoning behaviors often leak into the no-think mode. To understand and mitigate this, we analyze the factors influencing controllability and identify four that matter most: (1) larger data scale, (2) using think and no-think answers from different questions rather than the same question, (3) a moderate increase in no-think data number, and (4) a two-phase strategy that first trains reasoning ability and then applies hybrid think training. Building on these findings, we propose a practical recipe that, compared to standard training, can maintain accuracy in both modes while significantly reducing no-think output length (from $1085$ to $585$ on MATH500) and occurrences of reasoning-supportive tokens such as ``\texttt{wait}'' (from $5917$ to $522$ on MATH500). Our findings highlight the limitations of current hybrid thinking and offer directions for strengthening its controllability.
- पेपर ID: 2510.12680
- शीर्षक: हाइब्रिड थिंकिंग को स्पष्ट करना: क्या LLMs वास्तव में थिंक और नो-थिंक के बीच स्विच कर सकते हैं?
- लेखक: शोरेन वांग, वांग यांग, जियानक्सुआन लॉन्ग, किफान वांग, विपिन चौधरी, जियाओटियन हान
- संस्थान: केस वेस्टर्न रिजर्व विश्वविद्यालय, Meta AI
- वर्गीकरण: cs.LG cs.AI cs.CL
- प्रकाशन तिथि: 14 जनवरी 2025
- पेपर लिंक: https://arxiv.org/abs/2510.12680
हाइब्रिड थिंकिंग (Hybrid thinking) बड़े भाषा मॉडल को तर्क और प्रत्यक्ष उत्तर के बीच स्विच करने में सक्षम बनाता है, जो दक्षता और तर्क क्षमता के बीच संतुलन प्रदान करता है। हालांकि, प्रयोगों से पता चलता है कि वर्तमान हाइब्रिड थिंकिंग LLMs केवल आंशिक मोड पृथक्करण प्राप्त कर सकते हैं: तर्क व्यवहार अक्सर नो-थिंक मोड में रिसता है। इस समस्या को समझने और कम करने के लिए, अनुसंधान ने नियंत्रणीयता को प्रभावित करने वाले कारकों का विश्लेषण किया और चार सबसे महत्वपूर्ण कारकों की पहचान की: (1) बड़े डेटा स्केल, (2) एक ही समस्या के बजाय विभिन्न समस्याओं से थिंक और नो-थिंक उत्तरों का उपयोग, (3) नो-थिंक डेटा मात्रा में उचित वृद्धि, (4) पहले तर्क क्षमता को प्रशिक्षित करने और फिर हाइब्रिड थिंकिंग प्रशिक्षण लागू करने की दो-चरणीय रणनीति। इन निष्कर्षों के आधार पर, एक व्यावहारिक प्रशिक्षण योजना प्रस्तावित की गई है, जो मानक प्रशिक्षण की तुलना में दोनों मोड में सटीकता बनाए रखते हुए नो-थिंक आउटपुट लंबाई में उल्लेखनीय कमी (MATH500 पर 1085 से 585 तक) और तर्क समर्थन शब्दावली जैसे "wait" की घटनाओं में कमी (5917 से 522 तक) प्राप्त कर सकती है।
हाइब्रिड थिंकिंग एक व्यापक रूप से अपनाई गई विधि है, जिसे Gemini, GPT-oss, Qwen3 और DeepSeek V3.1 जैसे कई वाणिज्यिक मॉडल में लागू किया गया है, जो मॉडल को अधिक कुशल और लचकदार तर्क प्रक्रिया प्राप्त करने के लिए तर्क करने या न करने के नियंत्रण के माध्यम से। हालांकि, हाइब्रिड थिंकिंग मॉडल की क्षमता के बारे में वर्तमान में व्यवस्थित अनुसंधान की कमी है।
Qwen3-8B के मूल्यांकन के माध्यम से पाया गया कि, हालांकि मॉडल थिंक मोड में बेहतर प्रदर्शन करता है (जैसे AIME24 पर 63% सटीकता और 11,394 टोकन), नो-थिंक मोड में अभी भी तर्क व्यवहार रिसाव की समस्या है:
- आउटपुट लंबाई शुद्ध नो-थिंक बेसलाइन मॉडल से बहुत अधिक है
- नो-थिंक मोड में अभी भी "wait", "hmm" जैसी प्रतिबिंबात्मक शब्दावली उत्पन्न करता है
- थिंक और नो-थिंक मोड का पूर्ण पृथक्करण प्राप्त नहीं कर सकता
मौजूदा हाइब्रिड थिंकिंग कार्यान्वयन केवल सीमित नियंत्रण क्षमता प्रदान कर सकते हैं और सच्चे मोड पृथक्करण तक नहीं पहुंच सकते, जो शोधकर्ताओं को मोड नियंत्रणीयता को बढ़ाने के लिए प्रशिक्षण रणनीतियों और व्यापार-बंद का व्यवस्थित रूप से अन्वेषण करने के लिए प्रेरित करता है।
- व्यवस्थित विश्लेषण: हाइब्रिड थिंकिंग मॉडल का पहली बार व्यापक क्षमता विश्लेषण, वर्तमान विधियों की सीमाओं को उजागर करता है
- मुख्य कारकों की पहचान: नियंत्रित प्रयोगों के माध्यम से हाइब्रिड थिंकिंग नियंत्रणीयता को प्रभावित करने वाले चार मुख्य प्रशिक्षण कारकों की पहचान
- व्यावहारिक प्रशिक्षण योजना: प्रायोगिक निष्कर्षों के आधार पर व्यावहारिक प्रशिक्षण सूत्र प्रस्तावित, नो-थिंक मोड की नियंत्रणीयता में उल्लेखनीय सुधार
- प्रदर्शन वृद्धि: सटीकता बनाए रखते हुए, नो-थिंक मोड में आउटपुट अतिरेक और तर्क रिसाव में व्यापक कमी
हाइब्रिड थिंकिंग कार्य मॉडल को नियंत्रण टोकन (जैसे \no_think, \think) के आधार पर स्पष्ट तर्क करने का निर्णय लेने के लिए प्रशिक्षित करने का उद्देश्य रखता है:
- थिंक मोड: मॉडल
<think> टैग के अंदर विस्तृत तर्क करता है, फिर उत्तर देता है - नो-थिंक मोड: मॉडल सीधे उत्तर देता है, स्पष्ट तर्क प्रक्रिया नहीं करता
OpenR1-Math डेटासेट का उपयोग, जिसमें शामिल है:
- नो-थिंक डेटा: Numina-Math से प्रत्यक्ष उत्तर
- थिंक डेटा: DeepSeek-R1 द्वारा उत्पन्न तर्क प्रक्रिया वाले उत्तर
- युग्मित बनाम गैर-युग्मित: क्या प्रत्येक समस्या में थिंक और नो-थिंक दोनों उत्तर हैं
- डेटा अनुपात: थिंक और नो-थिंक डेटा के विभिन्न अनुपात (1:4, 1:2, 1:1)
- प्रशिक्षण रणनीति: मिश्रित प्रशिक्षण बनाम दो-चरणीय प्रशिक्षण
20k, 40k, 80k, 140k नमूनों का उपयोग करके प्रयोग, पाया गया:
- थिंक मोड सटीकता स्केल के साथ स्थिर रूप से सुधरती है
- नो-थिंक मोड सटीकता अपेक्षाकृत स्थिर रहती है
- मुख्य खोज: नो-थिंक आउटपुट लंबाई डेटा स्केल के साथ उल्लेखनीय रूप से घटती है, 140k स्केल पर बेसलाइन के करीब
युग्मित (एक ही समस्या के थिंक और नो-थिंक उत्तर) और गैर-युग्मित सेटअप की तुलना:
- गैर-युग्मित सेटअप नो-थिंक मोड में छोटे आउटपुट उत्पन्न करता है
- सटीकता मूलतः अपरिवर्तित रहती है
- निष्कर्ष: विभिन्न समस्याओं से थिंक और नो-थिंक उत्तरों का उपयोग अधिक प्रभावी है
विभिन्न थिंक:नो-थिंक अनुपात (1:4, 1:2, 1:1) का परीक्षण:
- नो-थिंक डेटा अनुपात में उचित वृद्धि नो-थिंक नियंत्रणीयता में सुधार करती है
- थिंक मोड प्रदर्शन मूलतः अप्रभावित रहता है
- इष्टतम अनुपात: 1:4 या 1:2 अनुपात बेहतर परिणाम देता है
मिश्रित प्रशिक्षण और दो-चरणीय प्रशिक्षण की तुलना:
- दो-चरणीय प्रशिक्षण: पहले शुद्ध थिंक डेटा के साथ प्रशिक्षण, फिर मिश्रित प्रशिक्षण
- सभी डेटा स्केल पर नो-थिंक आउटपुट लंबाई में कमी
- थिंक मोड पर नो-थिंक आउटपुट के प्रभाव को बेहतर तरीके से कम करता है
- MATH500: गणितीय तर्क समस्याएं
- AIME24: अमेरिकी गणित प्रतियोगिता प्रश्न
- GPQA: स्नातक-स्तरीय विज्ञान प्रश्न
- MMLU-STEM: बहु-विषय समझ कार्य
- सटीकता (Accuracy): सही उत्तरों का अनुपात
- आउटपुट लंबाई (Output Length): औसत टोकन संख्या
- Wait गणना (#Wait Count): प्रतिबिंबात्मक शब्दावली ("wait", "hmm", "alternatively") की घटनाएं
- Qwen2.5-7B-Instruct: शुद्ध नो-थिंक बेसलाइन
- शुद्ध-थिंक मॉडल: केवल थिंक डेटा पर प्रशिक्षित मॉडल
- शुद्ध नो-थिंक मॉडल: केवल नो-थिंक डेटा पर प्रशिक्षित मॉडल
- आधार मॉडल: Qwen2.5-7B-Base, LLaMA-3.1-8B-Base
- प्रशिक्षण सेटअप: 3 epochs, सीखने की दर 1.0×10⁻⁵, वार्मअप अनुपात 0.1
- डेटा स्केल: 80K नमूनों का मिश्रित डेटासेट
MATH500 डेटासेट पर मुख्य परिणाम:
| मॉडल | थिंक मोड सटीकता | नो-थिंक मोड सटीकता | थिंक आउटपुट लंबाई | नो-थिंक आउटपुट लंबाई | नो-थिंक Wait गणना |
|---|
| मूल योजना | 85.88% | 63.16% | 4539 | 1086 | 5917 |
| सुधारी गई योजना | 86.78% | 63.60% | 4481 | 585 | 522 |
Qwen3 श्रृंखला मॉडल का मूल्यांकन दिखाता है:
- सभी मॉडल (4B, 8B, 14B) नो-थिंक मोड में अभी भी प्रतिबिंबात्मक शब्दावली उत्पन्न करते हैं
- आउटपुट लंबाई शुद्ध नो-थिंक बेसलाइन से बहुत अधिक है
- वर्तमान हाइब्रिड थिंकिंग की सीमाओं की पुष्टि करता है
- 20k → 140k: नो-थिंक आउटपुट लंबाई 2214 से 776 तक (MATH500)
- थिंक मोड प्रदर्शन स्थिर रहता है
- नियंत्रणीयता के लिए बड़े पैमाने पर डेटा के महत्व की पुष्टि करता है
दो-चरणीय प्रशिक्षण मिश्रित प्रशिक्षण की तुलना में:
- MATH500: नो-थिंक आउटपुट लंबाई 1086 से 640 तक
- AIME24: 2086 से 1398 तक
- सभी डेटा स्केल पर बेहतर प्रदर्शन
पेपर एक AIME24 ज्यामिति समस्या का विशिष्ट उदाहरण प्रदर्शित करता है:
- नो-थिंक मोड: हालांकि
<think> टैग खाली है, मॉडल अभी भी बाहरी रूप से "Wait — this is not correct" जैसे तर्क कथन उत्पन्न करता है - थिंक मोड:
<think> टैग के अंदर पूर्ण तर्क प्रक्रिया - वर्तमान हाइब्रिड थिंकिंग के अपूर्ण नियंत्रण को दर्शाता है
- सुदृढ़ीकरण सीखना विधि: DeepSeek GRPO का उपयोग करके SOTA प्रदर्शन प्राप्त करता है
- पर्यवेक्षित सूक्ष्म-ट्यूनिंग विधि: चयनित तर्क प्रक्षेपवक्र का उपयोग, जैसे SkyThought-T1 और Bespoke-Stratos-32B
- डेटा चयन: छोटे पैमाने पर उच्च गुणवत्ता वाले डेटासेट महत्वपूर्ण सुधार ला सकते हैं
- आउटपुट संपीड़न: TokenSkip और LightThinker अनावश्यक टोकन हटाकर दक्षता में सुधार करते हैं
- वरीयता अनुकूलन: Kimi 1.5 और Sky-Thought लंबे और छोटे उत्तरों को संरेखित करके अतिरेक कम करते हैं
- प्रारंभिक रोक रणनीति: जांच विधि का उपयोग करके प्रारंभिक रोक प्राप्त करता है
- Gemini: नियंत्रण टोकन के माध्यम से तर्क स्विचिंग पहली बार लागू करता है
- Qwen3: कई मॉडल स्केल तक विस्तारित
- GPT-oss: विभिन्न तर्क गहराई का अन्वेषण
- DeepSeek V3.1: बड़े पैमाने पर सुदृढ़ीकरण सीखने के माध्यम से नियंत्रणीयता में सुधार
- आंशिक पृथक्करण घटना: वर्तमान हाइब्रिड थिंकिंग मॉडल केवल आंशिक मोड पृथक्करण प्राप्त कर सकते हैं, तर्क व्यवहार नो-थिंक मोड में रिसता है
- मुख्य प्रशिक्षण कारक: डेटा स्केल, युग्मन रणनीति, डेटा अनुपात और प्रशिक्षण चरण डिजाइन सभी नियंत्रणीयता को महत्वपूर्ण रूप से प्रभावित करते हैं
- व्यावहारिक सुधार योजना: इन कारकों को अनुकूलित करके, सटीकता बनाए रखते हुए नो-थिंक मोड की सरलता में उल्लेखनीय सुधार किया जा सकता है
- प्रायोगिक सीमा: मुख्य रूप से Qwen2.5-7B मॉडल पर आधारित, निष्कर्षों की सार्वभौमिकता को सीमित कर सकता है
- पूर्ण पृथक्करण: अभी भी थिंक और नो-थिंक मोड का पूर्ण पृथक्करण प्राप्त नहीं किया गया है
- मूल्यांकन मेट्रिक्स: मुख्य रूप से आउटपुट लंबाई और शब्दावली गणना पर ध्यान केंद्रित, नियंत्रण के अन्य महत्वपूर्ण आयामों को अनदेखा कर सकता है
- बड़े पैमाने पर मॉडल तक विस्तार: बड़े मॉडल पर निष्कर्षों की प्रयोज्यता सत्यापित करना
- अधिक सूक्ष्म नियंत्रण तंत्र: अधिक सूक्ष्म-दानेदार तर्क नियंत्रण विधियों का अन्वेषण
- सैद्धांतिक विश्लेषण: मोड रिसाव घटना के आंतरिक तंत्र को गहराई से समझना
- अनुप्रयोग-उन्मुख अनुकूलन: विशिष्ट अनुप्रयोग परिदृश्यों के लिए हाइब्रिड थिंकिंग रणनीति को अनुकूलित करना
- व्यवस्थित अनुसंधान: हाइब्रिड थिंकिंग का पहली बार व्यापक व्यवस्थित विश्लेषण, महत्वपूर्ण अनुसंधान अंतराल को भरता है
- उच्च व्यावहारिक मूल्य: प्रस्तावित प्रशिक्षण योजना सीधे उपयोग योग्य है, औद्योगिक क्षेत्र के लिए महत्वपूर्ण मार्गदर्शन प्रदान करती है
- कठोर प्रायोगिक डिजाइन: प्रत्येक प्रभावशाली कारक का व्यवस्थित रूप से विश्लेषण करने के लिए नियंत्रित चर का उपयोग
- महत्वपूर्ण परिणाम: मुख्य मेट्रिक्स पर महत्वपूर्ण सुधार (आउटपुट लंबाई में 46% कमी, प्रतिबिंबात्मक शब्दावली में 91% कमी)
- सटीक समस्या पहचान: वर्तमान हाइब्रिड थिंकिंग की मूल समस्या को सटीक रूप से पहचानता और परिमाणित करता है
- सीमित सैद्धांतिक गहराई: मुख्य रूप से अनुभवजन्य अनुसंधान, मोड रिसाव घटना की सैद्धांतिक व्याख्या की कमी
- मॉडल सीमा: प्रयोग मुख्य रूप से 7B-8B स्केल के मॉडल पर केंद्रित, बड़े मॉडल पर प्रयोज्यता सत्यापित होनी बाकी है
- एकल मूल्यांकन आयाम: मुख्य रूप से आउटपुट लंबाई और विशिष्ट शब्दावली पर ध्यान केंद्रित, नियंत्रण गुणवत्ता के अन्य महत्वपूर्ण संकेतकों को छोड़ सकता है
- मूल समस्या अनसुलझी: हालांकि नियंत्रण प्रभाव में सुधार हुआ है, अभी भी पूर्ण मोड पृथक्करण प्राप्त नहीं किया गया है
- शैक्षणिक मूल्य: हाइब्रिड थिंकिंग अनुसंधान के लिए महत्वपूर्ण अनुभवजन्य आधार और पद्धति संबंधी मार्गदर्शन प्रदान करता है
- औद्योगिक अनुप्रयोग: वाणिज्यिक LLM के हाइब्रिड थिंकिंग कार्यान्वयन के लिए सीधा मार्गदर्शन
- अनुसंधान प्रेरणा: बाद के अनुसंधान के लिए महत्वपूर्ण दिशा इंगित करता है, विशेषकर नियंत्रणीयता और दक्षता संतुलन में
- मजबूत पुनरुत्पादनीयता: प्रायोगिक सेटअप स्पष्ट है, कोड ओपन-सोर्स है, सत्यापन और विस्तार में सुविधाजनक
- वाणिज्यिक LLM विकास: तर्क क्षमता और दक्षता के बीच संतुलन की आवश्यकता वाले वाणिज्यिक मॉडल के लिए प्रशिक्षण मार्गदर्शन
- शैक्षणिक अनुप्रयोग: तर्क प्रक्रिया प्रदर्शन को नियंत्रित करने की आवश्यकता वाले शैक्षणिक परिदृश्यों में अनुप्रयोग
- API सेवा: विभिन्न तर्क गहराई प्रदान करने वाली API सेवा के लिए तकनीकी आधार
- अनुसंधान उपकरण: नियंत्रणीय तर्क की आवश्यकता वाले अनुसंधान कार्यों के लिए पद्धति संबंधी समर्थन
पेपर संबंधित कार्यों का व्यापक उद्धरण देता है, मुख्य रूप से शामिल हैं:
- DeepSeek श्रृंखला (Guo et al., 2025; Liu et al., 2024)
- Qwen श्रृंखला (Yang et al., 2024, 2025)
- तर्क विधि अनुसंधान (Chen et al., 2024a,b; 2025a,b)
- कुशल तर्क अनुसंधान (Sui et al., 2025; Xia et al., 2025)
- मौलिक डेटासेट (Lightman et al., 2023; Rein et al., 2024)
यह पेपर हाइब्रिड थिंकिंग के इस महत्वपूर्ण और व्यावहारिक अनुसंधान दिशा में अग्रणी योगदान देता है, व्यवस्थित प्रायोगिक विश्लेषण के माध्यम से वर्तमान विधियों की सीमाओं को उजागर करता है, और व्यावहारिक सुधार योजना प्रस्तावित करता है। हालांकि सैद्धांतिक गहराई और समस्या के मूल समाधान में आगे के अनुसंधान की आवश्यकता है, इसका अनुभवजन्य मूल्य और व्यावहारिक मार्गदर्शन महत्व इसे इस क्षेत्र का एक महत्वपूर्ण संदर्भ दस्तावेज बनाता है।