2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.

Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.

academic

दूसरे विचार की कीमत: बड़े भाषा मॉडल में तर्क दक्षता के मूल्यांकन पर

मूल जानकारी

पेपर ID: 2505.22017
शीर्षक: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
लेखक: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
वर्गीकरण: cs.CL (कम्प्यूटेशन और भाषा)
प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2505.22017

सारांश

हाल ही में सुदृढ़ीकरण सीखने और विपरीत जांच श्रृंखला-विचार (CoT) प्रशिक्षण के साथ प्रशिक्षित विचार मॉडल अत्यधिक विचार समस्या से ग्रस्त हैं: ये सरल समस्याओं पर भी अत्यधिक लंबे आउटपुट उत्पन्न करते हैं, जिससे कम्प्यूटेशनल संसाधनों की बर्बादी होती है। मौजूदा टोकन दक्षता-आधारित मूल्यांकन विधियां अधूरा दृष्टिकोण प्रदान करती हैं, समस्या की कठिनाई और मध्यवर्ती कम्प्यूटेशनल लागत को नज़रअंदाज़ करती हैं। यह पेपर तर्क दक्षता को विचार मॉडल और निर्देश मॉडल के बीच एक सापेक्ष मीट्रिक के रूप में औपचारिक रूप देता है, निर्देश मॉडल को न्यूनतम प्रयास आधारभूत के रूप में मानते हुए। चार विचार मॉडल और कई बेंचमार्क पर व्यवस्थित अध्ययन के माध्यम से, दो सुसंगत पैटर्न का खुलासा किया गया है: (i) निर्देश मॉडल समग्र रूप से उच्च दक्षता प्राप्त करते हैं, (ii) समस्या की कठिनाई दक्षता को प्रभावित करती है, विचार मॉडल सरल समस्याओं पर कम्प्यूटेशन बर्बाद करते हैं लेकिन कठिन समस्याओं पर मूल्य प्रदान करते हैं। इस अंतर्दृष्टि के आधार पर, COTHINK प्रस्तावित किया गया है - एक सरल दो-चरणीय पाइपलाइन: निर्देश मॉडल संक्षिप्त रूपरेखा तैयार करता है, विचार मॉडल विस्तार करता है। GSM8K, MATH500 और AIME24 पर, COTHINK चार विचार मॉडल पर 21.1% टोकन उपयोग में कमी करता है जबकि सटीकता बनाए रखता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अत्यधिक विचार समस्या: हाल के विचार मॉडल गणितीय तर्क कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन गंभीर अत्यधिक विचार समस्या से ग्रस्त हैं। ये मॉडल सरल समस्याओं पर भी मानक निर्देश-ट्यून किए गए मॉडल की तुलना में 5-10 गुना अधिक आउटपुट लंबाई उत्पन्न करते हैं।
मूल्यांकन सीमाएं: मौजूदा तर्क दक्षता मूल्यांकन विधियों में दो मुख्य समस्याएं हैं:
- अत्यधिक विचार और अपर्याप्त विचार की सापेक्ष अवधारणा को नज़रअंदाज़ करता है, जिन्हें केवल तुलनात्मक विश्लेषण के माध्यम से देखा जा सकता है
- मध्यवर्ती कम्प्यूटेशनल लागत को नज़रअंदाज़ करता है, जैसे best-of-N नमूनाकरण में कई उम्मीदवार समाधान उत्पन्न करने की लागत
कम्प्यूटेशनल संसाधन की बर्बादी: AIME2024 बेंचमार्क पर विचार मॉडल की औसत आउटपुट लंबाई Qwen2.5-32B-Instruct के 770 टोकन से बढ़कर QwQ के 6,067 टोकन तक पहुंच गई है, जिससे महत्वपूर्ण कम्प्यूटेशनल संसाधनों की बर्बादी हुई है।

अनुसंधान प्रेरणा

मौजूदा मूल्यांकन विधियां एकल मॉडल की टोकन दक्षता τ(M,D) = Q(D)/CM(D) पर आधारित हैं, लेकिन यह निरपेक्ष मीट्रिक तर्क की सापेक्ष दक्षता को प्रतिबिंबित नहीं कर सकता। यह पेपर तर्क करता है कि विचार मॉडल के प्रदर्शन का बेहतर मूल्यांकन करने के लिए एक सापेक्ष दक्षता ढांचे की आवश्यकता है।

मुख्य योगदान

सापेक्ष तर्क दक्षता मूल्यांकन ढांचा प्रस्तावित करना: तर्क दक्षता को विचार मॉडल के सापेक्ष निर्देश मॉडल के रूप में परिभाषित करना η(MR,MI) = τ(MR,D)/τ(MI,D)
दो प्रमुख पैटर्न की खोज:
- निर्देश मॉडल समग्र रूप से उच्च टोकन दक्षता प्रदर्शित करते हैं
- समस्या की कठिनाई दक्षता को दृढ़ता से प्रभावित करती है, विचार मॉडल सरल समस्याओं पर अत्यधिक कम्प्यूटेशन करते हैं लेकिन कठिन समस्याओं पर मूल्य प्रदान करते हैं
COTHINK दो-चरणीय सहयोगी पाइपलाइन प्रस्तावित करना: निर्देश मॉडल की संक्षिप्तता और विचार मॉडल की सत्यापन क्षमता को जोड़ना
महत्वपूर्ण दक्षता सुधार प्राप्त करना: तीन गणितीय बेंचमार्क पर औसतन 21.1% टोकन उपयोग में कमी, साथ ही 1.66% सटीकता में सुधार

विधि विवरण

कार्य परिभाषा

यह पेपर गणितीय तर्क कार्यों में कम्प्यूटेशनल दक्षता समस्या का अध्ययन करता है, इनपुट गणितीय समस्या है, आउटपुट समाधान प्रक्रिया और अंतिम उत्तर है। बाधा सटीकता बनाए रखते हुए कम्प्यूटेशनल लागत को कम करना है।

सापेक्ष दक्षता मूल्यांकन ढांचा

मुख्य सूत्र

सापेक्ष तर्क दक्षता को इस प्रकार परिभाषित किया गया है:

η(MR,MI) = τ(MR,D) / τ(MI,D)

जहां τ(M,D) = Q(D)/CM(D) पारंपरिक टोकन दक्षता है।

दक्षता स्केलिंग कानून धारणा

परीक्षण समय स्केलिंग कानून Q(C) ∝ C^β (β < 1) के आधार पर, तर्क दक्षता को अनुमानित किया जा सकता है:

η ≈ (CR/CI)^β

COTHINK दो-चरणीय पाइपलाइन

प्रथम चरण: रूपरेखा निर्माण

निर्देश मॉडल 2-4 उच्च-स्तरीय तर्क चरणों की एक संक्षिप्त रूपरेखा उत्पन्न करता है, जिसमें विशिष्ट गणना या अंतिम उत्तर शामिल नहीं है।

सिस्टम प्रॉम्प्ट:

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

द्वितीय चरण: सत्यापन विस्तार

विचार मॉडल रूपरेखा के आधार पर सत्यापन और पूर्णता के लिए कार्य करता है, कम टोकन का उपयोग करते हुए।

उपयोगकर्ता प्रॉम्प्ट:

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

तकनीकी नवाचार बिंदु

गतिशील कठिनाई अनुकूलन: समस्या की कठिनाई का पूर्व मूल्यांकन किए बिना, विचार मॉडल रूपरेखा की गुणवत्ता के आधार पर सत्यापन प्रयास को गतिशील रूप से समायोजित कर सकता है
पूरक लाभ संयोजन: सरल कार्यों पर रूपरेखा आमतौर पर सही होती है, विचार मॉडल तेजी से अभिसरण करता है; कठिन कार्यों पर रूपरेखा संरचित प्रारंभिक बिंदु प्रदान करती है
तैनाती के अनुकूल: कोई आर्किटेक्चर संशोधन की आवश्यकता नहीं है, मौजूदा मॉडल पर सीधे लागू किया जा सकता है

प्रयोगात्मक सेटअप

डेटासेट

तीन गणितीय तर्क बेंचमार्क का उपयोग किया गया है, कठिनाई में वृद्धि:

GSM8K: प्राथमिक स्तर, 1,319 नमूने, समाधान लंबाई 48-1,070 टोकन
MATH500: माध्यमिक स्तर, 500 नमूने, समाधान लंबाई 45-3,360 टोकन
AIME24: विश्वविद्यालय स्तर, 30 नमूने, समाधान लंबाई 284-4,010 टोकन

मॉडल सेटअप

32B पैमाने के 5 प्रतिनिधि मॉडल का मूल्यांकन:

Qwen2.5-32B-Instruct: सामान्य निर्देश मॉडल (आधारभूत)
DAPO: केवल RL प्रशिक्षण विचार मॉडल
DeepSeek-R1-Distill: आसवन-आधारित विचार मॉडल
QwQ: SFT+RL प्रशिक्षण विचार मॉडल
Qwen3: मिश्रित विचार मॉडल (विचार/गैर-विचार मोड का समर्थन करता है)

मूल्यांकन मीट्रिक्स

Pass@1: पहले प्रयास सटीकता
#Tokens: प्रति समस्या उत्पन्न कुल टोकन
टोकन दक्षता τ: गुणवत्ता/लागत अनुपात
तर्क दक्षता η: निर्देश मॉडल के सापेक्ष दक्षता अनुपात
जीत दर: सभी मूल्यांकन बिंदुओं पर लाभ का अनुपात

तुलना विधियां

Solo-Thinking: एकल मॉडल स्वतंत्र समाधान
Best-of-N नमूनाकरण: N=5 उम्मीदवार समाधान उत्पन्न करें, सबसे छोटा चुनें
No-Thinking: विचार प्रक्रिया छोड़ें और सीधे उत्तर उत्पन्न करें

प्रयोगात्मक परिणाम

मुख्य परिणाम

सापेक्ष दक्षता विश्लेषण निष्कर्ष

अवलोकन 1: निर्देश मॉडल उच्च टोकन दक्षता प्रदर्शित करते हैं, अधिकांश विचार मॉडल η < 1
अवलोकन 2: समस्या की कठिनाई तर्क दक्षता को प्रभावित करती है, विचार मॉडल सरल समस्याओं पर कम्प्यूटेशन बर्बाद करते हैं, जटिल कार्यों पर मूल्य प्रदान करते हैं

COTHINK प्रदर्शन

समग्र जीत दर: 61.7% (60 मूल्यांकन बिंदुओं में से 37)
कार्य-वार जीत दर:
- GSM8K: 37.5% (सरल कार्य सुधार के लिए बड़ी गुंजाइश)
- MATH500: 87.5% (माध्यमिक स्तर के कार्यों पर सर्वश्रेष्ठ प्रदर्शन)
- AIME24: 60% (विश्वविद्यालय स्तर के कार्यों पर अच्छा प्रदर्शन)

दक्षता सुधार

औसत टोकन में कमी: 21.1%, अधिकतम 41.8%
सटीकता में सुधार: औसतन 1.66%
मॉडल रैंकिंग (दक्षता सुधार): QwQ > DeepSeek-R1-Distill > DAPO

केस स्टडी विश्लेषण

AIME24 केस स्टडी

तुलनात्मक विश्लेषण तीन स्थितियां दिखाता है:

5 समस्याएं: दोनों मॉडल सफल, निर्देश मॉडल संक्षिप्त, विचार मॉडल लंबा
16 समस्याएं: केवल विचार मॉडल सफल (सत्यापन के माध्यम से त्रुटि सुधार)
9 समस्याएं: दोनों मॉडल विफल

मुख्य खोज: निर्देश मॉडल को विचार मॉडल के एपिसोड को उपसर्ग के रूप में प्रदान करने से केवल 27.5% एपिसोड और 11.9% टोकन की आवश्यकता होती है समस्या को हल करने के लिए।

विलोपन प्रयोग

दक्षता स्रोत विश्लेषण

एल्गोरिदम स्तर अक्षमता: RL प्रशिक्षण प्रत्येक चरण की सूचना घनत्व को कम कर सकता है, अधिक लंबे उत्पादन को प्रोत्साहित करता है
डेटा वितरण अक्षमता: विपरीत CoT प्रशिक्षण बहु-एपिसोड सत्यापन पैटर्न उत्पन्न करता है, जो तर्क समय में जारी रहता है

विभिन्न प्रशिक्षण रणनीति प्रभाव

SFT-प्रशिक्षित मॉडल (QwQ, DeepSeek-R1-Distill) COTHINK की रूपरेखा निर्देशों का बेहतर पालन करते हैं
शुद्ध RL-प्रशिक्षित मॉडल (DAPO) पालन सुसंगतता कम है, लेकिन MATH500 जैसे कार्यों पर अभी भी मजबूत मार्गदर्शन क्षमता दिखाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सापेक्ष दक्षता मूल्यांकन का महत्व: पारंपरिक टोकन दक्षता मूल्यांकन अपर्याप्त है, सापेक्ष दृष्टिकोण की आवश्यकता है
कठिनाई-निर्भर दक्षता पैटर्न: सरल समस्याओं पर अत्यधिक विचार, जटिल समस्याओं पर मूल्य प्रदर्शन
सहयोगी पाइपलाइन की प्रभावशीलता: COTHINK दोनों प्रकार के मॉडल के पूरक लाभों को सफलतापूर्वक जोड़ता है

सीमाएं

सरल कार्यों पर सीमित सुधार: GSM8K जैसे सरल कार्यों पर जीत दर केवल 37.5% है
रूपरेखा गुणवत्ता पर निर्भरता: दूसरे चरण का प्रदर्शन पहले चरण की रूपरेखा गुणवत्ता से प्रभावित है
मूल्यांकन सीमा: मुख्य रूप से गणितीय तर्क कार्यों पर सत्यापित, अन्य क्षेत्रों में प्रयोज्यता अभी तक सत्यापित नहीं है

भविष्य की दिशाएं

अन्य तर्क कार्यों तक विस्तार: कोड जनरेशन, तार्किक तर्क आदि
गतिशील रूपरेखा समायोजन: विचार मॉडल प्रतिक्रिया के आधार पर रूपरेखा समायोजित करना
अंत-से-अंत अनुकूलन: दोनों चरणों के मॉडल को संयुक्त रूप से प्रशिक्षित करना

गहन मूल्यांकन

शक्तियां

स्पष्ट समस्या परिभाषा: विचार मॉडल की अत्यधिक विचार समस्या को सटीक रूप से पहचानता है
मूल्यांकन ढांचा नवाचार: सापेक्ष दक्षता मूल्यांकन पारंपरिक निरपेक्ष मीट्रिक्स से अधिक उचित है
विधि सरल और प्रभावी: COTHINK डिजाइन सहज है, कार्यान्वयन और तैनाती में आसान
व्यापक प्रयोग: कई मॉडल, डेटासेट और मूल्यांकन आयाम शामिल हैं
गहन सैद्धांतिक विश्लेषण: दक्षता स्केलिंग कानून के लिए सैद्धांतिक ढांचा प्रदान करता है

कमियां

सीमित सैद्धांतिक आधार: दक्षता स्केलिंग कानून धारणा में कठोर प्रमाण की कमी है
सरल रूपरेखा निर्माण रणनीति: पहले चरण की प्रॉम्प्ट इंजीनियरिंग अपेक्षाकृत मोटी है
अपर्याप्त क्रॉस-डोमेन सत्यापन: केवल गणितीय तर्क कार्यों पर सत्यापित
कम्प्यूटेशनल ओवरहेड विश्लेषण: दो-चरणीय पाइपलाइन के अतिरिक्त ओवरहेड का विस्तृत विश्लेषण नहीं

प्रभाव

शैक्षणिक योगदान: तर्क दक्षता मूल्यांकन के लिए नया दृष्टिकोण प्रदान करता है, भविष्य के मूल्यांकन मानकों को प्रभावित कर सकता है
व्यावहारिक मूल्य: COTHINK मौजूदा सिस्टम पर सीधे लागू किया जा सकता है, तर्क लागत को कम करता है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, कोड खुला स्रोत करने का वचन दिया गया है

प्रयोज्य परिदृश्य

कम्प्यूटेशनल संसाधन-सीमित वातावरण: सटीकता और दक्षता को संतुलित करने की आवश्यकता वाले परिदृश्य
मिश्रित कठिनाई कार्य: सरल और जटिल समस्याओं वाले अनुप्रयोग
वास्तविक समय तर्क प्रणाली: प्रतिक्रिया समय की आवश्यकता वाली इंटरैक्टिव प्रणाली

संदर्भ

पेपर तर्क दक्षता, विचार मॉडल, मिश्रित तर्क और संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और तुलना संदर्भ प्रदान करता है।

समग्र मूल्यांकन: यह तर्क दक्षता मूल्यांकन और अनुकूलन के क्षेत्र में महत्वपूर्ण योगदान के साथ एक उच्च-गुणवत्ता वाला पेपर है। सापेक्ष दक्षता मूल्यांकन ढांचा और COTHINK सहयोगी पाइपलाइन पेश करके, यह विचार मॉडल की अत्यधिक विचार समस्या को हल करने के लिए एक प्रभावी समाधान प्रदान करता है। हालांकि कुछ सीमाएं हैं, लेकिन इसकी नवीनता और व्यावहारिकता इसे इस क्षेत्र में महत्वपूर्ण मूल्य प्रदान करती है।