2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami

Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.

academic

KnowRL: भाषा मॉडल को सिखाना कि वे क्या जानते हैं

मूल जानकारी

पेपर ID: 2510.11407
शीर्षक: KnowRL: Teaching Language Models to Know What They Know
लेखक: साहिल कले (नॉलेजवर्स AI), देवेंद्र सिंह धामी (TU आइंडहोवन)
वर्गीकरण: cs.CL cs.AI
प्रकाशन समय: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.11407

सारांश

वास्तविक विश्वसनीय कृत्रिम बुद्धिमत्ता को न केवल ज्ञान के पैमाने को विस्तारित करने की आवश्यकता है, बल्कि "यह जानने की क्षमता कि वे क्या जानते हैं और कब नहीं जानते हैं" भी आवश्यक है। अनुसंधान से पता चलता है कि सबसे उत्कृष्ट बड़े भाषा मॉडल भी पाँच में से एक से अधिक मामलों में अपनी क्षमताओं का गलत अनुमान लगाते हैं, जिससे आंतरिक अनिश्चितता पर आधारित प्रतिक्रियाएं पूरी तरह विश्वसनीय नहीं हो सकती हैं। न्यूनतम डेटा की आवश्यकता वाली स्व-सुधार सुदृढीकरण शिक्षण तकनीकों से प्रेरित होकर, यह पेपर KnowRL ढांचा प्रस्तावित करता है, जो मॉडल को अपनी व्यावहारिकता सीमाओं की आंतरिक समझ को मजबूत करके अधिक सुरक्षित और अधिक जिम्मेदार व्यवहार प्राप्त करता है। यह ढांचा दो घटकों को जोड़ता है: (i) आत्मचिंतन तंत्र, जहाँ मॉडल उन कार्यों को उत्पन्न और वर्गीकृत करता है जिन्हें वह व्यावहारिक या अव्यावहारिक मानता है; (ii) सर्वसम्मति-आधारित पुरस्कार तंत्र, जो आंतरिक सामंजस्य के माध्यम से स्व-ज्ञान मूल्यांकन की स्थिरता को मजबूत करता है। आंतरिक रूप से उत्पन्न डेटा का उपयोग करके, महंगी बाहरी निगरानी को पूरी तरह से टाला जाता है। LLaMA-3.1-8B और Qwen-2.5-7B पर प्रयोग दर्शाते हैं कि KnowRL स्थिर रूप से स्व-ज्ञान क्षमता में सुधार करता है, सटीकता में 28% तक की वृद्धि और F1 स्कोर में 12% की वृद्धि के साथ।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान बड़े भाषा मॉडल (LLMs) में स्व-ज्ञान (self-knowledge) की कमी की समस्या को हल करने का प्रयास करता है, अर्थात् मॉडल अपनी क्षमताओं की सीमाओं को सटीक रूप से पहचान नहीं सकता है और यह स्पष्ट रूप से भेद नहीं कर सकता है कि कौन से कार्य व्यावहारिक हैं और कौन से नहीं।

समस्या की महत्ता

सुरक्षा संबंधी चिंताएँ: अनुसंधान से पता चलता है कि अग्रणी LLMs भी 20% से अधिक मामलों में अपनी क्षमताओं का गलत अनुमान लगाते हैं, जिससे गंभीर विश्वास और सुरक्षा समस्याएँ उत्पन्न होती हैं
तैनाती जोखिम: चिकित्सा, कानून, वित्त जैसे महत्वपूर्ण क्षेत्रों में, मॉडल का अत्यधिक आत्मविश्वास या अपर्याप्त आत्मविश्वास दोनों ही गंभीर परिणाम ला सकते हैं
विश्वसनीयता आवश्यकता: वास्तविक विश्वसनीय AI प्रणालियों को मेटा-संज्ञानात्मक क्षमता की आवश्यकता होती है, जो अपने ज्ञान की सीमाओं को पहचान सकें

मौजूदा तरीकों की सीमाएँ

बाहरी डेटाबेस और स्कैफोल्डिंग तकनीकें इस प्रकार की आंतरिक खामियों को हल करने के लिए उपयुक्त नहीं हैं
आत्मविश्वास अंशांकन हालाँकि यह संकेत दे सकता है कि उत्तर गलत हो सकता है, लेकिन यह सुनिश्चित नहीं कर सकता कि मॉडल अपने वास्तविक ज्ञान और अज्ञान के बारे में सुसंगत रहे
व्यवस्थित दृष्टिकोण की कमी मॉडल की स्व-ज्ञान सीमाओं को मजबूत करने के लिए

अनुसंधान प्रेरणा

लेखकों का मानना है कि LLMs में आंतरिक रूप से आत्मचिंतन की क्षमता पहले से मौजूद है, और सुदृढीकरण शिक्षण के माध्यम से इस संभावित क्षमता को निर्देशित और मजबूत करने की आवश्यकता है, ताकि मॉडल अपनी ज्ञान सीमाओं को बेहतर ढंग से समझ और व्यक्त कर सके।

मूल योगदान

KnowRL ढांचा प्रस्तावित करना: एक सुदृढीकरण शिक्षण-आधारित स्व-ज्ञान वर्धन ढांचा, जो सीमित प्रारंभिक डेटा और बाहरी निगरानी के बिना LLMs की स्व-ज्ञान सीमा जागरूकता में सुधार कर सकता है
नवीन द्वि-घटक डिजाइन:
- आत्मचिंतन तंत्र: LLM उन समस्याओं को उत्पन्न करता है जिन्हें वह व्यावहारिक या अव्यावहारिक मानता है
- सर्वसम्मति-आधारित पुरस्कार तंत्र: आंतरिक सामंजस्य के माध्यम से स्थिर, विश्वसनीय पुरस्कार संकेत उत्पन्न करता है
उल्लेखनीय प्रदर्शन सुधार: केवल कुछ पुनरावृत्तियों में 28% तक की सटीकता वृद्धि और 12% F1 स्कोर वृद्धि प्राप्त करना, जो मापनीय स्व-सुधार क्षमता प्रदर्शित करता है
व्यावहारिकता और मापनीयता: विधि सरल है और बाहरी संसाधनों से स्वतंत्र है, सभी भविष्य के मॉडलों की विश्वसनीयता वर्धन के लिए लागू है

विधि विवरण

कार्य परिभाषा

स्व-ज्ञान कार्य को मॉडल की अपनी क्षमताओं और ज्ञान सीमाओं की समझ के आधार पर व्यावहारिक और अव्यावहारिक कार्यों को स्पष्ट रूप से भेद करने की क्षमता के रूप में परिभाषित किया जाता है। इनपुट कार्य विवरण है, आउटपुट "व्यावहारिक" या "अव्यावहारिक" का द्विआधारी वर्गीकरण है, और बाधा यह है कि निर्णय मॉडल की वास्तविक क्षमता सीमा पर आधारित होना चाहिए।

मॉडल आर्किटेक्चर

समग्र ढांचा

KnowRL ढांचा पुनरावृत्तिमूलक सुदृढीकरण शिक्षण प्रशिक्षण लूप को अपनाता है, जिसमें दो मूल घटक शामिल हैं:

![Framework](चित्र 2 में दिखाया गया KnowRL ढांचा)

1. आत्मचिंतन तंत्र (Introspection)

कार्य: मॉडल स्वतंत्र रूप से उन कार्यों को उत्पन्न करता है जिन्हें वह व्यावहारिक या अव्यावहारिक मानता है
कार्यान्वयन: कुछ बीज उदाहरणों का उपयोग करके निर्देशन, प्रत्येक आत्मचिंतन चलाने में 10-15 बार, लगभग 50-60 उम्मीदवार कार्य उत्पन्न करता है
विकास रणनीति: प्रशिक्षण चरणों के साथ प्रगति करते हुए, प्रारंभिक डेटासेट और पूर्व-चरण उच्च सर्वसम्मति नमूनों को जोड़ते हुए, मॉडल क्रमिक रूप से व्यावहारिकता सीमा की समझ को परिष्कृत और स्थिर करता है

2. सर्वसम्मति-आधारित पुरस्कार तंत्र (Consensus-based Rewarding)

उद्देश्य: स्व-ज्ञान की सामंजस्यता को मापना और मजबूत करना
विधि: प्रत्येक उम्मीदवार कार्य x के लिए, k=8 स्वतंत्र स्व-विश्लेषण आउटपुट {yi} निकाले जाते हैं, जहाँ yi ∈ {व्यावहारिक, अव्यावहारिक}
पुरस्कार गणना:
```
r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
```
पुरस्कार बहुमत लेबल के साथ सुसंगत आउटपुट का अनुपात है, जो व्यावहारिकता मूल्यांकन की आंतरिक सामंजस्य को सीधे मापता है

3. पुरस्कार हैकिंग फिल्टर

मॉडल को बहुत सरल या जटिल कार्यों को उत्पन्न करके सर्वसम्मति पुरस्कार को हैक करने से रोकने के लिए, निम्नलिखित फिल्टरिंग रणनीति अपनाई जाती है:

शब्दार्थ अनावश्यकता फिल्टर: ROUGE-L स्कोर थ्रेशोल्ड का उपयोग करके शब्दार्थ रूप से समान निर्देशों को फिल्टर करना
कीवर्ड फिल्टर: छवि पीढ़ी, मॉडल प्रशिक्षण आदि जैसे स्पष्ट रूप से क्षमता सीमा से परे कीवर्ड वाले को फिल्टर करना
भ्रम फिल्टर: आधार मॉडल के नकारात्मक लॉग संभावना का उपयोग करके, अत्यधिक भ्रम वाले उम्मीदवारों को हटाना

तकनीकी नवाचार बिंदु

स्व-उत्पन्न डेटा रणनीति: पूरी तरह से मॉडल द्वारा आंतरिक रूप से उत्पन्न डेटा पर निर्भर, महंगी मानव टिप्पणी से बचना
सर्वसम्मति तंत्र: कई नमूनों की सामंजस्य को पुरस्कार संकेत के रूप में उपयोग करना, स्थिर विश्वसनीय शिक्षण संकेत प्रदान करना
स्व-सुधार लूप: स्व-खेल सुदृढीकरण शिक्षण को जोड़ते हुए, मॉडल को स्व-निर्देशित स्व-ज्ञान सीमा सुधार सक्षम करना
बाहरी निर्भरता को कम करना: केवल छोटे पैमाने के बीज डेटासेट की आवश्यकता, बाहरी निगरानी की कोई आवश्यकता नहीं

प्रायोगिक सेटअप

डेटासेट

बीज डेटासेट: 100 सत्यापित उदाहरण (50 व्यावहारिक कार्य, 50 अव्यावहारिक कार्य), मॉडल द्वारा स्वयं उत्पन्न और विशेषज्ञ द्वारा सत्यापित
आंतरिक मूल्यांकन: स्व-उत्पन्न डेटा का उपयोग करके उत्पादन-सत्यापन सामंजस्य मूल्यांकन
बाहरी मूल्यांकन: SelfAware डेटासेट, जिसमें उत्तरदायी और गैर-उत्तरदायी प्रश्न और उनकी व्याख्याएँ शामिल हैं

मूल्यांकन मेट्रिक्स

आंतरिक मूल्यांकन: सटीकता (Accuracy) - उत्पादन-सत्यापन प्रक्रिया की सामंजस्य को मापना
बाहरी मूल्यांकन: F1 स्कोर - SelfAware डेटासेट पर संतुलित सटीकता और पुनः प्राप्ति

तुलनात्मक विधियाँ

आंतरिक स्व-ज्ञान सुधार के लिए स्थापित विधियों की कमी के कारण, आधार मॉडल के प्रदर्शन को मूल्यांकन के रूप में उपयोग किया जाता है।

कार्यान्वयन विवरण

मॉडल: LLaMA-3.1-8B-Instruct और Qwen-2.5-7B-Instruct
RL एल्गोरिदम: OpenRLHF ढांचे का Reinforce++ एल्गोरिदम उपयोग करना
प्रशिक्षण पैरामीटर:
- नमूना संख्या: k=8
- आत्मचिंतन तापमान: 1.0, स्व-विश्लेषण तापमान: 0.0
- सीखने की दर: Actor 5×10⁻⁷, Critic 9×10⁻⁶
- कुल पुनरावृत्ति: 30, प्रत्येक 5 पुनरावृत्ति पर मूल्यांकन

प्रायोगिक परिणाम

मुख्य परिणाम

आंतरिक मूल्यांकन परिणाम

मॉडल	पुनरावृत्ति	सटीकता(%)	वृद्धि(%)
LLaMA-3.1-8B	आधार मॉडल	33.56	-
	30वीं पुनरावृत्ति	42.99	+9.43
Qwen-2.5-7B	आधार मॉडल	39.22	-
	30वीं पुनरावृत्ति	48.29	+9.07

बाहरी मूल्यांकन परिणाम (SelfAware डेटासेट)

मॉडल	पुनरावृत्ति	F1 स्कोर(%)	वृद्धि(%)
LLaMA-3.1-8B	आधार मॉडल	56.12	-
	30वीं पुनरावृत्ति	63.10	+6.98
Qwen-2.5-7B	आधार मॉडल	62.17	-
	30वीं पुनरावृत्ति	68.29	+6.12

मुख्य निष्कर्ष

स्थिर एकदिष्ट सुधार: दोनों मॉडल लगभग हर जाँच बिंदु पर स्पष्ट एकदिष्ट सुधार दिखाते हैं, जो अपनी व्यावहारिकता सीमाओं की समझ में स्थिर आंतरिक वृद्धि को प्रतिबिंबित करता है
तीव्र अभिसरण: अधिकतम सुधार पहले कुछ प्रशिक्षण चक्रों में होता है, जो दर्शाता है कि स्व-ज्ञान सुधार कम लागत, पूर्वानुमानित और कुशल हो सकता है
सुधार पठार: लगभग 25-30वीं पुनरावृत्ति के आसपास, प्रगति समतल होने लगती है, जो दर्शाता है कि आंतरिक स्व-सुधार की प्राकृतिक सीमाएँ हैं

केस विश्लेषण

LLaMA-3.1-8B 25वीं पुनरावृत्ति उत्पादन उदाहरण:

व्यावहारिक कार्य: अंग्रेजी वाक्य "The cat sat on the mat" को फ्रेंच में अनुवाद करना, पूरी तरह समान अर्थ, भाषा भावना, क्रिया काल और अर्थ बनाए रखते हुए
अव्यावहारिक कार्य: पर्मियन-ट्रायसिक विलुप्ति घटना के सटीक कारण को निर्धारित करना, समर्थन के साथ अविवादास्पद साक्ष्य प्रदान करना

ये उदाहरण दिखाते हैं कि मॉडल अपनी अनुवाद क्षमता सीमा के भीतर कार्यों को सटीक रूप से पहचान सकता है और जटिल वैज्ञानिक समस्याओं को जो उसकी निश्चितता ज्ञान सीमा से परे हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: KnowRL ढांचा LLMs की स्व-ज्ञान क्षमता में उल्लेखनीय सुधार कर सकता है, दोनों मॉडलों पर स्थिर सुधार प्राप्त करता है
दक्षता लाभ: केवल छोटे पैमाने के बीज डेटासेट और बाहरी निगरानी के बिना, कुछ पुनरावृत्तियों में अधिकतम सुधार प्राप्त किया जा सकता है
व्यावहारिक मूल्य: महत्वपूर्ण क्षेत्रों में AI प्रणालियों की सुरक्षित तैनाती के लिए एक ठोस मार्ग प्रदान करता है

सीमाएँ

एकल भाषा सीमा: सभी प्रयोग केवल अंग्रेजी वातावरण में किए गए, बहुभाषी और कम संसाधन वाले वातावरण में प्रभाव अज्ञात है
प्रशिक्षण सीमा: कम्प्यूटेशनल बाधाओं के कारण, 30 पुनरावृत्तियों से परे प्रदर्शन की खोज नहीं की जा सकी
पैमाना अनिश्चितता: मूल्यांकन 8B पैरामीटर से कम मॉडलों तक सीमित है, बड़े मॉडलों में मापनीयता अज्ञात है

भविष्य की दिशाएँ

बहुभाषी विस्तार: विभिन्न भाषाओं और सांस्कृतिक पृष्ठभूमि में ढांचे की प्रभावशीलता का परीक्षण
दीर्घकालीन प्रशिक्षण: लंबी प्रशिक्षण अवधि में प्रदर्शन और सुधार क्षमता की खोज
बड़े पैमाने पर सत्यापन: बड़े पैरामीटर पैमाने के मॉडलों पर विधि की मापनीयता का सत्यापन
डोमेन विशेषज्ञता: विशिष्ट डोमेन (जैसे चिकित्सा, कानून) में स्व-ज्ञान सुधार

गहन मूल्यांकन

शक्तियाँ

मजबूत नवाचार: पहली बार LLMs स्व-ज्ञान समस्या को हल करने के लिए सुदृढीकरण शिक्षण का व्यवस्थित रूप से उपयोग, विधि नवीन और प्रभावी है
उच्च व्यावहारिकता: पूरी तरह आंतरिक डेटा पर आधारित, बाहरी निगरानी की आवश्यकता नहीं, तैनाती और विस्तार में आसान
पर्याप्त प्रयोग: आंतरिक और बाहरी दोनों मूल्यांकन विधियों का उपयोग, परिणाम सुसंगत और प्रेरक हैं
ठोस सैद्धांतिक आधार: स्व-खेल सुदृढीकरण शिक्षण के सैद्धांतिक ढांचे पर आधारित, डिजाइन तर्कसंगत है

कमियाँ

सीमित आधार तुलना: डोमेन में प्रत्यक्ष तुलना विधियों की कमी के कारण, मुख्य रूप से आधार मॉडल के साथ तुलना, अधिक व्यापक विधि तुलना की कमी
सीमित मूल्यांकन सीमा: केवल दो मध्यम आकार के मॉडलों पर परीक्षण, बड़े पैमाने के मॉडल सत्यापन की कमी
दीर्घकालीन प्रभाव अज्ञात: प्रशिक्षण चक्र अपेक्षाकृत छोटा है, दीर्घकालीन सुधार क्षमता निर्धारित नहीं की जा सकी
सामान्यीकरण क्षमता प्रतीक्षा में: केवल अंग्रेजी वातावरण में परीक्षण, भाषाओं में पार सामान्यीकरण क्षमता अज्ञात है

प्रभाव

शैक्षणिक योगदान: AI सुरक्षा क्षेत्र के लिए नई अनुसंधान दिशा और विधि ढांचा प्रदान करता है
व्यावहारिक मूल्य: अधिक विश्वसनीय AI प्रणालियों की वास्तविक तैनाती के लिए व्यावहारिक समाधान प्रदान करता है
पुनरुत्पादनीयता: लेखक कोड और डेटा सार्वजनिक करने का वचन देते हैं, अनुसंधान समुदाय के अनुसरण में सहायक
प्रेरणा महत्व: LLMs की स्व-सुधार क्षमता प्रदर्शित करता है, अधिक संबंधित अनुसंधान को प्रेरित कर सकता है

लागू परिदृश्य

उच्च जोखिम अनुप्रयोग: चिकित्सा निदान, कानूनी परामर्श, वित्तीय निर्णय आदि जहाँ उच्च विश्वसनीयता की आवश्यकता है
शिक्षा प्रणाली: ऐसे अनुप्रयोग जहाँ मॉडल को ज्ञान सीमाओं को ईमानदारी से व्यक्त करने की आवश्यकता है
अनुसंधान सहायक: ऐसे उपकरण जहाँ ज्ञात और अज्ञात ज्ञान सीमाओं को भेद करने की आवश्यकता है
सामान्य AI प्रणाली: कोई भी AI अनुप्रयोग जो विश्वसनीयता और सुरक्षा में सुधार की आवश्यकता है

संदर्भ

पेपर समृद्ध संबंधित साहित्य का हवाला देता है, मुख्य रूप से:

स्व-ज्ञान और मेटा-संज्ञान संबंधित अनुसंधान 1-7
LLMs में सुदृढीकरण शिक्षण के अनुप्रयोग 14, 22-24
स्व-सुधार और स्व-खेल विधियाँ 15, 30-32, 44-49
AI सुरक्षा और विश्वसनीयता अनुसंधान 11-12, 16-17

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुसंधान पेपर है, जो LLMs में स्व-ज्ञान की महत्वपूर्ण समस्या के लिए नवीन और व्यावहारिक समाधान प्रस्तावित करता है। हालाँकि कुछ सीमाएँ हैं, लेकिन इसका योगदान महत्वपूर्ण है, विधि नवीन है, प्रायोगिक परिणाम प्रेरक हैं, और AI सुरक्षा क्षेत्र के लिए महत्वपूर्ण है।