KnowRL: Teaching Language Models to Know What They Know
Kale, Dhami
Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
الذكاء الاصطناعي الموثوق حقاً لا يتطلب فقط توسيع نطاق المعرفة، بل يتطلب القدرة على "معرفة ما يعرفه وعندما لا يعرف". تُظهر الأبحاث أن حتى أفضل نماذج اللغة الكبيرة تحكم بشكل خاطئ على قدراتها في أكثر من خمس الحالات، مما يجعل الاستجابات القائمة على عدم اليقين الداخلي غير جديرة بالثقة تماماً. مستوحاة من تقنيات التعلم المعزز ذاتي التحسن التي تتطلب الحد الأدنى من البيانات، تقترح هذه الورقة إطار عمل KnowRL الذي يحقق سلوكاً أكثر أماناً ومسؤولية من خلال تعزيز الفهم الداخلي للنموذج لحدود جدواه الخاصة. يجمع الإطار بين مكونين: (i) آلية الاستبطان، حيث ينتج النموذج ويصنف المهام التي يعتبرها قابلة للتنفيذ أو غير قابلة للتنفيذ؛ (ii) آلية المكافأة القائمة على الإجماع، التي تعزز استقرار تقييمات المعرفة الذاتية من خلال الاتساق الداخلي. من خلال استخدام البيانات المولدة داخلياً، يتم تجنب الإشراف الخارجي المكلف تماماً. تُظهر التجارب على LLaMA-3.1-8B و Qwen-2.5-7B أن KnowRL يحسّن بشكل مستمر قدرات المعرفة الذاتية، مع تحسن في الدقة يصل إلى 28% وتحسن في درجة F1 بنسبة 12%.
المشكلة الأساسية التي تعالجها هذه الدراسة هي افتقار نماذج اللغة الكبيرة (LLMs) إلى المعرفة الذاتية (self-knowledge)، أي عدم قدرة النموذج على تحديد حدود قدراته بدقة، وعدم القدرة على التمييز الواضح بين المهام القابلة للتنفيذ والمهام غير القابلة للتنفيذ.
المخاوف الأمنية: تُظهر الأبحاث أن حتى نماذج LLMs الرائدة تحكم بشكل خاطئ على قدراتها في أكثر من 20% من الحالات، مما يؤدي إلى مشاكل خطيرة في الثقة والأمان
مخاطر النشر: في المجالات الحرجة مثل الطب والقانون والمالية، قد يؤدي الثقة الزائدة أو الناقصة للنموذج إلى عواقب وخيمة
متطلبات الموثوقية: تتطلب أنظمة الذكاء الاصطناعي الموثوقة حقاً قدرات ما وراء المعرفية، والقدرة على الاعتراف بحدود المعرفة الذاتية
قواعس البيانات الخارجية وتقنيات الدعم غير مناسبة لحل هذا العيب الجوهري
معايرة الثقة على الرغم من أنها قد تشير إلى أن الإجابة قد تكون خاطئة، إلا أنها لا تضمن أن يحافظ النموذج على الاتساق فيما يتعلق بما يعرفه حقاً وما لا يعرفه
غياب الطريقة المنهجية لتعزيز حدود المعرفة الذاتية للنموذج
يعتقد المؤلفون أن نماذج LLMs تمتلك بالفعل قدرات استبطان جوهرية، وتحتاج إلى التعلم المعزز لتوجيه وتعزيز هذه القدرة الكامنة، مما يمكّن النموذج من فهم وتعبير أفضل عن حدود معرفته.
اقتراح إطار عمل KnowRL: إطار عمل لتحسين المعرفة الذاتية قائم على التعلم المعزز، قادر على تحسين وعي نماذج LLMs بحدود المعرفة الذاتية مع بيانات أولية محدودة وبدون إشراف خارجي
تصميم مبتكر ثنائي المكون:
آلية الاستبطان: ينتج نموذج اللغة أسئلة يعتبرها قابلة للتنفيذ أو غير قابلة للتنفيذ
آلية المكافأة القائمة على الإجماع: تنتج إشارات مكافأة مستقرة وموثوقة من خلال الاتساق الداخلي
تحسن الأداء الملحوظ: تحقيق تحسن في الدقة يصل إلى 28% وتحسن في درجة F1 بنسبة 12% في عدد قليل من التكرارات، مما يُظهر قدرة التحسن الذاتي القابلة للتوسع
الجدوى والقابلية للتوسع: الطريقة بسيطة ومستقلة عن الموارد الخارجية، وقابلة للتطبيق على جميع النماذج المستقبلية لتحسين الموثوقية
تُعرّف مهمة المعرفة الذاتية بأنها قدرة النموذج على التمييز بوضوح بين المهام القابلة للتنفيذ وغير القابلة للتنفيذ بناءً على فهمه لقدراته وحدود معرفته الخاصة. المدخل هو وصف المهمة، والمخرج هو حكم تصنيف ثنائي "قابل للتنفيذ" أو "غير قابل للتنفيذ"، والقيد هو أن الحكم يجب أن يكون مبنياً على حدود القدرة الحقيقية للنموذج.
الوظيفة: ينتج النموذج بشكل مستقل المهام التي يعتبرها قابلة للتنفيذ أو غير قابلة للتنفيذ
التنفيذ: استخدام عدد قليل من الأمثلة البذرية للتوجيه، كل تشغيل استبطان ينتج 10-15 مرة، مما ينتج حوالي 50-60 مهمة مرشحة
استراتيجية التطور: مع تقدم خطوات التدريب، يجمع بين مجموعة البيانات الأولية والعينات عالية الإجماع المبكرة، مما يمكّن النموذج من تحسين وتثبيت فهمه لحدود الجدوى بشكل تدريجي
مجموعة البيانات البذرية: 100 مثال تم التحقق منه (50 مهمة قابلة للتنفيذ، 50 مهمة غير قابلة للتنفيذ)، تم إنشاؤها بواسطة النموذج نفسه والتحقق منها من قبل الخبراء
التقييم الداخلي: استخدام البيانات المولدة ذاتياً لتقييم اتساق التوليد والتحقق
التقييم الخارجي: مجموعة بيانات SelfAware، التي تتضمن أسئلة قابلة للإجابة وغير قابلة للإجابة مع تفسيرات
التحسن الرتيب المستقر: يُظهر كلا النموذجين تحسناً واضحاً وموحداً في جميع نقاط التفتيش تقريباً، مما يعكس نمواً داخلياً مستقراً في فهم حدود الجدوى الخاصة بهما
التقارب السريع: يحدث أقصى تحسن في دورات التدريب الأولى، مما يشير إلى أن تحسن المعرفة الذاتية يمكن أن يكون منخفض التكلفة وقابلاً للتنبؤ وفعالاً
فترة استقرار التحسن: حول التكرار 25-30، يبدأ التقدم في الاستقرار، مما يشير إلى وجود حدود طبيعية للتحسن الذاتي الداخلي
تستشهد الورقة بمراجع غنية ذات صلة، تشمل بشكل أساسي:
أبحاث المعرفة الذاتية والميتا معرفة 1-7
تطبيقات التعلم المعزز في نماذج اللغة الكبيرة 14، 22-24
طرق التحسن الذاتي واللعب الذاتي 15، 30-32، 44-49
أبحاث أمان وموثوقية الذكاء الاصطناعي 11-12، 16-17
التقييم الشامل: هذه ورقة بحثية عالية الجودة، تقترح حلاً مبتكراً وعملياً لمشكلة المعرفة الذاتية المهمة في نماذج اللغة الكبيرة. على الرغم من وجود بعض القيود، فإن مساهماتها كبيرة، والطريقة مبتكرة، ونتائج التجارب مقنعة، وذات أهمية كبيرة لمجال أمان الذكاء الاصطناعي.