2025-11-24T19:28:17.728507

KnowRL: Teaching Language Models to Know What They Know

Kale, Dhami

Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.

academic

KnowRL: تعليم نماذج اللغة معرفة ما تعرفه

المعلومات الأساسية

معرّف الورقة: 2510.11407
العنوان: KnowRL: تعليم نماذج اللغة معرفة ما تعرفه
المؤلفون: Sahil Kale (KnowledgeVerse AI)، Devendra Singh Dhami (TU Eindhoven)
التصنيف: cs.CL cs.AI
تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.11407

الملخص

الذكاء الاصطناعي الموثوق حقاً لا يتطلب فقط توسيع نطاق المعرفة، بل يتطلب القدرة على "معرفة ما يعرفه وعندما لا يعرف". تُظهر الأبحاث أن حتى أفضل نماذج اللغة الكبيرة تحكم بشكل خاطئ على قدراتها في أكثر من خمس الحالات، مما يجعل الاستجابات القائمة على عدم اليقين الداخلي غير جديرة بالثقة تماماً. مستوحاة من تقنيات التعلم المعزز ذاتي التحسن التي تتطلب الحد الأدنى من البيانات، تقترح هذه الورقة إطار عمل KnowRL الذي يحقق سلوكاً أكثر أماناً ومسؤولية من خلال تعزيز الفهم الداخلي للنموذج لحدود جدواه الخاصة. يجمع الإطار بين مكونين: (i) آلية الاستبطان، حيث ينتج النموذج ويصنف المهام التي يعتبرها قابلة للتنفيذ أو غير قابلة للتنفيذ؛ (ii) آلية المكافأة القائمة على الإجماع، التي تعزز استقرار تقييمات المعرفة الذاتية من خلال الاتساق الداخلي. من خلال استخدام البيانات المولدة داخلياً، يتم تجنب الإشراف الخارجي المكلف تماماً. تُظهر التجارب على LLaMA-3.1-8B و Qwen-2.5-7B أن KnowRL يحسّن بشكل مستمر قدرات المعرفة الذاتية، مع تحسن في الدقة يصل إلى 28% وتحسن في درجة F1 بنسبة 12%.

السياق البحثي والدافع

المشكلة الأساسية

المشكلة الأساسية التي تعالجها هذه الدراسة هي افتقار نماذج اللغة الكبيرة (LLMs) إلى المعرفة الذاتية (self-knowledge)، أي عدم قدرة النموذج على تحديد حدود قدراته بدقة، وعدم القدرة على التمييز الواضح بين المهام القابلة للتنفيذ والمهام غير القابلة للتنفيذ.

أهمية المشكلة

المخاوف الأمنية: تُظهر الأبحاث أن حتى نماذج LLMs الرائدة تحكم بشكل خاطئ على قدراتها في أكثر من 20% من الحالات، مما يؤدي إلى مشاكل خطيرة في الثقة والأمان
مخاطر النشر: في المجالات الحرجة مثل الطب والقانون والمالية، قد يؤدي الثقة الزائدة أو الناقصة للنموذج إلى عواقب وخيمة
متطلبات الموثوقية: تتطلب أنظمة الذكاء الاصطناعي الموثوقة حقاً قدرات ما وراء المعرفية، والقدرة على الاعتراف بحدود المعرفة الذاتية

قيود الطرق الموجودة

قواعس البيانات الخارجية وتقنيات الدعم غير مناسبة لحل هذا العيب الجوهري
معايرة الثقة على الرغم من أنها قد تشير إلى أن الإجابة قد تكون خاطئة، إلا أنها لا تضمن أن يحافظ النموذج على الاتساق فيما يتعلق بما يعرفه حقاً وما لا يعرفه
غياب الطريقة المنهجية لتعزيز حدود المعرفة الذاتية للنموذج

الدافع البحثي

يعتقد المؤلفون أن نماذج LLMs تمتلك بالفعل قدرات استبطان جوهرية، وتحتاج إلى التعلم المعزز لتوجيه وتعزيز هذه القدرة الكامنة، مما يمكّن النموذج من فهم وتعبير أفضل عن حدود معرفته.

المساهمات الأساسية

اقتراح إطار عمل KnowRL: إطار عمل لتحسين المعرفة الذاتية قائم على التعلم المعزز، قادر على تحسين وعي نماذج LLMs بحدود المعرفة الذاتية مع بيانات أولية محدودة وبدون إشراف خارجي
تصميم مبتكر ثنائي المكون:
- آلية الاستبطان: ينتج نموذج اللغة أسئلة يعتبرها قابلة للتنفيذ أو غير قابلة للتنفيذ
- آلية المكافأة القائمة على الإجماع: تنتج إشارات مكافأة مستقرة وموثوقة من خلال الاتساق الداخلي
تحسن الأداء الملحوظ: تحقيق تحسن في الدقة يصل إلى 28% وتحسن في درجة F1 بنسبة 12% في عدد قليل من التكرارات، مما يُظهر قدرة التحسن الذاتي القابلة للتوسع
الجدوى والقابلية للتوسع: الطريقة بسيطة ومستقلة عن الموارد الخارجية، وقابلة للتطبيق على جميع النماذج المستقبلية لتحسين الموثوقية

شرح الطريقة

تعريف المهمة

تُعرّف مهمة المعرفة الذاتية بأنها قدرة النموذج على التمييز بوضوح بين المهام القابلة للتنفيذ وغير القابلة للتنفيذ بناءً على فهمه لقدراته وحدود معرفته الخاصة. المدخل هو وصف المهمة، والمخرج هو حكم تصنيف ثنائي "قابل للتنفيذ" أو "غير قابل للتنفيذ"، والقيد هو أن الحكم يجب أن يكون مبنياً على حدود القدرة الحقيقية للنموذج.

معمارية النموذج

الإطار العام

يعتمد إطار عمل KnowRL على حلقة تدريب تعلم معزز تكرارية، تتضمن مكونين أساسيين:

![Framework](الإطار الموضح في الشكل 2)

1. آلية الاستبطان (Introspection)

الوظيفة: ينتج النموذج بشكل مستقل المهام التي يعتبرها قابلة للتنفيذ أو غير قابلة للتنفيذ
التنفيذ: استخدام عدد قليل من الأمثلة البذرية للتوجيه، كل تشغيل استبطان ينتج 10-15 مرة، مما ينتج حوالي 50-60 مهمة مرشحة
استراتيجية التطور: مع تقدم خطوات التدريب، يجمع بين مجموعة البيانات الأولية والعينات عالية الإجماع المبكرة، مما يمكّن النموذج من تحسين وتثبيت فهمه لحدود الجدوى بشكل تدريجي

2. آلية المكافأة القائمة على الإجماع (Consensus-based Rewarding)

الهدف: تحديد كمي وتعزيز اتساق المعرفة الذاتية
الطريقة: لكل مهمة مرشحة x، استخراج k=8 مخرجات تحليل ذاتي مستقلة {yi}، حيث yi ∈ {قابل للتنفيذ، غير قابل للتنفيذ}
حساب المكافأة:
```
r(x) = (1/k) * Σ[yi = Majority{y1, ..., yk}]
```
المكافأة هي نسبة المخرجات المتسقة مع التسمية الأغلبية، وتقيس مباشرة اتساق تقييم الجدوى الداخلي

3. مرشح كسر المكافأة

لمنع النموذج من كسر مكافأة الإجماع بإنشاء مهام بسيطة جداً أو معقدة جداً، يتم استخدام استراتيجيات التصفية التالية:

تصفية التكرار الدلالي: استخدام عتبة درجة ROUGE-L لتصفية التعليمات المتشابهة دلالياً
تصفية الكلمات الرئيسية: تصفية المرشحين التي تحتوي على كلمات رئيسية مثل توليد الصور وتدريب النموذج التي تتجاوز بوضوح نطاق القدرات
تصفية الالتباس: استخدام احتمالية السجل السالب للنموذج الأساسي، وحذف المرشحين ذوي الالتباس العالي جداً

نقاط الابتكار التقني

استراتيجية البيانات المولدة ذاتياً: تعتمد بالكامل على البيانات المولدة داخلياً من قبل النموذج، مما يتجنب التعليق البشري المكلف
آلية الإجماع: توفر إشارة تعلم مستقرة وموثوقة من خلال اتساق العينات المتعددة كإشارة مكافأة
حلقة التحسن الذاتي: يجمع بين التعلم المعزز ذاتي اللعب، مما يمكّن النموذج من توجيه نفسه لتحسين حدود المعرفة الذاتية
تقليل الاعتماد الخارجي: يتطلب فقط مجموعة بيانات بذرية صغيرة الحجم، بدون إشراف خارجي

إعداد التجربة

مجموعات البيانات

مجموعة البيانات البذرية: 100 مثال تم التحقق منه (50 مهمة قابلة للتنفيذ، 50 مهمة غير قابلة للتنفيذ)، تم إنشاؤها بواسطة النموذج نفسه والتحقق منها من قبل الخبراء
التقييم الداخلي: استخدام البيانات المولدة ذاتياً لتقييم اتساق التوليد والتحقق
التقييم الخارجي: مجموعة بيانات SelfAware، التي تتضمن أسئلة قابلة للإجابة وغير قابلة للإجابة مع تفسيرات

مقاييس التقييم

التقييم الداخلي: الدقة (Accuracy) - تقيس اتساق عملية التوليد والتحقق
التقييم الخارجي: درجة F1 - الدقة والاستدعاء المتوازنة على مجموعة بيانات SelfAware

طرق المقارنة

نظراً لعدم وجود طرق محددة مسبقاً لتحسين المعرفة الذاتية الداخلية، يتم استخدام أداء النموذج الأساسي كخط أساس للتقييم.

تفاصيل التنفيذ

النماذج: LLaMA-3.1-8B-Instruct و Qwen-2.5-7B-Instruct
خوارزمية التعلم المعزز: استخدام خوارزمية Reinforce++ من إطار عمل OpenRLHF
معاملات التدريب:
- عدد العينات: k=8
- درجة حرارة الاستبطان: 1.0، درجة حرارة التحليل الذاتي: 0.0
- معدل التعلم: Actor 5×10⁻⁷، Critic 9×10⁻⁶
- إجمالي التكرارات: 30، التقييم كل 5 تكرارات

نتائج التجربة

النتائج الرئيسية

نتائج التقييم الداخلي

النموذج	عدد التكرارات	الدقة (%)	التحسن (%)
LLaMA-3.1-8B	النموذج الأساسي	33.56	-
	التكرار 30	42.99	+9.43
Qwen-2.5-7B	النموذج الأساسي	39.22	-
	التكرار 30	48.29	+9.07

نتائج التقييم الخارجي (مجموعة بيانات SelfAware)

النموذج	عدد التكرارات	درجة F1 (%)	التحسن (%)
LLaMA-3.1-8B	النموذج الأساسي	56.12	-
	التكرار 30	63.10	+6.98
Qwen-2.5-7B	النموذج الأساسي	62.17	-
	التكرار 30	68.29	+6.12

الاكتشافات الرئيسية

التحسن الرتيب المستقر: يُظهر كلا النموذجين تحسناً واضحاً وموحداً في جميع نقاط التفتيش تقريباً، مما يعكس نمواً داخلياً مستقراً في فهم حدود الجدوى الخاصة بهما
التقارب السريع: يحدث أقصى تحسن في دورات التدريب الأولى، مما يشير إلى أن تحسن المعرفة الذاتية يمكن أن يكون منخفض التكلفة وقابلاً للتنبؤ وفعالاً
فترة استقرار التحسن: حول التكرار 25-30، يبدأ التقدم في الاستقرار، مما يشير إلى وجود حدود طبيعية للتحسن الذاتي الداخلي

تحليل الحالات

مثال مولد من LLaMA-3.1-8B في التكرار 25:

مهمة قابلة للتنفيذ: ترجمة الجملة الإنجليزية "The cat sat on the mat" إلى الفرنسية، مع الحفاظ على المعنى والشعور والزمن الفعلي والمعنى تماماً
مهمة غير قابلة للتنفيذ: تحديد السبب الدقيق لحدث الانقراض في الفترة الثنائية-الثلاثية، وتقديم استنتاج واضح مدعوم بأدلة لا يمكن الطعن فيها

تُظهر هذه الأمثلة أن النموذج قادر على تحديد المهام ضمن نطاق قدراته في الترجمة والمشاكل العلمية المعقدة التي تتجاوز حدود معرفته المؤكدة.

الأعمال ذات الصلة

أبحاث المعرفة الذاتية في نماذج اللغة الكبيرة

تحديد المشكلة: أشارت دراسات متعددة إلى عدم الاتساق والتذبذب في المعرفة الذاتية لدى نماذج LLMs
طرق التقييم:
- تقييم التصنيف الثنائي القابلية للإجابة على أساس مجموعة البيانات
- التقييم الداخلي على أساس الاتساق الداخلي
- أبحاث الوعي الذاتي
طرق التحسن: Self-Reflect، تعليمات التحسس بعدم اليقين وغيرها

التحسن الذاتي في نماذج اللغة الكبيرة

طرق التحسن الذاتي: يسمح Self-Refine لنموذج اللغة بإنشاء إجابة أولية ثم إجراء نقد ذاتي وتحسن تكراري
طرق البيانات الاصطناعية: Self-Taught Evaluator و K2 وغيرها تستخدم مجموعات مهام استدلال مولدة ذاتياً للتدريب
طرق التعلم المعزز: RLRF و R-Zero و SeRL وغيرها تستخدم معالجة لاحقة معززة أو إشارات مكافأة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

التحقق من الفعالية: يمكن لإطار عمل KnowRL تحسين قدرات المعرفة الذاتية لنماذج LLMs بشكل كبير، مع تحقيق تحسن مستقر على كلا النموذجين
مزايا الكفاءة: باستخدام مجموعة بيانات بذرية صغيرة الحجم وبدون إشراف خارجي، يمكن تحقيق أقصى تحسن في عدة تكرارات
القيمة العملية: توفر مسار ملموس لنشر آمن لأنظمة الذكاء الاصطناعي في المجالات الحرجة

القيود

قيود أحادية اللغة: تم إجراء جميع التجارب فقط في بيئة اللغة الإنجليزية، والتأثير في البيئات متعددة اللغات والموارد المحدودة غير معروف
قيود نطاق التدريب: نظراً لقيود الحوسبة، لا يمكن استكشاف الأداء خارج 30 تكراراً
عدم اليقين في الحجم: يقتصر التقييم على نماذج بأقل من 8 مليارات معامل، وقابلية التوسع للنماذج الأكبر غير معروفة

الاتجاهات المستقبلية

التوسع متعدد اللغات: اختبار فعالية الإطار في خلفيات لغوية وثقافية مختلفة
التدريب طويل الأجل: استكشاف الأداء والإمكانات التحسينية في دورات تدريب أطول
التحقق على نطاق واسع: التحقق من قابلية التوسع للطريقة على نماذج بحجم معاملات أكبر
التخصص بالمجال: تحسن المعرفة الذاتية المتخصص بمجالات محددة (مثل الطب والقانون)

التقييم المتعمق

المزايا

الابتكار القوي: أول استخدام منهجي للتعلم المعزز لحل مشكلة المعرفة الذاتية في نماذج LLMs، الطريقة جديدة وفعالة
الجدوى العالية: تعتمد بالكامل على البيانات الداخلية، بدون إشراف خارجي، سهلة النشر والتوسع
التجارب الشاملة: استخدام طريقتي تقييم داخلية وخارجية، النتائج متسقة ومقنعة
الأساس النظري الراسخ: يعتمد على الإطار النظري للتعلم المعزز ذاتي اللعب، التصميم معقول

أوجه القصور

مقارنة الخط الأساسي محدودة: نظراً لعدم وجود طرق مقارنة مباشرة في المجال، المقارنة الرئيسية مع النموذج الأساسي، تفتقد إلى مقارنة طرق أكثر شمولاً
نطاق التقييم محدود: تم الاختبار فقط على نموذجين متوسطي الحجم، تفتقد التحقق من النماذج الكبيرة
التأثيرات طويلة الأجل غير معروفة: دورة التدريب قصيرة نسبياً، لا يمكن تحديد إمكانية التحسن طويلة الأجل
قدرة التعميم بحاجة للتحقق: تم الاختبار فقط في بيئة اللغة الإنجليزية، قدرة التعميم عبر اللغات غير معروفة

التأثير

المساهمة الأكاديمية: توفر اتجاهاً بحثياً جديداً وإطار عمل طريقة لمجال أمان الذكاء الاصطناعي
القيمة العملية: توفر حلاً قابلاً للتطبيق لنشر أنظمة ذكاء اصطناعي أكثر موثوقية
قابلية الاستنساخ: يلتزم المؤلفون بنشر الكود والبيانات، مما يفيد متابعة المجتمع البحثي
القيمة الإلهامية: تُظهر إمكانية التحسن الذاتي لنماذج LLMs، قد تلهم المزيد من الأبحاث ذات الصلة

السيناريوهات المطبقة

التطبيقات عالية المخاطر: التشخيص الطبي والاستشارات القانونية واتخاذ القرارات المالية وغيرها من المجالات التي تتطلب موثوقية عالية
الأنظمة التعليمية: تطبيقات التدريس التي تتطلب قدرة النموذج على التعبير الصادق عن حدود المعرفة
مساعد البحث: أدوات مساعدة البحث التي تحتاج إلى التمييز بين حدود المعرفة المعروفة والمجهولة
أنظمة الذكاء الاصطناعي العامة: أي تطبيق ذكاء اصطناعي يحتاج إلى تحسين الموثوقية والأمان

المراجع

تستشهد الورقة بمراجع غنية ذات صلة، تشمل بشكل أساسي:

أبحاث المعرفة الذاتية والميتا معرفة 1-7
تطبيقات التعلم المعزز في نماذج اللغة الكبيرة 14، 22-24
طرق التحسن الذاتي واللعب الذاتي 15، 30-32، 44-49
أبحاث أمان وموثوقية الذكاء الاصطناعي 11-12، 16-17

التقييم الشامل: هذه ورقة بحثية عالية الجودة، تقترح حلاً مبتكراً وعملياً لمشكلة المعرفة الذاتية المهمة في نماذج اللغة الكبيرة. على الرغم من وجود بعض القيود، فإن مساهماتها كبيرة، والطريقة مبتكرة، ونتائج التجارب مقنعة، وذات أهمية كبيرة لمجال أمان الذكاء الاصطناعي.