2025-11-12T14:52:10.377948

Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space

Chen, Ma, Li et al.

Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.

academic

التفكير في الظلام: التفكير المتشابك بين الرؤية والنص في الفضاء الكامن

المعلومات الأساسية

معرّف الورقة: 2510.12603
العنوان: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
المؤلفون: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
التصنيف: cs.CV cs.AI cs.CL
تاريخ النشر/المؤتمر: arXiv 14 يناير 2025
رابط الورقة: https://arxiv.org/abs/2510.12603

الملخص

يهدف التفكير متعدد الأنماط إلى تعزيز قدرات نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) من خلال دمج خطوات تفكير وسيطة قبل التوصل إلى الإجابة النهائية. تطور هذا المجال من التفكير النصي البحت إلى دمج المعلومات البصرية، مما يسمح بنقل عملية التفكير من خلال الصور والنصوص معاً. على الرغم من فعاليتها، تعتمد طرق التفكير متعدد الأنماط الحالية على خطوات تفكير صريحة، مما يتطلب تعليقات بصرية-نصية كثيفة العمالة، وتدخل بشكل متأصل تأخيراً كبيراً في الاستدلال. لمعالجة هذه المشاكل، تقدم هذه الورقة التفكير الكامن متعدد الأنماط، بمزايا التمثيل متعدد الأنماط والتعليقات المخفضة وكفاءة الاستدلال. لهذا الغرض، تم اقتراح طريقة التفكير الكامن البصري-النصي المتشابك (IVT-LR)، التي تحقن معلومات بصرية ونصية أثناء عملية التفكير داخل الفضاء الكامن. بشكل محدد، يمثل IVT-LR كل خطوة تفكير من خلال الجمع بين جزأين ضمنيين: النص الكامن (الحالات المخفية من الخطوة السابقة) والرؤية الكامنة (مجموعة من تضمينات الصور المختارة). كما تم إدخال استراتيجية تدريب متعددة المراحل تدريجية، تمكن MLLMs من تنفيذ خطوات التفكير الكامن متعدد الأنماط المذكورة أعلاه. تُظهر التجارب على M3CoT و ScienceQA أن طريقة IVT-LR تحقق متوسط تحسن بنسبة 5.45% في الدقة، مع تحقيق تحسن في السرعة يزيد عن 5 مرات.

خلفية البحث والدافع

تعريف المشكلة

يواجه التفكير متعدد الأنماط الحالي ثلاث مشاكل أساسية:

تكلفة التعليق العالية: تتطلب الطرق الموجودة كمية كبيرة من بيانات التفكير البصري-النصي المتشابك المعلقة يدويًا
تأخير الاستدلال الكبير: ينتج عن الإنشاء الصريح لخطوات تفكير طويلة سرعة استدلال بطيئة
قدرة التمثيل المحدودة: يصعب على التفكير النصي الصريح التعبير الكامل عن المعلومات المعقدة متعددة الأنماط

أهمية البحث

يعتبر التفكير متعدد الأنماط تقنية أساسية لتحسين قدرات MLLMs، مع قيمة تطبيقية مهمة في مهام مثل الإجابة على الأسئلة البصرية (VQA) وحل المشاكل العلمية. يعتبر تحسين كفاءة الاستدلال والدقة حاسماً للنشر العملي.

قيود الطرق الموجودة

طرق التفكير النصي: ركزت الطرق المبكرة بشكل أساسي على التفكير النصي البحت، وعجزت عن الاستفادة الفعالة من المعلومات البصرية
التفكير البصري-النصي المتشابك: على الرغم من دمج المعلومات البصرية، فإنها تتطلب إنشاء خطوات وسيطة صريحة، مما يزيد من النفقات الحسابية
التفكير الكامن: يركز التفكير الكامن الموجود بشكل أساسي على الأنماط الفردية، وينقصه الدمج متعدد الأنماط

دافع البحث

مستوحاة من نجاح التفكير الكامن في نماذج اللغة الكبيرة، يعتقد المؤلفون أن التفكير الكامن يتمتع بإمكانية أكبر في السيناريوهات متعددة الأنماط:

إمكانية التمثيل متعدد الأنماط: يمكن للفضاء الكامن تمثيل المعلومات الغنية متعددة الأنماط بشكل أفضل
تقليل متطلبات التعليق: تقليل الاعتماد على بيانات التفكير البصري-النصي المتشابك الصريحة
كفاءة الاستدلال: تجنب إنشاء سلاسل تفكير طويلة وصريحة

المساهمات الأساسية

أول إطار عمل كامل للتفكير الكامن متعدد الأنماط: اقتراح IVT-LR، الذي يحقق التفكير المشترك للمعلومات النصية والبصرية في الفضاء الكامن
نموذج تدريب جديد: اقتراح استراتيجية تدريب متعددة المراحل تدريجية، فعالة من حيث البيانات والحسابات
تحسن كبير في الأداء: تحقيق مستوى جديد من الحالة الفنية (SOTA) في الدقة وكفاءة الاستدلال
تحليل آلي عميق: الكشف عن الآليات الداخلية للتفكير الكامن من خلال تحليل الانتباه

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل نصي $X = (x_1, ..., x_I)$ ومجموعة تضمينات بصرية $Z = (z_1, ..., z_J)$ ، يتنبأ نموذج اللغة والرؤية (VLM) القياسي بالتوزيع الشرطي للرمز التالي:

$M(x_{t+1} | x_{1:t}, Z) = \text{softmax}(W \cdot e^{fused}_t)$

حيث $e^{fused}_t = f(e^{text}_{1:t}, Z)$ هي الحالة المخفية بعد دمج الميزات النصية والبصرية.

معمارية النموذج

التفكير الكامن متعدد الأنماط

يتمثل جوهر IVT-LR في إجراء التفكير في الفضاء الكامن، حيث يتضمن كل خطوة تفكير جزأين:

النص الكامن: استخدام الحالة المخفية من الخطوة السابقة $h^{hidden}_{t-1}$ بدلاً من رمز النص الصريح
الرؤية الكامنة: اختيار k من تضمينات الصور الأكثر صلة بناءً على درجات الانتباه

بشكل محدد، الإدخال في الخطوة t هو: $E_t = [e_1, ..., e_N, h^{latent}_1, z^{selected}_1, ..., h^{latent}_{t-1}, z^{selected}_{t-1}]$

آلية اختيار الميزات البصرية

استخدام آلية الانتباه لاختيار الميزات البصرية الرئيسية ديناميكياً:

حساب مجموع أوزان الانتباه عبر جميع الطبقات
اختيار مواضع تضمينات الصور ذات أعلى الدرجات المتراكمة
ربط الميزات المختارة مع الحالات المخفية

نقاط الابتكار التقني

التدريب التدريجي متعدد المراحل

ينقسم التدريب إلى N مرحلة:

المرحلة 0: إشراف CoT القياسي، يتم إنشاء جميع خطوات التفكير بشكل صريح
المراحل 1-N: استبدال تدريجي للخطوات الصريحة بالتفكير الكامن، بدءاً من الخطوة الأولى

يتم حساب خسارة التدريب فقط للخطوات الصريحة المتبقية والإجابة النهائية، مما يتجنب الإفراط في محاذاة التمثيلات الكامنة مع التفكير الصريح.

اختيار الرؤية المدفوع بالانتباه

من خلال اختيار المناطق البصرية الرئيسية ديناميكياً، يحقق:

تجنب النفقات الحسابية لمعالجة الصورة الكاملة
التركيز على المعلومات البصرية ذات الصلة بالمهمة
دعم الفهم البصري التدريجي

إعداد التجارب

مجموعات البيانات

M3CoT: معيار استدلال سلسلة التفكير متعدد الأنماط واسع النطاق، يغطي العلوم والمعرفة العامة والرياضيات وغيرها
ScienceQA: مجموعة بيانات الإجابة على الأسئلة العلمية المتنوعة، تتضمن العلوم الطبيعية وعلوم اللغة والعلوم الاجتماعية

مقاييس التقييم

الدقة: دقة الإجابة المطابقة الدقيقة
عدد خطوات الاستدلال الذاتي: عدد الرموز المطلوبة لإنشاء الإجابة
متوسط وقت الاستجابة: تأخير الاستدلال لكل سؤال

طرق المقارنة

التفكير النصي: CCoT
التفكير البصري-النصي: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
خط أساس بدون استدلال: No-CoT

تفاصيل التنفيذ

نموذج العمود الفقري: Qwen2-VL-7B و Chameleon-7B
عدد مراحل التدريب: N=4 (3 خطوات استدلال)
حجم الدفعة: 4
معدل التعلم: 4×10^-5
الأجهزة: 4 وحدات معالجة رسومات NVIDIA A6000

نتائج التجارب

النتائج الرئيسية

نموذج العمود الفقري	الطريقة	دقة M3CoT (%)	دقة ScienceQA (%)	خطوات الاستدلال الذاتي	متوسط الوقت (ثانية)
Qwen2-VL	Chain-of-Focus	64.3	91.2	185.7	2.63
Qwen2-VL	IVT-LR	71.8	94.6	10.0	0.65
Chameleon	Chain-of-Focus	36.5	61.2	739.4	3.09
Chameleon	IVT-LR	41.8	64.0	10.0	1.13

الاكتشافات الرئيسية

تحسن الدقة: مقارنة بأقوى خط أساس Chain-of-Focus، تحسن بنسبة 5-7.5% على M3CoT
تحسن الكفاءة بشكل كبير: انخفاض خطوات الاستدلال الذاتي بما لا يقل عن 9 مرات، تحسن وقت الاستدلال بمعدل 3-8 مرات
الاتساق عبر النماذج: تحقيق تحسن كبير على نماذج عمود فقري مختلفة

تجارب الاستئصال

المتغير	M3CoT	ScienceQA
IVT-LR	71.83	94.1
بدون نص كامن	52.20 (-19.63)	84.7 (-9.8)
بدون رؤية كامنة	46.64 (-25.19)	82.3 (-11.8)
بدون جزء كامن كامل	58.02 (-13.81)	86.4 (-7.7)

الاكتشافات الرئيسية:

تساهم الرؤية الكامنة بأكبر قدر (-25.19%)
يلعب النص الكامن أيضاً دوراً مهماً (-19.63%)
يعمل المكونان معاً بشكل متآزر بشكل أفضل

التحليل العميق

تأثير طول الرؤية الكامنة

مع زيادة طول الرؤية الكامنة لكل خطوة، تتحسن الدقة بشكل مطرد، مما يشير إلى أن تسلسلات الرؤية الكامنة الأطول توفر إشارات بصرية أكثر ثراءً.

تأثير عدد مراحل الاستدلال

مرحلة كامنة	العلوم	المعرفة العامة	الرياضيات	الإجمالي
1	56.66%	64.40%	38.59%	56.30%
2	61.71%	70.11%	43.57%	61.48%
3	70.90%	79.78%	63.07%	71.83%

تستفيد مجالات العلوم والرياضيات بشكل أكبر، مما يشير إلى أن مهام الاستدلال المنظمة مناسبة بشكل خاص للاستدلال في الفضاء الكامن.

تحليل آلية الانتباه

نسبة الانتباه الديناميكية: في نمط الاستدلال الكامن، ينتقل الانتباه تدريجياً من الرؤية إلى النص
تحسن تركيز الانتباه: يصبح الانتباه أكثر تركيزاً في خطوات الاستدلال، مشابهاً لعملية حل المشاكل البشرية

الأعمال ذات الصلة

التفكير متعدد الأنماط

التفكير النصي: تحويل المعلومات البصرية إلى أوصاف نصية ثم إجراء الاستدلال
التفكير البصري-النصي المتشابك: استخدام الصور والنصوص معاً أثناء عملية الاستدلال

التفكير الكامن

طرق الرموز الخاصة: استخدام رموز مثل و لتوجيه الاستدلال
طرق الحالات المخفية المستمرة: استخدام الحالات المخفية مباشرة للاستدلال
التوسع متعدد الأنماط: توسيع التفكير الكامن إلى المجال البصري

الخلاصة والنقاش

الاستنتاجات الرئيسية

يحقق IVT-LR أول إطار عمل كامل للتفكير الكامن متعدد الأنماط
يتفوق بشكل كبير على الطرق الموجودة في الدقة والكفاءة
يوفر التفكير في الفضاء الكامن نموذج حل جديد للمهام متعددة الأنماط

القيود

النفقات الثابتة للرموز: تتطلب كل خطوة رموز رؤية كامنة إضافية
تعقيد التدريب: تتطلب استراتيجية تدريب متعددة المراحل متخصصة
عدد المراحل الثابت: يستخدم حالياً عدد خطوات استدلال ثابت

الاتجاهات المستقبلية

خطوات الاستدلال التكيفية: تحديد خطوات الاستدلال ديناميكياً بناءً على تعقيد المشكلة
التطبيقات الأوسع: توسيع نطاق التطبيق إلى مهام متعددة الأنماط التسلسلية مثل التخطيط واتخاذ القرار
اختيار رؤية أكثر كفاءة: تطوير آليات انتباه بصري أكثر دقة

التقييم المتعمق

المزايا

ابتكار قوي: أول تنفيذ كامل للتفكير الكامن متعدد الأنماط، مع مسار تقني جديد
تجارب شاملة: التحقق على مجموعات بيانات متعددة ونماذج عمود فقري، مع تجارب استئصال شاملة
نتائج ملحوظة: تحسن كبير في الدقة والكفاءة
تحليل عميق: الكشف عن الآليات الداخلية من خلال تحليل الانتباه

أوجه القصور

قيود التطبيق: يركز بشكل أساسي على مهام VQA، مع عدم التأكد من قابلية التطبيق على مهام متعددة الأنماط أخرى
التعقيد الحسابي: يزيد التدريب متعدد المراحل من تعقيد التدريب
القابلية للتفسير: تفتقر عملية الاستدلال الكامن إلى التفسير الصريح، مع قابلية تفسير أقل

التأثير

القيمة الأكاديمية: توفير اتجاه بحثي جديد للتفكير متعدد الأنماط
القيمة العملية: تحسن الكفاءة الكبير ذو أهمية كبيرة للنشر العملي
قابلية التكرار: توفير تفاصيل تنفيذ مفصلة وكود

السيناريوهات المطبقة

البيئات محدودة الموارد: سيناريوهات الحوسبة المحمولة أو الحدية التي تتطلب استدلالاً فعالاً
التطبيقات في الوقت الفعلي: الأنظمة التفاعلية التي لها متطلبات صارمة لسرعة الاستدلال
النشر على نطاق واسع: خدمات عبر الإنترنت تحتاج إلى معالجة عدد كبير من الطلبات

المراجع

Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
Hao et al. (2024): Training large language models to reason in a continuous latent space
Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought

التقييم الشامل: تتمتع طريقة IVT-LR المقترحة في هذه الورقة بقيمة ابتكارية مهمة في مجال التفكير متعدد الأنماط. من خلال تصميم ذكي للفضاء الكامن واستراتيجية تدريب تدريجية متعددة المراحل، حققت تحسناً كبيراً في كفاءة الاستدلال مع الحفاظ على دقة عالية. على الرغم من وجود بعض القيود، فإنها توفر أفكاراً قيمة جديدة لتطور هذا المجال.