2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic

الاسترجاع المعزز بالتوليد متعدد الأنماط للبيانات غير المنظمة: الاستفادة من الرسوم البيانية للمعرفة الواعية بالأنماط مع الاسترجاع الهجين

المعلومات الأساسية

  • معرف الورقة: 2510.14592
  • العنوان: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
  • المؤلفون: Rashmi R (المعهد الوطني للتكنولوجيا كارناتاكا)، Vidyadhar Upadhya (المعهد الوطني للتكنولوجيا كارناتاكا)
  • التصنيف: cs.LG (التعلم الآلي)، cs.IR (استرجاع المعلومات)
  • تاريخ النشر: 16 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.14592v1

الملخص

تعمل أنظمة الاسترجاع المعزز بالتوليد (RAG) الحالية بشكل أساسي على بيانات نصية أحادية الأسلوب، وتظهر قيودًا عند التعامل مع المستندات غير المنظمة متعددة الأنماط التي تحتوي على نصوص وصور وجداول ومعادلات ورسوم بيانية. تقترح هذه الورقة معمارية الاسترجاع الهجين الواعية بالأنماط (MAHA)، المصممة خصيصًا للإجابة على الأسئلة متعددة الأنماط من خلال رسوم بيانية للمعرفة الواعية بالأنماط. تجمع MAHA بين الاسترجاع الكثيف المتجه والاجتياز البياني المنظم، حيث يقوم الرسم البياني للمعرفة بترميز الدلالات والعلاقات عبر الأنماط. يحقق هذا التصميم استرجاعًا غنيًا دلاليًا وواعيًا بالسياق عبر الأنماط المختلفة. تشير التقييمات على مجموعات بيانات معيارية متعددة إلى أن MAHA تتفوق بشكل كبير على الطرق الأساسية، محققة درجة ROUGE-L بقيمة 0.486 مع توفير تغطية نمطية كاملة.

الخلفية البحثية والدافع

تعريف المشكلة

تواجه أنظمة RAG الحالية التحديات الأساسية التالية:

  1. القيود أحادية الأسلوب: تتعامل أنظمة RAG التقليدية بشكل أساسي مع البيانات النصية، وغير قادرة على معالجة المستندات المعقدة التي تحتوي على محتوى متعدد الأنماط مثل الصور والجداول والمعادلات
  2. غياب العلاقات عبر الأنماط: نقص القدرة على فهم واستخدام العلاقات المعقدة بين الأنماط المختلفة، مثل المراسلات بين الأوصاف النصية وبيانات الجداول
  3. عدم كفاية الاستدلال المنظم: يجد الأسلوب الحالي صعوبة في محاكاة الترابطات المعقدة بين المكونات متعددة الأنماط

أهمية البحث

في عصر البيانات الغنية، توجد كميات ضخمة من المعلومات بصيغ غير منظمة متعددة الأنماط، بما في ذلك مستندات PDF والملفات الممسوحة ضوئيًا والمستندات التقنية التي تحتوي على جداول ورسوم بيانية معقدة. يعتبر الاسترجاع الفعال والتوليف الشامل لهذه المعلومات حاسمًا لصنع القرار في مختلف المجالات.

قيود الطرق الموجودة

  1. محاذاة عبر الأنماط غير كافية: نقص الآليات التي تربط دلاليًا محتوى الأنماط المختلفة
  2. عملية استرجاع ثابتة: عدم القدرة على التكيف مع فضاء المعلومات الديناميكي أو المتطور
  3. تكامل الرسم البياني للمعرفة سطحي: الرسوم البيانية للمعرفة في أطر RAG الهجينة الموجودة تركز بشكل أساسي على النصوص، وتفتقر إلى الدعم الصريح للمدخلات متعددة الأنماط
  4. غياب الاستراتيجيات المخصصة: عدم وجود استراتيجية موحدة متخصصة للتعامل مع النصوص والصور والجداول والرسوم البيانية والمعادلات

المساهمات الأساسية

  1. اقتراح معمارية MAHA: أول معمارية استرجاع هجين واعية بالأنماط مصممة خصيصًا للبيانات غير المنظمة متعددة الأنماط
  2. الرسم البياني للمعرفة الواعي بالأنماط: توسيع أنماط KG الموجودة التي تركز على النصوص، مع إدخال العلاقات الدلالية عبر الأنماط
  3. استراتيجية الاسترجاع الهجين: دمج مبتكر للاسترجاع الكثيف المتجه والاجتياز البياني المنظم
  4. التحقق التجريبي الشامل: تحقيق تحسينات أداء كبيرة على مجموعات بيانات معيارية متعددة مع تغطية نمطية كاملة
  5. مؤشرات تقييم جديدة: اقتراح مؤشر تغطية الأنماط، الذي يحدد كميًا قدرة النظام على الاسترجاع عبر الأنماط

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة من المستندات غير المنظمة D التي تحتوي على أنماط متعددة (نصوص وصور وجداول ومعادلات ورسوم بيانية) واستعلام المستخدم q، يجب على النظام:

  1. استرجاع أجزاء الأدلة ذات الصلة متعددة الأنماط
  2. توليف المعلومات عبر الأنماط لتوليد إجابات دقيقة وشاملة
  3. الحفاظ على القابلية للتفسير والاتساق السياقي

معمارية النموذج

1. وحدة استقبال المستندات والتضمين

  • التحليل متعدد الأنماط: تقسيم المستندات إلى كتل ذات معنى دلالي، بما في ذلك النصوص والجداول والرسوم البيانية والصور والمعادلات
  • الترميز غير المتجانس:
    • النصوص: استخدام text-embedding-3-small من OpenAI للتحويل إلى تضمينات
    • الجداول: التحويل إلى صيغة HTML
    • المعادلات: الترميز كمعادلات منظمة (LaTeX)
    • العناصر البصرية: الترميز باستخدام نموذج CLIP والتحويل إلى صيغة base64
  • توليد الملخصات: توليد ملخصات نصية للبيانات غير النصية وتضمينها

2. فهرسة متجر المتجهات وبناء الرسم البياني للمعرفة

  • متجر المتجهات: فهرسة التمثيلات متعددة الأنماط، مع دعم الاسترجاع السريع القائم على التشابه
  • الرسم البياني للمعرفة الواعي بالأنماط:
    • العقد: تمثيل الكيانات من أنماط مختلفة (نصوص ومعادلات وصور وجداول)
    • الحواف: التقاط العلاقات الدلالية، مثل "NEXT-TEXT" و"NEXT-TABLE" و"HAS-IMAGE" و"HAS-FORMULA" وغيرها
    • عملية البناء: موجهة بالأنماط، تشمل ربط الكيانات المسماة وحل الإحالات المرجعية والاستدلال بالعلاقات

3. آلية الاسترجاع الهجين

  • الاسترجاع المتجه: ترميز الاستعلام كتضمين ومطابقة كتل المحتوى الدلالية المتشابهة
  • اجتياز الرسم البياني: استرجاع المعلومات الداعمة بناءً على علاقات الكيانات واجتياز الرسم البياني
  • استراتيجية الدمج: موازنة التشابه الدلالي واجتياز الهيكل، مما يضمن الملاءمة والتغطية

4. التوليد الواعي بالسياق

استخدام نموذج لغة كبير لتوليف المعلومات متعددة الأنماط المسترجعة، وتوليد إجابات متماسكة ودقيقة وقابلة للتفسير.

نقاط الابتكار التقني

  1. نمذجة العلاقات عبر الأنماط: إدخال أول علاقات دلالية صريحة عبر الأنماط في أنظمة RAG
  2. دمج الاسترجاع الهجين: دمج مبتكر لمزايا التشابه المتجه واجتياز الهيكل البياني
  3. الفهرسة الواعية بالأنماط: تحقيق التكامل السلس للاسترجاع الدلالي والمنظم من خلال الفهرسة الموحدة
  4. تعزيز القابلية للتفسير: توفير بيانات وصفية الرسم البياني لقابلية تفسير قرارات الاسترجاع

إعداد التجارب

مجموعات البيانات

  1. مجموعة معايير UDA:
    • المجال المالي: يتضمن تقارير مالية بتخطيطات معقدة، لاختبار قدرات الاستدلال الرقمي
    • المجال الأكاديمي: من الأوراق الأكاديمية، لاختبار استدلال المحتوى التقني المعقد
    • المعرفة العالمية: صفحات ويكيبيديا، لتقييم الأداء على مواضيع واسعة
  2. MRAMG-Bench: من مجالات الويب والأكاديمية وأسلوب الحياة، مصممة خصيصًا لاختبار قدرات الاستدلال متعدد الأنماط
  3. REAL-MM-RAG-Bench: معيار عالي الجودة في المجال المالي، يتضمن نصوصًا وجداول وصورًا

مؤشرات التقييم

مؤشرات الاسترجاع

  • Recall@K: نسبة استعلامات الكتل الصحيحة في أفضل K نتيجة
  • MRR (متوسط الترتيب المتبادل): متوسط الترتيب المتبادل للإجابة الصحيحة الأولى

مؤشرات التوليد

  • ROUGE-L: درجة التداخل بين أطول تسلسل فرعي مشترك بين الإجابة المولدة والإجابة المرجعية

مؤشرات متعددة الأنماط

  • تغطية الأنماط: مؤشر مقترح جديد، بصيغة حسابية:
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

حيث Mgt(q) هي مجموعة الأنماط المطلوبة للإجابة المرجعية، و Mret(q) هي مجموعة الأنماط المسترجعة من قبل النظام.

الطرق المقارنة

  1. BM25: محرك استرجاع متفرق قائم على تكرار الكلمات
  2. FAISS + SBERT: محرك استرجاع متجه كثيف
  3. CLIP: محرك استرجاع الصور فقط
  4. Hybrid (BM25 + FAISS): الطريقة الهجينة التقليدية
  5. Graph Traversal (KG Retriever): طريقة اجتياز الرسم البياني البحتة
  6. أطر RAG متعددة الأنماط الموجودة: HybridRAG و HybGRAG و KG-Guided RAG وغيرها

نتائج التجارب

النتائج الرئيسية

المقارنة مع الطرق الأساسية

تتفوق MAHA بشكل كبير على الطرق الأساسية في جميع المؤشرات:

  • ROUGE-L: 0.486 (تحسن بنسبة 72% مقارنة بالاسترجاع المتجه)
  • Recall@3: 0.79-0.81
  • MRR: 0.74 (تحسن بنسبة 19-21% مقارنة بالخط الأساسي)
  • تغطية الأنماط: 1.00 (تغطية كاملة)

المقارنة مع أطر RAG متعددة الأنماط الموجودة

  • MAHA هي الطريقة الوحيدة التي تحقق تغطية نمطية كاملة (1.00)
  • الطرق الأخرى تحقق تغطية نمطية بنسبة 0.00-0.39 فقط
  • تحقق أعلى درجات في جميع مؤشرات الأداء

التجارب الاستئصالية

التحقق من مساهمة كل مكون من خلال مقارنة ثلاث تكوينات:

  1. Vector-Only: ROUGE-L 0.282، Recall@3 0.70، MRR 0.61
  2. Graph-Only: ROUGE-L 0.337، Recall@3 0.68، MRR 0.62
  3. MAHA: ROUGE-L 0.486، Recall@3 0.79، MRR 0.74

تشير النتائج إلى:

  • الاسترجاع المتجه يلتقط الدلالات المحلية لكن ينقصه الإشارات الهيكلية
  • اجتياز الرسم البياني يوفر علاقات هيكلية لكن يصعب عليه اكتشاف أدلة غنية بشكل مستقل
  • الطريقة الهجينة تحقق أفضل أداء، مما يثبت التكامل المتبادل للطريقتين

النتائج التجريبية

  1. التأثير التآزري: الجمع بين الاستدلال الهيكلي والتشابه الدلالي ينتج عنه تأثير تآزري كبير
  2. أهمية الروابط عبر الأنماط: الروابط الصريحة الواعية بالأنماط تمكن النظام من استرجاع أدلة متعددة الأنماط كان سيتم تفويتها بخلاف ذلك
  3. قيمة التغطية الكاملة: تحقيق تغطية نمطية كاملة أمر حاسم لتوليد إجابات عالية الجودة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. أنظمة RAG التقليدية: تعتمد بشكل أساسي على النصوص، باستخدام طرق استرجاع واحدة مثل BM25 و FAISS
  2. أطر RAG الهجينة: تجمع بين الرسوم البيانية للمعرفة والاسترجاع المتجه، لكن KG تركز بشكل أساسي على النصوص
  3. RAG متعدد الأنماط: مثل Kosmos-1 و MM-ReAct وغيرها، لكن تعمل بشكل أساسي في إعدادات مغلقة
  4. RAG معزز بالرسم البياني للمعرفة: تحسين الاسترجاع من خلال KG، لكن تفتقر إلى وحدات الترميز البصري

مزايا هذا العمل

مقارنة بالأعمال الموجودة، تتمتع MAHA بالمزايا التالية:

  1. أول معمارية KG واعية بالأنماط مصممة خصيصًا
  2. نمذجة صريحة للعلاقات الدلالية عبر الأنماط
  3. توفير تحكم استرجاع واعي بالأنماط بدقة عالية
  4. تحقيق تغطية نمطية كاملة وقابلية للتفسير

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. الاختراق التقني: نجحت MAHA في حل قيود أنظمة RAG التقليدية في معالجة البيانات متعددة الأنماط
  2. تحسن الأداء: تحقيق تحسينات أداء كبيرة على مجموعات بيانات معيارية متعددة، خاصة تحسن بنسبة 72% في مؤشر ROUGE-L
  3. التغطية الكاملة: تحقيق تغطية نمطية كاملة للمرة الأولى، مما يثبت فعالية الاستدلال عبر الأنماط
  4. القابلية للتوسع: توفير إطار استرجاع قابل للتوسع وقابل للتفسير

القيود

  1. تعقيد بناء KG: يتطلب بناء الرسم البياني للمعرفة الواعي بالأنماط استراتيجيات تحليل وتوافق متخصصة
  2. الحمل الحسابي: قد تزيد آلية الاسترجاع الهجين من التعقيد الحسابي
  3. التكيف مع المجالات: تحتاج قدرة التكيف في المجالات المحددة إلى مزيد من التحقق
  4. التحديث الديناميكي: يواجه KG الثابت تحديات في التعامل مع تحديثات المعلومات الديناميكية

الاتجاهات المستقبلية

  1. أتمتة بناء KG: تطوير طرق أتمتة أكثر تقدمًا للتعامل مع البيانات غير المنظمة بدرجة عالية
  2. توجيه الاستعلام الديناميكي: تنفيذ موجهات ذكية قادرة على التكيف في الوقت الفعلي مع تعقيد الاستعلام
  3. التقييم على نطاق أوسع: التحقق من الطريقة على مجموعات بيانات أكبر وأكثر تنوعًا
  4. تحسين الوقت الفعلي: تحسين وقت استجابة النظام لزيادة جدوى التطبيقات العملية

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول اقتراح لمفهوم الرسم البياني للمعرفة الواعي بالأنماط، ملء فجوة مهمة في RAG متعدد الأنماط
  2. اكتمال الطريقة: حل شامل من طرف إلى طرف من استقبال البيانات إلى التوليد النهائي
  3. تجارب شاملة: تقييم شامل على مجموعات بيانات متعددة، بما في ذلك التجارب الاستئصالية
  4. ابتكار المؤشرات: اقتراح تغطية الأنماط كمؤشر تقييم مهم
  5. نتائج ملحوظة: تحقيق تحسينات كبيرة في جميع المؤشرات الرئيسية

أوجه القصور

  1. التعقيد النسبي: معمارية النظام معقدة نسبيًا، وقد تواجه التطبيقات العملية تحديات
  2. حجم مجموعات البيانات: قد يكون حجم وتنوع مجموعات البيانات المستخدمة في التقييم محدودًا
  3. نقص تحليل الأخطاء: نقص التحليل المتعمق لحالات الفشل
  4. تكاليف حسابية: لم تناقش الورقة بالتفصيل متطلبات الموارد الحسابية ومشاكل الكفاءة
  5. القدرة على التعميم: تحتاج القدرة على التعميم على المجالات والأنواع البيانية غير المرئية إلى مزيد من التحقق

التأثير

  1. القيمة الأكاديمية: توفير اتجاه بحثي جديد ومعيار لمجال استرجاع المعلومات متعدد الأنماط
  2. القيمة العملية: آفاق تطبيق واسعة في تحليل المستندات والدعم الفني والتعليم وغيرها
  3. القابلية للتكرار: توفير تفاصيل تنفيذ مفصلة تسهل البحث اللاحق
  4. الإلهام: قد تلهم فكرة KG الواعي بالأنماط البحث في مهام متعددة الأنماط أخرى

السيناريوهات المطبقة

  1. تحليل المستندات المؤسسية: معالجة التقارير المالية والمستندات التقنية التي تحتوي على رسوم بيانية وجداول
  2. دعم البحث الأكاديمي: مساعدة الباحثين على استخراج المعلومات من الأوراق الأكاديمية متعددة الأنماط
  3. المساعدة التعليمية: توفير خدمات الإجابة على الأسئلة متعددة الأنماط للطلاب
  4. معالجة المستندات الطبية: تحليل التقارير الطبية التي تحتوي على صور وجداول
  5. مراجعة المستندات القانونية: معالجة الملفات القانونية المعقدة والمواد الإثباتية

المراجع

تستشهد الورقة بـ 32 مرجعًا ذا صلة، تشمل بشكل أساسي:

  • طرق أساسية في RAG: BM25 و FAISS و SBERT وغيرها من طرق الاسترجاع الكلاسيكية
  • نماذج متعددة الأنماط: CLIP و Kosmos-1 و MM-ReAct وغيرها
  • طرق الرسم البياني للمعرفة: أطر RAG معززة بـ KG المختلفة
  • معايير التقييم: UDA و MRAMG-Bench و REAL-MM-RAG-Bench وغيرها

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكرًا لمشكلة مهمة وصعبة في RAG متعدد الأنماط. حققت معمارية MAHA من خلال الرسم البياني للمعرفة الواعي بالأنماط واستراتيجية الاسترجاع الهجين اختراقًا تقنيًا مهمًا، وتتمتع نتائج التجارب بمصداقية عالية. على الرغم من وجود مجال للتحسن في التعقيد والقدرة على التعميم، فإن هذا العمل يضع أساسًا مهمًا لمجال استرجاع المعلومات متعدد الأنماط، ويتمتع بقيمة أكاديمية وإمكانية عملية عالية جدًا.