تعمل أنظمة الاسترجاع المعزز بالتوليد (RAG) الحالية بشكل أساسي على بيانات نصية أحادية الأسلوب، وتظهر قيودًا عند التعامل مع المستندات غير المنظمة متعددة الأنماط التي تحتوي على نصوص وصور وجداول ومعادلات ورسوم بيانية. تقترح هذه الورقة معمارية الاسترجاع الهجين الواعية بالأنماط (MAHA)، المصممة خصيصًا للإجابة على الأسئلة متعددة الأنماط من خلال رسوم بيانية للمعرفة الواعية بالأنماط. تجمع MAHA بين الاسترجاع الكثيف المتجه والاجتياز البياني المنظم، حيث يقوم الرسم البياني للمعرفة بترميز الدلالات والعلاقات عبر الأنماط. يحقق هذا التصميم استرجاعًا غنيًا دلاليًا وواعيًا بالسياق عبر الأنماط المختلفة. تشير التقييمات على مجموعات بيانات معيارية متعددة إلى أن MAHA تتفوق بشكل كبير على الطرق الأساسية، محققة درجة ROUGE-L بقيمة 0.486 مع توفير تغطية نمطية كاملة.
تواجه أنظمة RAG الحالية التحديات الأساسية التالية:
في عصر البيانات الغنية، توجد كميات ضخمة من المعلومات بصيغ غير منظمة متعددة الأنماط، بما في ذلك مستندات PDF والملفات الممسوحة ضوئيًا والمستندات التقنية التي تحتوي على جداول ورسوم بيانية معقدة. يعتبر الاسترجاع الفعال والتوليف الشامل لهذه المعلومات حاسمًا لصنع القرار في مختلف المجالات.
بالنظر إلى مجموعة من المستندات غير المنظمة D التي تحتوي على أنماط متعددة (نصوص وصور وجداول ومعادلات ورسوم بيانية) واستعلام المستخدم q، يجب على النظام:
استخدام نموذج لغة كبير لتوليف المعلومات متعددة الأنماط المسترجعة، وتوليد إجابات متماسكة ودقيقة وقابلة للتفسير.
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|
حيث Mgt(q) هي مجموعة الأنماط المطلوبة للإجابة المرجعية، و Mret(q) هي مجموعة الأنماط المسترجعة من قبل النظام.
تتفوق MAHA بشكل كبير على الطرق الأساسية في جميع المؤشرات:
التحقق من مساهمة كل مكون من خلال مقارنة ثلاث تكوينات:
تشير النتائج إلى:
مقارنة بالأعمال الموجودة، تتمتع MAHA بالمزايا التالية:
تستشهد الورقة بـ 32 مرجعًا ذا صلة، تشمل بشكل أساسي:
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكرًا لمشكلة مهمة وصعبة في RAG متعدد الأنماط. حققت معمارية MAHA من خلال الرسم البياني للمعرفة الواعي بالأنماط واستراتيجية الاسترجاع الهجين اختراقًا تقنيًا مهمًا، وتتمتع نتائج التجارب بمصداقية عالية. على الرغم من وجود مجال للتحسن في التعقيد والقدرة على التعميم، فإن هذا العمل يضع أساسًا مهمًا لمجال استرجاع المعلومات متعدد الأنماط، ويتمتع بقيمة أكاديمية وإمكانية عملية عالية جدًا.