2025-11-20T11:34:15.055386

Meronymic Ontology Extraction via Large Language Models

Zhang, Conia, Rago
Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
academic

استخراج الأنطولوجيا المرونيمية عبر نماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2510.13839
  • العنوان: استخراج الأنطولوجيا المرونيمية عبر نماذج اللغة الكبيرة
  • المؤلفون: ديكاي تشانج (كلية إمبريال لندن)، سيمون كونيا (جامعة سابينزا بروما)، أنطونيو راغو (كلية إمبريال لندن وكلية الملك بلندن)
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.13839

الملخص

تستفيد هذه الورقة من التطورات الأخيرة في نماذج اللغة الكبيرة (LLMs) لتطوير طريقة مؤتمتة بالكامل لاستخراج أنطولوجيا المنتجات (في شكل علاقات جزء-كل) من نصوص المراجعات الخام. تُظهر الدراسة أن الأنطولوجيا المُنتجة بهذه الطريقة تتفوق على أساليب الأساس المستندة إلى BERT الموجودة في التقييمات التي تستخدم نماذج اللغة الكبيرة كمُحكِّم. يضع هذا البحث الأساس لتطبيقات أوسع لنماذج اللغة الكبيرة في مهام استخراج الأنطولوجيا.

الخلفية البحثية والدافع

تعريف المشكلة

في العصر الرقمي، تتطلب كميات ضخمة من بيانات النصوص غير المنظمة تنظيماً وهيكلة من خلال الأنطولوجيا. خاصة في قطاع التجارة الإلكترونية، تحتاج قوائم المنتجات التي لا تُحصى إلى هياكل تنظيمية مناسبة للمنتجات. تتمتع علاقات جزء-كل (العلاقات المرونيمية) بقيمة مهمة في المهام اللاحقة مثل تجميع المراجعات وتحليل المشاعر والإجابة على أسئلة المنتجات.

قيود الأساليب الموجودة

  1. تكاليف البناء اليدوي مرتفعة: بناء الأنطولوجيا يدويًا عملية تستغرق وقتًا طويلاً وباهظة الثمن وشاقة
  2. عدم كفاية الأساليب الآلية الموجودة: ركزت الأبحاث السابقة بشكل أساسي على استخراج العلاقات التصنيفية وليس علاقات جزء-كل
  3. صعوبة التقييم: نقص مجموعات البيانات المعيارية القياسية يجعل من الصعب تقييم جودة أنطولوجيا جزء-كل بفعالية
  4. الاعتماد على التعليقات اليدوية: الأساليب الموجودة مثل طريقة BERT من Oksanen وآخرون (2021) لا تزال تتطلب درجة معينة من التعليقات اليدوية

الدافع البحثي

تهدف هذه الورقة إلى الاستفادة من القدرات القوية لنماذج اللغة الكبيرة لتطوير طريقة مؤتمتة بالكامل لاستخراج أنطولوجيا جزء-كل، واقتراح إطار تقييم جديد للتحقق من فعالية الطريقة.

المساهمات الأساسية

  1. اقتراح طريقة LLM مؤتمتة بالكامل: تطوير طريقة مؤتمتة بالكامل باستخدام نماذج اللغة الكبيرة لاستخراج أنطولوجيا جزء-كل، قابلة للتعميم عبر فئات المنتجات المختلفة
  2. إطار تقييم مبتكر: اقتراح طريقة جديدة لاستخدام نماذج اللغة الكبيرة كمُحكِّم (LLM-as-a-judge) للتقييم التجريبي لمختلف مهام استخراج أنطولوجيا جزء-كل
  3. التحقق من تحسن الأداء: إثبات من خلال التجارب أن طريقة نموذج اللغة الكبيرة تتفوق بشكل ملحوظ على طريقة الأساس المستندة إلى BERT من حيث الملاءمة
  4. الكود مفتوح المصدر: توفير كود التنفيذ الكامل لتعزيز قابلية إعادة إنتاج البحث

شرح التفاصيل الطريقة

تعريف المهمة

الإدخال: نصوص مراجعات المنتجات الإخراج: رسم بياني لأنطولوجيا جزء-كل يحتوي على عقد المفاهيم والعلاقات "جزء-كل" بينها القيود: يجب أن تكون العلاقات علاقات جزء-كل ذات معنى، والمفاهيم يجب أن تكون ذات صلة بالمنتج

معمارية النموذج

تتضمن الطريقة المقترحة خط أنابيب يتكون من أربع مراحل رئيسية:

1. استخراج الجوانب (Aspect Extraction)

  • الطريقة: استخدام Mistral-7B-Instruct-v0.2 المضبوط بدقة
  • بيانات التدريب: مجموعة بيانات SemEval-2014 Task 4 (1600 عينة)
  • المعالجة اللاحقة: استخدام وسم POS للتصفية، مع الاحتفاظ فقط بالأسماء التي تظهر فعليًا في المراجعات
  • التحكم في الإخراج: اختيار أفضل 50 جانب الأكثر شيوعًا

2. استخراج مجموعات المرادفات (Synset Extraction)

  • نموذج التضمين: نموذج FastText المضبوط بدقة (للتعامل مع الأخطاء الإملائية والاختصارات)
  • خوارزمية التجميع: تجميع العقد متساوي المسافة (ENC) بناءً على تشابه جيب التمام
  • المزايا: ينتج عنها نتائج تجميع أكثر دقة مقارنة بـ K-means

3. استخراج المفاهيم (Concept Extraction)

  • اختيار الممثل: اختيار المصطلح الأكثر شيوعًا في كل مجموعة مرادفات كممثل
  • الحكم على الملاءمة: استخدام مطالبات نموذج اللغة الكبيرة للحكم على ما إذا كان يجب تضمين المصطلح في الأنطولوجيا
  • معايير التصفية: الملاءمة والخصوصية والهرمية

4. استخراج العلاقات (Relation Extraction)

  • معالجة الإدخال: استخراج الجمل التي تحتوي على جانبين من مجموعات مرادفات مختلفة
  • تصميم المهمة: سؤال متعدد الخيارات (الجانب أ جزء من الجانب ب / الجانب ب جزء من الجانب أ / لا علاقة)
  • تدريب النموذج: ضبط دقيق لنموذج Mistral على 1000 عينة اصطناعية من خلال التقطير

نقاط الابتكار التقني

  1. خط أنابيب LLM من النهاية إلى النهاية: تحقيق درجة أعلى من الأتمتة مقارنة بطريقة BERT
  2. قيود الإخراج المنظمة: استخدام قيود بناء جملة JSON لضمان اتساق تنسيق الإخراج
  3. التحسين متعدد المراحل: تحسين كل مرحلة للمهام المحددة لتحسين الأداء الكلي
  4. تخفيف الهلوسة: تقليل مشاكل هلوسة نموذج اللغة الكبيرة من خلال تصفية وسم POS والضبط الدقيق

إعداد التجارب

مجموعات البيانات

  • المصدر: مجموعة بيانات Amazon Reviews 2023
  • فئات المنتجات: 5 فئات (ألعاب الفيديو والتلفاز والقلائد والساعات والخلاطات الثابتة)
  • حجم البيانات: 100,000 مراجعة لكل منتج (26,464 للخلاطات)
  • حد المعالجة: تستخدم مهام نموذج اللغة الكبيرة 1000 مراجعة (مع الأخذ في الاعتبار وقت المعالجة)

مقاييس التقييم

معايير تقييم المصطلحات:

  1. الملاءمة: هل يمثل المصطلح بدقة جزء أو مكون من المنتج
  2. الخصوصية: هل للمصطلح مستوى خصوصية مناسب
  3. الوضوح: هل ينقل المصطلح النية بوضوح ويتجنب الغموض
  4. توافق المنتج: هل يناسب المصطلح منطقيًا المنتج المعطى

معايير تقييم العلاقات:

  1. الهرمية المنطقية: هل تمثل العقدة الفرعية جزءًا منطقيًا أو ميزة من العقدة الأب
  2. توافق السياق: هل العلاقة معقولة في فئات منتجات Amazon
  3. الوضوح والخصوصية: هل تتجنب العلاقة الغموض وتحدد بوضوح علاقة جزء-كل

طرق المقارنة

  • طريقة الأساس: طريقة BERT من Oksanen وآخرون (2021)
  • طريقة التقييم: Gemini 1.5 Flash كمُحكِّم نموذج لغة كبير
  • نسخ المقارنة: النسخة الكاملة والنسخة المختصرة (مساوية لعدد مصطلحات الأساس)

تفاصيل التنفيذ

  • الأجهزة: وحدة معالجة رسومات NVIDIA GeForce RTX 4090
  • محسِّن: Adam (معدل التعلم 10^-4)
  • تقنية الضبط الدقيق: LoRA (r=4, α=16)
  • عدد الحقب: 3 حقب، حجم الدفعة 16

نتائج التجارب

النتائج الرئيسية

تقييم جودة المصطلحات

فئة المنتجطريقتنا (كاملة)طريقتنا (مختصرة)أساس BERT
ألعاب الفيديو4.004.183.92
التلفاز4.064.053.95
القلائد4.504.573.86
الساعات4.134.374.10
الخلاطات الثابتة4.364.403.31

تقييم جودة العلاقات

فئة المنتجطريقتنا (كاملة)طريقتنا (مختصرة)أساس BERT
ألعاب الفيديو3.893.823.43
التلفاز3.994.563.21
القلائد3.653.793.29
الساعات3.754.062.68
الخلاطات الثابتة3.303.402.47

تجارب الاستبعاد

مقارنة طرق استخراج الجوانب

الطريقةمتوسط الدرجة
الطريقة A1 (المطالبة فقط)1.960 ± 0.006
الطريقة A2 (المطالبة + المشاعر)2.259 ± 0.002
الطريقة A3 (الضبط الدقيق)2.662 ± 0.006

مقارنة طرق استخراج العلاقات

الطريقةألعاب الفيديوالتلفازالقلائدالساعاتالخلاطات
المراجعة الكاملة3.8114.1553.3973.5703.080
المقتطفات3.7273.7263.4813.3982.493
المقتطفات + الضبط الدقيق3.8933.9873.6463.7473.303

تحليل الكفاءة

وقت معالجة طريقتنا

المرحلةمتوسط الوقت (دقيقة)
استخراج الجوانب32.05
استخراج مجموعات المرادفات0.78
استخراج المفاهيم1.52
استخراج العلاقات4.53
الإجمالي38.89

وقت معالجة أساس BERT

المرحلةمتوسط الوقت (دقيقة)
استخراج الكيانات1.66
استخراج الجوانب2.79
استخراج المرادفات0.82
استخراج الأنطولوجيا1.36
الإجمالي6.62

نتائج التجارب

  1. تحسن الجودة: تتفوق طريقة نموذج اللغة الكبيرة بشكل ملحوظ على أساس BERT في جودة المصطلحات والعلاقات
  2. أهمية الضبط الدقيق: يحقق الضبط الدقيق تحسنًا كبيرًا في الأداء مقارنة بطرق المطالبة البحتة
  3. التكلفة الحسابية: طريقة نموذج اللغة الكبيرة ذات جودة أعلى لكن التكلفة الحسابية تبلغ حوالي 6 أضعاف طريقة BERT
  4. اختيار خوارزمية التجميع: ينتج عن ENC مجموعات مرادفات أكثر دقة مقارنة بـ K-means

الأعمال ذات الصلة

تعلم الأنطولوجيا

يعتمد تعلم الأنطولوجيا التقليدي بشكل أساسي على أساليب التعلم العميق، لكن معظمها يركز على استخراج العلاقات التصنيفية وليس علاقات جزء-كل.

تطبيق نماذج اللغة الكبيرة في بناء الأنطولوجيا

بدأت الأبحاث الحديثة في استكشاف تطبيق نماذج اللغة الكبيرة في مهام تعلم الأنطولوجيا الرئيسية مثل استخراج المصطلحات والعلاقات، لكن التركيز الأساسي على العلاقات التصنيفية.

طرق التقييم

نظرًا لنقص المعايير القياسية، كان تقييم جودة الأنطولوجيا دائمًا تحديًا. توفر طريقة LLM-as-a-judge المقترحة في هذه الورقة حلاً جديدًا لهذه المشكلة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تتفوق طريقة نموذج اللغة الكبيرة بشكل ملحوظ على طرق BERT الموجودة في مهام استخراج أنطولوجيا جزء-كل
  2. الضبط الدقيق وقيود الإخراج المنظمة هي عوامل رئيسية لتحسين الأداء
  3. توفر طريقة LLM-as-a-judge حلاً قابلاً للتطبيق لتقييم جودة الأنطولوجيا

القيود

  1. الاعتماد على التقييم: يعتمد بشكل أساسي على LLM-as-a-judge، مع نقص التحقق من خلال الدراسات البشرية
  2. التكلفة الحسابية: التكلفة الحسابية أعلى بشكل ملحوظ مقارنة بطريقة BERT
  3. مشكلة الهلوسة: لا تزال نماذج اللغة الكبيرة تعاني من مشكلة توليد جوانب غير ذات صلة
  4. نقص المعايير: يفتقر مجال أنطولوجيا المنتجات إلى مجموعة بيانات معيارية قياسية

الاتجاهات المستقبلية

  1. بناء معايير قياسية: إنشاء مجموعة بيانات معيارية قياسية لهذه المهمة
  2. التحقق من خلال الدراسات البشرية: التحقق من الفائدة العملية للأنطولوجيا من خلال الدراسات البشرية
  3. تعميم الطريقة: استكشاف تطبيق الطريقة على أنواع أخرى من الأنطولوجيا (مثل أنطولوجيا التصنيف)
  4. تخفيف الهلوسة: البحث عن طرق لدمج نماذج لغة كبيرة متعددة لتقليل هلوسة النموذج الواحد

التقييم العميق

المزايا

  1. ابتكار قوي: أول تطبيق منهجي لنماذج اللغة الكبيرة في استخراج أنطولوجيا جزء-كل
  2. اكتمال الطريقة: توفير حل خط أنابيب متكامل من النهاية إلى النهاية
  3. ابتكار التقييم: اقتراح إطار تقييم LLM-as-a-judge
  4. التجارب الشاملة: تتضمن تجارب استبعاد تفصيلية وتحليل الكفاءة
  5. المساهمة مفتوحة المصدر: توفير تنفيذ مفتوح المصدر كامل

أوجه القصور

  1. حدود التقييم: الاعتماد المفرط على تقييم نموذج اللغة الكبيرة، مع نقص التحقق من التقييم البشري
  2. اعتبارات التكلفة: زيادة كبيرة في التكلفة الحسابية لكن لم يتم مناقشة المقارنة بين التكلفة والفائدة بشكل كافٍ
  3. قابلية التعميم: التحقق فقط على 5 فئات منتجات، مع الحاجة إلى مزيد من التحقق من قابلية التعميم
  4. مقارنة المعايير: المقارنة مع طرق موجودة أخرى ليست كافية بما فيه الكفاية

التأثير

  1. القيمة الأكاديمية: توفير مرجع مهم لتطبيق نماذج اللغة الكبيرة في بناء الأنطولوجيا
  2. القيمة العملية: لديها إمكانية تطبيق مباشرة في مجالات مثل التجارة الإلكترونية
  3. مساهمة منهجية: إطار تقييم LLM-as-a-judge له قابلية تطبيق واسعة
  4. قابلية الإعادة: توفير تفاصيل التنفيذ الشاملة والكود مفتوح المصدر

السيناريوهات القابلة للتطبيق

  1. منصات التجارة الإلكترونية: تصنيف المنتجات وأنظمة التوصيات
  2. بناء الرسوم البيانية للمعرفة: بناء الأنطولوجيا الآلي
  3. استخراج المعلومات: استخراج العلاقات المنظمة من النصوص غير المنظمة
  4. تحليل المراجعات: التعرف على ميزات وأجزاء المنتجات

المراجع

تستشهد هذه الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:

  • Oksanen وآخرون (2021): طريقة استخراج أنطولوجيا المنتجات المستندة إلى BERT
  • Devlin وآخرون (2019): نموذج BERT
  • Jiang وآخرون (2023): نموذج Mistral
  • Pontiki وآخرون (2014): مجموعة بيانات SemEval-2014 Task 4

التقييم الشامل: هذه ورقة بحثية ذات مساهمة مهمة في مجال استخراج أنطولوجيا جزء-كل. الطريقة مبتكرة، وتصميم التجارب معقول، والنتائج مقنعة. على الرغم من وجود بعض القيود في طرق التقييم والتكلفة الحسابية، فإنها توفر رؤى وأدوات قيمة لتطور هذا المجال.