Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
- معرّف الورقة: 2510.13839
- العنوان: استخراج الأنطولوجيا المرونيمية عبر نماذج اللغة الكبيرة
- المؤلفون: ديكاي تشانج (كلية إمبريال لندن)، سيمون كونيا (جامعة سابينزا بروما)، أنطونيو راغو (كلية إمبريال لندن وكلية الملك بلندن)
- التصنيف: cs.CL cs.AI
- تاريخ النشر: 11 أكتوبر 2025 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.13839
تستفيد هذه الورقة من التطورات الأخيرة في نماذج اللغة الكبيرة (LLMs) لتطوير طريقة مؤتمتة بالكامل لاستخراج أنطولوجيا المنتجات (في شكل علاقات جزء-كل) من نصوص المراجعات الخام. تُظهر الدراسة أن الأنطولوجيا المُنتجة بهذه الطريقة تتفوق على أساليب الأساس المستندة إلى BERT الموجودة في التقييمات التي تستخدم نماذج اللغة الكبيرة كمُحكِّم. يضع هذا البحث الأساس لتطبيقات أوسع لنماذج اللغة الكبيرة في مهام استخراج الأنطولوجيا.
في العصر الرقمي، تتطلب كميات ضخمة من بيانات النصوص غير المنظمة تنظيماً وهيكلة من خلال الأنطولوجيا. خاصة في قطاع التجارة الإلكترونية، تحتاج قوائم المنتجات التي لا تُحصى إلى هياكل تنظيمية مناسبة للمنتجات. تتمتع علاقات جزء-كل (العلاقات المرونيمية) بقيمة مهمة في المهام اللاحقة مثل تجميع المراجعات وتحليل المشاعر والإجابة على أسئلة المنتجات.
- تكاليف البناء اليدوي مرتفعة: بناء الأنطولوجيا يدويًا عملية تستغرق وقتًا طويلاً وباهظة الثمن وشاقة
- عدم كفاية الأساليب الآلية الموجودة: ركزت الأبحاث السابقة بشكل أساسي على استخراج العلاقات التصنيفية وليس علاقات جزء-كل
- صعوبة التقييم: نقص مجموعات البيانات المعيارية القياسية يجعل من الصعب تقييم جودة أنطولوجيا جزء-كل بفعالية
- الاعتماد على التعليقات اليدوية: الأساليب الموجودة مثل طريقة BERT من Oksanen وآخرون (2021) لا تزال تتطلب درجة معينة من التعليقات اليدوية
تهدف هذه الورقة إلى الاستفادة من القدرات القوية لنماذج اللغة الكبيرة لتطوير طريقة مؤتمتة بالكامل لاستخراج أنطولوجيا جزء-كل، واقتراح إطار تقييم جديد للتحقق من فعالية الطريقة.
- اقتراح طريقة LLM مؤتمتة بالكامل: تطوير طريقة مؤتمتة بالكامل باستخدام نماذج اللغة الكبيرة لاستخراج أنطولوجيا جزء-كل، قابلة للتعميم عبر فئات المنتجات المختلفة
- إطار تقييم مبتكر: اقتراح طريقة جديدة لاستخدام نماذج اللغة الكبيرة كمُحكِّم (LLM-as-a-judge) للتقييم التجريبي لمختلف مهام استخراج أنطولوجيا جزء-كل
- التحقق من تحسن الأداء: إثبات من خلال التجارب أن طريقة نموذج اللغة الكبيرة تتفوق بشكل ملحوظ على طريقة الأساس المستندة إلى BERT من حيث الملاءمة
- الكود مفتوح المصدر: توفير كود التنفيذ الكامل لتعزيز قابلية إعادة إنتاج البحث
الإدخال: نصوص مراجعات المنتجات
الإخراج: رسم بياني لأنطولوجيا جزء-كل يحتوي على عقد المفاهيم والعلاقات "جزء-كل" بينها
القيود: يجب أن تكون العلاقات علاقات جزء-كل ذات معنى، والمفاهيم يجب أن تكون ذات صلة بالمنتج
تتضمن الطريقة المقترحة خط أنابيب يتكون من أربع مراحل رئيسية:
- الطريقة: استخدام Mistral-7B-Instruct-v0.2 المضبوط بدقة
- بيانات التدريب: مجموعة بيانات SemEval-2014 Task 4 (1600 عينة)
- المعالجة اللاحقة: استخدام وسم POS للتصفية، مع الاحتفاظ فقط بالأسماء التي تظهر فعليًا في المراجعات
- التحكم في الإخراج: اختيار أفضل 50 جانب الأكثر شيوعًا
- نموذج التضمين: نموذج FastText المضبوط بدقة (للتعامل مع الأخطاء الإملائية والاختصارات)
- خوارزمية التجميع: تجميع العقد متساوي المسافة (ENC) بناءً على تشابه جيب التمام
- المزايا: ينتج عنها نتائج تجميع أكثر دقة مقارنة بـ K-means
- اختيار الممثل: اختيار المصطلح الأكثر شيوعًا في كل مجموعة مرادفات كممثل
- الحكم على الملاءمة: استخدام مطالبات نموذج اللغة الكبيرة للحكم على ما إذا كان يجب تضمين المصطلح في الأنطولوجيا
- معايير التصفية: الملاءمة والخصوصية والهرمية
- معالجة الإدخال: استخراج الجمل التي تحتوي على جانبين من مجموعات مرادفات مختلفة
- تصميم المهمة: سؤال متعدد الخيارات (الجانب أ جزء من الجانب ب / الجانب ب جزء من الجانب أ / لا علاقة)
- تدريب النموذج: ضبط دقيق لنموذج Mistral على 1000 عينة اصطناعية من خلال التقطير
- خط أنابيب LLM من النهاية إلى النهاية: تحقيق درجة أعلى من الأتمتة مقارنة بطريقة BERT
- قيود الإخراج المنظمة: استخدام قيود بناء جملة JSON لضمان اتساق تنسيق الإخراج
- التحسين متعدد المراحل: تحسين كل مرحلة للمهام المحددة لتحسين الأداء الكلي
- تخفيف الهلوسة: تقليل مشاكل هلوسة نموذج اللغة الكبيرة من خلال تصفية وسم POS والضبط الدقيق
- المصدر: مجموعة بيانات Amazon Reviews 2023
- فئات المنتجات: 5 فئات (ألعاب الفيديو والتلفاز والقلائد والساعات والخلاطات الثابتة)
- حجم البيانات: 100,000 مراجعة لكل منتج (26,464 للخلاطات)
- حد المعالجة: تستخدم مهام نموذج اللغة الكبيرة 1000 مراجعة (مع الأخذ في الاعتبار وقت المعالجة)
معايير تقييم المصطلحات:
- الملاءمة: هل يمثل المصطلح بدقة جزء أو مكون من المنتج
- الخصوصية: هل للمصطلح مستوى خصوصية مناسب
- الوضوح: هل ينقل المصطلح النية بوضوح ويتجنب الغموض
- توافق المنتج: هل يناسب المصطلح منطقيًا المنتج المعطى
معايير تقييم العلاقات:
- الهرمية المنطقية: هل تمثل العقدة الفرعية جزءًا منطقيًا أو ميزة من العقدة الأب
- توافق السياق: هل العلاقة معقولة في فئات منتجات Amazon
- الوضوح والخصوصية: هل تتجنب العلاقة الغموض وتحدد بوضوح علاقة جزء-كل
- طريقة الأساس: طريقة BERT من Oksanen وآخرون (2021)
- طريقة التقييم: Gemini 1.5 Flash كمُحكِّم نموذج لغة كبير
- نسخ المقارنة: النسخة الكاملة والنسخة المختصرة (مساوية لعدد مصطلحات الأساس)
- الأجهزة: وحدة معالجة رسومات NVIDIA GeForce RTX 4090
- محسِّن: Adam (معدل التعلم 10^-4)
- تقنية الضبط الدقيق: LoRA (r=4, α=16)
- عدد الحقب: 3 حقب، حجم الدفعة 16
| فئة المنتج | طريقتنا (كاملة) | طريقتنا (مختصرة) | أساس BERT |
|---|
| ألعاب الفيديو | 4.00 | 4.18 | 3.92 |
| التلفاز | 4.06 | 4.05 | 3.95 |
| القلائد | 4.50 | 4.57 | 3.86 |
| الساعات | 4.13 | 4.37 | 4.10 |
| الخلاطات الثابتة | 4.36 | 4.40 | 3.31 |
| فئة المنتج | طريقتنا (كاملة) | طريقتنا (مختصرة) | أساس BERT |
|---|
| ألعاب الفيديو | 3.89 | 3.82 | 3.43 |
| التلفاز | 3.99 | 4.56 | 3.21 |
| القلائد | 3.65 | 3.79 | 3.29 |
| الساعات | 3.75 | 4.06 | 2.68 |
| الخلاطات الثابتة | 3.30 | 3.40 | 2.47 |
| الطريقة | متوسط الدرجة |
|---|
| الطريقة A1 (المطالبة فقط) | 1.960 ± 0.006 |
| الطريقة A2 (المطالبة + المشاعر) | 2.259 ± 0.002 |
| الطريقة A3 (الضبط الدقيق) | 2.662 ± 0.006 |
| الطريقة | ألعاب الفيديو | التلفاز | القلائد | الساعات | الخلاطات |
|---|
| المراجعة الكاملة | 3.811 | 4.155 | 3.397 | 3.570 | 3.080 |
| المقتطفات | 3.727 | 3.726 | 3.481 | 3.398 | 2.493 |
| المقتطفات + الضبط الدقيق | 3.893 | 3.987 | 3.646 | 3.747 | 3.303 |
| المرحلة | متوسط الوقت (دقيقة) |
|---|
| استخراج الجوانب | 32.05 |
| استخراج مجموعات المرادفات | 0.78 |
| استخراج المفاهيم | 1.52 |
| استخراج العلاقات | 4.53 |
| الإجمالي | 38.89 |
| المرحلة | متوسط الوقت (دقيقة) |
|---|
| استخراج الكيانات | 1.66 |
| استخراج الجوانب | 2.79 |
| استخراج المرادفات | 0.82 |
| استخراج الأنطولوجيا | 1.36 |
| الإجمالي | 6.62 |
- تحسن الجودة: تتفوق طريقة نموذج اللغة الكبيرة بشكل ملحوظ على أساس BERT في جودة المصطلحات والعلاقات
- أهمية الضبط الدقيق: يحقق الضبط الدقيق تحسنًا كبيرًا في الأداء مقارنة بطرق المطالبة البحتة
- التكلفة الحسابية: طريقة نموذج اللغة الكبيرة ذات جودة أعلى لكن التكلفة الحسابية تبلغ حوالي 6 أضعاف طريقة BERT
- اختيار خوارزمية التجميع: ينتج عن ENC مجموعات مرادفات أكثر دقة مقارنة بـ K-means
يعتمد تعلم الأنطولوجيا التقليدي بشكل أساسي على أساليب التعلم العميق، لكن معظمها يركز على استخراج العلاقات التصنيفية وليس علاقات جزء-كل.
بدأت الأبحاث الحديثة في استكشاف تطبيق نماذج اللغة الكبيرة في مهام تعلم الأنطولوجيا الرئيسية مثل استخراج المصطلحات والعلاقات، لكن التركيز الأساسي على العلاقات التصنيفية.
نظرًا لنقص المعايير القياسية، كان تقييم جودة الأنطولوجيا دائمًا تحديًا. توفر طريقة LLM-as-a-judge المقترحة في هذه الورقة حلاً جديدًا لهذه المشكلة.
- تتفوق طريقة نموذج اللغة الكبيرة بشكل ملحوظ على طرق BERT الموجودة في مهام استخراج أنطولوجيا جزء-كل
- الضبط الدقيق وقيود الإخراج المنظمة هي عوامل رئيسية لتحسين الأداء
- توفر طريقة LLM-as-a-judge حلاً قابلاً للتطبيق لتقييم جودة الأنطولوجيا
- الاعتماد على التقييم: يعتمد بشكل أساسي على LLM-as-a-judge، مع نقص التحقق من خلال الدراسات البشرية
- التكلفة الحسابية: التكلفة الحسابية أعلى بشكل ملحوظ مقارنة بطريقة BERT
- مشكلة الهلوسة: لا تزال نماذج اللغة الكبيرة تعاني من مشكلة توليد جوانب غير ذات صلة
- نقص المعايير: يفتقر مجال أنطولوجيا المنتجات إلى مجموعة بيانات معيارية قياسية
- بناء معايير قياسية: إنشاء مجموعة بيانات معيارية قياسية لهذه المهمة
- التحقق من خلال الدراسات البشرية: التحقق من الفائدة العملية للأنطولوجيا من خلال الدراسات البشرية
- تعميم الطريقة: استكشاف تطبيق الطريقة على أنواع أخرى من الأنطولوجيا (مثل أنطولوجيا التصنيف)
- تخفيف الهلوسة: البحث عن طرق لدمج نماذج لغة كبيرة متعددة لتقليل هلوسة النموذج الواحد
- ابتكار قوي: أول تطبيق منهجي لنماذج اللغة الكبيرة في استخراج أنطولوجيا جزء-كل
- اكتمال الطريقة: توفير حل خط أنابيب متكامل من النهاية إلى النهاية
- ابتكار التقييم: اقتراح إطار تقييم LLM-as-a-judge
- التجارب الشاملة: تتضمن تجارب استبعاد تفصيلية وتحليل الكفاءة
- المساهمة مفتوحة المصدر: توفير تنفيذ مفتوح المصدر كامل
- حدود التقييم: الاعتماد المفرط على تقييم نموذج اللغة الكبيرة، مع نقص التحقق من التقييم البشري
- اعتبارات التكلفة: زيادة كبيرة في التكلفة الحسابية لكن لم يتم مناقشة المقارنة بين التكلفة والفائدة بشكل كافٍ
- قابلية التعميم: التحقق فقط على 5 فئات منتجات، مع الحاجة إلى مزيد من التحقق من قابلية التعميم
- مقارنة المعايير: المقارنة مع طرق موجودة أخرى ليست كافية بما فيه الكفاية
- القيمة الأكاديمية: توفير مرجع مهم لتطبيق نماذج اللغة الكبيرة في بناء الأنطولوجيا
- القيمة العملية: لديها إمكانية تطبيق مباشرة في مجالات مثل التجارة الإلكترونية
- مساهمة منهجية: إطار تقييم LLM-as-a-judge له قابلية تطبيق واسعة
- قابلية الإعادة: توفير تفاصيل التنفيذ الشاملة والكود مفتوح المصدر
- منصات التجارة الإلكترونية: تصنيف المنتجات وأنظمة التوصيات
- بناء الرسوم البيانية للمعرفة: بناء الأنطولوجيا الآلي
- استخراج المعلومات: استخراج العلاقات المنظمة من النصوص غير المنظمة
- تحليل المراجعات: التعرف على ميزات وأجزاء المنتجات
تستشهد هذه الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:
- Oksanen وآخرون (2021): طريقة استخراج أنطولوجيا المنتجات المستندة إلى BERT
- Devlin وآخرون (2019): نموذج BERT
- Jiang وآخرون (2023): نموذج Mistral
- Pontiki وآخرون (2014): مجموعة بيانات SemEval-2014 Task 4
التقييم الشامل: هذه ورقة بحثية ذات مساهمة مهمة في مجال استخراج أنطولوجيا جزء-كل. الطريقة مبتكرة، وتصميم التجارب معقول، والنتائج مقنعة. على الرغم من وجود بعض القيود في طرق التقييم والتكلفة الحسابية، فإنها توفر رؤى وأدوات قيمة لتطور هذا المجال.