Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
- Paper-ID: 2510.13839
- Titel: Meronymic Ontology Extraction via Large Language Models
- Autoren: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.13839
In diesem Artikel wird eine vollautomatisierte Methode zur Extraktion von Produktontologien (in Form von Teil-Ganzes-Beziehungen) aus rohen Bewertungstexten unter Nutzung der neuesten Fortschritte bei großen Sprachmodellen (LLMs) entwickelt. Die Forschung zeigt, dass die von dieser Methode generierte Ontologie in Bewertungen, die LLMs als Bewerter nutzen, bestehende BERT-basierte Baseline-Methoden übertrifft. Diese Forschung legt den Grundstein für breitere Anwendungen von LLMs bei Ontologie-Extraktionsaufgaben.
Im digitalen Zeitalter müssen massive Mengen unstrukturierter Textdaten durch Ontologien organisiert und strukturiert werden. Besonders im E-Commerce-Bereich erfordern unzählige Produktlisten eine angemessene Produktorganisationsstruktur. Teil-Ganzes-Beziehungen (meronymische Relationen) haben wichtige Bedeutung für nachgelagerte Aufgaben wie Bewertungsaggregation, Sentimentanalyse und Produktfrage-Antwort-Systeme.
- Hohe Kosten der manuellen Konstruktion: Die manuelle Konstruktion von Ontologien ist ein zeitaufwändiger, kostspieliger und arbeitsintensiver Prozess
- Unzureichende bestehende Automatisierungsmethoden: Bisherige Forschung konzentrierte sich hauptsächlich auf taxonomische Beziehungen statt auf die Extraktion von Teil-Ganzes-Beziehungen
- Bewertungsschwierigkeiten: Mangel an standardisierten Benchmark-Datensätzen erschwert die effektive Bewertung der Qualität von Teil-Ganzes-Ontologien
- Abhängigkeit von manueller Annotation: Bestehende Methoden wie die BERT-Methode von Oksanen et al. (2021) erfordern immer noch ein gewisses Maß an manueller Annotation
Dieser Artikel zielt darauf ab, die starken Fähigkeiten von LLMs zu nutzen, um eine vollständig automatisierte Methode zur Extraktion von Teil-Ganzes-Ontologien zu entwickeln und einen neuen Bewertungsrahmen vorzuschlagen, um die Wirksamkeit der Methode zu validieren.
- Vollautomatisierte LLM-Methode: Entwicklung einer vollständig automatisierten Methode unter Verwendung von LLMs zur Extraktion von Teil-Ganzes-Ontologien, die über verschiedene Produktkategorien verallgemeinerbar ist
- Innovativer Bewertungsrahmen: Vorschlag einer neuen Methode zur empirischen Bewertung von Teil-Ganzes-Ontologie-Extraktionsaufgaben unter Verwendung von LLMs als Bewerter (LLM-as-a-judge)
- Leistungsverbesserungsverifikation: Experimentelle Verifikation, dass die LLM-Methode die BERT-basierte Baseline-Methode in Bezug auf Relevanz erheblich übertrifft
- Open-Source-Code: Bereitstellung vollständiger Implementierungscode zur Förderung der Reproduzierbarkeit der Forschung
Eingabe: Produktbewertungstexte
Ausgabe: Teil-Ganzes-Ontologie-Graph mit Konzeptknoten und "Teil-Ganzes"-Beziehungen zwischen ihnen
Einschränkungen: Beziehungen müssen bedeutungsvolle Teil-Ganzes-Beziehungen sein, Konzepte müssen produktrelevant sein
Die vorgeschlagene Methode besteht aus vier Hauptphasen einer Pipeline:
- Methode: Feinabstimmung mit Mistral-7B-Instruct-v0.2
- Trainingsdaten: SemEval-2014 Task 4 Datensatz (1.600 Stichproben)
- Nachbearbeitung: Verwendung von POS-Tagging-Filterung, wobei nur tatsächlich in Bewertungen vorkommende Substantive beibehalten werden
- Ausgabekontrolle: Auswahl der 50 häufigsten Aspekte
- Einbettungsmodell: Feinabgestimmtes FastText-Modell (Behandlung von Tippfehlern und Abkürzungen)
- Clustering-Algorithmus: Equidistant Node Clustering (ENC) basierend auf Kosinus-Ähnlichkeit
- Vorteile: Erzeugt präzisere Clustering-Ergebnisse im Vergleich zu K-means
- Repräsentantenauswahl: Auswahl des am häufigsten vorkommenden Begriffs in jedem Synset als Repräsentant
- Relevanzbeurteilung: Verwendung von LLM-Prompts zur Beurteilung, ob ein Begriff in die Ontologie aufgenommen werden sollte
- Filterungskriterien: Relevanz, Spezifität, Hierarchie
- Eingabeverarbeitung: Extraktion von Sätzen, die zwei Aspekte aus verschiedenen Synsets enthalten
- Aufgabendesign: Multiple-Choice-Frage (Aspekt A ist Teil von Aspekt B / Aspekt B ist Teil von Aspekt A / keine Beziehung)
- Modelltraining: Feinabstimmung des Mistral-Modells durch Destillation auf 1.000 synthetischen Stichproben
- End-to-End-LLM-Pipeline: Realisierung eines höheren Automatisierungsgrades im Vergleich zu BERT-Methoden
- Strukturierte Ausgabebeschränkungen: Verwendung von JSON-Syntax-Beschränkungen zur Gewährleistung konsistenter Ausgabeformate
- Mehrstufige Optimierung: Jede Phase wird für spezifische Aufgaben optimiert, um die Gesamtleistung zu verbessern
- Halluzinations-Minderung: Reduzierung von LLM-Halluzinationsproblemen durch POS-Tagging-Filterung und Feinabstimmung
- Quelle: Amazon Reviews 2023 Datensatz
- Produktkategorien: 5 Kategorien (Videospiele, Fernseher, Halsketten/Uhren, Standmixer)
- Datengröße: 100.000 Bewertungen pro Produkt (Mixer: 26.464)
- Verarbeitungsbeschränkung: LLM-Aufgaben verwenden 1.000 Bewertungen (unter Berücksichtigung der Verarbeitungszeit)
Bewertungskriterien für Begriffe:
- Relevanz: Ob der Begriff genau einen Teil oder eine Komponente des Produkts darstellt
- Spezifität: Ob der Begriff ein angemessenes Spezifitätsniveau aufweist
- Klarheit: Ob der Begriff die Absicht klar vermittelt und Mehrdeutigkeiten vermeidet
- Produktkompatibilität: Ob der Begriff logisch zum gegebenen Produkt passt
Bewertungskriterien für Beziehungen:
- Logische Hierarchie: Ob der untergeordnete Knoten einen logischen Teil oder ein Merkmal des übergeordneten Knotens darstellt
- Kontextübereinstimmung: Ob die Beziehung in Amazon-Produktkategorien sinnvoll ist
- Klarheit und Spezifität: Ob die Beziehung Mehrdeutigkeiten vermeidet und die Teil-Ganzes-Beziehung klar definiert
- Baseline-Methode: BERT-basierte Methode von Oksanen et al. (2021)
- Bewertungsmethode: Gemini 1.5 Flash als LLM-Bewerter
- Vergleichsversionen: Vollversion und gekürzte Version (gleiche Anzahl von Begriffen wie Baseline)
- Hardware: NVIDIA GeForce RTX 4090 GPU
- Optimierer: Adam (Lernrate 10^-4)
- Feinabstimmungstechnik: LoRA (r=4, α=16)
- Trainingsrunden: 3 Runden, Batch-Größe 16
| Produktkategorie | Unsere Methode (vollständig) | Unsere Methode (gekürzt) | BERT-Baseline |
|---|
| Videospiele | 4,00 | 4,18 | 3,92 |
| Fernseher | 4,06 | 4,05 | 3,95 |
| Halsketten | 4,50 | 4,57 | 3,86 |
| Uhren | 4,13 | 4,37 | 4,10 |
| Standmixer | 4,36 | 4,40 | 3,31 |
| Produktkategorie | Unsere Methode (vollständig) | Unsere Methode (gekürzt) | BERT-Baseline |
|---|
| Videospiele | 3,89 | 3,82 | 3,43 |
| Fernseher | 3,99 | 4,56 | 3,21 |
| Halsketten | 3,65 | 3,79 | 3,29 |
| Uhren | 3,75 | 4,06 | 2,68 |
| Standmixer | 3,30 | 3,40 | 2,47 |
| Methode | Durchschnittliche Punktzahl |
|---|
| Methode A1 (nur Prompting) | 1,960 ± 0,006 |
| Methode A2 (Prompting + Sentiment) | 2,259 ± 0,002 |
| Methode A3 (Feinabstimmung) | 2,662 ± 0,006 |
| Methode | Videospiele | Fernseher | Halsketten | Uhren | Mixer |
|---|
| Vollständige Bewertungen | 3,811 | 4,155 | 3,397 | 3,570 | 3,080 |
| Auszüge | 3,727 | 3,726 | 3,481 | 3,398 | 2,493 |
| Auszüge + Feinabstimmung | 3,893 | 3,987 | 3,646 | 3,747 | 3,303 |
| Phase | Durchschnittliche Zeit (Minuten) |
|---|
| Aspekt-Extraktion | 32,05 |
| Synset-Extraktion | 0,78 |
| Konzept-Extraktion | 1,52 |
| Relationsextraktion | 4,53 |
| Gesamt | 38,89 |
| Phase | Durchschnittliche Zeit (Minuten) |
|---|
| Entitäts-Extraktion | 1,66 |
| Aspekt-Extraktion | 2,79 |
| Synset-Extraktion | 0,82 |
| Ontologie-Extraktion | 1,36 |
| Gesamt | 6,62 |
- Qualitätsverbesserung: Die LLM-Methode übertrifft die BERT-Baseline sowohl in Bezug auf Begriffs- als auch Relationsqualität erheblich
- Bedeutung der Feinabstimmung: Feinabstimmung bringt erhebliche Leistungsverbesserungen im Vergleich zu reinen Prompting-Methoden
- Rechenkosten: Die LLM-Methode hat höhere Qualität, aber etwa 6-fache Rechenkosten der BERT-Methode
- Clustering-Algorithmusauswahl: ENC erzeugt präzisere Synsets im Vergleich zu K-means
Das traditionelle Ontologie-Lernen stützt sich hauptsächlich auf Deep-Learning-Methoden, konzentriert sich aber größtenteils auf taxonomische Beziehungen statt auf die Extraktion von Teil-Ganzes-Beziehungen.
Neuere Forschungen beginnen, die Anwendung von LLMs bei wichtigen Ontologie-Lernaufgaben wie Begriffs- und Relationsextraktion zu erforschen, konzentrieren sich aber hauptsächlich auf taxonomische Beziehungen.
Aufgrund des Mangels an standardisierten Benchmarks war die Bewertung der Ontologie-Qualität immer eine Herausforderung. Die in diesem Artikel vorgeschlagene LLM-as-a-judge-Methode bietet eine neue Lösung für dieses Problem.
- Die LLM-Methode übertrifft bestehende BERT-Methoden bei der Extraktion von Teil-Ganzes-Ontologien erheblich
- Feinabstimmung und strukturierte Ausgabebeschränkungen sind Schlüsselfaktoren zur Leistungsverbesserung
- LLM-as-a-judge bietet eine praktikable Lösung für die Bewertung der Ontologie-Qualität
- Bewertungsabhängigkeit: Hauptsächlich abhängig von LLM-as-a-judge, mangelnde Validierung durch Benutzerstudien
- Rechenkosten: Rechenkosten sind im Vergleich zur BERT-Methode erheblich erhöht
- Halluzinationsproblem: LLMs erzeugen immer noch irrelevante Aspekte
- Benchmark-Mangel: Fehlende standardisierte Benchmark-Datensätze im Bereich Produkt-Ontologien
- Benchmark-Konstruktion: Aufbau standardisierter Benchmark-Datensätze für diese Aufgabe
- Benutzerstudienvalidierung: Validierung der Praktikabilität von Ontologien durch Benutzerstudien
- Methodenverallgemeinerung: Erforschung der Anwendung der Methode auf andere Ontologie-Typen (z. B. taxonomische Ontologien)
- Halluzinations-Minderung: Untersuchung der Integration mehrerer LLMs zur Reduzierung von Halluzinationen einzelner Modelle
- Starke Innovativität: Erste systematische Anwendung von LLMs auf die Extraktion von Teil-Ganzes-Ontologien
- Vollständige Methode: Bereitstellung einer vollständigen End-to-End-Pipeline-Lösung
- Bewertungsinnovation: Vorschlag eines LLM-as-a-judge-Bewertungsrahmens
- Umfangreiche Experimente: Detaillierte Ablationsstudien und Effizienzanalyse
- Open-Source-Beitrag: Bereitstellung vollständiger Open-Source-Implementierung
- Bewertungsbeschränkungen: Übermäßige Abhängigkeit von LLM-Bewertung, mangelnde menschliche Bewertungsvalidierung
- Kostenüberlegung: Erheblich erhöhte Rechenkosten, aber unzureichende Diskussion der Kosten-Nutzen-Abwägung
- Verallgemeinerbarkeit: Validierung nur auf 5 Produktkategorien, weitere Verallgemeinerungsvalidierung erforderlich
- Unzureichender Baseline-Vergleich: Vergleich mit mehr bestehenden Methoden erforderlich
- Akademischer Wert: Wichtige Referenz für die Anwendung von LLMs beim Ontologie-Aufbau
- Praktischer Wert: Direkte Anwendungspotenziale in E-Commerce und verwandten Bereichen
- Methodologischer Beitrag: Der LLM-as-a-judge-Bewertungsrahmen hat breite Anwendbarkeit
- Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Code
- E-Commerce-Plattformen: Produktklassifizierung und Empfehlungssysteme
- Wissengraph-Konstruktion: Automatisierter Ontologie-Aufbau
- Informationsextraktion: Extraktion strukturierter Beziehungen aus unstrukturierten Texten
- Bewertungsanalyse: Produktmerkmals- und Komponentenerkennung
Der Artikel zitiert wichtige Arbeiten im relevanten Bereich, darunter:
- Oksanen et al. (2021): BERT-basierte Produktontologie-Extraktionsmethode
- Devlin et al. (2019): BERT-Modell
- Jiang et al. (2023): Mistral-Modell
- Pontiki et al. (2014): SemEval-2014 Task 4 Datensatz
Gesamtbewertung: Dies ist ein Artikel mit wichtigen Beiträgen im Bereich der Extraktion von Teil-Ganzes-Ontologien. Die Methode ist innovativ, das Experimentdesign ist vernünftig und die Ergebnisse sind überzeugend. Obwohl es einige Einschränkungen bei der Bewertungsmethode und den Rechenkosten gibt, bietet der Artikel wertvolle Erkenntnisse und Werkzeuge für die Entwicklung des Feldes.