2025-11-20T11:34:15.055386

Meronymic Ontology Extraction via Large Language Models

Zhang, Conia, Rago

Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.

academic

Meronymische Ontologie-Extraktion mittels großer Sprachmodelle

Grundinformationen

Paper-ID: 2510.13839
Titel: Meronymic Ontology Extraction via Large Language Models
Autoren: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13839

Zusammenfassung

In diesem Artikel wird eine vollautomatisierte Methode zur Extraktion von Produktontologien (in Form von Teil-Ganzes-Beziehungen) aus rohen Bewertungstexten unter Nutzung der neuesten Fortschritte bei großen Sprachmodellen (LLMs) entwickelt. Die Forschung zeigt, dass die von dieser Methode generierte Ontologie in Bewertungen, die LLMs als Bewerter nutzen, bestehende BERT-basierte Baseline-Methoden übertrifft. Diese Forschung legt den Grundstein für breitere Anwendungen von LLMs bei Ontologie-Extraktionsaufgaben.

Forschungshintergrund und Motivation

Problemdefinition

Im digitalen Zeitalter müssen massive Mengen unstrukturierter Textdaten durch Ontologien organisiert und strukturiert werden. Besonders im E-Commerce-Bereich erfordern unzählige Produktlisten eine angemessene Produktorganisationsstruktur. Teil-Ganzes-Beziehungen (meronymische Relationen) haben wichtige Bedeutung für nachgelagerte Aufgaben wie Bewertungsaggregation, Sentimentanalyse und Produktfrage-Antwort-Systeme.

Einschränkungen bestehender Methoden

Hohe Kosten der manuellen Konstruktion: Die manuelle Konstruktion von Ontologien ist ein zeitaufwändiger, kostspieliger und arbeitsintensiver Prozess
Unzureichende bestehende Automatisierungsmethoden: Bisherige Forschung konzentrierte sich hauptsächlich auf taxonomische Beziehungen statt auf die Extraktion von Teil-Ganzes-Beziehungen
Bewertungsschwierigkeiten: Mangel an standardisierten Benchmark-Datensätzen erschwert die effektive Bewertung der Qualität von Teil-Ganzes-Ontologien
Abhängigkeit von manueller Annotation: Bestehende Methoden wie die BERT-Methode von Oksanen et al. (2021) erfordern immer noch ein gewisses Maß an manueller Annotation

Forschungsmotivation

Dieser Artikel zielt darauf ab, die starken Fähigkeiten von LLMs zu nutzen, um eine vollständig automatisierte Methode zur Extraktion von Teil-Ganzes-Ontologien zu entwickeln und einen neuen Bewertungsrahmen vorzuschlagen, um die Wirksamkeit der Methode zu validieren.

Kernbeiträge

Vollautomatisierte LLM-Methode: Entwicklung einer vollständig automatisierten Methode unter Verwendung von LLMs zur Extraktion von Teil-Ganzes-Ontologien, die über verschiedene Produktkategorien verallgemeinerbar ist
Innovativer Bewertungsrahmen: Vorschlag einer neuen Methode zur empirischen Bewertung von Teil-Ganzes-Ontologie-Extraktionsaufgaben unter Verwendung von LLMs als Bewerter (LLM-as-a-judge)
Leistungsverbesserungsverifikation: Experimentelle Verifikation, dass die LLM-Methode die BERT-basierte Baseline-Methode in Bezug auf Relevanz erheblich übertrifft
Open-Source-Code: Bereitstellung vollständiger Implementierungscode zur Förderung der Reproduzierbarkeit der Forschung

Methodische Details

Aufgabendefinition

Eingabe: Produktbewertungstexte Ausgabe: Teil-Ganzes-Ontologie-Graph mit Konzeptknoten und "Teil-Ganzes"-Beziehungen zwischen ihnen Einschränkungen: Beziehungen müssen bedeutungsvolle Teil-Ganzes-Beziehungen sein, Konzepte müssen produktrelevant sein

Modellarchitektur

Die vorgeschlagene Methode besteht aus vier Hauptphasen einer Pipeline:

1. Aspekt-Extraktion (Aspect Extraction)

Methode: Feinabstimmung mit Mistral-7B-Instruct-v0.2
Trainingsdaten: SemEval-2014 Task 4 Datensatz (1.600 Stichproben)
Nachbearbeitung: Verwendung von POS-Tagging-Filterung, wobei nur tatsächlich in Bewertungen vorkommende Substantive beibehalten werden
Ausgabekontrolle: Auswahl der 50 häufigsten Aspekte

2. Synset-Extraktion (Synset Extraction)

Einbettungsmodell: Feinabgestimmtes FastText-Modell (Behandlung von Tippfehlern und Abkürzungen)
Clustering-Algorithmus: Equidistant Node Clustering (ENC) basierend auf Kosinus-Ähnlichkeit
Vorteile: Erzeugt präzisere Clustering-Ergebnisse im Vergleich zu K-means

3. Konzept-Extraktion (Concept Extraction)

Repräsentantenauswahl: Auswahl des am häufigsten vorkommenden Begriffs in jedem Synset als Repräsentant
Relevanzbeurteilung: Verwendung von LLM-Prompts zur Beurteilung, ob ein Begriff in die Ontologie aufgenommen werden sollte
Filterungskriterien: Relevanz, Spezifität, Hierarchie

4. Relationsextraktion (Relation Extraction)

Eingabeverarbeitung: Extraktion von Sätzen, die zwei Aspekte aus verschiedenen Synsets enthalten
Aufgabendesign: Multiple-Choice-Frage (Aspekt A ist Teil von Aspekt B / Aspekt B ist Teil von Aspekt A / keine Beziehung)
Modelltraining: Feinabstimmung des Mistral-Modells durch Destillation auf 1.000 synthetischen Stichproben

Technische Innovationspunkte

End-to-End-LLM-Pipeline: Realisierung eines höheren Automatisierungsgrades im Vergleich zu BERT-Methoden
Strukturierte Ausgabebeschränkungen: Verwendung von JSON-Syntax-Beschränkungen zur Gewährleistung konsistenter Ausgabeformate
Mehrstufige Optimierung: Jede Phase wird für spezifische Aufgaben optimiert, um die Gesamtleistung zu verbessern
Halluzinations-Minderung: Reduzierung von LLM-Halluzinationsproblemen durch POS-Tagging-Filterung und Feinabstimmung

Experimentelle Einrichtung

Datensätze

Quelle: Amazon Reviews 2023 Datensatz
Produktkategorien: 5 Kategorien (Videospiele, Fernseher, Halsketten/Uhren, Standmixer)
Datengröße: 100.000 Bewertungen pro Produkt (Mixer: 26.464)
Verarbeitungsbeschränkung: LLM-Aufgaben verwenden 1.000 Bewertungen (unter Berücksichtigung der Verarbeitungszeit)

Bewertungsmetriken

Bewertungskriterien für Begriffe:

Relevanz: Ob der Begriff genau einen Teil oder eine Komponente des Produkts darstellt
Spezifität: Ob der Begriff ein angemessenes Spezifitätsniveau aufweist
Klarheit: Ob der Begriff die Absicht klar vermittelt und Mehrdeutigkeiten vermeidet
Produktkompatibilität: Ob der Begriff logisch zum gegebenen Produkt passt

Bewertungskriterien für Beziehungen:

Logische Hierarchie: Ob der untergeordnete Knoten einen logischen Teil oder ein Merkmal des übergeordneten Knotens darstellt
Kontextübereinstimmung: Ob die Beziehung in Amazon-Produktkategorien sinnvoll ist
Klarheit und Spezifität: Ob die Beziehung Mehrdeutigkeiten vermeidet und die Teil-Ganzes-Beziehung klar definiert

Vergleichsmethoden

Baseline-Methode: BERT-basierte Methode von Oksanen et al. (2021)
Bewertungsmethode: Gemini 1.5 Flash als LLM-Bewerter
Vergleichsversionen: Vollversion und gekürzte Version (gleiche Anzahl von Begriffen wie Baseline)

Implementierungsdetails

Hardware: NVIDIA GeForce RTX 4090 GPU
Optimierer: Adam (Lernrate 10^-4)
Feinabstimmungstechnik: LoRA (r=4, α=16)
Trainingsrunden: 3 Runden, Batch-Größe 16

Experimentelle Ergebnisse

Hauptergebnisse

Bewertung der Begriffsqualität

Produktkategorie	Unsere Methode (vollständig)	Unsere Methode (gekürzt)	BERT-Baseline
Videospiele	4,00	4,18	3,92
Fernseher	4,06	4,05	3,95
Halsketten	4,50	4,57	3,86
Uhren	4,13	4,37	4,10
Standmixer	4,36	4,40	3,31

Bewertung der Relationsqualität

Produktkategorie	Unsere Methode (vollständig)	Unsere Methode (gekürzt)	BERT-Baseline
Videospiele	3,89	3,82	3,43
Fernseher	3,99	4,56	3,21
Halsketten	3,65	3,79	3,29
Uhren	3,75	4,06	2,68
Standmixer	3,30	3,40	2,47

Ablationsstudien

Vergleich der Aspekt-Extraktionsmethoden

Methode	Durchschnittliche Punktzahl
Methode A1 (nur Prompting)	1,960 ± 0,006
Methode A2 (Prompting + Sentiment)	2,259 ± 0,002
Methode A3 (Feinabstimmung)	2,662 ± 0,006

Vergleich der Relationsextraktionsmethoden

Methode	Videospiele	Fernseher	Halsketten	Uhren	Mixer
Vollständige Bewertungen	3,811	4,155	3,397	3,570	3,080
Auszüge	3,727	3,726	3,481	3,398	2,493
Auszüge + Feinabstimmung	3,893	3,987	3,646	3,747	3,303

Effizienzanalyse

Verarbeitungszeit unserer Methode

Phase	Durchschnittliche Zeit (Minuten)
Aspekt-Extraktion	32,05
Synset-Extraktion	0,78
Konzept-Extraktion	1,52
Relationsextraktion	4,53
Gesamt	38,89

Verarbeitungszeit der BERT-Baseline

Phase	Durchschnittliche Zeit (Minuten)
Entitäts-Extraktion	1,66
Aspekt-Extraktion	2,79
Synset-Extraktion	0,82
Ontologie-Extraktion	1,36
Gesamt	6,62

Experimentelle Erkenntnisse

Qualitätsverbesserung: Die LLM-Methode übertrifft die BERT-Baseline sowohl in Bezug auf Begriffs- als auch Relationsqualität erheblich
Bedeutung der Feinabstimmung: Feinabstimmung bringt erhebliche Leistungsverbesserungen im Vergleich zu reinen Prompting-Methoden
Rechenkosten: Die LLM-Methode hat höhere Qualität, aber etwa 6-fache Rechenkosten der BERT-Methode
Clustering-Algorithmusauswahl: ENC erzeugt präzisere Synsets im Vergleich zu K-means

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die LLM-Methode übertrifft bestehende BERT-Methoden bei der Extraktion von Teil-Ganzes-Ontologien erheblich
Feinabstimmung und strukturierte Ausgabebeschränkungen sind Schlüsselfaktoren zur Leistungsverbesserung
LLM-as-a-judge bietet eine praktikable Lösung für die Bewertung der Ontologie-Qualität

Einschränkungen

Bewertungsabhängigkeit: Hauptsächlich abhängig von LLM-as-a-judge, mangelnde Validierung durch Benutzerstudien
Rechenkosten: Rechenkosten sind im Vergleich zur BERT-Methode erheblich erhöht
Halluzinationsproblem: LLMs erzeugen immer noch irrelevante Aspekte
Benchmark-Mangel: Fehlende standardisierte Benchmark-Datensätze im Bereich Produkt-Ontologien

Zukünftige Richtungen

Benchmark-Konstruktion: Aufbau standardisierter Benchmark-Datensätze für diese Aufgabe
Benutzerstudienvalidierung: Validierung der Praktikabilität von Ontologien durch Benutzerstudien
Methodenverallgemeinerung: Erforschung der Anwendung der Methode auf andere Ontologie-Typen (z. B. taxonomische Ontologien)
Halluzinations-Minderung: Untersuchung der Integration mehrerer LLMs zur Reduzierung von Halluzinationen einzelner Modelle

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erste systematische Anwendung von LLMs auf die Extraktion von Teil-Ganzes-Ontologien
Vollständige Methode: Bereitstellung einer vollständigen End-to-End-Pipeline-Lösung
Bewertungsinnovation: Vorschlag eines LLM-as-a-judge-Bewertungsrahmens
Umfangreiche Experimente: Detaillierte Ablationsstudien und Effizienzanalyse
Open-Source-Beitrag: Bereitstellung vollständiger Open-Source-Implementierung

Schwächen

Bewertungsbeschränkungen: Übermäßige Abhängigkeit von LLM-Bewertung, mangelnde menschliche Bewertungsvalidierung
Kostenüberlegung: Erheblich erhöhte Rechenkosten, aber unzureichende Diskussion der Kosten-Nutzen-Abwägung
Verallgemeinerbarkeit: Validierung nur auf 5 Produktkategorien, weitere Verallgemeinerungsvalidierung erforderlich
Unzureichender Baseline-Vergleich: Vergleich mit mehr bestehenden Methoden erforderlich

Auswirkungen

Akademischer Wert: Wichtige Referenz für die Anwendung von LLMs beim Ontologie-Aufbau
Praktischer Wert: Direkte Anwendungspotenziale in E-Commerce und verwandten Bereichen
Methodologischer Beitrag: Der LLM-as-a-judge-Bewertungsrahmen hat breite Anwendbarkeit
Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

E-Commerce-Plattformen: Produktklassifizierung und Empfehlungssysteme
Wissengraph-Konstruktion: Automatisierter Ontologie-Aufbau
Informationsextraktion: Extraktion strukturierter Beziehungen aus unstrukturierten Texten
Bewertungsanalyse: Produktmerkmals- und Komponentenerkennung

Literaturverzeichnis

Der Artikel zitiert wichtige Arbeiten im relevanten Bereich, darunter:

Oksanen et al. (2021): BERT-basierte Produktontologie-Extraktionsmethode
Devlin et al. (2019): BERT-Modell
Jiang et al. (2023): Mistral-Modell
Pontiki et al. (2014): SemEval-2014 Task 4 Datensatz

Gesamtbewertung: Dies ist ein Artikel mit wichtigen Beiträgen im Bereich der Extraktion von Teil-Ganzes-Ontologien. Die Methode ist innovativ, das Experimentdesign ist vernünftig und die Ergebnisse sind überzeugend. Obwohl es einige Einschränkungen bei der Bewertungsmethode und den Rechenkosten gibt, bietet der Artikel wertvolle Erkenntnisse und Werkzeuge für die Entwicklung des Feldes.