2025-11-20T11:34:15.055386

Meronymic Ontology Extraction via Large Language Models

Zhang, Conia, Rago
Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
academic

Estrazione dell'Ontologia Meronimica tramite Modelli Linguistici di Grandi Dimensioni

Informazioni Fondamentali

  • ID Articolo: 2510.13839
  • Titolo: Meronymic Ontology Extraction via Large Language Models
  • Autori: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: 11 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13839

Riassunto

Il presente articolo sfrutta i recenti progressi dei modelli linguistici di grandi dimensioni (LLM) per sviluppare un metodo completamente automatizzato per l'estrazione dell'ontologia dei prodotti (sotto forma di relazioni parte-tutto) da testi di recensioni grezze. La ricerca dimostra che l'ontologia generata dal metodo proposto supera i metodi di base esistenti basati su BERT nella valutazione condotta utilizzando LLM come valutatori. Questo studio getta le basi per applicazioni più ampie degli LLM nei compiti di estrazione ontologica.

Contesto di Ricerca e Motivazione

Definizione del Problema

Nell'era digitale, enormi quantità di dati testuali non strutturati richiedono organizzazione e strutturazione attraverso ontologie. In particolare nel settore dell'e-commerce, innumerevoli elenchi di prodotti necessitano di appropriate strutture organizzative. Le relazioni parte-tutto (relazioni meronimiche) hanno un valore significativo in compiti a valle come l'aggregazione di recensioni, l'analisi del sentimento e le domande e risposte sui prodotti.

Limitazioni dei Metodi Esistenti

  1. Elevato costo di costruzione manuale: La costruzione manuale dell'ontologia è un processo dispendioso in termini di tempo, denaro e risorse
  2. Insufficienza dei metodi di automazione esistenti: La ricerca precedente si è concentrata principalmente sull'estrazione di relazioni tassonomiche piuttosto che su relazioni parte-tutto
  3. Difficoltà di valutazione: Mancanza di dataset di riferimento standard, difficoltà nel valutare efficacemente la qualità dell'ontologia parte-tutto
  4. Dipendenza dall'annotazione umana: I metodi esistenti, come il metodo BERT di Oksanen et al. (2021), richiedono ancora un certo grado di annotazione manuale

Motivazione della Ricerca

Il presente articolo mira a sfruttare le potenti capacità degli LLM per sviluppare un metodo completamente automatizzato per l'estrazione dell'ontologia parte-tutto e propone un nuovo framework di valutazione per verificare l'efficacia del metodo.

Contributi Principali

  1. Proposta di metodo LLM completamente automatizzato: Sviluppo di un metodo completamente automatizzato utilizzando LLM per l'estrazione dell'ontologia parte-tutto, generalizzabile tra diverse categorie di prodotti
  2. Framework di valutazione innovativo: Proposta di un nuovo metodo per la valutazione empirica di vari compiti di estrazione dell'ontologia parte-tutto utilizzando LLM come valutatori (LLM-as-a-judge)
  3. Verifica del miglioramento delle prestazioni: Dimostrazione sperimentale che il metodo LLM supera significativamente il metodo di base basato su BERT in termini di rilevanza
  4. Codice open-source: Fornitura di codice di implementazione completo per promuovere la riproducibilità della ricerca

Dettagli del Metodo

Definizione del Compito

Input: Testo di recensioni di prodotti Output: Grafo dell'ontologia parte-tutto contenente nodi concettuali e relazioni "parte-tutto" tra di essi Vincoli: Le relazioni devono essere relazioni parte-tutto significative, i concetti devono essere rilevanti per il prodotto

Architettura del Modello

Il metodo proposto contiene una pipeline con quattro fasi principali:

1. Estrazione degli Aspetti (Aspect Extraction)

  • Metodo: Utilizzo di Mistral-7B-Instruct-v0.2 con fine-tuning
  • Dati di addestramento: Dataset SemEval-2014 Task 4 (1600 campioni)
  • Post-elaborazione: Utilizzo di annotazione POS per filtrare, mantenendo solo i sostantivi effettivamente presenti nelle recensioni
  • Controllo dell'output: Selezione dei 50 aspetti più comuni

2. Estrazione dei Synset (Synset Extraction)

  • Modello di embedding: Modello FastText con fine-tuning (gestisce errori di ortografia e abbreviazioni)
  • Algoritmo di clustering: Clustering di nodi equidistanti (ENC) basato su similarità del coseno
  • Vantaggi: Produce risultati di clustering più precisi rispetto a K-means

3. Estrazione dei Concetti (Concept Extraction)

  • Selezione del rappresentante: Selezione del termine più frequente in ogni synset come rappresentante
  • Giudizio di rilevanza: Utilizzo di prompt LLM per determinare se un termine deve essere incluso nell'ontologia
  • Criteri di filtro: Rilevanza, specificità, gerarchia

4. Estrazione delle Relazioni (Relation Extraction)

  • Elaborazione dell'input: Estrazione di frasi contenenti due aspetti da synset diversi
  • Progettazione del compito: Domanda a scelta multipla (l'aspetto A è parte dell'aspetto B / l'aspetto B è parte dell'aspetto A / nessuna relazione)
  • Addestramento del modello: Fine-tuning del modello Mistral tramite distillazione su 1000 campioni sintetici

Punti di Innovazione Tecnica

  1. Pipeline LLM end-to-end: Realizza un grado più elevato di automazione rispetto al metodo BERT
  2. Vincoli di output strutturato: Utilizzo di vincoli di sintassi JSON per garantire coerenza del formato di output
  3. Ottimizzazione multi-fase: Ogni fase è ottimizzata per compiti specifici, migliorando le prestazioni complessive
  4. Mitigazione delle allucinazioni: Riduzione dei problemi di allucinazione degli LLM attraverso filtraggio POS e fine-tuning

Configurazione Sperimentale

Dataset

  • Fonte: Dataset Amazon Reviews 2023
  • Categorie di prodotti: 5 categorie (videogiochi, televisori, collane/orologi, frullatori verticali)
  • Scala dei dati: 100.000 recensioni per prodotto (26.464 per frullatori)
  • Limitazioni di elaborazione: Compiti LLM utilizzano 1000 recensioni (considerando il tempo di elaborazione)

Metriche di Valutazione

Criteri di valutazione dei termini:

  1. Rilevanza: Se il termine rappresenta accuratamente una parte o un componente del prodotto
  2. Specificità: Se il termine possiede un livello appropriato di specificità
  3. Chiarezza: Se il termine comunica chiaramente l'intenzione, evitando ambiguità
  4. Corrispondenza al prodotto: Se il termine si adatta logicamente al prodotto dato

Criteri di valutazione delle relazioni:

  1. Gerarchia logica: Se il nodo figlio rappresenta una parte logica o una caratteristica del nodo padre
  2. Corrispondenza contestuale: Se la relazione è ragionevole nella categoria di prodotto Amazon
  3. Chiarezza e specificità: Se la relazione evita ambiguità e definisce chiaramente la relazione parte-tutto

Metodi di Confronto

  • Metodo di base: Metodo basato su BERT di Oksanen et al. (2021)
  • Metodo di valutazione: Gemini 1.5 Flash come valutatore LLM
  • Versioni di confronto: Versione completa e versione abbreviata (con numero di termini uguale al metodo di base)

Dettagli di Implementazione

  • Hardware: GPU NVIDIA GeForce RTX 4090
  • Ottimizzatore: Adam (tasso di apprendimento 10^-4)
  • Tecnica di fine-tuning: LoRA (r=4, α=16)
  • Epoche di addestramento: 3 epoche, dimensione batch 16

Risultati Sperimentali

Risultati Principali

Valutazione della Qualità dei Termini

Categoria ProdottoMetodo Proposto (Completo)Metodo Proposto (Abbreviato)Baseline BERT
Videogiochi4.004.183.92
Televisori4.064.053.95
Collane4.504.573.86
Orologi4.134.374.10
Frullatori Verticali4.364.403.31

Valutazione della Qualità delle Relazioni

Categoria ProdottoMetodo Proposto (Completo)Metodo Proposto (Abbreviato)Baseline BERT
Videogiochi3.893.823.43
Televisori3.994.563.21
Collane3.653.793.29
Orologi3.754.062.68
Frullatori Verticali3.303.402.47

Esperimenti di Ablazione

Confronto dei Metodi di Estrazione degli Aspetti

MetodoPunteggio Medio
Metodo A1 (Solo prompt)1.960 ± 0.006
Metodo A2 (Prompt + sentimento)2.259 ± 0.002
Metodo A3 (Fine-tuning)2.662 ± 0.006

Confronto dei Metodi di Estrazione delle Relazioni

MetodoVideogiochiTelevisoriCollaneOrologiFrullatori
Recensioni Complete3.8114.1553.3973.5703.080
Estratti3.7273.7263.4813.3982.493
Estratti + Fine-tuning3.8933.9873.6463.7473.303

Analisi dell'Efficienza

Tempo di Elaborazione del Metodo Proposto

FaseTempo Medio (minuti)
Estrazione degli Aspetti32.05
Estrazione dei Synset0.78
Estrazione dei Concetti1.52
Estrazione delle Relazioni4.53
Totale38.89

Tempo di Elaborazione del Baseline BERT

FaseTempo Medio (minuti)
Estrazione delle Entità1.66
Estrazione degli Aspetti2.79
Estrazione dei Synset0.82
Estrazione dell'Ontologia1.36
Totale6.62

Risultati Sperimentali

  1. Miglioramento della qualità: Il metodo LLM supera significativamente il baseline BERT sia nella qualità dei termini che delle relazioni
  2. Importanza del fine-tuning: Il fine-tuning produce miglioramenti significativi rispetto ai metodi basati su soli prompt
  3. Costo computazionale: Il metodo LLM ha qualità superiore ma costo computazionale circa 6 volte superiore al metodo BERT
  4. Scelta dell'algoritmo di clustering: ENC produce synset più precisi rispetto a K-means

Lavori Correlati

Apprendimento dell'Ontologia

L'apprendimento tradizionale dell'ontologia si basa principalmente su metodi di deep learning, ma la maggior parte si concentra sull'estrazione di relazioni tassonomiche piuttosto che su relazioni parte-tutto.

Applicazione degli LLM nella Costruzione dell'Ontologia

La ricerca recente ha iniziato a esplorare l'applicazione degli LLM in compiti chiave di apprendimento ontologico come l'estrazione di termini e relazioni, ma si concentra principalmente su relazioni tassonomiche.

Metodi di Valutazione

La valutazione della qualità dell'ontologia è sempre stata una sfida a causa della mancanza di benchmark standard. Il metodo LLM-as-a-judge proposto in questo articolo fornisce una nuova soluzione a questo problema.

Conclusioni e Discussione

Conclusioni Principali

  1. Il metodo LLM supera significativamente i metodi BERT esistenti nel compito di estrazione dell'ontologia parte-tutto
  2. Il fine-tuning e i vincoli di output strutturato sono fattori chiave per migliorare le prestazioni
  3. LLM-as-a-judge fornisce una soluzione praticabile per la valutazione della qualità dell'ontologia

Limitazioni

  1. Dipendenza dalla valutazione: Dipende principalmente da LLM-as-a-judge, mancanza di verifica tramite studi con utenti
  2. Costo computazionale: Costo computazionale significativamente aumentato rispetto al metodo BERT
  3. Problema delle allucinazioni: Gli LLM presentano ancora il problema di generare aspetti non rilevanti
  4. Mancanza di benchmark: Mancanza di dataset di benchmark standard nel campo dell'ontologia dei prodotti

Direzioni Future

  1. Costruzione di benchmark standard: Stabilire un dataset di benchmark standard per questo compito
  2. Verifica tramite studi con utenti: Verificare l'utilità pratica dell'ontologia attraverso studi con utenti
  3. Generalizzazione del metodo: Esplorare l'applicazione del metodo ad altri tipi di ontologie (come ontologie tassonomiche)
  4. Mitigazione delle allucinazioni: Ricerca su metodi di integrazione di più LLM per ridurre le allucinazioni di singoli modelli

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Prima applicazione sistematica degli LLM all'estrazione dell'ontologia parte-tutto
  2. Metodo completo: Fornisce una soluzione pipeline end-to-end completa
  3. Valutazione innovativa: Propone il framework di valutazione LLM-as-a-judge
  4. Esperimenti sufficienti: Include esperimenti di ablazione dettagliati e analisi dell'efficienza
  5. Contributo open-source: Fornisce implementazione open-source completa

Insufficienze

  1. Limitazioni della valutazione: Eccessiva dipendenza dalla valutazione LLM, mancanza di verifica tramite valutazione umana
  2. Considerazioni di costo: Costo computazionale significativamente aumentato ma analisi insufficiente del compromesso costo-beneficio
  3. Generalizzabilità: Verificato solo su 5 categorie di prodotti, generalizzabilità richiede ulteriore verifica
  4. Confronto con benchmark: Confronto insufficiente con più metodi esistenti

Impatto

  1. Valore accademico: Fornisce importanti riferimenti per l'applicazione degli LLM nella costruzione dell'ontologia
  2. Valore pratico: Ha potenziale di applicazione diretta in settori come l'e-commerce
  3. Contributo metodologico: Il framework di valutazione LLM-as-a-judge ha ampia applicabilità
  4. Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open-source

Scenari Applicabili

  1. Piattaforme di e-commerce: Classificazione di prodotti e sistemi di raccomandazione
  2. Costruzione di grafi di conoscenza: Costruzione automatizzata dell'ontologia
  3. Estrazione di informazioni: Estrazione di relazioni strutturate da testo non strutturato
  4. Analisi di recensioni: Identificazione di caratteristiche e componenti di prodotti

Bibliografia

L'articolo cita importanti lavori nel campo correlato, inclusi:

  • Oksanen et al. (2021): Metodo di estrazione dell'ontologia dei prodotti basato su BERT
  • Devlin et al. (2019): Modello BERT
  • Jiang et al. (2023): Modello Mistral
  • Pontiki et al. (2014): Dataset SemEval-2014 Task 4

Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo dell'estrazione dell'ontologia parte-tutto. Il metodo è altamente innovativo, la progettazione sperimentale è ragionevole e i risultati sono convincenti. Sebbene esistano alcune limitazioni nei metodi di valutazione e nei costi computazionali, l'articolo fornisce intuizioni e strumenti preziosi per lo sviluppo del campo.