Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.
Extraction d'Ontologie Méronyme via Grands Modèles de Langage
- ID de l'article : 2510.13839
- Titre : Meronymic Ontology Extraction via Large Language Models
- Auteurs : Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
- Classification : cs.CL cs.AI
- Date de publication : 11 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.13839
Cet article exploite les avancées récentes des grands modèles de langage (LLMs) pour développer une méthode entièrement automatisée d'extraction d'ontologies de produits (sous forme de relations partie-tout) à partir de textes d'avis bruts. L'étude démontre que l'ontologie générée par cette méthode surpasse les méthodes de base existantes basées sur BERT lors d'une évaluation utilisant un LLM comme évaluateur. Cette recherche jette les bases pour une application plus large des LLMs aux tâches d'extraction d'ontologies.
À l'ère numérique, d'énormes volumes de données textuelles non structurées doivent être organisés et structurés par le biais d'ontologies. Particulièrement dans le secteur du commerce électronique, d'innombrables listes de produits nécessitent une structure organisationnelle appropriée. Les relations partie-tout (relations méronymiques) revêtent une importance cruciale pour les tâches en aval telles que l'agrégation d'avis, l'analyse des sentiments et les systèmes de questions-réponses sur les produits.
- Coût élevé de la construction manuelle : La construction manuelle d'ontologies est un processus chronophage, coûteux et fastidieux
- Insuffisance des méthodes d'automatisation existantes : Les recherches antérieures se sont principalement concentrées sur l'extraction de relations taxonomiques plutôt que de relations partie-tout
- Difficulté d'évaluation : Absence de jeux de données de référence normalisés, rendant difficile l'évaluation efficace de la qualité des ontologies partie-tout
- Dépendance à l'annotation manuelle : Les méthodes existantes, telles que la méthode BERT d'Oksanen et al. (2021), nécessitent toujours un certain degré d'annotation manuelle
Cet article vise à exploiter les puissantes capacités des LLMs pour développer une méthode entièrement automatisée d'extraction d'ontologies partie-tout et proposer un nouveau cadre d'évaluation pour valider l'efficacité de la méthode.
- Proposition d'une méthode LLM entièrement automatisée : Développement d'une méthode entièrement automatisée utilisant les LLMs pour l'extraction d'ontologies partie-tout, généralisable à différentes catégories de produits
- Cadre d'évaluation innovant : Proposition d'une nouvelle méthode d'évaluation empirique utilisant un LLM comme évaluateur (LLM-as-a-judge) pour les tâches d'extraction d'ontologies partie-tout
- Vérification de l'amélioration des performances : Démonstration expérimentale que la méthode LLM surpasse significativement la méthode de base basée sur BERT en termes de pertinence
- Code open-source : Fourniture d'une implémentation complète pour promouvoir la reproductibilité de la recherche
Entrée : Texte d'avis sur les produits
Sortie : Graphe d'ontologie partie-tout contenant des nœuds de concepts et des relations « partie-tout » entre eux
Contraintes : Les relations doivent être des relations partie-tout significatives, et les concepts doivent être pertinents pour le produit
La méthode proposée comprend un pipeline en quatre étapes principales :
- Méthode : Utilisation de Mistral-7B-Instruct-v0.2 affiné
- Données d'entraînement : Ensemble de données SemEval-2014 Task 4 (1 600 échantillons)
- Post-traitement : Filtrage utilisant l'étiquetage POS, conservant uniquement les noms réellement présents dans les avis
- Contrôle de sortie : Sélection des 50 aspects les plus courants
- Modèle d'embedding : Modèle FastText affiné (gestion des erreurs d'orthographe et des abréviations)
- Algorithme de clustering : Clustering de nœuds équidistants (ENC) basé sur la similarité cosinus
- Avantage : Produit des résultats de clustering plus précis comparé à K-means
- Sélection de représentants : Sélection du terme le plus fréquent dans chaque ensemble de synonymes comme représentant
- Jugement de pertinence : Utilisation d'invites LLM pour déterminer si un terme doit être inclus dans l'ontologie
- Critères de filtrage : Pertinence, spécificité, hiérarchie
- Traitement des entrées : Extraction de phrases contenant deux aspects provenant d'ensembles de synonymes différents
- Conception de la tâche : Question à choix multiples (l'aspect A est une partie de l'aspect B / l'aspect B est une partie de l'aspect A / sans relation)
- Entraînement du modèle : Affinage du modèle Mistral par distillation sur 1 000 échantillons synthétiques
- Pipeline LLM de bout en bout : Réalisation d'un degré plus élevé d'automatisation comparé à la méthode BERT
- Contraintes de sortie structurées : Utilisation de contraintes de syntaxe JSON pour assurer la cohérence du format de sortie
- Optimisation multi-étapes : Optimisation de chaque étape pour des tâches spécifiques, améliorant les performances globales
- Atténuation des hallucinations : Réduction des problèmes d'hallucination des LLMs par filtrage POS et affinage
- Source : Ensemble de données Amazon Reviews 2023
- Catégories de produits : 5 catégories (jeux vidéo, téléviseurs, colliers/montres, mélangeurs verticaux)
- Échelle des données : 100 000 avis par produit (26 464 pour les mélangeurs)
- Limite de traitement : Les tâches LLM utilisent 1 000 avis (compte tenu du temps de traitement)
Critères d'évaluation des termes :
- Pertinence : Le terme représente-t-il avec précision une partie ou un composant du produit ?
- Spécificité : Le terme possède-t-il un niveau de spécificité approprié ?
- Clarté : Le terme transmet-il clairement l'intention, en évitant l'ambiguïté ?
- Adéquation au produit : Le terme convient-il logiquement au produit donné ?
Critères d'évaluation des relations :
- Hiérarchie logique : Le nœud enfant représente-t-il une partie ou une caractéristique logique du nœud parent ?
- Correspondance contextuelle : La relation est-elle raisonnable dans les catégories de produits Amazon ?
- Clarté et spécificité : La relation évite-t-elle l'ambiguïté et définit-elle clairement la relation partie-tout ?
- Méthode de base : Méthode basée sur BERT d'Oksanen et al. (2021)
- Méthode d'évaluation : Gemini 1.5 Flash comme évaluateur LLM
- Versions de comparaison : Version complète et version abrégée (égale au nombre de termes de base)
- Matériel : GPU NVIDIA GeForce RTX 4090
- Optimiseur : Adam (taux d'apprentissage 10^-4)
- Technique d'affinage : LoRA (r=4, α=16)
- Nombre d'epochs : 3, taille de batch 16
| Catégorie de Produit | Méthode Proposée (Complète) | Méthode Proposée (Abrégée) | Base BERT |
|---|
| Jeux Vidéo | 4.00 | 4.18 | 3.92 |
| Téléviseurs | 4.06 | 4.05 | 3.95 |
| Colliers | 4.50 | 4.57 | 3.86 |
| Montres | 4.13 | 4.37 | 4.10 |
| Mélangeurs Verticaux | 4.36 | 4.40 | 3.31 |
| Catégorie de Produit | Méthode Proposée (Complète) | Méthode Proposée (Abrégée) | Base BERT |
|---|
| Jeux Vidéo | 3.89 | 3.82 | 3.43 |
| Téléviseurs | 3.99 | 4.56 | 3.21 |
| Colliers | 3.65 | 3.79 | 3.29 |
| Montres | 3.75 | 4.06 | 2.68 |
| Mélangeurs Verticaux | 3.30 | 3.40 | 2.47 |
| Méthode | Score Moyen |
|---|
| Méthode A1 (Invite uniquement) | 1.960 ± 0.006 |
| Méthode A2 (Invite + Sentiment) | 2.259 ± 0.002 |
| Méthode A3 (Affinage) | 2.662 ± 0.006 |
| Méthode | Jeux Vidéo | Téléviseurs | Colliers | Montres | Mélangeurs |
|---|
| Avis Complets | 3.811 | 4.155 | 3.397 | 3.570 | 3.080 |
| Extraits | 3.727 | 3.726 | 3.481 | 3.398 | 2.493 |
| Extraits + Affinage | 3.893 | 3.987 | 3.646 | 3.747 | 3.303 |
| Étape | Temps Moyen (minutes) |
|---|
| Extraction d'Aspects | 32.05 |
| Extraction d'Ensembles de Synonymes | 0.78 |
| Extraction de Concepts | 1.52 |
| Extraction de Relations | 4.53 |
| Total | 38.89 |
| Étape | Temps Moyen (minutes) |
|---|
| Extraction d'Entités | 1.66 |
| Extraction d'Aspects | 2.79 |
| Extraction de Synonymes | 0.82 |
| Extraction d'Ontologies | 1.36 |
| Total | 6.62 |
- Amélioration de la qualité : La méthode LLM surpasse significativement la base BERT en qualité des termes et des relations
- Importance de l'affinage : L'affinage apporte une amélioration significative des performances par rapport aux méthodes pures d'invites
- Coût de calcul : La méthode LLM offre une meilleure qualité mais avec un coût de calcul environ 6 fois supérieur à la méthode BERT
- Sélection de l'algorithme de clustering : ENC produit des ensembles de synonymes plus précis comparé à K-means
L'apprentissage d'ontologies traditionnel dépend principalement de méthodes d'apprentissage profond, mais se concentre surtout sur l'extraction de relations taxonomiques plutôt que de relations partie-tout.
Les recherches récentes commencent à explorer l'application des LLMs aux tâches clés d'apprentissage d'ontologies telles que l'extraction de termes et de relations, mais se concentrent principalement sur les relations taxonomiques.
L'évaluation de la qualité des ontologies a toujours été un défi en raison de l'absence de références normalisées. La méthode LLM-as-a-judge proposée dans cet article offre une nouvelle solution à ce problème.
- La méthode LLM surpasse significativement les méthodes BERT existantes pour la tâche d'extraction d'ontologies partie-tout
- L'affinage et les contraintes de sortie structurées sont des facteurs clés pour améliorer les performances
- LLM-as-a-judge offre une solution viable pour l'évaluation de la qualité des ontologies
- Dépendance à l'évaluation : Dépendance principale à LLM-as-a-judge, absence de validation par études utilisateur
- Coût de calcul : Augmentation significative du coût de calcul comparé à la méthode BERT
- Problème d'hallucination : Les LLMs génèrent toujours des aspects non pertinents
- Absence de référence : Absence de jeu de données de référence normalisé dans le domaine des ontologies de produits
- Construction de référence normalisée : Établissement d'un jeu de données de référence normalisé pour cette tâche
- Validation par études utilisateur : Validation de l'utilité pratique des ontologies par études utilisateur
- Généralisation de la méthode : Exploration de l'application de la méthode à d'autres types d'ontologies (telles que les ontologies taxonomiques)
- Atténuation des hallucinations : Recherche de méthodes intégrant plusieurs LLMs pour réduire les hallucinations d'un seul modèle
- Innovation forte : Application systématique pionnière des LLMs à l'extraction d'ontologies partie-tout
- Méthode complète : Fourniture d'une solution de pipeline complète de bout en bout
- Innovation en évaluation : Proposition du cadre d'évaluation LLM-as-a-judge
- Expérimentation suffisante : Inclusion d'expériences d'ablation détaillées et d'analyses d'efficacité
- Contribution open-source : Fourniture d'une implémentation open-source complète
- Limitations d'évaluation : Dépendance excessive à l'évaluation par LLM, absence de validation par évaluation humaine
- Considérations de coût : Augmentation significative du coût de calcul sans discussion suffisante du rapport coût-bénéfice
- Généralisation : Validation sur seulement 5 catégories de produits, généralisation à vérifier davantage
- Comparaison de référence : Comparaison insuffisante avec d'autres méthodes existantes
- Valeur académique : Fourniture d'une référence importante pour l'application des LLMs à la construction d'ontologies
- Valeur pratique : Potentiel d'application directe dans des domaines tels que le commerce électronique
- Contribution méthodologique : Le cadre d'évaluation LLM-as-a-judge possède une large applicabilité
- Reproductibilité : Fourniture de détails d'implémentation détaillés et de code open-source
- Plateformes de commerce électronique : Classification de produits et systèmes de recommandation
- Construction de graphes de connaissances : Construction automatisée d'ontologies
- Extraction d'informations : Extraction de relations structurées à partir de textes non structurés
- Analyse d'avis : Identification de caractéristiques et de composants de produits
Cet article cite des travaux importants dans les domaines connexes, notamment :
- Oksanen et al. (2021) : Méthode d'extraction d'ontologies de produits basée sur BERT
- Devlin et al. (2019) : Modèle BERT
- Jiang et al. (2023) : Modèle Mistral
- Pontiki et al. (2014) : Ensemble de données SemEval-2014 Task 4
Évaluation Globale : Ceci est un article présentant des contributions importantes dans le domaine de l'extraction d'ontologies partie-tout. La méthode est fortement innovante, la conception expérimentale est raisonnable et les résultats sont convaincants. Bien qu'il existe certaines limitations concernant les méthodes d'évaluation et le coût de calcul, l'article fournit des perspectives et des outils précieux pour le développement du domaine.