2025-11-20T11:34:15.055386

Meronymic Ontology Extraction via Large Language Models

Zhang, Conia, Rago

Ontologies have become essential in today's digital age as a way of organising the vast amount of readily available unstructured text. In providing formal structure to this information, ontologies have immense value and application across various domains, e.g., e-commerce, where countless product listings necessitate proper product organisation. However, the manual construction of these ontologies is a time-consuming, expensive and laborious process. In this paper, we harness the recent advancements in large language models (LLMs) to develop a fully-automated method of extracting product ontologies, in the form of meronymies, from raw review texts. We demonstrate that the ontologies produced by our method surpass an existing, BERT-based baseline when evaluating using an LLM-as-a-judge. Our investigation provides the groundwork for LLMs to be used more generally in (product or otherwise) ontology extraction.

academic

Extracción de Ontología Meronómica mediante Modelos de Lenguaje de Gran Escala

Información Básica

ID del Artículo: 2510.13839
Título: Extracción de Ontología Meronómica mediante Modelos de Lenguaje de Gran Escala
Autores: Dekai Zhang (Imperial College London), Simone Conia (Sapienza University of Rome), Antonio Rago (Imperial College London & King's College London)
Clasificación: cs.CL cs.AI
Fecha de Publicación: 11 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13839

Resumen

Este artículo aprovecha los avances recientes en modelos de lenguaje de gran escala (LLMs) para desarrollar un método completamente automatizado que extrae ontologías de productos (en forma de relaciones parte-todo) a partir de texto de reseñas sin procesar. La investigación demuestra que la ontología generada por este método supera los métodos de referencia basados en BERT existentes en evaluaciones que utilizan LLMs como evaluadores. Este trabajo sienta las bases para aplicaciones más amplias de LLMs en tareas de extracción de ontologías.

Antecedentes de Investigación y Motivación

Definición del Problema

En la era digital, grandes volúmenes de datos de texto no estructurado requieren ser organizados y estructurados mediante ontologías. Particularmente en el comercio electrónico, innumerables listados de productos necesitan estructuras de organización de productos apropiadas. Las relaciones parte-todo (relaciones meronómicas) tienen un valor importante en tareas posteriores como agregación de reseñas, análisis de sentimientos y preguntas y respuestas sobre productos.

Limitaciones de Métodos Existentes

Alto costo de construcción manual: La construcción manual de ontologías es un proceso que consume tiempo, es costoso y laborioso
Métodos de automatización insuficientes: La investigación anterior se ha centrado principalmente en relaciones taxonómicas en lugar de la extracción de relaciones parte-todo
Dificultad de evaluación: Falta de conjuntos de datos de referencia estándar, lo que dificulta la evaluación efectiva de la calidad de las ontologías parte-todo
Dependencia de anotación humana: Los métodos existentes, como el método BERT de Oksanen et al. (2021), aún requieren cierto grado de anotación manual

Motivación de la Investigación

Este artículo tiene como objetivo aprovechar el poder de los LLMs para desarrollar un método completamente automatizado de extracción de ontologías parte-todo y proponer un nuevo marco de evaluación para validar la efectividad del método.

Contribuciones Principales

Propuesta de método LLM completamente automatizado: Desarrollo de un método completamente automatizado que utiliza LLMs para la extracción de ontologías parte-todo, generalizable entre diferentes categorías de productos
Marco de evaluación innovador: Propuesta de un nuevo método para evaluación empírica de tareas de extracción de ontologías parte-todo utilizando LLMs como evaluadores (LLM-as-a-judge)
Verificación de mejora de rendimiento: Demostración experimental de que el método LLM supera significativamente al método de referencia basado en BERT en términos de relevancia
Código de código abierto: Provisión de código de implementación completo para promover la reproducibilidad de la investigación

Explicación Detallada del Método

Definición de la Tarea

Entrada: Texto de reseñas de productos Salida: Gráfico de ontología parte-todo, que contiene nodos de conceptos y relaciones "parte-todo" entre ellos Restricciones: Las relaciones deben ser relaciones parte-todo significativas, los conceptos deben estar relacionados con el producto

Arquitectura del Modelo

El método propuesto contiene un pipeline de cuatro etapas principales:

1. Extracción de Aspectos

Método: Ajuste fino de Mistral-7B-Instruct-v0.2
Datos de entrenamiento: Conjunto de datos SemEval-2014 Task 4 (1600 muestras)
Postprocesamiento: Uso de etiquetado POS para filtrar, conservando solo sustantivos que aparecen realmente en las reseñas
Control de salida: Selección de los 50 aspectos más comunes

2. Extracción de Conjuntos de Sinónimos

Modelo de incrustación: Modelo FastText ajustado (manejo de errores ortográficos y abreviaturas)
Algoritmo de agrupamiento: Agrupamiento de nodos equidistantes (ENC) basado en similitud de coseno
Ventaja: Produce resultados de agrupamiento más precisos en comparación con K-means

3. Extracción de Conceptos

Selección de representante: Selección del término más frecuente en cada conjunto de sinónimos como representante
Determinación de relevancia: Uso de indicaciones LLM para determinar si un término debe incluirse en la ontología
Criterios de filtrado: Relevancia, especificidad, jerarquía

4. Extracción de Relaciones

Procesamiento de entrada: Extracción de oraciones que contienen dos aspectos de diferentes conjuntos de sinónimos
Diseño de tarea: Pregunta de opción múltiple (el aspecto A es parte del aspecto B / el aspecto B es parte del aspecto A / sin relación)
Entrenamiento del modelo: Ajuste fino del modelo Mistral mediante destilación en 1000 muestras sintéticas

Puntos de Innovación Técnica

Pipeline LLM de extremo a extremo: Logra un mayor grado de automatización en comparación con el método BERT
Restricciones de salida estructurada: Uso de restricciones de sintaxis JSON para garantizar consistencia de formato de salida
Optimización multietapa: Cada etapa se optimiza para tareas específicas, mejorando el rendimiento general
Mitigación de alucinaciones: Reducción de problemas de alucinación de LLM mediante filtrado POS y ajuste fino

Configuración Experimental

Conjunto de Datos

Fuente: Conjunto de datos Amazon Reviews 2023
Categorías de productos: 5 categorías (videojuegos, televisores, collares/relojes, licuadoras de pie)
Escala de datos: 100,000 reseñas por producto (26,464 para licuadoras)
Límite de procesamiento: Tareas LLM utilizan 1000 reseñas (considerando tiempo de procesamiento)

Métricas de Evaluación

Criterios de Evaluación de Términos:

Relevancia: ¿El término representa con precisión una parte o componente del producto?
Especificidad: ¿El término tiene un nivel apropiado de especificidad?
Claridad: ¿El término comunica claramente la intención, evitando ambigüedad?
Coincidencia de producto: ¿El término se ajusta lógicamente al producto dado?

Criterios de Evaluación de Relaciones:

Jerarquía lógica: ¿El nodo hijo representa una parte o característica lógica del nodo padre?
Coincidencia contextual: ¿Es la relación razonable en la categoría de producto de Amazon?
Claridad y especificidad: ¿La relación evita ambigüedad y define claramente la relación parte-todo?

Métodos de Comparación

Método de referencia: Método basado en BERT de Oksanen et al. (2021)
Método de evaluación: Gemini 1.5 Flash como evaluador LLM
Versiones de comparación: Versión completa y versión acortada (igual número de términos que la referencia)

Detalles de Implementación

Hardware: GPU NVIDIA GeForce RTX 4090
Optimizador: Adam (tasa de aprendizaje 10^-4)
Técnica de ajuste fino: LoRA (r=4, α=16)
Épocas de entrenamiento: 3 épocas, tamaño de lote 16

Resultados Experimentales

Resultados Principales

Evaluación de Calidad de Términos

Categoría de Producto	Método Propuesto (Completo)	Método Propuesto (Acortado)	Referencia BERT
Videojuegos	4.00	4.18	3.92
Televisores	4.06	4.05	3.95
Collares	4.50	4.57	3.86
Relojes	4.13	4.37	4.10
Licuadora de Pie	4.36	4.40	3.31

Evaluación de Calidad de Relaciones

Categoría de Producto	Método Propuesto (Completo)	Método Propuesto (Acortado)	Referencia BERT
Videojuegos	3.89	3.82	3.43
Televisores	3.99	4.56	3.21
Collares	3.65	3.79	3.29
Relojes	3.75	4.06	2.68
Licuadora de Pie	3.30	3.40	2.47

Experimentos de Ablación

Comparación de Métodos de Extracción de Aspectos

Método	Puntuación Promedio
Método A1 (Solo indicación)	1.960 ± 0.006
Método A2 (Indicación + sentimiento)	2.259 ± 0.002
Método A3 (Ajuste fino)	2.662 ± 0.006

Comparación de Métodos de Extracción de Relaciones

Método	Videojuegos	Televisores	Collares	Relojes	Licuadora
Reseña completa	3.811	4.155	3.397	3.570	3.080
Extracto	3.727	3.726	3.481	3.398	2.493
Extracto + Ajuste fino	3.893	3.987	3.646	3.747	3.303

Análisis de Eficiencia

Tiempo de Procesamiento del Método Propuesto

Etapa	Tiempo Promedio (minutos)
Extracción de aspectos	32.05
Extracción de conjuntos de sinónimos	0.78
Extracción de conceptos	1.52
Extracción de relaciones	4.53
Total	38.89

Tiempo de Procesamiento de la Referencia BERT

Etapa	Tiempo Promedio (minutos)
Extracción de entidades	1.66
Extracción de aspectos	2.79
Extracción de sinónimos	0.82
Extracción de ontología	1.36
Total	6.62

Hallazgos Experimentales

Mejora de calidad: El método LLM supera significativamente la referencia BERT tanto en calidad de términos como de relaciones
Importancia del ajuste fino: El ajuste fino proporciona mejoras de rendimiento significativas en comparación con métodos de indicación pura
Costo computacional: El método LLM tiene mayor calidad pero costo computacional aproximadamente 6 veces mayor que el método BERT
Selección de algoritmo de agrupamiento: ENC produce conjuntos de sinónimos más precisos en comparación con K-means

Trabajo Relacionado

Aprendizaje de Ontologías

El aprendizaje tradicional de ontologías se basa principalmente en métodos de aprendizaje profundo, pero la mayoría se centra en relaciones taxonómicas en lugar de la extracción de relaciones parte-todo.

Aplicación de LLMs en Construcción de Ontologías

La investigación reciente ha comenzado a explorar la aplicación de LLMs en tareas clave de aprendizaje de ontologías como extracción de términos y relaciones, pero se enfoca principalmente en relaciones taxonómicas.

Métodos de Evaluación

Debido a la falta de puntos de referencia estándar, la evaluación de la calidad de las ontologías siempre ha sido un desafío. El método LLM-as-a-judge propuesto en este artículo proporciona una nueva solución a este problema.

Conclusiones y Discusión

Conclusiones Principales

El método LLM supera significativamente los métodos BERT existentes en la tarea de extracción de ontologías parte-todo
El ajuste fino y las restricciones de salida estructurada son factores clave para mejorar el rendimiento
LLM-as-a-judge proporciona una solución viable para la evaluación de la calidad de ontologías

Limitaciones

Dependencia de evaluación: Depende principalmente de LLM-as-a-judge, carece de validación mediante estudios de usuarios
Costo computacional: Costo computacional significativamente mayor en comparación con el método BERT
Problema de alucinaciones: Los LLMs aún presentan problemas de generación de aspectos no relevantes
Ausencia de puntos de referencia: Falta de conjuntos de datos de referencia estándar en el campo de ontologías de productos

Direcciones Futuras

Construcción de puntos de referencia estándar: Establecimiento de conjuntos de datos de referencia estándar para esta tarea
Validación mediante estudios de usuarios: Verificación de la practicidad de las ontologías mediante estudios de usuarios
Generalización del método: Exploración de la aplicación del método en otros tipos de ontologías (como ontologías taxonómicas)
Mitigación de alucinaciones: Investigación de métodos que integren múltiples LLMs para reducir alucinaciones de modelos individuales

Evaluación Profunda

Fortalezas

Fuerte innovación: Primera aplicación sistemática de LLMs a la extracción de ontologías parte-todo
Método completo: Proporciona una solución de pipeline completa de extremo a extremo
Evaluación innovadora: Propone el marco de evaluación LLM-as-a-judge
Experimentación suficiente: Incluye experimentos de ablación detallados y análisis de eficiencia
Contribución de código abierto: Proporciona implementación de código abierto completa

Deficiencias

Limitaciones de evaluación: Dependencia excesiva de evaluación LLM, falta de validación mediante evaluación humana
Consideración de costos: Costo computacional significativamente mayor pero sin discusión suficiente del análisis costo-beneficio
Generalización: Validación solo en 5 categorías de productos, generalización requiere verificación adicional
Comparación de puntos de referencia: Comparación insuficiente con más métodos existentes

Impacto

Valor académico: Proporciona referencia importante para la aplicación de LLMs en construcción de ontologías
Valor práctico: Tiene potencial de aplicación directa en campos como comercio electrónico
Contribución metodológica: El marco de evaluación LLM-as-a-judge tiene amplia aplicabilidad
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto

Escenarios Aplicables

Plataformas de comercio electrónico: Clasificación de productos y sistemas de recomendación
Construcción de gráficos de conocimiento: Construcción automatizada de ontologías
Extracción de información: Extracción de relaciones estructuradas de texto no estructurado
Análisis de reseñas: Identificación de características y componentes de productos

Referencias Bibliográficas

Este artículo cita trabajos importantes en campos relacionados, incluyendo:

Oksanen et al. (2021): Método de extracción de ontología de productos basado en BERT
Devlin et al. (2019): Modelo BERT
Jiang et al. (2023): Modelo Mistral
Pontiki et al. (2014): Conjunto de datos SemEval-2014 Task 4

Evaluación General: Este es un artículo con contribuciones importantes en el campo de la extracción de ontologías parte-todo. El método es altamente innovador, el diseño experimental es razonable y los resultados son convincentes. Aunque existen algunas limitaciones en los métodos de evaluación y el costo computacional, proporciona información valiosa y herramientas para el desarrollo del campo.