DELE: Deductive $\mathcal{EL}^{++}$ Embeddings for Knowledge Base Completion
Mashkova, Zhapa-Camacho, Hoehndorf
Ontology embeddings map classes, roles, and individuals in ontologies into $\mathbb{R}^n$, and within $\mathbb{R}^n$ similarity between entities can be computed or new axioms inferred. For ontologies in the Description Logic $\mathcal{EL}^{++}$, several optimization-based embedding methods have been developed that explicitly generate models of an ontology. However, these methods suffer from some limitations; they do not distinguish between statements that are unprovable and provably false, and therefore they may use entailed statements as negatives. Furthermore, they do not utilize the deductive closure of an ontology to identify statements that are inferred but not asserted. We evaluated a set of embedding methods for $\mathcal{EL}^{++}$ ontologies, incorporating several modifications that aim to make use of the ontology deductive closure. In particular, we designed novel negative losses that account both for the deductive closure and different types of negatives and formulated evaluation methods for knowledge base completion. We demonstrate that our embedding methods improve over the baseline ontology embedding in the task of knowledge base or ontology completion.
academic
DELE: Дедуктивные встраивания EL++ для пополнения базы знаний
В данной работе предлагается метод DELE (Deductive EL++ Embeddings) для решения проблем методов встраивания онтологий описательной логики EL++ при пополнении баз знаний. Существующие геометрические методы встраивания, хотя и способны явно генерировать модели онтологий, имеют два критических недостатка: (1) неспособность различать недоказуемые и опровергаемые утверждения, что может привести к использованию подразумеваемых утверждений в качестве отрицательных примеров; (2) недостаточное использование дедуктивного замыкания онтологии для выявления выведенных, но не явно утвержденных утверждений. В работе предлагаются новые функции потерь для отрицательных примеров и методы оценки, которые эффективно используют дедуктивное замыкание для улучшения производительности пополнения баз знаний.
Встраивание онтологий направлено на отображение классов, ролей и индивидов из онтологии в пространство Rn с целью вычисления сходства между сущностями или вывода новых аксиом. Для описательной логики EL++ существуют различные методы геометрического встраивания на основе оптимизации, такие как ELEmbeddings, ELBE и Box2EL.
Проблема выбора отрицательных примеров: При случайном выборе отрицательных примеров существующие методы могут ошибочно использовать истинные утверждения, подразумеваемые онтологией, в качестве отрицательных примеров, что влияет на качество обучения модели
Недостаточное использование дедуктивного замыкания: Недостаточное учитывание дедуктивного замыкания онтологии, то есть множества всех выводимых утверждений, препятствует эффективному различению выведенного и не утвержденного знания
Ограничения методов оценки: Существующие методы оценки в основном заимствованы из задач пополнения графов знаний и не учитывают богатые отношения следствия в онтологиях
Пополнение базы знаний является важной задачей, требующей предсказания аксиом, которые должны быть добавлены в базу знаний, но еще не представлены. Для формализованных баз знаний это включает два типа рассуждений: дедуктивные (предсказание подразумеваемых аксиом) и индуктивные (предсказание новых, не подразумеваемых аксиом). Целью данной работы является улучшение методов геометрического встраивания путем лучшего использования дедуктивного замыкания.
Предложены функции потерь для отрицательных примеров с учетом дедуктивного замыкания: Разработаны новые функции потерь для всех стандартных форм EL++, которые избегают использования подразумеваемых утверждений в качестве отрицательных примеров
Разработан быстрый алгоритм приближенного вычисления дедуктивного замыкания: Предложен корректный алгоритм вычисления дедуктивного замыкания теории EL++ для улучшения выбора отрицательных примеров в процессе обучения
Разработаны методы оценки с учетом дедуктивного замыкания: Предложены новые метрики оценки для задачи пополнения баз знаний, способные различать производительность предсказания подразумеваемых и не подразумеваемых аксиом
Расширены различные методы геометрического встраивания: Предложенные улучшения применены к трем репрезентативным методам: ELEmbeddings, ELBE и Box2EL, что демонстрирует универсальность подхода
Задача пополнения базы знаний определяется как: дана онтология EL++T, предсказать новые аксиомы, которые должны быть добавлены в T. Задача может быть дополнительно разделена на:
Дедуктивное пополнение: предсказание аксиом, находящихся в дедуктивном замыкании T⊢, но не явно утвержденных в T
Индуктивное пополнение: предсказание новых аксиом, не находящихся в дедуктивном замыкании
Важность дедуктивного замыкания: Полное использование дедуктивного замыкания может значительно улучшить производительность методов геометрического встраивания
Влияние качества отрицательных примеров: Избежание использования подразумеваемых утверждений в качестве отрицательных примеров критически важно для обучения модели
Улучшение методов оценки: Методы оценки с учетом дедуктивного замыкания могут более точно отражать способность модели к пополнению баз знаний
Универсальность метода: Стратегия улучшения применима к различным методам геометрического встраивания
Точное выявление проблем: Точное выявление ключевых проблем существующих методов в выборе отрицательных примеров и использовании дедуктивного замыкания
Разумное проектирование метода: Предложенные функции потерь и стратегии фильтрации имеют достаточную теоретическую мотивацию
Комплексные эксперименты: Проверка эффективности метода на нескольких наборах данных и задачах, включая визуальный анализ
Ограниченное улучшение производительности: На некоторых задачах величина улучшения относительно небольшая, что может быть недостаточно для оправдания дополнительной сложности
Вычислительные издержки: Вычисление дедуктивного замыкания и фильтрация отрицательных примеров увеличивают время обучения, но статья недостаточно анализирует эти издержки
Эталонные наборы данных: Используемые наборы данных имеют относительно небольшой масштаб, эффективность крупномасштабного применения требует проверки
Недостаточное сравнение: Отсутствует сравнение с новейшими методами пополнения баз знаний на основе больших языковых моделей
Статья цитирует 50 связанных работ, охватывающих важные исследования в областях описательной логики, встраивания онтологий, пополнения графов знаний и других смежных областей, обеспечивая прочную теоретическую основу для исследования.