2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic

Одно предложение, два встраивания: Контрастивное обучение явных и неявных семантических представлений

Основная информация

  • ID статьи: 2510.09293
  • Название: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
  • Авторы: Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
  • Учреждения: ¹Японский институт передовых наук и технологий, ²Корпорация Toshiba
  • Классификация: cs.CL (Вычислительная лингвистика)
  • Дата публикации: 10 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.09293v1

Аннотация

Методы встраивания предложений достигли значительного прогресса, однако испытывают трудности при захвате неявной семантики внутри предложений. Это можно отнести к присущему ограничению традиционных методов встраивания предложений, которые назначают каждому предложению только один вектор. Для преодоления этого ограничения в данной работе предлагается DualCSE — метод, назначающий каждому предложению два встраивания: одно для представления явной семантики, другое для представления неявной семантики. Эти встраивания сосуществуют в общем пространстве, позволяя выбирать требуемую семантику для конкретных целей, таких как информационный поиск и классификация текстов. Экспериментальные результаты демонстрируют, что DualCSE эффективно кодирует явные и неявные значения, улучшая производительность нижестоящих задач.

Исследовательский контекст и мотивация

Определение проблемы

Существующие методы встраивания предложений имеют значительные недостатки при обработке неявной семантики. Sun и соавторы (2025) указывают, что даже самые передовые методы встраивания предложений демонстрируют разрыв в производительности около 20% между явной и неявной семантикой на эталоне классификации MTEB.

Важность проблемы

  1. Полнота семантического понимания: Естественный язык содержит как буквальные значения (явная семантика), так и метафорические или прагматические значения (неявная семантика)
  2. Требования практического применения: Задачи информационного поиска, классификации текстов и другие требуют понимания различных уровней семантики
  3. Ограничения модели: Традиционные методы представляют предложение только одним вектором, игнорируя существование множественных интерпретаций

Ограничения существующих методов

  • Ограничение одного вектора: Каждому предложению назначается только одно встраивание
  • Смешивание семантики: Невозможно различить явную и неявную семантику
  • Недостаточная репрезентативная способность: Трудно захватить многоуровневые значения предложения

Основные вклады

  1. Предложение фреймворка DualCSE: Генерирование двух векторов встраивания для каждого предложения, представляющих явную и неявную семантику соответственно
  2. Разработка новой функции контрастивных потерь: Одновременная оптимизация отношений между предложениями и внутри предложений
  3. Построение пространства с двойной семантикой: Возможность сравнения явных и неявных встраиваний в одном пространстве
  4. Верификация эффективности метода: Демонстрация превосходства метода на задачах RTE и EIS
  5. Предоставление способности оценки неявности: Возможность оценить степень неявности предложения

Подробное описание метода

Определение задачи

Для заданного предложения s, DualCSE кодирует его в два встраивания:

  • r: встраивание, представляющее явную семантику
  • u: встраивание, представляющее неявную семантику

Архитектура модели

Конструкция кодировщика

В работе предлагаются две архитектуры кодировщика:

  1. Cross-encoder:
    • Использует одну модель BERT/RoBERTa
    • Входные данные "CLS s SEP explicit" генерируют явное встраивание r
    • Входные данные "CLS s SEP implicit" генерируют неявное встраивание u
  2. Bi-encoder:
    • Использует две независимые модели BERT/RoBERTa
    • Отдельно обучаются для генерирования r и u

Функция контрастивных потерь

Функция потерь, разработанная на основе набора данных INLI:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

Технические инновации

  1. Двойное семантическое представление: Преодоление ограничения одного вектора, обеспечение двух различных измерений представления для предложения
  2. Моделирование отношений между и внутри предложений:
    • Между предложениями: предпосылка подобна гипотезе следствия и не подобна гипотезе противоречия
    • Внутри предложения: явная и неявная семантика гипотезы близки, явная и неявная семантика предпосылки далеки
  3. Конструкция общего пространства: Возможность сравнения различных типов семантики в одном пространстве

Экспериментальная установка

Наборы данных

Набор данных INLI

  • Масштаб: 32 000 пар в обучающем наборе, 4 000 пар в наборе разработки, 4 000 пар в тестовом наборе
  • Характеристики: Для каждой предпосылки предоставляются четыре метки гипотез
    • implied-entailment: неявное следствие
    • explicit-entailment: явное следствие
    • neutral: нейтральное
    • contradiction: противоречие

Набор данных Wang и соавторов

  • Масштаб: 101 320 пар в обучающем наборе, по 5 630 пар в наборах разработки и тестирования
  • Назначение: Задача оценки неявности

Метрики оценки

  • Задача RTE: Точность (Accuracy)
  • Задача EIS: Точность (Accuracy)

Методы сравнения

  1. SimCSE (SNLI+MNLI): Обучение на основе стандартных наборов данных NLI
  2. SimCSE (INLI): SimCSE, обученный на наборе данных INLI
  3. ImpScore: Метод, специально разработанный для оценки неявности
  4. Большие языковые модели: GPT-4, Gemini-1.5-Pro и другие в качестве справочных

Детали реализации

  • Базовая модель: BERT-base, RoBERTa-base
  • Размер пакета: 64 для cross-encoder, 32 для bi-encoder
  • Скорость обучения: 5e-5 для cross-encoder, 3e-5 для bi-encoder
  • Параметр температуры τ: 0.05

Экспериментальные результаты

Основные результаты

Результаты задачи RTE

МодельЯвнаяНеявнаяНейтральнаяПротиворечиеСреднее
SimCSE (SNLI+MNLI)79.8049.0074.3067.6067.68
SimCSE (INLI)90.6069.1066.9091.0079.40
DualCSE-Cross90.2073.4068.4088.7080.18
DualCSE-Bi91.9069.9072.1087.6080.38
Gemini-1.5-Pro97.9080.3092.0095.4091.40

Результаты задачи EIS

МодельINLIНабор данных Wang и соавторов
LENGTH99.9073.37
ImpScore (оригинальный)80.5595.20
ImpScore (INLI)99.9781.56
DualCSE-Cross99.9779.31
DualCSE-Bi10077.48

Абляционные исследования

Абляционные исследования верифицировали важность каждого компонента функции потерь:

Конфигурация функции потерьRTEEIS
Полный DualCSE80.1899.97
Без члена противоречия64.5799.88
Без отношений внутри предложения80.1092.25
Без члена противоречия и отношений внутри предложения64.6832.75

Выводы:

  • Член противоречия более важен для задачи RTE
  • Отношения внутри предложения более важны для задачи EIS

Анализ примеров

Пример эксперимента поиска

Поисковый запрос: "She conquered his heart."

Результаты поиска по явной семантике:

  1. "She defeated his heart in battle." (буквальное боевое значение)
  2. "She overcame his cardiac defenses."
  3. "She vanquished his emotional barriers."

Результаты поиска по неявной семантике:

  1. "She won his affection and love." (значение любви)
  2. "She captured his romantic interest."
  3. "She gained his deep emotional attachment."

Связанные работы

Методы встраивания предложений

  • Методы на основе BERT: Sentence-BERT, SimCSE и другие
  • Контрастивное обучение: Применение в встраивании предложений
  • Представления множественной семантики: Немногочисленные работы, пытающиеся захватить множественные значения

Понимание неявной семантики

  • Исследования прагматики: Конверсационные импликатуры, косвенные речевые акты
  • Расширения NLI: От явного рассуждения к неявному
  • Оценка неявности: Количественное определение степени неявности предложения

Преимущества данной работы

  1. Первая систематическая работа: Специально ориентирована на двойное представление явной/неявной семантики
  2. Сквозное обучение: Единый фреймворк для одновременного обучения обеим типам семантики
  3. Высокая практичность: Может быть непосредственно применена к различным нижестоящим задачам

Заключение и обсуждение

Основные выводы

  1. Эффективность DualCSE: Превосходит базовые методы как на задачах RTE, так и на задачах EIS
  2. Ценность двойного представления: Раздельное представление явной и неявной семантики действительно способствует пониманию
  3. Обоснованность конструкции функции потерь: Моделирование как отношений между предложениями, так и внутри предложений важно
  4. Гибкость архитектуры: Как cross-encoder, так и bi-encoder эффективно работают

Ограничения

  1. Зависимость от набора данных: Обучение только на наборе данных INLI, ограниченное разнообразие доменов
  2. Ограниченные задачи оценки: Верификация только на двух задачах, отсутствие более широкой оценки
  3. Вычислительные затраты: Требуется генерирование двух встраиваний для каждого предложения, увеличивая вычислительные затраты
  4. Обобщение между доменами: Производительность на наборе данных Wang и соавторов ниже, чем у специализированных методов

Направления будущих исследований

  1. Расширение набора данных: Преобразование данных обнаружения ненавистнических высказываний, анализа тональности и других в формат INLI
  2. Интеграция с большими моделями: Расширение метода на большие языковые модели
  3. Практическое применение: Верификация в сценариях анализа отзывов клиентов, поисковых систем и других
  4. Теоретический анализ: Глубокое исследование математических свойств явной/неявной семантики

Глубокая оценка

Преимущества

  1. Четкое определение проблемы: Точное выявление основной проблемы существующих методов
  2. Сильная инновационность метода: Двойное семантическое представление — это новая и обоснованная идея
  3. Достаточный дизайн экспериментов: Включает основные эксперименты, абляционные исследования и качественный анализ
  4. Осуществимость технической реализации: Предоставляет два различных варианта архитектуры
  5. Открытый исходный код: Повышает воспроизводимость

Недостатки

  1. Слабая теоретическая база: Отсутствует теоретический анализ различия между явной и неявной семантикой
  2. Ограниченный диапазон оценки: Верификация только на двух задачах, недостаточная убедительность
  3. Недостаточное сравнение с базовыми методами: Отсутствует сравнение с другими методами представления множественной семантики
  4. Отсутствует анализ эффективности: Не проведен анализ вычислительных затрат двойного встраивания
  5. Неизвестные кроссязычные способности: Верификация только на английском языке

Влияние

  1. Академическая ценность: Предоставляет новую перспективу для исследований встраивания предложений
  2. Практическая ценность: Может быть применена к задачам NLP, требующим понимания неявных значений
  3. Вдохновляющий характер: Может стимулировать дальнейшие исследования представления множественной семантики
  4. Ограничения: Влияние может быть ограничено универсальностью метода

Применимые сценарии

  1. Информационный поиск: Поиск, требующий одновременного рассмотрения буквальных и неявных значений
  2. Классификация текстов: Анализ тональности, распознавание намерений и другие задачи
  3. Диалоговые системы: Понимание скрытого смысла высказываний пользователя
  4. Модерация контента: Обнаружение завуалированного неприемлемого контента
  5. Языковое образование: Помощь в понимании многоуровневых значений языка

Библиография

В работе цитируются важные работы из нескольких областей, включая встраивание предложений, естественный языковой вывод, контрастивное обучение и другие:

  • Gao et al. (2021): Метод SimCSE
  • Havaldar et al. (2025): Набор данных INLI
  • Wang et al. (2025): Метод оценки неявности
  • Reimers and Gurevych (2019): Sentence-BERT

Общая оценка: Это статья с сильной технической инновационностью, предлагающая интересный и практичный метод двойного семантического представления. Хотя есть место для улучшения в теоретической глубине и широте оценки, работа открывает новое направление в исследованиях встраивания предложений и имеет определенную академическую ценность и потенциал применения.