2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic

Una Oración, Dos Incrustaciones: Aprendizaje Contrastivo de Representaciones Semánticas Explícitas e Implícitas

Información Básica

  • ID del Artículo: 2510.09293
  • Título: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
  • Autores: Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
  • Instituciones: ¹Instituto Japonés de Ciencia y Tecnología Avanzada, ²Corporación Toshiba
  • Clasificación: cs.CL (Computación y Lenguaje)
  • Fecha de Publicación: 10 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09293v1

Resumen

Los métodos de incrustación de oraciones han logrado avances significativos, pero aún enfrentan dificultades para capturar la semántica implícita dentro de las oraciones. Esto se puede atribuir a la limitación inherente de los métodos tradicionales de incrustación de oraciones, que asignan un único vector a cada oración. Para superar esta limitación, este artículo propone DualCSE, un método que asigna dos incrustaciones a cada oración: una que representa la semántica explícita y otra que representa la semántica implícita. Estas incrustaciones coexisten en un espacio compartido, permitiendo seleccionar la semántica deseada según propósitos específicos como recuperación de información y clasificación de textos. Los resultados experimentales demuestran que DualCSE puede codificar efectivamente significados explícitos e implícitos, mejorando el desempeño en tareas posteriores.

Contexto de Investigación y Motivación

Definición del Problema

Los métodos existentes de incrustación de oraciones presentan deficiencias significativas al procesar semántica implícita. Sun et al. (2025) señalan que incluso los métodos más avanzados de incrustación de oraciones muestran una brecha de rendimiento cercana al 20% entre semántica explícita e implícita en el punto de referencia de clasificación MTEB.

Importancia del Problema

  1. Completitud de la Comprensión Semántica: El lenguaje natural contiene tanto significado literal (semántica explícita) como significado figurado o pragmático (semántica implícita)
  2. Demandas de Aplicaciones Prácticas: Tareas como recuperación de información y clasificación de textos requieren comprender diferentes niveles de semántica
  3. Limitaciones del Modelo: Los métodos tradicionales representan oraciones con un único vector, ignorando la existencia de interpretaciones múltiples

Limitaciones de Métodos Existentes

  • Restricción de Vector Único: Cada oración se asigna a un único vector de incrustación
  • Mezcla Semántica: Incapacidad para distinguir entre semántica explícita e implícita
  • Capacidad de Representación Insuficiente: Dificultad para capturar significados multicapa de oraciones

Contribuciones Principales

  1. Propuesta del Marco DualCSE: Genera dos vectores de incrustación para cada oración, representando respectivamente semántica explícita e implícita
  2. Diseño de Función de Pérdida Contrastiva Novedosa: Optimiza simultáneamente relaciones entre oraciones y dentro de oraciones
  3. Construcción de Espacio Compartido de Semántica Dual: Permite que incrustaciones explícitas e implícitas se comparen en el mismo espacio
  4. Verificación de la Efectividad del Método: Demuestra superioridad en tareas RTE y EIS
  5. Capacidad de Evaluación de Implicitación: Puede estimar el grado de implicitación de una oración

Explicación Detallada del Método

Definición de la Tarea

Dada una oración s, DualCSE la codifica en dos incrustaciones:

  • r: Incrustación que representa semántica explícita
  • u: Incrustación que representa semántica implícita

Arquitectura del Modelo

Diseño del Codificador

El artículo propone dos arquitecturas de codificador:

  1. Cross-encoder:
    • Utiliza un único modelo BERT/RoBERTa
    • Entrada "CLS s SEP explicit" genera incrustación explícita r
    • Entrada "CLS s SEP implicit" genera incrustación implícita u
  2. Bi-encoder:
    • Utiliza dos modelos BERT/RoBERTa independientes
    • Entrena por separado para generar r y u

Función de Pérdida Contrastiva

Función de pérdida diseñada basada en el conjunto de datos INLI:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

Puntos de Innovación Técnica

  1. Representación Semántica Dual: Supera la limitación de vector único, proporcionando dos representaciones de diferentes dimensiones para oraciones
  2. Modelado de Relaciones Entre Oraciones e Intra-Oraciones:
    • Entre oraciones: La premisa es similar a la hipótesis de implicación y diferente de la hipótesis de contradicción
    • Intra-oraciones: La semántica explícita e implícita de la hipótesis son similares, mientras que la de la premisa son diferentes
  3. Diseño de Espacio Compartido: Permite que diferentes tipos de semántica se comparen en el mismo espacio

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos INLI

  • Escala: 32,000 pares en conjunto de entrenamiento, 4,000 en desarrollo, 4,000 en prueba
  • Características: Proporciona cuatro etiquetas de hipótesis para cada premisa
    • implied-entailment: Implicación implícita
    • explicit-entailment: Implicación explícita
    • neutral: Neutral
    • contradiction: Contradicción

Conjunto de Datos de Wang et al.

  • Escala: 101,320 pares en entrenamiento, 5,630 en desarrollo/prueba respectivamente
  • Propósito: Tarea de puntuación de implicitación

Métricas de Evaluación

  • Tarea RTE: Precisión (Accuracy)
  • Tarea EIS: Precisión (Accuracy)

Métodos de Comparación

  1. SimCSE (SNLI+MNLI): Entrenado en conjuntos de datos NLI estándar
  2. SimCSE (INLI): SimCSE entrenado en conjunto de datos INLI
  3. ImpScore: Método especializado en puntuación de implicitación
  4. Modelos de Lenguaje Grande: GPT-4, Gemini-1.5-Pro, etc. como referencia

Detalles de Implementación

  • Modelo Base: BERT-base, RoBERTa-base
  • Tamaño de Lote: 64 para Cross-encoder, 32 para Bi-encoder
  • Tasa de Aprendizaje: 5e-5 para Cross-encoder, 3e-5 para Bi-encoder
  • Parámetro de Temperatura τ: 0.05

Resultados Experimentales

Resultados Principales

Resultados de la Tarea RTE

ModeloExplícitoImplícitoNeutralContradicciónPromedio
SimCSE (SNLI+MNLI)79.8049.0074.3067.6067.68
SimCSE (INLI)90.6069.1066.9091.0079.40
DualCSE-Cross90.2073.4068.4088.7080.18
DualCSE-Bi91.9069.9072.1087.6080.38
Gemini-1.5-Pro97.9080.3092.0095.4091.40

Resultados de la Tarea EIS

ModeloINLIConjunto de Datos Wang et al.
LENGTH99.9073.37
ImpScore (original)80.5595.20
ImpScore (INLI)99.9781.56
DualCSE-Cross99.9779.31
DualCSE-Bi10077.48

Experimentos de Ablación

Los experimentos de ablación verifican la importancia de cada componente de la función de pérdida:

Configuración de Función de PérdidaRTEEIS
DualCSE Completo80.1899.97
Sin Término de Contradicción64.5799.88
Sin Relaciones Intra-Oraciones80.1092.25
Sin Término de Contradicción y Relaciones Intra-Oraciones64.6832.75

Hallazgos:

  • El término de contradicción es más importante para la tarea RTE
  • Las relaciones intra-oraciones son más importantes para la tarea EIS

Análisis de Casos

Ejemplo de Experimento de Recuperación

Oración de Consulta: "She conquered his heart."

Resultados de Recuperación de Semántica Explícita:

  1. "She defeated his heart in battle." (Significado literal de batalla)
  2. "She overcame his cardiac defenses."
  3. "She vanquished his emotional barriers."

Resultados de Recuperación de Semántica Implícita:

  1. "She won his affection and love." (Significado de amor)
  2. "She captured his romantic interest."
  3. "She gained his deep emotional attachment."

Trabajo Relacionado

Métodos de Incrustación de Oraciones

  • Métodos Basados en BERT: Sentence-BERT, SimCSE, etc.
  • Aprendizaje Contrastivo: Aplicación en incrustación de oraciones
  • Representación Multisemántica: Pocos trabajos intentan capturar significados múltiples

Comprensión de Semántica Implícita

  • Investigación Pragmática: Implicatura conversacional, actos de habla indirectos
  • Extensión de NLI: De razonamiento explícito a razonamiento implícito
  • Evaluación de Implicitación: Cuantificación del grado de implicitación de oraciones

Ventajas de Este Artículo

  1. Sistematicidad Pionera: Aborda específicamente la representación dual de semántica explícita/implícita
  2. Entrenamiento End-to-End: Marco unificado que aprende ambos tipos de semántica simultáneamente
  3. Practicidad Fuerte: Aplicable directamente a múltiples tareas posteriores

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de DualCSE: Supera métodos de línea base en tareas RTE y EIS
  2. Valor de la Representación Dual: La representación separada de semántica explícita e implícita facilita efectivamente la comprensión
  3. Diseño Razonable de Función de Pérdida: El modelado de relaciones entre oraciones e intra-oraciones es importante
  4. Flexibilidad de Arquitectura: Tanto Cross-encoder como Bi-encoder funcionan efectivamente

Limitaciones

  1. Dependencia de Conjunto de Datos: Entrenado solo en conjunto de datos INLI, diversidad de dominio limitada
  2. Tareas de Evaluación Limitadas: Verificación solo en dos tareas, falta evaluación más amplia
  3. Costo Computacional: Requiere generar dos incrustaciones para cada oración, aumentando costo computacional
  4. Generalización Transdominio: El desempeño en conjunto de datos Wang et al. no es tan bueno como métodos especializados

Direcciones Futuras

  1. Expansión de Conjunto de Datos: Convertir datos de detección de discurso de odio, análisis de sentimientos, etc. al formato INLI
  2. Integración de Modelos Grandes: Extender método a modelos de lenguaje grande
  3. Aplicaciones Prácticas: Verificar en escenarios de análisis de reseñas de clientes, motores de búsqueda, etc.
  4. Análisis Teórico: Investigar profundamente las propiedades matemáticas de semántica explícita/implícita

Evaluación Profunda

Fortalezas

  1. Definición Clara del Problema: Identifica con precisión el problema central de métodos existentes
  2. Innovación Fuerte del Método: La representación semántica dual es un enfoque novedoso y razonable
  3. Diseño Experimental Completo: Incluye experimentos principales, de ablación y análisis cualitativo
  4. Implementación Técnica Viable: Proporciona dos opciones de arquitectura diferentes
  5. Código de Código Abierto: Mejora la reproducibilidad

Insuficiencias

  1. Fundamento Teórico Débil: Falta análisis teórico sobre la distinción de semántica explícita/implícita
  2. Rango de Evaluación Limitado: Verificación solo en dos tareas, poder de convicción insuficiente
  3. Comparación de Línea Base Incompleta: Falta comparación con otros métodos de representación multisemántica
  4. Análisis de Eficiencia Ausente: No analiza costo computacional de incrustaciones duales
  5. Capacidad Multilingüe Desconocida: Verificación solo en inglés

Impacto

  1. Valor Académico: Proporciona nueva perspectiva para investigación de incrustación de oraciones
  2. Valor Práctico: Aplicable a tareas NLP que requieren comprensión de significados implícitos
  3. Inspiración: Puede estimular más investigación sobre representación multisemántica
  4. Limitaciones: El impacto puede estar limitado por la generalidad del método

Escenarios Aplicables

  1. Recuperación de Información: Búsqueda que considera simultáneamente significados literal e implícito
  2. Clasificación de Textos: Análisis de sentimientos, identificación de intención, etc.
  3. Sistemas de Diálogo: Comprensión del significado implícito del usuario
  4. Moderación de Contenido: Detección de contenido inapropiado encubierto
  5. Educación Lingüística: Ayuda en comprensión de significados multicapa del lenguaje

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo incrustación de oraciones, inferencia de lenguaje natural y aprendizaje contrastivo, incluyendo:

  • Gao et al. (2021): Método SimCSE
  • Havaldar et al. (2025): Conjunto de datos INLI
  • Wang et al. (2025): Método de puntuación de implicitación
  • Reimers and Gurevych (2019): Sentence-BERT

Evaluación General: Este es un artículo con innovación técnica relativamente fuerte que propone un método de representación semántica dual interesante y práctico. Aunque hay espacio para mejora en profundidad teórica y amplitud de evaluación, abre una nueva dirección para investigación de incrustación de oraciones y posee cierto valor académico y potencial de aplicación.