2025-11-14T11:40:11.153329

One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations

Oda, Chuang, Shirai et al.

Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.

academic

Una Oración, Dos Incrustaciones: Aprendizaje Contrastivo de Representaciones Semánticas Explícitas e Implícitas

Información Básica

ID del Artículo: 2510.09293
Título: One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
Autores: Kohei Oda¹, Po-Min Chuang², Kiyoaki Shirai¹, Natthawut Kertkeidkachorn¹
Instituciones: ¹Instituto Japonés de Ciencia y Tecnología Avanzada, ²Corporación Toshiba
Clasificación: cs.CL (Computación y Lenguaje)
Fecha de Publicación: 10 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09293v1

Resumen

Los métodos de incrustación de oraciones han logrado avances significativos, pero aún enfrentan dificultades para capturar la semántica implícita dentro de las oraciones. Esto se puede atribuir a la limitación inherente de los métodos tradicionales de incrustación de oraciones, que asignan un único vector a cada oración. Para superar esta limitación, este artículo propone DualCSE, un método que asigna dos incrustaciones a cada oración: una que representa la semántica explícita y otra que representa la semántica implícita. Estas incrustaciones coexisten en un espacio compartido, permitiendo seleccionar la semántica deseada según propósitos específicos como recuperación de información y clasificación de textos. Los resultados experimentales demuestran que DualCSE puede codificar efectivamente significados explícitos e implícitos, mejorando el desempeño en tareas posteriores.

Contexto de Investigación y Motivación

Definición del Problema

Los métodos existentes de incrustación de oraciones presentan deficiencias significativas al procesar semántica implícita. Sun et al. (2025) señalan que incluso los métodos más avanzados de incrustación de oraciones muestran una brecha de rendimiento cercana al 20% entre semántica explícita e implícita en el punto de referencia de clasificación MTEB.

Importancia del Problema

Completitud de la Comprensión Semántica: El lenguaje natural contiene tanto significado literal (semántica explícita) como significado figurado o pragmático (semántica implícita)
Demandas de Aplicaciones Prácticas: Tareas como recuperación de información y clasificación de textos requieren comprender diferentes niveles de semántica
Limitaciones del Modelo: Los métodos tradicionales representan oraciones con un único vector, ignorando la existencia de interpretaciones múltiples

Limitaciones de Métodos Existentes

Restricción de Vector Único: Cada oración se asigna a un único vector de incrustación
Mezcla Semántica: Incapacidad para distinguir entre semántica explícita e implícita
Capacidad de Representación Insuficiente: Dificultad para capturar significados multicapa de oraciones

Contribuciones Principales

Propuesta del Marco DualCSE: Genera dos vectores de incrustación para cada oración, representando respectivamente semántica explícita e implícita
Diseño de Función de Pérdida Contrastiva Novedosa: Optimiza simultáneamente relaciones entre oraciones y dentro de oraciones
Construcción de Espacio Compartido de Semántica Dual: Permite que incrustaciones explícitas e implícitas se comparen en el mismo espacio
Verificación de la Efectividad del Método: Demuestra superioridad en tareas RTE y EIS
Capacidad de Evaluación de Implicitación: Puede estimar el grado de implicitación de una oración

Explicación Detallada del Método

Definición de la Tarea

Dada una oración s, DualCSE la codifica en dos incrustaciones:

r: Incrustación que representa semántica explícita
u: Incrustación que representa semántica implícita

Arquitectura del Modelo

Diseño del Codificador

El artículo propone dos arquitecturas de codificador:

Cross-encoder:
- Utiliza un único modelo BERT/RoBERTa
- Entrada "CLS s SEP explicit" genera incrustación explícita r
- Entrada "CLS s SEP implicit" genera incrustación implícita u
Bi-encoder:
- Utiliza dos modelos BERT/RoBERTa independientes
- Entrena por separado para generar r y u

Función de Pérdida Contrastiva

Función de pérdida diseñada basada en el conjunto de datos INLI:

v(h₁,h₂) = e^(sim(h₁,h₂)/τ)

lᵢ = -log(v(rᵢ,r⁺ᵢ₁)/∑ⱼ(v(rᵢ,r⁺ⱼ₁) + v(rᵢ,r⁻ⱼ) + v(rᵢ,uⱼ)))
     -log(v(uᵢ,r⁺ᵢ₂)/∑ⱼ(v(uᵢ,r⁺ⱼ₂) + v(uᵢ,r⁻ⱼ) + v(uᵢ,rⱼ)))
     -log(v(r⁺ᵢ₁,u⁺ᵢ₁)/∑ⱼv(r⁺ᵢ₁,u⁺ⱼ₁))
     -log(v(r⁺ᵢ₂,u⁺ᵢ₂)/∑ⱼv(r⁺ᵢ₂,u⁺ⱼ₂))
     -log(v(r⁻ᵢ,u⁻ᵢ)/∑ⱼv(r⁻ᵢ,u⁻ⱼ))

Puntos de Innovación Técnica

Representación Semántica Dual: Supera la limitación de vector único, proporcionando dos representaciones de diferentes dimensiones para oraciones
Modelado de Relaciones Entre Oraciones e Intra-Oraciones:
- Entre oraciones: La premisa es similar a la hipótesis de implicación y diferente de la hipótesis de contradicción
- Intra-oraciones: La semántica explícita e implícita de la hipótesis son similares, mientras que la de la premisa son diferentes
Diseño de Espacio Compartido: Permite que diferentes tipos de semántica se comparen en el mismo espacio

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos INLI

Escala: 32,000 pares en conjunto de entrenamiento, 4,000 en desarrollo, 4,000 en prueba
Características: Proporciona cuatro etiquetas de hipótesis para cada premisa
- implied-entailment: Implicación implícita
- explicit-entailment: Implicación explícita
- neutral: Neutral
- contradiction: Contradicción

Conjunto de Datos de Wang et al.

Escala: 101,320 pares en entrenamiento, 5,630 en desarrollo/prueba respectivamente
Propósito: Tarea de puntuación de implicitación

Métricas de Evaluación

Tarea RTE: Precisión (Accuracy)
Tarea EIS: Precisión (Accuracy)

Métodos de Comparación

SimCSE (SNLI+MNLI): Entrenado en conjuntos de datos NLI estándar
SimCSE (INLI): SimCSE entrenado en conjunto de datos INLI
ImpScore: Método especializado en puntuación de implicitación
Modelos de Lenguaje Grande: GPT-4, Gemini-1.5-Pro, etc. como referencia

Detalles de Implementación

Modelo Base: BERT-base, RoBERTa-base
Tamaño de Lote: 64 para Cross-encoder, 32 para Bi-encoder
Tasa de Aprendizaje: 5e-5 para Cross-encoder, 3e-5 para Bi-encoder
Parámetro de Temperatura τ: 0.05

Resultados Experimentales

Resultados Principales

Resultados de la Tarea RTE

Modelo	Explícito	Implícito	Neutral	Contradicción	Promedio
SimCSE (SNLI+MNLI)	79.80	49.00	74.30	67.60	67.68
SimCSE (INLI)	90.60	69.10	66.90	91.00	79.40
DualCSE-Cross	90.20	73.40	68.40	88.70	80.18
DualCSE-Bi	91.90	69.90	72.10	87.60	80.38
Gemini-1.5-Pro	97.90	80.30	92.00	95.40	91.40

Resultados de la Tarea EIS

Modelo	INLI	Conjunto de Datos Wang et al.
LENGTH	99.90	73.37
ImpScore (original)	80.55	95.20
ImpScore (INLI)	99.97	81.56
DualCSE-Cross	99.97	79.31
DualCSE-Bi	100	77.48

Experimentos de Ablación

Los experimentos de ablación verifican la importancia de cada componente de la función de pérdida:

Configuración de Función de Pérdida	RTE	EIS
DualCSE Completo	80.18	99.97
Sin Término de Contradicción	64.57	99.88
Sin Relaciones Intra-Oraciones	80.10	92.25
Sin Término de Contradicción y Relaciones Intra-Oraciones	64.68	32.75

Hallazgos:

El término de contradicción es más importante para la tarea RTE
Las relaciones intra-oraciones son más importantes para la tarea EIS

Análisis de Casos

Ejemplo de Experimento de Recuperación

Oración de Consulta: "She conquered his heart."

Resultados de Recuperación de Semántica Explícita:

"She defeated his heart in battle." (Significado literal de batalla)
"She overcame his cardiac defenses."
"She vanquished his emotional barriers."

Resultados de Recuperación de Semántica Implícita:

"She won his affection and love." (Significado de amor)
"She captured his romantic interest."
"She gained his deep emotional attachment."

Trabajo Relacionado

Métodos de Incrustación de Oraciones

Métodos Basados en BERT: Sentence-BERT, SimCSE, etc.
Aprendizaje Contrastivo: Aplicación en incrustación de oraciones
Representación Multisemántica: Pocos trabajos intentan capturar significados múltiples

Comprensión de Semántica Implícita

Investigación Pragmática: Implicatura conversacional, actos de habla indirectos
Extensión de NLI: De razonamiento explícito a razonamiento implícito
Evaluación de Implicitación: Cuantificación del grado de implicitación de oraciones

Ventajas de Este Artículo

Sistematicidad Pionera: Aborda específicamente la representación dual de semántica explícita/implícita
Entrenamiento End-to-End: Marco unificado que aprende ambos tipos de semántica simultáneamente
Practicidad Fuerte: Aplicable directamente a múltiples tareas posteriores

Conclusiones y Discusión

Conclusiones Principales

Efectividad de DualCSE: Supera métodos de línea base en tareas RTE y EIS
Valor de la Representación Dual: La representación separada de semántica explícita e implícita facilita efectivamente la comprensión
Diseño Razonable de Función de Pérdida: El modelado de relaciones entre oraciones e intra-oraciones es importante
Flexibilidad de Arquitectura: Tanto Cross-encoder como Bi-encoder funcionan efectivamente

Limitaciones

Dependencia de Conjunto de Datos: Entrenado solo en conjunto de datos INLI, diversidad de dominio limitada
Tareas de Evaluación Limitadas: Verificación solo en dos tareas, falta evaluación más amplia
Costo Computacional: Requiere generar dos incrustaciones para cada oración, aumentando costo computacional
Generalización Transdominio: El desempeño en conjunto de datos Wang et al. no es tan bueno como métodos especializados

Direcciones Futuras

Expansión de Conjunto de Datos: Convertir datos de detección de discurso de odio, análisis de sentimientos, etc. al formato INLI
Integración de Modelos Grandes: Extender método a modelos de lenguaje grande
Aplicaciones Prácticas: Verificar en escenarios de análisis de reseñas de clientes, motores de búsqueda, etc.
Análisis Teórico: Investigar profundamente las propiedades matemáticas de semántica explícita/implícita

Evaluación Profunda

Fortalezas

Definición Clara del Problema: Identifica con precisión el problema central de métodos existentes
Innovación Fuerte del Método: La representación semántica dual es un enfoque novedoso y razonable
Diseño Experimental Completo: Incluye experimentos principales, de ablación y análisis cualitativo
Implementación Técnica Viable: Proporciona dos opciones de arquitectura diferentes
Código de Código Abierto: Mejora la reproducibilidad

Insuficiencias

Fundamento Teórico Débil: Falta análisis teórico sobre la distinción de semántica explícita/implícita
Rango de Evaluación Limitado: Verificación solo en dos tareas, poder de convicción insuficiente
Comparación de Línea Base Incompleta: Falta comparación con otros métodos de representación multisemántica
Análisis de Eficiencia Ausente: No analiza costo computacional de incrustaciones duales
Capacidad Multilingüe Desconocida: Verificación solo en inglés

Impacto

Valor Académico: Proporciona nueva perspectiva para investigación de incrustación de oraciones
Valor Práctico: Aplicable a tareas NLP que requieren comprensión de significados implícitos
Inspiración: Puede estimular más investigación sobre representación multisemántica
Limitaciones: El impacto puede estar limitado por la generalidad del método

Escenarios Aplicables

Recuperación de Información: Búsqueda que considera simultáneamente significados literal e implícito
Clasificación de Textos: Análisis de sentimientos, identificación de intención, etc.
Sistemas de Diálogo: Comprensión del significado implícito del usuario
Moderación de Contenido: Detección de contenido inapropiado encubierto
Educación Lingüística: Ayuda en comprensión de significados multicapa del lenguaje

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo incrustación de oraciones, inferencia de lenguaje natural y aprendizaje contrastivo, incluyendo:

Gao et al. (2021): Método SimCSE
Havaldar et al. (2025): Conjunto de datos INLI
Wang et al. (2025): Método de puntuación de implicitación
Reimers and Gurevych (2019): Sentence-BERT

Evaluación General: Este es un artículo con innovación técnica relativamente fuerte que propone un método de representación semántica dual interesante y práctico. Aunque hay espacio para mejora en profundidad teórica y amplitud de evaluación, abre una nueva dirección para investigación de incrustación de oraciones y posee cierto valor académico y potencial de aplicación.