One Sentence, Two Embeddings: Contrastive Learning of Explicit and Implicit Semantic Representations
Oda, Chuang, Shirai et al.
Sentence embedding methods have made remarkable progress, yet they still struggle to capture the implicit semantics within sentences. This can be attributed to the inherent limitations of conventional sentence embedding methods that assign only a single vector per sentence. To overcome this limitation, we propose DualCSE, a sentence embedding method that assigns two embeddings to each sentence: one representing the explicit semantics and the other representing the implicit semantics. These embeddings coexist in the shared space, enabling the selection of the desired semantics for specific purposes such as information retrieval and text classification. Experimental results demonstrate that DualCSE can effectively encode both explicit and implicit meanings and improve the performance of the downstream task.
academic
Una Oración, Dos Incrustaciones: Aprendizaje Contrastivo de Representaciones Semánticas Explícitas e Implícitas
Los métodos de incrustación de oraciones han logrado avances significativos, pero aún enfrentan dificultades para capturar la semántica implícita dentro de las oraciones. Esto se puede atribuir a la limitación inherente de los métodos tradicionales de incrustación de oraciones, que asignan un único vector a cada oración. Para superar esta limitación, este artículo propone DualCSE, un método que asigna dos incrustaciones a cada oración: una que representa la semántica explícita y otra que representa la semántica implícita. Estas incrustaciones coexisten en un espacio compartido, permitiendo seleccionar la semántica deseada según propósitos específicos como recuperación de información y clasificación de textos. Los resultados experimentales demuestran que DualCSE puede codificar efectivamente significados explícitos e implícitos, mejorando el desempeño en tareas posteriores.
Los métodos existentes de incrustación de oraciones presentan deficiencias significativas al procesar semántica implícita. Sun et al. (2025) señalan que incluso los métodos más avanzados de incrustación de oraciones muestran una brecha de rendimiento cercana al 20% entre semántica explícita e implícita en el punto de referencia de clasificación MTEB.
Completitud de la Comprensión Semántica: El lenguaje natural contiene tanto significado literal (semántica explícita) como significado figurado o pragmático (semántica implícita)
Demandas de Aplicaciones Prácticas: Tareas como recuperación de información y clasificación de textos requieren comprender diferentes niveles de semántica
Limitaciones del Modelo: Los métodos tradicionales representan oraciones con un único vector, ignorando la existencia de interpretaciones múltiples
Este artículo cita trabajos importantes de múltiples campos incluyendo incrustación de oraciones, inferencia de lenguaje natural y aprendizaje contrastivo, incluyendo:
Gao et al. (2021): Método SimCSE
Havaldar et al. (2025): Conjunto de datos INLI
Wang et al. (2025): Método de puntuación de implicitación
Reimers and Gurevych (2019): Sentence-BERT
Evaluación General: Este es un artículo con innovación técnica relativamente fuerte que propone un método de representación semántica dual interesante y práctico. Aunque hay espacio para mejora en profundidad teórica y amplitud de evaluación, abre una nueva dirección para investigación de incrustación de oraciones y posee cierto valor académico y potencial de aplicación.