Instance discrimination is a self-supervised representation learning paradigm wherein individual instances within a dataset are treated as distinct classes. This is typically achieved by generating two disparate views of each instance by applying stochastic transformations, encouraging the model to learn representations invariant to the common underlying object across these views. While this approach facilitates the acquisition of invariant representations for dataset instances under various handcrafted transformations (e.g., random cropping, colour jittering), an exclusive reliance on such data transformations for achieving invariance may inherently limit the model's generalizability to unseen datasets and diverse downstream tasks. The inherent limitation stems from the fact that the finite set of transformations within the data processing pipeline is unable to encompass the full spectrum of potential data variations. In this study, we provide the technical foundation for leveraging semantic pairs to enhance the generalizability of the model's representation and empirically demonstrate that incorporating semantic pairs mitigates the issue of limited transformation coverage. Specifically, we propose that by exposing the model to semantic pairs (i.e., two instances belonging to the same semantic category), we introduce varied real-world scene contexts, thereby fostering the development of more generalizable object representations. To validate this hypothesis, we constructed and released a novel dataset comprising curated semantic pairs and conducted extensive experimentation to empirically establish that their inclusion enables the model to learn more general representations, ultimately leading to improved performance across diverse downstream tasks.
Mejorando el Aprendizaje Autosupervisado con Pares Semánticos: Un Nuevo Conjunto de Datos y Estudio Empírico
- ID del Artículo: 2510.08722
- Título: Enhancing Self-Supervised Learning with Semantic Pairs: A New Dataset and Empirical Study
- Autores: Mohammad Alkhalefi, Georgios Leontidis, Mingjun Zhong (Universidad de Aberdeen)
- Clasificación: cs.LG cs.AI
- Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2510.08722v2
Este artículo aborda las limitaciones de los métodos de aprendizaje autosupervisado basados en discriminación de instancias, proponiendo un enfoque que utiliza pares semánticos para mejorar la capacidad de generalización del modelo. Los métodos tradicionales de discriminación de instancias generan diferentes vistas de la misma instancia mediante transformaciones aleatorias, pero este enfoque está limitado por un conjunto restringido de transformaciones que puede no cubrir toda la variabilidad de los datos del mundo real. Los autores construyen un conjunto de datos de pares semánticos cuidadosamente curado y verifican mediante experimentos extensos que los pares semánticos ayudan al modelo a aprender representaciones más universales, logrando mejor desempeño en múltiples tareas posteriores.
Los métodos tradicionales de aprendizaje autosupervisado basados en discriminación de instancias presentan las siguientes limitaciones clave:
- Cobertura Insuficiente de Transformaciones: Dependen de transformaciones diseñadas manualmente de forma limitada (como recorte aleatorio, variación de color), incapaces de abarcar toda la variabilidad de los datos del mundo real
- Capacidad de Generalización Limitada: Capacidad limitada de generalización en conjuntos de datos no vistos y tareas posteriores diversificadas
- Aprendizaje de Asociaciones Inadecuadas: Pueden aprender asociaciones inadecuadas entre el fondo y los objetos en primer plano
Los autores observan que los métodos tradicionales capturan información compartida entre dos vistas aumentadas al aprender representaciones, pero esto puede incluir información de fondo irrelevante y características detalladas. Los pares semánticos, al colocar diferentes instancias de la misma clase en contextos diferentes, pueden guiar al modelo para enfocarse en información relevante para la tarea e ignorar información irrelevante.
El artículo propone que los pares semánticos pueden mejorar cuatro invariancias clave:
- Invariancia de Oclusión: Reconocer objetos parcialmente ocluidos
- Invariancia de Fondo: Reconocer objetos con diferentes fondos
- Invariancia de Patrón: Mantener robustez ante cambios en patrones de superficie
- Invariancia de Iluminación: Adaptarse a diferentes condiciones de iluminación
- Explicación Teórica: Explicación profunda de cómo los pares semánticos promueven la capacidad de generalización de los métodos de discriminación de instancias
- Construcción de Conjunto de Datos: Creación de un conjunto de datos de pares semánticos cuidadosamente curado, que contiene 187 clases, 157 pares por clase, totalizando 29,359 pares semánticos
- Comparación Sistemática: Comparación de múltiples métodos de aprendizaje autosupervisado de última generación para determinar cuál es más capaz de aprender representaciones útiles de los pares semánticos
- Verificación Empírica: Verificación de la efectividad de los pares semánticos mediante tareas de aprendizaje por transferencia y detección de objetos
Esta investigación se enfoca en el aprendizaje de representaciones autosupervisadas, particularmente en el paradigma de discriminación de instancias. El objetivo de la tarea es aprender representaciones visuales universales que funcionen bien en múltiples tareas posteriores sin anotación manual.
- Escala: 187 clases, 157 pares por clase, total de 29,359 pares semánticos
- Estrategia de Construcción: Anotación manual para garantizar alineación semántica precisa, evitando errores de métodos de coincidencia automática
- Selección de Clases: Selección de clases de ImageNet-1K que se superponen semánticamente con conjuntos de datos de referencia estándar (como STL-10, CIFAR)
- Garantía de Calidad: Curación manual de tiempo completo durante 6 meses (8 horas diarias)
- Escala: 187 clases, 157 imágenes por clase, total de 29,359 imágenes
- Método de Generación: Generación de pares sintéticos mediante transformaciones aleatorias (recorte, rotación, volteo, variación de color)
Se adopta un marco de comparación de cuatro etapas:
- Construcción del Conjunto de Datos: Creación de conjuntos de datos de pares semánticos y pares aumentados
- Transformación de Imágenes: Aplicación de un pipeline estándar de transformaciones aleatorias
- Entrenamiento del Modelo: Entrenamiento de múltiples métodos de última generación en ambos conjuntos de datos
- Evaluación del Desempeño: Evaluación de la calidad de la representación mediante tareas posteriores
- Alineación Semántica Precisa: Garantía de precisión de los pares semánticos mediante curación manual, evitando ruido de métodos automáticos
- Análisis de Efectos Aislados: Entrenamiento utilizando únicamente pares semánticos, evitando efectos de confusión causados por mezcla con datos aumentados
- Evaluación Sistemática: Verificación de la efectividad universal de los pares semánticos en múltiples métodos de aprendizaje autosupervisado
- Datos de Preentrenamiento: Conjunto de datos de pares semánticos vs conjunto de datos de pares aumentados (29,359 pares/imágenes cada uno)
- Conjuntos de Datos de Evaluación:
- Aprendizaje por Transferencia: STL-10, CIFAR-10, CIFAR-100
- Detección de Objetos: PASCAL VOC
- Experimentos Comparativos: Tiny-ImageNet
- Aprendizaje por Transferencia: Precisión de evaluación lineal
- Detección de Objetos: AP50, AP, AP75
- Eficiencia Computacional: Comparación de tiempo de entrenamiento
- Aprendizaje Contrastivo: SimCLR
- Aprendizaje No Contrastivo:
- Maximización de Información: VicReg
- Destilación de Conocimiento: BYOL, DINO
- Red Troncal: ResNet-50, ViT-S/8
- Tamaño de Lote: 256
- Resolución de Entrada: 64×64 píxeles
- Épocas de Entrenamiento: 200-800 épocas
- Hardware: GPU A100 80G
En todos los conjuntos de datos evaluados, los modelos preentrenados con pares semánticos superan la línea base de pares aumentados:
| Método | CIFAR-10 | CIFAR-100 | STL-10 |
|---|
| SimCLR (AP) | 81.76% | - | 81.76% |
| SimCLR (SP) | 83.60% | 59.58% | 85.59% |
| Mejora | +0.8% | +0.9% | +3.8% |
Después de extender el entrenamiento a 800 épocas, la brecha de desempeño persiste:
- SimCLR (SP): 86.56% (STL-10)
- SimCLR (AP): 82.41% (STL-10)
- Magnitud de Mejora: +3.75%
En comparación con Tiny-ImageNet, el conjunto de datos de pares semánticos muestra ventajas significativas:
| Conjunto de Datos | Número de Clases | Número de Muestras | CIFAR-10 | STL-10 | Tiempo de Entrenamiento |
|---|
| Pares Semánticos | 187 | 29.4K | 83.60% | 85.59% | 4.5h |
| Tiny-ImageNet | 200 | 100K | 79.43% | 79.61% | 13h |
Cuando se eliminan transformaciones específicas, el modelo de pares semánticos muestra mayor robustez:
- Eliminación de transformación de escala de grises: SimCLR (AP) disminuye 9.69%, SimCLR (SP) prácticamente sin cambios
- Solo conservando recorte aleatorio: Desempeño de SimCLR (AP) cae drásticamente a 24.25%, SimCLR (SP) mantiene 64.23%
Los resultados en arquitectura ViT confirman la efectividad universal de los pares semánticos:
| Método | CIFAR-10 | CIFAR-100 | STL-10 |
|---|
| DINO (SP) | 81.8% | 65.3% | 82.1% |
| DINO (AP) | 81.1% | 64.5% | 79.2% |
A medida que disminuye el número de muestras de entrenamiento, la ventaja de los pares semánticos se vuelve más evidente:
- 50 muestras/clase: Ventaja de pares semánticos +4.20%
- 157 muestras/clase: Ventaja de pares semánticos +3.83%
En la tarea de detección de objetos PASCAL VOC:
| Método | AP50 | AP | AP75 |
|---|
| SimCLR (SP) | 75.02% | 50.30% | 55.22% |
| SimCLR (AP) | 73.82% | 48.9% | 53.72% |
| Mejora | +1.2% | +1.4% | +1.5% |
- Ventaja del Aprendizaje Contrastivo: SimCLR muestra el mejor desempeño en la utilización de pares semánticos, logrando la mayor mejora en todos los conjuntos de datos
- Reducción de Dependencia de Transformaciones: Los modelos entrenados con pares semánticos muestran dependencia significativamente reducida de transformaciones de datos
- Ventaja en Muestras Pequeñas: La ventaja de los pares semánticos es más pronunciada en casos de datos de entrenamiento limitados
- Aplicabilidad Universal: Los beneficios de los pares semánticos se verifican en diferentes arquitecturas y tareas
El artículo clasifica el trabajo relacionado en tres categorías principales:
- SimCLR: Método de extremo a extremo, utilizando grandes cantidades de muestras negativas
- MoCo: Método de contraste de momento, utilizando diccionario para almacenar muestras negativas
- PIRL: Utilizando memoria para almacenar muestras negativas
- Métodos de Agrupamiento: DeepCluster, SWAV
- Destilación de Conocimiento: BYOL, SimSiam, DINO
- Maximización de Información: Barlow Twins, VICReg
- Minería de Muestras Negativas: Minería de muestras negativas difíciles
- Construcción de Muestras Positivas: Construcción de pares positivos utilizando similitud semántica
- Estudio de Efectos Aislados: Evita el uso mixto de pares semánticos y datos aumentados
- Alineación Semántica Precisa: Garantía de calidad mediante curación manual
- Comparación Sistemática: Verificación de efectividad en múltiples métodos
- Efectividad de Pares Semánticos: Los pares semánticos pueden mejorar significativamente la capacidad de generalización de modelos de aprendizaje autosupervisado
- Ventaja del Aprendizaje Contrastivo: Los métodos de aprendizaje contrastivo (especialmente SimCLR) se benefician más de los pares semánticos
- Reducción de Dependencia de Transformaciones: El entrenamiento con pares semánticos reduce la dependencia de transformaciones de datos artificiales
- Mejora de Eficiencia Computacional: En comparación con conjuntos de datos a gran escala, un conjunto de datos de pares semánticos cuidadosamente curado logra mejores resultados con menos recursos computacionales
- Escala del Conjunto de Datos: El conjunto de datos actual es relativamente pequeño (187 clases), la escalabilidad requiere verificación
- Costo Manual: El proceso de curación manual requiere mucho tiempo, con limitada automatización
- Especificidad de Dominio: Principalmente verificado en tareas visuales, la aplicabilidad a otras modalidades es desconocida
- Explicación Teórica: La explicación teórica de por qué el aprendizaje contrastivo es más adecuado para pares semánticos sigue siendo insuficiente
- Expansión a Gran Escala: Exploración de la escalabilidad del método de pares semánticos en espacios semánticos más grandes
- Curación Automatizada: Desarrollo de métodos más precisos de coincidencia automática de pares semánticos
- Aplicaciones Multimodales: Extensión del concepto de pares semánticos a otras modalidades
- Análisis Teórico: Investigación profunda de los mecanismos internos de cómo el aprendizaje contrastivo utiliza relaciones semánticas
- Definición Clara del Problema: Identificación precisa de las limitaciones centrales de los métodos tradicionales de discriminación de instancias
- Diseño de Método Razonable: Garantía de calidad de pares semánticos mediante curación manual, evitando interferencia de ruido
- Diseño Experimental Riguroso: Adopción de método de control de variables para aislar el efecto independiente de los pares semánticos
- Resultados Convincentes: Verificación de mejoras consistentes en múltiples conjuntos de datos y múltiples métodos
- Alto Valor Práctico: El conjunto de datos y código proporcionados pueden promover el desarrollo del campo
- Profundidad Teórica Limitada: Explicación teórica insuficiente de por qué los pares semánticos son efectivos
- Limitación de Escala: Los experimentos se realizan principalmente en conjuntos de datos relativamente pequeños
- Consideración Insuficiente de Costos: El alto costo de la curación manual puede limitar la aplicación práctica
- Comparación Incompleta: Falta de comparación directa con otros métodos de mejora semántica
- Contribución Académica: Proporciona una nueva dirección de investigación y conjunto de datos de referencia para el campo del aprendizaje autosupervisado
- Valor Práctico: El método es simple y efectivo, fácil de implementar en marcos existentes
- Reproducibilidad: Los autores se comprometen a publicar el conjunto de datos y código, facilitando la reproducción de resultados
- Significado Inspirador: Proporciona ideas sobre cómo construir mejores datos para el aprendizaje autosupervisado
- Entornos con Recursos Limitados: Cuando los recursos computacionales son limitados pero se requiere representación de alta calidad
- Aplicaciones Específicas de Dominio: Cuando se necesita buen desempeño en tareas posteriores específicas
- Prototipos de Investigación: Como base para investigar el papel de las relaciones semánticas en el aprendizaje de representaciones
- Propósitos Educativos: Ayuda a comprender el equilibrio entre calidad y cantidad de datos en el aprendizaje autosupervisado
El artículo cita trabajos importantes en el campo del aprendizaje autosupervisado, incluyendo:
- Métodos clásicos de aprendizaje contrastivo: SimCLR, MoCo, PIRL
- Métodos de aprendizaje no contrastivo: BYOL, DINO, VicReg
- Conjuntos de datos relacionados: ImageNet, CIFAR, STL-10
- Investigaciones relacionadas con pares semánticos: Trabajos recientes sobre construcción de muestras positivas
Evaluación General: Este es un artículo de investigación empírica de alta calidad que verifica la importancia de los pares semánticos en el aprendizaje autosupervisado mediante experimentos cuidadosamente diseñados. Aunque tiene algunas deficiencias en profundidad teórica, su valor práctico y contribución al campo son dignos de reconocimiento. El conjunto de datos y los hallazgos proporcionados por el artículo proporcionarán una base importante para futuras investigaciones.