We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.
- ID del Artículo: 2501.10147
- Título: Agrupamiento Discriminante Óptimo Disperso Regularizado
- Autores: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Universidad de Doshisha)
- Clasificación: stat.ME (Métodos Estadísticos)
- Fecha de Publicación: 15 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2501.10147
Este artículo propone un nuevo método basado en agrupamiento discriminante óptimo disperso (SODC), incorporando términos de penalización basados en agrupamiento convexo en la matriz de puntuación. Al añadir este término de penalización, se espera mejorar la precisión de la identificación de agrupamientos acercando puntos dentro del mismo agrupamiento y alejando puntos de diferentes agrupamientos. Cuando se visualizan los resultados de estimación, la estructura de agrupamiento se puede delinear más claramente. Además, los autores desarrollan un algoritmo novedoso que utiliza funciones de mayorización para derivar la fórmula de actualización de la matriz de puntuación. La matriz de puntuación se actualiza mediante el método de dirección alternada de multiplicadores (ADMM), comúnmente utilizado para calcular parámetros de la función objetivo de agrupamiento convexo.
La reducción de dimensionalidad con agrupamiento se utiliza ampliamente para interpretar características de datos grandes y complejos, estimando un espacio de baja dimensión para identificar agrupamientos mientras se mantienen características importantes de datos de alta dimensión y se logra un procesamiento eficiente. Aunque los métodos existentes de agrupamiento discriminante óptimo (ODC) y agrupamiento discriminante óptimo disperso (SODC) describen agrupamientos más claramente que el análisis de componentes principales, presentan los siguientes problemas:
- Problema de Estructura de Matriz de Puntuación: La matriz de puntuación en SODC no mantiene la misma estructura de identificación de agrupamientos que la puntuación óptima en LDA
- Falta de Matriz de Información de Agrupamiento Independiente: ODC y SODC no incluyen una matriz independiente que contenga información de agrupamiento, lo que puede afectar la precisión de la estimación de agrupamiento
- Efectos de Visualización Deficientes: SODC puede no producir una estructura de agrupamiento bien separada cuando los datos se reducen a un espacio de baja dimensión y se visualizan los resultados
Para abordar los problemas anteriores, los autores proponen añadir un término de penalización basado en agrupamiento convexo en SODC, permitiendo que la matriz de puntuación proporcione una estructura de agrupamiento más clara que SODC tradicional, acercando puntos de datos del mismo agrupamiento y separando puntos de diferentes agrupamientos.
- Propuesta del Método RSODC: Añade un término de regularización basado en agrupamiento convexo sobre la base de SODC, mejorando la precisión de identificación de agrupamientos
- Desarrollo de Nuevo Algoritmo: Utiliza funciones de mayorización para derivar la fórmula de actualización de la matriz de puntuación, satisfaciendo simultáneamente restricciones de ortogonalidad y requisitos de estructura de agrupamiento
- Marco de Optimización ADMM: Adopta el método de dirección alternada de multiplicadores para actualizar la matriz de puntuación, manejando efectivamente condiciones de restricción complejas
- Verificación Teórica y Empírica: Valida la efectividad del método mediante simulaciones numéricas y aplicaciones en datos reales
Dada una matriz de datos X∈Rn×p, el objetivo es identificar k agrupamientos en un espacio de baja dimensión, realizando simultáneamente selección de variables y reducción de dimensionalidad.
El problema de optimización de RSODC se define como:
minB,Y†21∥Y†−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑i<jαi,j∥yi†−yj†∥2
Restricciones: Y†⊤Y†=Ik−1 y Y†⊤1=0
Donde:
- Los primeros tres términos son idénticos a SODC
- El cuarto término es el término de penalización basado en agrupamiento convexo, que alienta muestras similares a estar más cerca
- αi,j es el peso, calculado como: αi,j=ιδi,jexp(−τ∥xi−xj∥22)
Para aplicar el algoritmo ADMM, el problema se reescribe como:
minB,Y,V,Λ21∥Y−HnXB∥F2+η2∥B∥F2+η1∑j=1p∥βj∥2+γ∑l∈εαl∥vl∥2
Restricciones:
- yi−yj=vl
- Y⊤Y=Ik−1
- Y⊤1=0
La innovación clave es utilizar funciones de mayorización para procesar términos cuadráticos en la actualización de la matriz de puntuación. Para la forma cuadrática tr(Y⊤CY), se construye una función de mayorización:
tr(Y⊤CY)≤2ω−2tr(Y⊤(ωI−C)Q)−tr(Q⊤CQ)
Donde ω es el valor propio máximo de C=2ρ∑l∈εglgl⊤.
Mediante la función de mayorización, la actualización de Y se transforma en un problema de Procrustes ortogonal:
minY∥Y−D∥F2,s.t. Y⊤Y=I
La solución es Y←LR⊤, donde D=LΣR⊤ es la descomposición en valores singulares.
- Datos Simulados:
- Número de muestras n=60,96,156
- Número de variables p=20,50,80,100
- Número de agrupamientos k=3,4
- Número de variables informativas q=2
- Datos Reales: Datos de proteómica del cáncer de mama (TCGA de mama)
- 150 muestras, 142 proteínas
- 3 subtipos de cáncer: Basal, Her2, LumA
- Selección de 10 variables informativas y 70 variables no informativas
- Índice Rand Ajustado (ARI): Evalúa la precisión del agrupamiento
- Razón de Varianza: Relación entre varianza intra-agrupamiento y varianza inter-agrupamiento
- Sensibilidad y Especificidad: Evalúan la efectividad de la selección de variables
- Agrupamiento Discriminante Óptimo Disperso (SODC)
- Agrupamiento en Tándem (Tandem clustering)
- k-medias Reducido (Reduced k-means)
- k-medias Factorial (Factorial k-means)
- t-SNE
- Selección de parámetros: Validación cruzada basada en coeficiente kappa
- η2=0, τ=0.1, δ=25
- Umbral de convergencia: ϵ>0
En todas las configuraciones de simulación, RSODC supera a los métodos de comparación en la métrica ARI:
- Cuando k=3: RSODC muestra el mejor rendimiento en casi todos los patrones
- Cuando k=4: El rendimiento de RSODC es superior a todos los métodos de comparación
- Estabilidad: Con el aumento de p, RSODC mantiene estabilidad, mientras que SODC se vuelve inestable
- Calidad de Agrupamiento: Con el aumento de la distancia del centro de agrupamiento ϑ, el valor ARI de RSODC aumenta más notablemente
Resultados en datos de cáncer de mama:
| Método | ARI(XB^) | ARI(Y^) | Razón de Varianza(XB^) | Razón de Varianza(Y^) |
|---|
| RSODC | 0.406 | 0.441 | 3.038 | 3.056 |
| SODC | 0.401 | 0.363 | 2.909 | 2.660 |
- Parámetro de Peso: ARI más alto cuando τ=0 y δ=0.01
- Parámetros de Ajuste: Diferentes combinaciones de η1,γ,ρ tienen impacto menor en los resultados
- Selección de Número de Agrupamientos: La estadística de brecha puede determinar efectivamente el número real de agrupamientos
El tiempo de cálculo de RSODC es mayor que el de SODC, especialmente cuando n es grande, pero proporciona mejor calidad de agrupamiento.
Los resultados de visualización muestran que RSODC puede:
- Agrupar puntos dentro del mismo agrupamiento más estrechamente
- Separar puntos de diferentes agrupamientos más distantemente
- Proporcionar límites de agrupamiento más claros
- Agrupamiento Discriminante Óptimo (ODC): Zhang y Dai (2009) basado en puntuación óptima del análisis discriminante lineal de Fisher
- ODC Disperso (SODC): Wang et al. (2016) añaden penalización de grupo lasso sobre ODC
- Agrupamiento Convexo: Pelckmans et al. (2005), Hocking et al. (2011) utilizan optimización convexa para agrupamiento estable
Las principales ventajas de RSODC en comparación con métodos existentes:
- Aproxima el modelo en espacio de baja dimensión en lugar de espacio original
- Utiliza función de mayorización para manejar simultáneamente restricciones de ortogonalidad y estructura de agrupamiento
- Proporciona efectos de visualización de agrupamiento más claros
- RSODC mejora significativamente la precisión de identificación de agrupamientos mediante la adición de término de penalización de agrupamiento convexo
- El método de función de mayorización resuelve efectivamente el problema de satisfacer simultáneamente restricciones de ortogonalidad y estructura de agrupamiento
- Los experimentos validan la efectividad del método en datos simulados y reales
- Complejidad Computacional: Requiere más tiempo de cálculo que SODC
- Selección de Parámetros: El costo computacional de validación cruzada es alto
- Cálculo de Pesos: Calcular pesos en espacio original puede no ser óptimo
- Supuestos de Distribución de Datos: Implícitamente asume que los errores siguen distribución normal
- Desarrollar métodos de selección de parámetros más eficientes
- Calcular pesos en espacio de baja dimensión
- Derivar criterios de información para reducir costo de validación cruzada
- Considerar extensiones para distribuciones no normales
- Fuerte Innovación de Método: Combina ingeniosamente agrupamiento convexo y análisis discriminante disperso
- Base Teórica Sólida: El método de función de mayorización es teóricamente riguroso
- Experimentos Suficientes: Incluye 5 experimentos de simulación y validación en datos reales
- Diseño de Algoritmo Ingenioso: El marco ADMM maneja efectivamente condiciones de restricción complejas
- Eficiencia Computacional: El costo computacional es significativamente mayor en comparación con SODC
- Sensibilidad de Parámetros: Múltiples hiperparámetros requieren ajuste fino
- Rango de Aplicabilidad: Principalmente aplicable a problemas de agrupamiento a pequeña escala
- Análisis Teórico: Carece de análisis teórico de convergencia y complejidad
- Contribución Académica: Proporciona nuevas perspectivas para agrupamiento con reducción de dimensionalidad
- Valor Práctico: Aplicable a escenarios que requieren visualización clara de agrupamiento
- Reproducibilidad: La descripción del algoritmo es detallada y fácil de implementar
- Análisis de agrupamiento de datos de alta dimensión
- Tareas de agrupamiento que requieren selección de variables
- Análisis exploratorio de datos que requiere visualización clara
- Análisis de datos en bioinformática y genómica
Las referencias principales incluyen:
- Zhang & Dai (2009): Trabajo original sobre agrupamiento discriminante óptimo
- Wang et al. (2016): Agrupamiento discriminante óptimo disperso
- Chi & Lange (2015): Algoritmo ADMM para agrupamiento convexo
- Hunter & Lange (2004): Algoritmo MM y funciones de mayorización
Evaluación General: Este es un artículo de alta calidad en metodología estadística que propone el método RSODC con innovación teórica y verificación experimental suficiente. Aunque la complejidad computacional es relativamente alta, muestra mejoras significativas en calidad de agrupamiento y efectos de visualización, realizando contribuciones importantes al campo del agrupamiento con reducción de dimensionalidad.