2025-11-10T02:57:56.733881

Regularized Sparse Optimal Discriminant Clustering

Hiraishi, Tanioka, Yadohisa
We propose a new method based on sparse optimal discriminant clustering (SODC), incorporating a penalty term into the scoring matrix based on convex clustering. With the addition of this penalty term, it is expected to improve the accuracy of cluster identification by pulling points within the same cluster closer together and points from different clusters further apart. When the estimation results are visualized, the clustering structure can be depicted more clearly. Moreover, we develop a novel algorithm to derive the updated formula of this scoring matrix using a majorizing function. The scoring matrix is updated using the alternating direction method of multipliers (ADMM), which is often employed to calculate the parameters of the objective function in the convex clustering. In the proposed method, as in the conventional SODC, the scoring matrix is subject to an orthogonal constraint. Therefore, it is necessary to satisfy the orthogonal constraint on the scoring matrix while maintaining the clustering structure. Using a majorizing function, we adress the challenge of enforcing both orthogonal constraint and the clustering structure within the scoring matrix. We demonstrate numerical simulations and an application to real data to assess the performance of the proposed method.
academic

Agrupamiento Discriminante Óptimo Disperso Regularizado

Información Básica

  • ID del Artículo: 2501.10147
  • Título: Agrupamiento Discriminante Óptimo Disperso Regularizado
  • Autores: Mayu Hiraishi, Kensuke Tanioka, Hiroshi Yadohisa (Universidad de Doshisha)
  • Clasificación: stat.ME (Métodos Estadísticos)
  • Fecha de Publicación: 15 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.10147

Resumen

Este artículo propone un nuevo método basado en agrupamiento discriminante óptimo disperso (SODC), incorporando términos de penalización basados en agrupamiento convexo en la matriz de puntuación. Al añadir este término de penalización, se espera mejorar la precisión de la identificación de agrupamientos acercando puntos dentro del mismo agrupamiento y alejando puntos de diferentes agrupamientos. Cuando se visualizan los resultados de estimación, la estructura de agrupamiento se puede delinear más claramente. Además, los autores desarrollan un algoritmo novedoso que utiliza funciones de mayorización para derivar la fórmula de actualización de la matriz de puntuación. La matriz de puntuación se actualiza mediante el método de dirección alternada de multiplicadores (ADMM), comúnmente utilizado para calcular parámetros de la función objetivo de agrupamiento convexo.

Antecedentes de Investigación y Motivación

Definición del Problema

La reducción de dimensionalidad con agrupamiento se utiliza ampliamente para interpretar características de datos grandes y complejos, estimando un espacio de baja dimensión para identificar agrupamientos mientras se mantienen características importantes de datos de alta dimensión y se logra un procesamiento eficiente. Aunque los métodos existentes de agrupamiento discriminante óptimo (ODC) y agrupamiento discriminante óptimo disperso (SODC) describen agrupamientos más claramente que el análisis de componentes principales, presentan los siguientes problemas:

  1. Problema de Estructura de Matriz de Puntuación: La matriz de puntuación en SODC no mantiene la misma estructura de identificación de agrupamientos que la puntuación óptima en LDA
  2. Falta de Matriz de Información de Agrupamiento Independiente: ODC y SODC no incluyen una matriz independiente que contenga información de agrupamiento, lo que puede afectar la precisión de la estimación de agrupamiento
  3. Efectos de Visualización Deficientes: SODC puede no producir una estructura de agrupamiento bien separada cuando los datos se reducen a un espacio de baja dimensión y se visualizan los resultados

Motivación de la Investigación

Para abordar los problemas anteriores, los autores proponen añadir un término de penalización basado en agrupamiento convexo en SODC, permitiendo que la matriz de puntuación proporcione una estructura de agrupamiento más clara que SODC tradicional, acercando puntos de datos del mismo agrupamiento y separando puntos de diferentes agrupamientos.

Contribuciones Principales

  1. Propuesta del Método RSODC: Añade un término de regularización basado en agrupamiento convexo sobre la base de SODC, mejorando la precisión de identificación de agrupamientos
  2. Desarrollo de Nuevo Algoritmo: Utiliza funciones de mayorización para derivar la fórmula de actualización de la matriz de puntuación, satisfaciendo simultáneamente restricciones de ortogonalidad y requisitos de estructura de agrupamiento
  3. Marco de Optimización ADMM: Adopta el método de dirección alternada de multiplicadores para actualizar la matriz de puntuación, manejando efectivamente condiciones de restricción complejas
  4. Verificación Teórica y Empírica: Valida la efectividad del método mediante simulaciones numéricas y aplicaciones en datos reales

Explicación Detallada del Método

Definición de la Tarea

Dada una matriz de datos XRn×pX \in \mathbb{R}^{n \times p}, el objetivo es identificar kk agrupamientos en un espacio de baja dimensión, realizando simultáneamente selección de variables y reducción de dimensionalidad.

Arquitectura del Modelo

Función Objetivo de RSODC

El problema de optimización de RSODC se define como:

minB,Y12YHnXBF2+η2BF2+η1j=1pβj2+γi<jαi,jyiyj2\min_{B,Y^{\dagger}} \frac{1}{2}\|Y^{\dagger} - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{i<j}\alpha_{i,j}\|y_i^{\dagger} - y_j^{\dagger}\|_2

Restricciones: YY=Ik1Y^{\dagger\top}Y^{\dagger} = I_{k-1} y Y1=0Y^{\dagger\top}1 = 0

Donde:

  • Los primeros tres términos son idénticos a SODC
  • El cuarto término es el término de penalización basado en agrupamiento convexo, que alienta muestras similares a estar más cerca
  • αi,j\alpha_{i,j} es el peso, calculado como: αi,j=ιδi,jexp(τxixj22)\alpha_{i,j} = \iota_{\delta_{i,j}}\exp(-\tau\|x_i - x_j\|_2^2)

Descomposición ADMM

Para aplicar el algoritmo ADMM, el problema se reescribe como:

minB,Y,V,Λ12YHnXBF2+η2BF2+η1j=1pβj2+γlεαlvl2\min_{B,Y,V,\Lambda} \frac{1}{2}\|Y - H_nXB\|_F^2 + \eta_2\|B\|_F^2 + \eta_1\sum_{j=1}^p\|\beta_j\|_2 + \gamma\sum_{l \in \varepsilon}\alpha_l\|v_l\|_2

Restricciones:

  • yiyj=vly_i - y_j = v_l
  • YY=Ik1Y^{\top}Y = I_{k-1}
  • Y1=0Y^{\top}1 = 0

Puntos de Innovación Técnica

Método de Función de Mayorización

La innovación clave es utilizar funciones de mayorización para procesar términos cuadráticos en la actualización de la matriz de puntuación. Para la forma cuadrática tr(YCY)\text{tr}(Y^{\top}CY), se construye una función de mayorización:

tr(YCY)2ω2tr(Y(ωIC)Q)tr(QCQ)\text{tr}(Y^{\top}CY) \leq 2\omega - 2\text{tr}(Y^{\top}(\omega I - C)Q) - \text{tr}(Q^{\top}CQ)

Donde ω\omega es el valor propio máximo de C=ρ2lεglglC = \frac{\rho}{2}\sum_{l \in \varepsilon}g_lg_l^{\top}.

Análisis de Procrustes Ortogonal

Mediante la función de mayorización, la actualización de Y se transforma en un problema de Procrustes ortogonal:

minYYDF2,s.t. YY=I\min_Y \|Y - D\|_F^2, \quad \text{s.t. } Y^{\top}Y = I

La solución es YLRY \leftarrow LR^{\top}, donde D=LΣRD = L\Sigma R^{\top} es la descomposición en valores singulares.

Configuración Experimental

Conjuntos de Datos

  1. Datos Simulados:
    • Número de muestras n=60,96,156n = 60, 96, 156
    • Número de variables p=20,50,80,100p = 20, 50, 80, 100
    • Número de agrupamientos k=3,4k = 3, 4
    • Número de variables informativas q=2q = 2
  2. Datos Reales: Datos de proteómica del cáncer de mama (TCGA de mama)
    • 150 muestras, 142 proteínas
    • 3 subtipos de cáncer: Basal, Her2, LumA
    • Selección de 10 variables informativas y 70 variables no informativas

Métricas de Evaluación

  • Índice Rand Ajustado (ARI): Evalúa la precisión del agrupamiento
  • Razón de Varianza: Relación entre varianza intra-agrupamiento y varianza inter-agrupamiento
  • Sensibilidad y Especificidad: Evalúan la efectividad de la selección de variables

Métodos de Comparación

  • Agrupamiento Discriminante Óptimo Disperso (SODC)
  • Agrupamiento en Tándem (Tandem clustering)
  • k-medias Reducido (Reduced k-means)
  • k-medias Factorial (Factorial k-means)
  • t-SNE

Detalles de Implementación

  • Selección de parámetros: Validación cruzada basada en coeficiente kappa
  • η2=0\eta_2 = 0, τ=0.1\tau = 0.1, δ=25\delta = 25
  • Umbral de convergencia: ϵ>0\epsilon > 0

Resultados Experimentales

Resultados Principales

Experimentos de Simulación

En todas las configuraciones de simulación, RSODC supera a los métodos de comparación en la métrica ARI:

  • Cuando k=3k=3: RSODC muestra el mejor rendimiento en casi todos los patrones
  • Cuando k=4k=4: El rendimiento de RSODC es superior a todos los métodos de comparación
  • Estabilidad: Con el aumento de pp, RSODC mantiene estabilidad, mientras que SODC se vuelve inestable
  • Calidad de Agrupamiento: Con el aumento de la distancia del centro de agrupamiento ϑ\vartheta, el valor ARI de RSODC aumenta más notablemente

Aplicación en Datos Reales

Resultados en datos de cáncer de mama:

MétodoARI(XB^X\hat{B})ARI(Y^\hat{Y})Razón de Varianza(XB^X\hat{B})Razón de Varianza(Y^\hat{Y})
RSODC0.4060.4413.0383.056
SODC0.4010.3632.9092.660

Experimentos de Ablación

Análisis de Sensibilidad de Parámetros

  • Parámetro de Peso: ARI más alto cuando τ=0\tau = 0 y δ=0.01\delta = 0.01
  • Parámetros de Ajuste: Diferentes combinaciones de η1,γ,ρ\eta_1, \gamma, \rho tienen impacto menor en los resultados
  • Selección de Número de Agrupamientos: La estadística de brecha puede determinar efectivamente el número real de agrupamientos

Complejidad Computacional

El tiempo de cálculo de RSODC es mayor que el de SODC, especialmente cuando nn es grande, pero proporciona mejor calidad de agrupamiento.

Análisis de Casos

Los resultados de visualización muestran que RSODC puede:

  • Agrupar puntos dentro del mismo agrupamiento más estrechamente
  • Separar puntos de diferentes agrupamientos más distantemente
  • Proporcionar límites de agrupamiento más claros

Trabajo Relacionado

Métodos de Reducción de Dimensionalidad con Agrupamiento

  • Agrupamiento Discriminante Óptimo (ODC): Zhang y Dai (2009) basado en puntuación óptima del análisis discriminante lineal de Fisher
  • ODC Disperso (SODC): Wang et al. (2016) añaden penalización de grupo lasso sobre ODC
  • Agrupamiento Convexo: Pelckmans et al. (2005), Hocking et al. (2011) utilizan optimización convexa para agrupamiento estable

Innovación de Este Artículo

Las principales ventajas de RSODC en comparación con métodos existentes:

  1. Aproxima el modelo en espacio de baja dimensión en lugar de espacio original
  2. Utiliza función de mayorización para manejar simultáneamente restricciones de ortogonalidad y estructura de agrupamiento
  3. Proporciona efectos de visualización de agrupamiento más claros

Conclusiones y Discusión

Conclusiones Principales

  1. RSODC mejora significativamente la precisión de identificación de agrupamientos mediante la adición de término de penalización de agrupamiento convexo
  2. El método de función de mayorización resuelve efectivamente el problema de satisfacer simultáneamente restricciones de ortogonalidad y estructura de agrupamiento
  3. Los experimentos validan la efectividad del método en datos simulados y reales

Limitaciones

  1. Complejidad Computacional: Requiere más tiempo de cálculo que SODC
  2. Selección de Parámetros: El costo computacional de validación cruzada es alto
  3. Cálculo de Pesos: Calcular pesos en espacio original puede no ser óptimo
  4. Supuestos de Distribución de Datos: Implícitamente asume que los errores siguen distribución normal

Direcciones Futuras

  1. Desarrollar métodos de selección de parámetros más eficientes
  2. Calcular pesos en espacio de baja dimensión
  3. Derivar criterios de información para reducir costo de validación cruzada
  4. Considerar extensiones para distribuciones no normales

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación de Método: Combina ingeniosamente agrupamiento convexo y análisis discriminante disperso
  2. Base Teórica Sólida: El método de función de mayorización es teóricamente riguroso
  3. Experimentos Suficientes: Incluye 5 experimentos de simulación y validación en datos reales
  4. Diseño de Algoritmo Ingenioso: El marco ADMM maneja efectivamente condiciones de restricción complejas

Insuficiencias

  1. Eficiencia Computacional: El costo computacional es significativamente mayor en comparación con SODC
  2. Sensibilidad de Parámetros: Múltiples hiperparámetros requieren ajuste fino
  3. Rango de Aplicabilidad: Principalmente aplicable a problemas de agrupamiento a pequeña escala
  4. Análisis Teórico: Carece de análisis teórico de convergencia y complejidad

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para agrupamiento con reducción de dimensionalidad
  2. Valor Práctico: Aplicable a escenarios que requieren visualización clara de agrupamiento
  3. Reproducibilidad: La descripción del algoritmo es detallada y fácil de implementar

Escenarios de Aplicación

  • Análisis de agrupamiento de datos de alta dimensión
  • Tareas de agrupamiento que requieren selección de variables
  • Análisis exploratorio de datos que requiere visualización clara
  • Análisis de datos en bioinformática y genómica

Referencias Bibliográficas

Las referencias principales incluyen:

  • Zhang & Dai (2009): Trabajo original sobre agrupamiento discriminante óptimo
  • Wang et al. (2016): Agrupamiento discriminante óptimo disperso
  • Chi & Lange (2015): Algoritmo ADMM para agrupamiento convexo
  • Hunter & Lange (2004): Algoritmo MM y funciones de mayorización

Evaluación General: Este es un artículo de alta calidad en metodología estadística que propone el método RSODC con innovación teórica y verificación experimental suficiente. Aunque la complejidad computacional es relativamente alta, muestra mejoras significativas en calidad de agrupamiento y efectos de visualización, realizando contribuciones importantes al campo del agrupamiento con reducción de dimensionalidad.