2025-11-18T12:01:20.412379

Enhancing Precision of Automated Teller Machines Network Quality Assessment: Machine Learning and Multi Classifier Fusion Approaches

Safarzadeh, Jamali, Moshiri
Ensuring reliable ATM services is essential for modern banking, directly impacting customer satisfaction and the operational efficiency of financial institutions. This study introduces a data fusion approach that utilizes multi-classifier fusion techniques, with a special focus on the Stacking Classifier, to enhance the reliability of ATM networks. To address class imbalance, the Synthetic Minority Over-sampling Technique (SMOTE) was applied, enabling balanced learning for both frequent and rare events. The proposed framework integrates diverse classification models - Random Forest, LightGBM, and CatBoost - within a Stacking Classifier, achieving a dramatic reduction in false alarms from 3.56 percent to just 0.71 percent, along with an outstanding overall accuracy of 99.29 percent. This multi-classifier fusion method synthesizes the strengths of individual models, leading to significant cost savings and improved operational decision-making. By demonstrating the power of machine learning and data fusion in optimizing ATM status detection, this research provides practical and scalable solutions for financial institutions aiming to enhance their ATM network performance and customer satisfaction.
academic

Mejora de la Precisión en la Evaluación de Calidad de Redes de Cajeros Automáticos: Enfoques de Aprendizaje Automático y Fusión de Múltiples Clasificadores

Información Básica

  • ID del Artículo: 2501.01067
  • Título: Enhancing Precision of Automated Teller Machines Network Quality Assessment: Machine Learning and Multi Classifier Fusion Approaches
  • Autores: Alireza Safarzadeh, Mohammad Reza Jamali, Behzad Moshiri
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 3 de enero de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.01067

Resumen

Garantizar servicios confiables de cajeros automáticos es crucial para la banca moderna, impactando directamente la satisfacción del cliente y la eficiencia operativa de las instituciones financieras. Este estudio introduce un método de fusión de datos que aprovecha técnicas de fusión de múltiples clasificadores, enfocándose particularmente en clasificadores apilados, para mejorar la confiabilidad de redes de cajeros automáticos. Para abordar el problema de desequilibrio de clases, se aplicó la técnica de sobremuestreo sintético de la clase minoritaria (SMOTE), logrando aprendizaje equilibrado de eventos frecuentes y raros. El marco propuesto integra múltiples modelos de clasificación en el clasificador apilado —Bosque Aleatorio, LightGBM y CatBoost—, logrando una reducción significativa de falsas alarmas del 3.56% al 0.71%, mientras se alcanza una tasa de precisión general excepcional del 99.29%.

Contexto de Investigación y Motivación

Definición del Problema

Las redes de cajeros automáticos desempeñan un papel crítico en los sistemas bancarios modernos, pero su detección de estado enfrenta desafíos significativos:

  1. Problema de Falsas Alarmas: Los archivos de estado de cajeros automáticos frecuentemente generan falsos positivos, causando actividades de mantenimiento innecesarias y asignación errónea de recursos
  2. Problema de Falsos Negativos: Las fallas reales no se detectan oportunamente, prolongando tiempos de inactividad y reduciendo la satisfacción del cliente
  3. Complejidad del Procesamiento de Datos: Los archivos de registro de cajeros automáticos contienen información detallada pero voluminosa, difícil de procesar en tiempo real

Importancia del Problema

  • Satisfacción del Cliente: La disponibilidad de cajeros automáticos impacta directamente la experiencia del cliente y la calidad del servicio bancario
  • Eficiencia Operativa: La detección precisa de estado puede reducir mantenimiento innecesario y disminuir costos operativos
  • Impacto Financiero: La detección errónea puede resultar en pérdida de ingresos y fuga de clientes

Limitaciones de Métodos Existentes

  • Los métodos probabilísticos tradicionales (como inferencia bayesiana) tienen limitaciones al procesar datos complejos y heterogéneos
  • Las fuentes de datos únicas son propensas a generar clasificaciones erróneas
  • El desequilibrio de clases causa que los modelos se sesguen hacia la clase mayoritaria (estado de funcionamiento normal)

Contribuciones Principales

  1. Marco de Fusión de Múltiples Clasificadores Propuesto: Integra clasificadores apilados de Bosque Aleatorio, LightGBM y CatBoost
  2. Método Innovador de Fusión de Datos: Combina archivos de estado de cajeros automáticos y registros de transacciones para detección confiable de estado
  3. Mejora Significativa de Rendimiento: Tasa de falsas alarmas reducida del 3.56% al 0.71%, precisión general del 99.29%
  4. Solución Práctica para Desequilibrio de Clases: Aplicación efectiva de la técnica SMOTE para manejar eventos de falla raros
  5. Valor de Aplicación Práctica: Proporciona a instituciones financieras una solución escalable para optimización del rendimiento de redes de cajeros automáticos

Explicación Detallada de Métodos

Definición de Tarea

La detección de estado de cajeros automáticos se modela como un problema de clasificación binaria:

  • Entrada: Archivos de estado de cajeros automáticos, registros de transacciones, características temporales, etc.
  • Salida: Estado del cajero automático (en servicio/fuera de servicio)
  • Restricciones: Requisitos de tiempo real, necesidad de alta precisión, consideraciones de costo-beneficio

Ingeniería de Características

Extracción de Características Clave

  1. Características de Archivos de Estado de Cajeros Automáticos:
    • Estado del teclado, lector de tarjetas, conectividad de red
    • Cualquier falla de componente determina estado fuera de servicio
  2. Características Relacionadas con Tiempo:
    • Día del mes (1-31)
    • Tipo de día laboral (día laboral regular/día laboral parcial/día festivo)
    • Hora del día
  3. Características Relacionadas con Transacciones:
    • Cantidad de transacciones mensuales (estratificación por percentiles)
    • Características de estado de transacciones (basadas en supuesto de proceso de Poisson)

Modelado de Intervalos de Transacción

Se verifica mediante prueba de Kolmogorov-Smirnov que los intervalos de transacción siguen distribución exponencial:

  • Supuesto: Las transacciones de cajeros automáticos siguen un proceso de Poisson
  • Resultado de Verificación: Estadístico KS de distribución exponencial de 0.1493, superior a Gamma (0.1654), Logistic (0.1906) y Normal (0.2557)
  • Umbral de Probabilidad: Se establece umbral de probabilidad del 99% para detectar estados anómalos

Tratamiento del Desequilibrio de Clases

  • Problema: Muestras fuera de servicio representan solo el 0.85%
  • Solución: SMOTE con k=3 vecinos más cercanos
  • Efecto: Equilibra conjunto de datos a proporción 50:50

Arquitectura del Modelo

Diseño del Clasificador Apilado

Primera Capa (Aprendices Base):

  • Bosque Aleatorio: 100 árboles, criterio de impureza Gini
  • LightGBM: 100 estimadores, tasa de aprendizaje 0.1, número de hojas 31
  • CatBoost: 100 iteraciones, tasa de aprendizaje 0.1, profundidad 6

Segunda Capa (Aprendiz Meta):

  • Regresión Logística: Regularización L2, optimización de pérdida de entropía cruzada

Marco Matemático

Función objetivo de SVM:

min(w,b,ζ) 1/2||w||² + C∑ζᵢ
sujeto a: yᵢ(w^T xᵢ + b) ≥ 1-ζᵢ, ζᵢ ≥ 0

Puntos de Innovación Técnica

  1. Fusión de Datos Multifuente: Combinación innovadora de archivos de estado y datos de transacciones
  2. Verificación de Modelado Probabilístico: Verificación estadística rigurosa de supuestos de modelado
  3. Aprendizaje Conjunto Adaptativo: Selección Dinámica de Clasificadores (DCS) y Selección Dinámica de Conjunto (DES)
  4. Optimización de Rendimiento Equilibrado: Enfoque en precisión promedio, recall y puntuación F1

Configuración Experimental

Características del Conjunto de Datos

  • Fuente de Datos: Datos operativos reales de redes de cajeros automáticos bancarios
  • Protección de Privacidad: Datos utilizados bajo acuerdos de confidencialidad estricta
  • Distribución de Clases: Altamente desequilibrada (fuera de servicio: 0.85%)

Métricas de Evaluación

Se utilizan métricas promediadas para evitar sesgo de clase:

  • Precisión Promediada: (Precisión_inactivo + Precisión_activo)/2
  • Recall Promediado: (Recall_inactivo + Recall_activo)/2
  • Puntuación F1 Promediada: (F1_inactivo + F1_activo)/2

Métodos de Comparación

  • Máquina de Vectores de Soporte (SVM)
  • Árbol de Decisión
  • Clasificador Bagging
  • Bosque Aleatorio
  • LightGBM
  • CatBoost
  • Selección Dinámica de Clasificadores (DCS LA)
  • Selección Dinámica de Conjunto (DES KNORAE)

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento de Modelos

ModeloPrecisión InactivoRecall InactivoF1 InactivoPrecisión ActivoRecall ActivoF1 Activo
SVM0.85350.87470.86390.87150.84980.8605
Bosque Aleatorio0.99610.98920.99260.98920.99610.9927
Clasificador Apilado0.99490.99100.99290.99100.99490.9930

Logros Destacados

  • Precisión General: 99.29% (la más alta entre todos los modelos)
  • Reducción Significativa de Falsas Alarmas: Del 3.56% al 0.71%
  • Rendimiento Equilibrado: Puntuaciones F1 de ambas clases superiores al 99%

Análisis del Efecto de SMOTE

Comparación Antes y Después de SMOTE

ModeloF1 Antes de SMOTEF1 Después de SMOTEMagnitud de Mejora
SVM0.500.86+72%
Bosque Aleatorio0.780.99+27%
LightGBM0.730.94+29%

Experimentos de Ablación

Se verifica la contribución de cada componente mediante adición progresiva:

  1. Características Base: Precisión de archivo de estado de cajero automático 96.14%
  2. Características de Transacción: Uso independiente con precisión 85.43%
  3. Fusión de Características: Mejora significativa de rendimiento
  4. Procesamiento SMOTE: Mejora crítica en detección de clase minoritaria
  5. Aprendizaje Conjunto: Alcanza rendimiento óptimo final

Trabajo Relacionado

Investigación en Fusión de Datos

  • Bachmann et al. (2013): Estimación de velocidad de tráfico multisensor
  • Meng et al. (2020): Revisión de fusión de datos de aprendizaje automático
  • Contribución de este artículo: Primera aplicación de fusión de datos a detección de estado de cajeros automáticos

Desarrollo de Aprendizaje Conjunto

  • Wolpert (1992): Primera propuesta de generalización apilada
  • Klein et al. (2023): Conjunto apilado heterogéneo para clasificación de series temporales
  • Innovación de este artículo: Método de conjunto personalizado para confiabilidad de servicios financieros

Tratamiento del Desequilibrio de Clases

  • Chawla et al. (2002): Método SMOTE original
  • Khan et al. (2024): Combinación de aprendizaje conjunto y aumento de datos
  • Aplicación de este artículo: Práctica efectiva en detección de fallas de cajeros automáticos

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad Técnica: La fusión de múltiples clasificadores mejora significativamente la precisión de detección de estado de cajeros automáticos
  2. Valor Práctico: Reducción significativa de falsas alarmas, disminución de costos operativos
  3. Generalidad del Método: El marco es extensible a monitoreo de otros sistemas críticos

Limitaciones

  1. Dependencia de Datos: Requiere datos históricos de alta calidad para entrenamiento
  2. Complejidad Computacional: Los métodos de conjunto aumentan la carga computacional
  3. Especificidad de Dominio: El método está personalizado para redes de cajeros automáticos, capacidad de generalización limitada
  4. Privacidad de Datos: Los datos reales no pueden publicarse, afectando reproducibilidad

Direcciones Futuras

  1. Monitoreo en Tiempo Real: Integración de tecnologías de monitoreo en tiempo real
  2. Aplicaciones Interdisciplinarias: Extensión a sistemas críticos en medicina, transporte, etc.
  3. Aprendizaje Profundo: Exploración de métodos de redes neuronales
  4. Computación de Borde: Optimización de eficiencia computacional para despliegue en borde

Evaluación Profunda

Fortalezas

  1. Especificidad del Problema: Aborda directamente puntos críticos de la industria bancaria
  2. Diseño Metodológico Razonable: Verificación multinivel asegura confiabilidad
  3. Experimentación Completa: Experimentos comparativos y de ablación exhaustivos
  4. Resultados Significativos: Mejoras revolucionarias en métricas clave
  5. Alto Valor Práctico: Proporciona solución directamente desplegable

Insuficiencias

  1. Contribución Teórica Limitada: Principalmente aplicación de ingeniería de técnicas existentes
  2. Conjunto de Datos Único: Verificación solo en red bancaria específica
  3. Líneas Base de Comparación Simples: Falta comparación con métodos recientes de aprendizaje profundo
  4. Análisis de Generalización Insuficiente: Discusión limitada sobre aplicabilidad entre instituciones

Impacto

  1. Valor Académico: Proporciona metodología práctica para sector de tecnología financiera
  2. Impacto Industrial: Mejora directa de eficiencia operativa bancaria
  3. Contribución Metodológica: Caso exitoso de fusión de múltiples clasificadores en sistemas críticos
  4. Reproducibilidad: Descripción detallada de métodos facilita reproducción y mejora

Escenarios Aplicables

  1. Instituciones Financieras: Monitoreo y optimización de mantenimiento de redes de cajeros automáticos
  2. Infraestructura Crítica: Monitoreo de estado de sistemas de energía y comunicaciones
  3. Industria Manufacturera: Predicción de fallas de equipos y programación de mantenimiento
  4. Industria de Servicios: Gestión de confiabilidad de equipos de autoservicio

Referencias

  1. Wolpert, D. H. (1992). Stacked generalization. Neural Networks, 5, 241-259.
  2. Chawla, N. V., et al. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
  3. Meng, T., et al. (2020). A survey on machine learning for data fusion. Information Fusion, 57, 115-129.
  4. Ke, G., et al. (2017). LightGBM: A highly efficient gradient boosting decision tree. NIPS 2017.
  5. Prokhorenkova, L., et al. (2018). CatBoost: unbiased boosting with categorical features. NIPS 2018.

Evaluación General: Este artículo aborda un importante problema práctico de confiabilidad de redes de cajeros automáticos, proponiendo una solución efectiva basada en fusión de múltiples clasificadores. Aunque la innovación teórica es limitada, destaca en práctica de ingeniería y mejora de rendimiento, poseyendo importante valor práctico e impacto industrial. La aplicación exitosa del método proporciona referencias valiosas para monitoreo de confiabilidad de sistemas críticos similares.