2025-11-18T12:01:20.412379

Enhancing Precision of Automated Teller Machines Network Quality Assessment: Machine Learning and Multi Classifier Fusion Approaches

Safarzadeh, Jamali, Moshiri
Ensuring reliable ATM services is essential for modern banking, directly impacting customer satisfaction and the operational efficiency of financial institutions. This study introduces a data fusion approach that utilizes multi-classifier fusion techniques, with a special focus on the Stacking Classifier, to enhance the reliability of ATM networks. To address class imbalance, the Synthetic Minority Over-sampling Technique (SMOTE) was applied, enabling balanced learning for both frequent and rare events. The proposed framework integrates diverse classification models - Random Forest, LightGBM, and CatBoost - within a Stacking Classifier, achieving a dramatic reduction in false alarms from 3.56 percent to just 0.71 percent, along with an outstanding overall accuracy of 99.29 percent. This multi-classifier fusion method synthesizes the strengths of individual models, leading to significant cost savings and improved operational decision-making. By demonstrating the power of machine learning and data fusion in optimizing ATM status detection, this research provides practical and scalable solutions for financial institutions aiming to enhance their ATM network performance and customer satisfaction.
academic

Amélioration de la Précision de l'Évaluation de la Qualité du Réseau des Guichets Automatiques : Approches d'Apprentissage Automatique et de Fusion Multi-Classificateurs

Informations Fondamentales

  • ID de l'article : 2501.01067
  • Titre : Enhancing Precision of Automated Teller Machines Network Quality Assessment: Machine Learning and Multi Classifier Fusion Approaches
  • Auteurs : Alireza Safarzadeh, Mohammad Reza Jamali, Behzad Moshiri
  • Classification : cs.LG (Apprentissage Automatique)
  • Date de publication : 3 janvier 2025
  • Lien de l'article : https://arxiv.org/abs/2501.01067

Résumé

Assurer un service fiable des guichets automatiques (GAB) est crucial pour le secteur bancaire moderne, affectant directement la satisfaction des clients et l'efficacité opérationnelle des institutions financières. Cette recherche introduit une méthode de fusion de données exploitant les techniques de fusion multi-classificateurs, en mettant particulièrement l'accent sur les classificateurs empilés, pour améliorer la fiabilité du réseau de GAB. Pour résoudre le problème du déséquilibre des classes, la technique de suréchantillonnage synthétique des minorités (SMOTE) a été appliquée, permettant un apprentissage équilibré des événements fréquents et rares. Le cadre proposé intègre plusieurs modèles de classification dans le classificateur empilé — Random Forest, LightGBM et CatBoost — réalisant une réduction spectaculaire des fausses alertes de 3,56 % à 0,71 %, tout en atteignant un taux de précision global remarquable de 99,29 %.

Contexte et Motivation de la Recherche

Définition du Problème

Le réseau de GAB joue un rôle clé dans les systèmes bancaires modernes, mais sa détection d'état fait face à des défis majeurs :

  1. Problème des fausses alertes : Les fichiers d'état des GAB génèrent fréquemment des faux positifs, entraînant des activités de maintenance inutiles et une mauvaise allocation des ressources
  2. Problème des faux négatifs : Les défaillances réelles ne sont pas détectées à temps, prolongeant les temps d'arrêt et réduisant la satisfaction des clients
  3. Complexité du traitement des données : Les fichiers journaux des GAB contiennent des informations détaillées mais volumineux, difficiles à traiter en temps réel

Importance du Problème

  • Satisfaction des clients : La disponibilité des GAB affecte directement l'expérience client et la qualité du service bancaire
  • Efficacité opérationnelle : Une détection d'état précise peut réduire les maintenances inutiles et diminuer les coûts opérationnels
  • Impact financier : Une détection erronée peut entraîner une perte de revenus et une fuite de clients

Limitations des Approches Existantes

  • Les méthodes probabilistes traditionnelles (comme l'inférence bayésienne) présentent des limitations dans le traitement de données hétérogènes complexes
  • Les sources de données uniques sont susceptibles de produire des erreurs de jugement
  • Le déséquilibre des classes conduit les modèles à favoriser la classe majoritaire (état de fonctionnement normal)

Contributions Principales

  1. Proposition d'un cadre de fusion multi-classificateurs : Intégration d'un classificateur empilé combinant Random Forest, LightGBM et CatBoost
  2. Méthode innovante de fusion de données : Combinaison des fichiers d'état des GAB et des registres de transactions pour une détection d'état fiable
  3. Amélioration significative des performances : Réduction du taux de fausses alertes de 3,56 % à 0,71 %, avec un taux de précision global de 99,29 %
  4. Solution pratique au déséquilibre des classes : Application efficace de la technique SMOTE pour traiter les événements de défaillance rares
  5. Valeur d'application pratique : Fourniture d'une solution d'optimisation des performances du réseau de GAB évolutive pour les institutions financières

Explication Détaillée de la Méthode

Définition de la Tâche

La détection d'état des GAB est modélisée comme un problème de classification binaire :

  • Entrées : Fichiers d'état des GAB, registres de transactions, caractéristiques temporelles, etc.
  • Sorties : État du GAB (en service / hors service)
  • Contraintes : Exigences de temps réel, besoins de haute précision, considérations de rentabilité

Ingénierie des Caractéristiques

Extraction des Caractéristiques Clés

  1. Caractéristiques des fichiers d'état des GAB :
    • État du clavier, lecteur de carte, connexion réseau
    • Toute défaillance de composant est jugée comme hors service
  2. Caractéristiques Temporelles :
    • Jour du mois (1-31)
    • Type de jour ouvrable (jour ouvrable régulier / jour ouvrable partiel / jour férié)
    • Heure de la journée
  3. Caractéristiques Liées aux Transactions :
    • Nombre de transactions mensuelles (stratification par quantiles)
    • Caractéristiques d'état des transactions (basées sur l'hypothèse du processus de Poisson)

Modélisation des Intervalles de Transaction

Validation par le test de Kolmogorov-Smirnov que les intervalles de transaction suivent une distribution exponentielle :

  • Hypothèse : Les transactions des GAB suivent un processus de Poisson
  • Résultats de validation : Statistique KS de distribution exponentielle de 0,1493, supérieure à Gamma (0,1654), Logistic (0,1906) et Normal (0,2557)
  • Seuil de probabilité : Seuil de probabilité de 99 % défini pour détecter les états anormaux

Traitement du Déséquilibre des Classes

  • Problème : Les échantillons hors service ne représentent que 0,85 %
  • Solution : SMOTE avec k=3 plus proches voisins
  • Effet : Équilibrage de l'ensemble de données à un ratio 50:50

Architecture du Modèle

Conception du Classificateur Empilé

Première couche (Apprenants de base) :

  • Random Forest : 100 arbres, critère d'impureté Gini
  • LightGBM : 100 estimateurs, taux d'apprentissage 0,1, nombre de feuilles 31
  • CatBoost : 100 itérations, taux d'apprentissage 0,1, profondeur 6

Deuxième couche (Apprenant méta) :

  • Régression Logistique : Régularisation L2, optimisation de la perte d'entropie croisée

Cadre Mathématique

Fonction objective SVM :

min(w,b,ζ) 1/2||w||² + C∑ζᵢ
subject to: yᵢ(w^T xᵢ + b) ≥ 1-ζᵢ, ζᵢ ≥ 0

Points d'Innovation Technique

  1. Fusion de données multi-sources : Combinaison innovante de fichiers d'état et de données de transactions
  2. Validation de modélisation probabiliste : Tests statistiques rigoureux validant les hypothèses de modélisation
  3. Apprentissage d'ensemble adaptatif : Sélection dynamique de classificateurs (DCS) et sélection d'ensemble dynamique (DES)
  4. Optimisation des performances équilibrées : Attention portée à la précision moyenne, au rappel et au score F1

Configuration Expérimentale

Caractéristiques de l'Ensemble de Données

  • Source de données : Données opérationnelles réelles du réseau de GAB bancaire
  • Protection de la vie privée : Les données sont utilisées dans le cadre d'accords de confidentialité stricts
  • Distribution des classes : Hautement déséquilibrée (hors service : 0,85 %)

Métriques d'Évaluation

Utilisation de métriques moyennes pour éviter les biais de classe :

  • Précision moyenne : (Précision_arrêt + Précision_service)/2
  • Rappel moyen : (Rappel_arrêt + Rappel_service)/2
  • Score F1 moyen : (F1-Score_arrêt + F1-Score_service)/2

Méthodes de Comparaison

  • Support Vector Machine (SVM)
  • Decision Tree (Arbre de Décision)
  • Bagging Classifier (Classificateur Bagging)
  • Random Forest
  • LightGBM
  • CatBoost
  • Dynamic Classifier Selection (DCS LA)
  • Dynamic Ensemble Selection (DES KNORAE)

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances des Modèles

ModèlePrécision ArrêtRappel ArrêtF1 ArrêtPrécision ServiceRappel ServiceF1 Service
SVM0,85350,87470,86390,87150,84980,8605
Random Forest0,99610,98920,99260,98920,99610,9927
Classificateur Empilé0,99490,99100,99290,99100,99490,9930

Résultats Remarquables

  • Taux de précision global : 99,29 % (le plus élevé parmi tous les modèles)
  • Réduction significative des fausses alertes : De 3,56 % à 0,71 %
  • Performance équilibrée : Les scores F1 des deux classes dépassent 99 %

Analyse de l'Effet SMOTE

Comparaison Avant et Après SMOTE

ModèleF1 Avant SMOTEF1 Après SMOTEAmpleur de l'Amélioration
SVM0,500,86+72 %
Random Forest0,780,99+27 %
LightGBM0,730,94+29 %

Expériences d'Ablation

Validation de la contribution de chaque composant par ajout progressif :

  1. Caractéristiques de base : Taux de précision des fichiers d'état des GAB de 96,14 %
  2. Caractéristiques de transaction : Utilisation seule, taux de précision de 85,43 %
  3. Fusion de caractéristiques : Amélioration significative des performances
  4. Traitement SMOTE : Amélioration clé de la détection des classes minoritaires
  5. Apprentissage d'ensemble : Atteinte des meilleures performances finales

Travaux Connexes

Recherche sur la Fusion de Données

  • Bachmann et al. (2013) : Estimation de la vitesse du trafic multi-capteurs
  • Meng et al. (2020) : Synthèse de la fusion de données par apprentissage automatique
  • Contribution de cet article : Première application de la fusion de données à la détection d'état des GAB

Développement de l'Apprentissage d'Ensemble

  • Wolpert (1992) : Première proposition de généralisation empilée
  • Klein et al. (2023) : Ensemble empilé hétérogène pour la classification de séries temporelles
  • Innovation de cet article : Méthode d'ensemble personnalisée pour la fiabilité des services financiers

Traitement du Déséquilibre des Classes

  • Chawla et al. (2002) : Méthode SMOTE originale
  • Khan et al. (2024) : Combinaison d'apprentissage d'ensemble et d'augmentation de données
  • Application de cet article : Pratique efficace dans la détection de défaillance des GAB

Conclusions et Discussion

Conclusions Principales

  1. Efficacité technique : La fusion multi-classificateurs améliore significativement la précision de la détection d'état des GAB
  2. Valeur pratique : Réduction drastique du taux de fausses alertes, diminution des coûts opérationnels
  3. Généralité de la méthode : Le cadre est extensible à la surveillance d'autres systèmes critiques

Limitations

  1. Dépendance aux données : Nécessite des données historiques de haute qualité pour l'entraînement
  2. Complexité computationnelle : Les méthodes d'ensemble augmentent la surcharge de calcul
  3. Spécificité du domaine : La méthode est personnalisée pour le réseau de GAB, capacité de généralisation limitée
  4. Confidentialité des données : Les données réelles ne peuvent pas être rendues publiques, affectant la reproductibilité

Directions Futures

  1. Surveillance en temps réel : Intégration de technologies de surveillance en temps réel
  2. Applications inter-domaines : Extension à des systèmes critiques dans les secteurs médical, transport, etc.
  3. Apprentissage profond : Exploration de méthodes de réseaux de neurones
  4. Informatique en périphérie : Optimisation de l'efficacité computationnelle pour le déploiement en périphérie

Évaluation Approfondie

Avantages

  1. Forte pertinence du problème : Résolution directe des points critiques du secteur bancaire
  2. Conception méthodologique rationnelle : Validation multi-niveaux assurant la fiabilité
  3. Expériences complètes : Comparaisons et expériences d'ablation exhaustives
  4. Résultats remarquables : Améliorations révolutionnaires sur les indicateurs clés
  5. Valeur pratique élevée : Fourniture d'une solution directement déployable

Insuffisances

  1. Contribution théorique limitée : Principalement application d'ingénierie de techniques existantes
  2. Ensemble de données unique : Validation uniquement sur un réseau bancaire spécifique
  3. Bases de comparaison simples : Absence de comparaison avec les méthodes d'apprentissage profond récentes
  4. Analyse de généralisation insuffisante : Discussion insuffisante sur l'applicabilité inter-institutions

Impact

  1. Valeur académique : Fourniture d'une méthodologie pratique pour le secteur de la fintech
  2. Impact industriel : Amélioration directe de l'efficacité opérationnelle bancaire
  3. Contribution méthodologique : Cas de succès de fusion multi-classificateurs dans les systèmes critiques
  4. Reproductibilité : Description détaillée de la méthode, facilitant la reproduction et l'amélioration

Scénarios d'Application

  1. Institutions financières : Surveillance et optimisation de la maintenance du réseau de GAB
  2. Infrastructure critique : Surveillance d'état des systèmes électriques et de communication
  3. Industrie manufacturière : Prédiction de défaillance d'équipement et planification de maintenance
  4. Secteur des services : Gestion de la fiabilité des équipements en libre-service

Références

  1. Wolpert, D. H. (1992). Stacked generalization. Neural Networks, 5, 241-259.
  2. Chawla, N. V., et al. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
  3. Meng, T., et al. (2020). A survey on machine learning for data fusion. Information Fusion, 57, 115-129.
  4. Ke, G., et al. (2017). LightGBM: A highly efficient gradient boosting decision tree. NIPS 2017.
  5. Prokhorenkova, L., et al. (2018). CatBoost: unbiased boosting with categorical features. NIPS 2018.

Évaluation Globale : Cet article aborde un problème pratique important de fiabilité du réseau de GAB et propose une solution efficace basée sur la fusion multi-classificateurs. Bien que l'innovation théorique soit limitée, il se distingue par ses excellentes performances en pratique d'ingénierie et ses améliorations significatives, possédant une valeur pratique importante et un impact industriel considérable. L'application réussie de la méthode fournit une référence précieuse pour la surveillance de la fiabilité de systèmes critiques similaires.