2025-11-18T12:01:20.412379

Enhancing Precision of Automated Teller Machines Network Quality Assessment: Machine Learning and Multi Classifier Fusion Approaches

Safarzadeh, Jamali, Moshiri

Ensuring reliable ATM services is essential for modern banking, directly impacting customer satisfaction and the operational efficiency of financial institutions. This study introduces a data fusion approach that utilizes multi-classifier fusion techniques, with a special focus on the Stacking Classifier, to enhance the reliability of ATM networks. To address class imbalance, the Synthetic Minority Over-sampling Technique (SMOTE) was applied, enabling balanced learning for both frequent and rare events. The proposed framework integrates diverse classification models - Random Forest, LightGBM, and CatBoost - within a Stacking Classifier, achieving a dramatic reduction in false alarms from 3.56 percent to just 0.71 percent, along with an outstanding overall accuracy of 99.29 percent. This multi-classifier fusion method synthesizes the strengths of individual models, leading to significant cost savings and improved operational decision-making. By demonstrating the power of machine learning and data fusion in optimizing ATM status detection, this research provides practical and scalable solutions for financial institutions aiming to enhance their ATM network performance and customer satisfaction.

academic

Повышение точности оценки качества сети банкоматов: подходы машинного обучения и мультиклассификаторного слияния

Основная информация

ID статьи: 2501.01067
Название: Enhancing Precision of Automated Teller Machines Network Quality Assessment: Machine Learning and Multi Classifier Fusion Approaches
Авторы: Alireza Safarzadeh, Mohammad Reza Jamali, Behzad Moshiri
Категория: cs.LG (Машинное обучение)
Дата публикации: 3 января 2025 г.
Ссылка на статью: https://arxiv.org/abs/2501.01067

Аннотация

Обеспечение надежного обслуживания банкоматов имеет решающее значение для современной банковской деятельности, непосредственно влияя на удовлетворенность клиентов и операционную эффективность финансовых учреждений. В данном исследовании представлен метод слияния данных, использующий методы мультиклассификаторного слияния, с особым акцентом на стекирующие классификаторы для повышения надежности сети банкоматов. Для решения проблемы дисбаланса классов применена техника синтетического переизбыточного выборочного отбора меньшинства (SMOTE), обеспечивающая сбалансированное обучение на частых и редких событиях. Предложенная архитектура интегрирует несколько моделей классификации в стекирующий классификатор — Random Forest, LightGBM и CatBoost, достигая значительного снижения ложных тревог с 3,56% до 0,71% при одновременном достижении превосходной общей точности 99,29%.

Исследовательский контекст и мотивация

Определение проблемы

Сеть банкоматов играет ключевую роль в современных банковских системах, однако обнаружение их состояния сталкивается со значительными вызовами:

Проблема ложных тревог: файлы состояния банкоматов часто генерируют ложные срабатывания, приводящие к ненужным операциям по техническому обслуживанию и неправильному распределению ресурсов
Проблема пропусков: реальные сбои не обнаруживаются своевременно, продлевая время простоя и снижая удовлетворенность клиентов
Сложность обработки данных: файлы журналов банкоматов содержат подробную информацию, но имеют большой объем, что затрудняет обработку в реальном времени

Важность проблемы

Удовлетворенность клиентов: доступность банкоматов напрямую влияет на опыт клиентов и качество банковского обслуживания
Операционная эффективность: точное обнаружение состояния может снизить ненужное техническое обслуживание и снизить операционные расходы
Финансовое воздействие: ошибочное обнаружение может привести к потере доходов и оттоку клиентов

Ограничения существующих методов

Традиционные вероятностные методы (например, байесовский вывод) имеют ограничения при работе со сложными гетерогенными данными
Единственный источник данных подвержен ошибочным суждениям
Дисбаланс классов приводит к смещению модели в сторону большинства класса (нормальное состояние работы)

Основные вклады

Предложена архитектура мультиклассификаторного слияния: интеграция Random Forest, LightGBM и CatBoost в стекирующий классификатор
Инновационный метод слияния данных: комбинирование файлов состояния банкоматов и записей транзакций для надежного обнаружения состояния
Значительное повышение производительности: снижение уровня ложных тревог с 3,56% до 0,71%, общая точность 99,29%
Практическое решение проблемы дисбаланса классов: эффективное применение техники SMOTE для обработки редких событий отказа
Практическая ценность: предоставление масштабируемого решения для оптимизации производительности сети банкоматов финансовыми учреждениями

Подробное описание методологии

Определение задачи

Обнаружение состояния банкомата моделируется как задача бинарной классификации:

Входные данные: файлы состояния банкомата, записи транзакций, временные признаки и т.д.
Выходные данные: состояние банкомата (в обслуживании/вне обслуживания)
Ограничения: требования к реальному времени, требования к высокой точности, соображения экономической целесообразности

Инженерия признаков

Извлечение ключевых признаков

Признаки файлов состояния банкомата:
- состояние клавиатуры, считывателя карт, сетевого подключения
- отказ любого компонента определяется как вывод из обслуживания
Временные признаки:
- день месяца (1-31)
- тип дня недели (обычный рабочий день/неполный рабочий день/праздничный день)
- время суток
Признаки, связанные с транзакциями:
- количество ежемесячных транзакций (стратификация по квантилям)
- признаки состояния транзакций (на основе предположения процесса Пуассона)

Моделирование интервалов между транзакциями

Проверка соответствия интервалов между транзакциями экспоненциальному распределению с помощью теста Колмогорова-Смирнова:

Гипотеза: транзакции банкоматов следуют процессу Пуассона
Результаты проверки: статистика KS экспоненциального распределения 0,1493, превосходит Gamma (0,1654), Logistic (0,1906) и Normal (0,2557)
Вероятностный порог: установлен порог вероятности 99% для обнаружения аномального состояния

Обработка дисбаланса классов

Проблема: образцы вывода из обслуживания составляют только 0,85%
Решение: SMOTE с k=3 ближайшими соседями
Результат: балансировка набора данных до соотношения 50:50

Архитектура модели

Проектирование стекирующего классификатора

Первый уровень (базовые обучающиеся):

Random Forest: 100 деревьев, критерий примеси Gini
LightGBM: 100 оценщиков, скорость обучения 0,1, количество листьев 31
CatBoost: 100 итераций, скорость обучения 0,1, глубина 6

Второй уровень (метаобучающийся):

Логистическая регрессия: регуляризация L2, оптимизация потерь кроссэнтропии

Математическая основа

Целевая функция SVM:

min(w,b,ζ) 1/2||w||² + C∑ζᵢ
subject to: yᵢ(w^T xᵢ + b) ≥ 1-ζᵢ, ζᵢ ≥ 0

Технические инновации

Слияние многоисточниковых данных: инновационное комбинирование файлов состояния и данных транзакций
Проверка вероятностного моделирования: строгие статистические тесты для проверки предположений моделирования
Адаптивное ансамблевое обучение: динамический выбор классификатора (DCS) и динамический выбор ансамбля (DES)
Оптимизация сбалансированной производительности: внимание к средней точности, полноте и F1-оценке

Экспериментальная установка

Характеристики набора данных

Источник данных: реальные операционные данные сети банкоматов банка
Защита конфиденциальности: данные используются в соответствии со строгими соглашениями о конфиденциальности
Распределение классов: сильно несбалансированное (вывод из обслуживания: 0,85%)

Метрики оценки

Использование средних метрик для избежания смещения классов:

Средняя точность: (Precision_down + Precision_up)/2
Средняя полнота: (Recall_down + Recall_up)/2
Средняя F1-оценка: (F1-Score_down + F1-Score_up)/2

Методы сравнения

Support Vector Machine (SVM)
Decision Tree
Bagging Classifier
Random Forest
LightGBM
CatBoost
Dynamic Classifier Selection (DCS LA)
Dynamic Ensemble Selection (DES KNORAE)

Результаты экспериментов

Основные результаты

Сравнение производительности моделей

Модель	Точность вывода	Полнота вывода	F1 вывода	Точность обслуживания	Полнота обслуживания	F1 обслуживания
SVM	0,8535	0,8747	0,8639	0,8715	0,8498	0,8605
Random Forest	0,9961	0,9892	0,9926	0,9892	0,9961	0,9927
Стекирующий классификатор	0,9949	0,9910	0,9929	0,9910	0,9949	0,9930

Выдающиеся результаты

Общая точность: 99,29% (наивысшая среди всех моделей)
Значительное снижение ложных тревог: с 3,56% до 0,71%
Сбалансированная производительность: F1-оценка обоих классов превышает 99%

Анализ эффективности SMOTE

Сравнение до и после SMOTE

Модель	F1 до SMOTE	F1 после SMOTE	Улучшение
SVM	0,50	0,86	+72%
Random Forest	0,78	0,99	+27%
LightGBM	0,73	0,94	+29%

Абляционные эксперименты

Проверка вклада каждого компонента путем пошагового добавления:

Базовые признаки: точность файлов состояния банкомата 96,14%
Признаки транзакций: отдельное использование точность 85,43%
Слияние признаков: значительное повышение производительности
Обработка SMOTE: критическое улучшение обнаружения меньшинства
Ансамблевое обучение: достижение оптимальной производительности

Связанные работы

Исследования слияния данных

Bachmann et al. (2013): оценка скорости трафика с несколькими датчиками
Meng et al. (2020): обзор слияния данных машинного обучения
Вклад данной работы: первое применение слияния данных к обнаружению состояния банкоматов

Развитие ансамблевого обучения

Wolpert (1992): первое предложение стекирующей генерализации
Klein et al. (2023): гетерогенное стекирующее ансамбли для классификации временных рядов
Инновация данной работы: специализированный метод ансамбля для надежности финансовых услуг

Обработка дисбаланса классов

Chawla et al. (2002): исходный метод SMOTE
Khan et al. (2024): комбинирование ансамблевого обучения и увеличения данных
Применение данной работы: эффективная практика при обнаружении отказов банкоматов

Выводы и обсуждение

Основные выводы

Эффективность технологии: мультиклассификаторное слияние значительно повышает точность обнаружения состояния банкоматов
Практическая ценность: значительное снижение уровня ложных тревог, снижение операционных расходов
Универсальность метода: архитектура может быть расширена на мониторинг других критических систем

Ограничения

Зависимость от данных: требуются высокачественные исторические данные для обучения
Вычислительная сложность: методы ансамбля увеличивают вычислительные затраты
Специфичность для области: метод адаптирован для сети банкоматов, ограниченная способность к обобщению
Конфиденциальность данных: реальные данные не могут быть опубликованы, влияя на воспроизводимость

Будущие направления

Мониторинг в реальном времени: интеграция технологий мониторинга в реальном времени
Кроссдоменные приложения: расширение на медицину, транспорт и другие критические системы
Глубокое обучение: исследование методов нейронных сетей
Граничные вычисления: оптимизация вычислительной эффективности для поддержки развертывания на границе

Глубокая оценка

Преимущества

Сильная целевая ориентация на проблему: прямое решение реальных болевых точек банковской отрасли
Разумное проектирование методов: многоуровневая проверка обеспечивает надежность
Достаточные эксперименты: комплексные сравнительные и абляционные эксперименты
Значительные результаты: прорывные улучшения в ключевых показателях
Высокая практическая ценность: предоставление решения, готового к развертыванию

Недостатки

Ограниченный теоретический вклад: в основном инженерное применение существующих технологий
Единственный набор данных: проверка только на конкретной банковской сети
Простые базовые методы сравнения: отсутствие сравнения с новейшими методами глубокого обучения
Недостаточный анализ обобщаемости: недостаточное обсуждение применимости между учреждениями

Влияние

Академическая ценность: предоставление практической методологии для финансовых технологий
Промышленное воздействие: прямое улучшение операционной эффективности банков
Вклад методологии: успешный пример мультиклассификаторного слияния в критических системах
Воспроизводимость: подробное описание методов облегчает воспроизведение и улучшение

Применимые сценарии

Финансовые учреждения: мониторинг и оптимизация обслуживания сети банкоматов
Критическая инфраструктура: мониторинг состояния систем электроэнергии и связи
Производство: прогнозирование отказов оборудования и планирование технического обслуживания
Сфера услуг: управление надежностью самообслуживающихся устройств

Библиография

Wolpert, D. H. (1992). Stacked generalization. Neural Networks, 5, 241-259.
Chawla, N. V., et al. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
Meng, T., et al. (2020). A survey on machine learning for data fusion. Information Fusion, 57, 115-129.
Ke, G., et al. (2017). LightGBM: A highly efficient gradient boosting decision tree. NIPS 2017.
Prokhorenkova, L., et al. (2018). CatBoost: unbiased boosting with categorical features. NIPS 2018.

Общая оценка: Данная статья решает важную практическую проблему надежности сети банкоматов, предлагая эффективное решение на основе мультиклассификаторного слияния. Хотя теоретические инновации ограничены, работа демонстрирует выдающиеся результаты в инженерной практике и повышении производительности, обладая значительной практической ценностью и промышленным влиянием. Успешное применение метода предоставляет ценный справочный материал для мониторинга надежности аналогичных критических систем.