2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister

The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.

academic

NiaAutoARM: 연관규칙 마이닝 파이프라인의 자동 생성 및 평가

기본 정보

논문 ID: 2501.00138
제목: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
저자: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (마리보르 대학교, 슬로베니아)
분류: cs.NE (신경 및 진화 계산), cs.AI (인공지능)
발표 시간: 2024년 12월 30일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00138

초록

수치 연관규칙 마이닝(Numerical Association Rule Mining, NARM) 패러다임은 수치형 및 범주형 속성을 동시에 처리할 수 있으며, 두 가지 특성 유형을 모두 포함하는 데이터셋에서 연관관계를 발견하는 데 매우 유용합니다. 그러나 이 과정은 전처리, 알고리즘 선택, 하이퍼파라미터 최적화, 연관규칙 품질 평가 지표 정의 등 순차적으로 실행되는 여러 처리 단계를 포함하므로 단순하지 않습니다. 본 논문은 확률적 모집단 메타휴리스틱 알고리즘을 기반으로 완전한 연관규칙 마이닝 파이프라인을 자동으로 구축하는 새로운 자동 머신러닝 방법인 NiaAutoARM을 제안합니다. 방법의 이론적 표현 외에도, 논문은 제안된 방법에 대한 포괄적인 실험 평가를 제공합니다.

연구 배경 및 동기

1. 문제 정의

연관규칙 마이닝(ARM)은 거래 데이터베이스에서 항목 간의 관계를 발견하기 위한 머신러닝 방법입니다. 전통적인 ARM은 범주형 속성 처리에만 제한되어 있으며, ARM의 변형인 수치 연관규칙 마이닝(NARM)은 수치형 및 범주형 속성을 동시에 처리할 수 있어 전통적 ARM의 병목을 제거합니다.

2. 문제의 중요성

민주화 필요성: 자동 머신러닝(AutoML)은 비전문가 사용자도 ML 방법을 사용할 수 있도록 하여 "인간 개입" 원칙을 피하는 것을 목표로 합니다
복잡성 도전: ARM 파이프라인은 여러 복잡한 구성 요소를 포함합니다: 데이터 전처리, 알고리즘 선택, 하이퍼파라미터 최적화, 평가 지표 선택 및 평가
보편적 해결책 부재: No Free Lunch 정리에 따르면, 모든 데이터셋에 적용 가능한 보편적 ARM 메타휴리스틱 알고리즘은 존재하지 않습니다

3. 기존 방법의 한계

ARM 파이프라인의 수동 구축은 많은 인적 개입이 필요하며 시간이 많이 소요되고 복잡합니다
기존 연구는 ARM 전처리 단계에 충분한 주의를 기울이지 않습니다
ARM 파이프라인 자동 구축을 위한 전문화된 AutoML 방법이 부족합니다

4. 연구 동기

NiaAML 방법에서 영감을 받아 ARM 파이프라인 구축 문제를 연속 최적화 문제로 모델링하고, 모집단 메타휴리스틱 알고리즘을 사용하여 최적 파이프라인 구성을 자동으로 검색합니다.

핵심 기여

선도성: ARM 파이프라인 자동 검색을 위한 첫 번째 AutoML 솔루션을 제안하며, 자동 검색을 최적화 문제로 표현합니다
전처리 중점: ARM 전처리 단계에 특별히 중점을 두어 최근 연구 작업의 공백을 메웁니다
구현 프레임워크: NiaAutoARM이라는 Python 패키지를 구현하여 완전한 실용 도구를 제공합니다
포괄적 평가: 여러 데이터셋에서 제안된 방법에 대한 엄격한 실험 평가를 수행합니다

방법 상세 설명

작업 정의

ARM 파이프라인 구축을 연속 최적화 문제로 정의하며, 각 개체는 다음을 포함하는 실행 가능한 ARM 파이프라인 구성을 나타냅니다:

알고리즘 선택
하이퍼파라미터 설정
전처리 방법
평가 지표 및 가중치

모델 아키텍처

1. 해 표현

각 개체 $x_i^{(t)}$ 는 다음과 같이 표현됩니다:

$x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle$