2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister
The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
academic

NiaAutoARM: 연관규칙 마이닝 파이프라인의 자동 생성 및 평가

기본 정보

  • 논문 ID: 2501.00138
  • 제목: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
  • 저자: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (마리보르 대학교, 슬로베니아)
  • 분류: cs.NE (신경 및 진화 계산), cs.AI (인공지능)
  • 발표 시간: 2024년 12월 30일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2501.00138

초록

수치 연관규칙 마이닝(Numerical Association Rule Mining, NARM) 패러다임은 수치형 및 범주형 속성을 동시에 처리할 수 있으며, 두 가지 특성 유형을 모두 포함하는 데이터셋에서 연관관계를 발견하는 데 매우 유용합니다. 그러나 이 과정은 전처리, 알고리즘 선택, 하이퍼파라미터 최적화, 연관규칙 품질 평가 지표 정의 등 순차적으로 실행되는 여러 처리 단계를 포함하므로 단순하지 않습니다. 본 논문은 확률적 모집단 메타휴리스틱 알고리즘을 기반으로 완전한 연관규칙 마이닝 파이프라인을 자동으로 구축하는 새로운 자동 머신러닝 방법인 NiaAutoARM을 제안합니다. 방법의 이론적 표현 외에도, 논문은 제안된 방법에 대한 포괄적인 실험 평가를 제공합니다.

연구 배경 및 동기

1. 문제 정의

연관규칙 마이닝(ARM)은 거래 데이터베이스에서 항목 간의 관계를 발견하기 위한 머신러닝 방법입니다. 전통적인 ARM은 범주형 속성 처리에만 제한되어 있으며, ARM의 변형인 수치 연관규칙 마이닝(NARM)은 수치형 및 범주형 속성을 동시에 처리할 수 있어 전통적 ARM의 병목을 제거합니다.

2. 문제의 중요성

  • 민주화 필요성: 자동 머신러닝(AutoML)은 비전문가 사용자도 ML 방법을 사용할 수 있도록 하여 "인간 개입" 원칙을 피하는 것을 목표로 합니다
  • 복잡성 도전: ARM 파이프라인은 여러 복잡한 구성 요소를 포함합니다: 데이터 전처리, 알고리즘 선택, 하이퍼파라미터 최적화, 평가 지표 선택 및 평가
  • 보편적 해결책 부재: No Free Lunch 정리에 따르면, 모든 데이터셋에 적용 가능한 보편적 ARM 메타휴리스틱 알고리즘은 존재하지 않습니다

3. 기존 방법의 한계

  • ARM 파이프라인의 수동 구축은 많은 인적 개입이 필요하며 시간이 많이 소요되고 복잡합니다
  • 기존 연구는 ARM 전처리 단계에 충분한 주의를 기울이지 않습니다
  • ARM 파이프라인 자동 구축을 위한 전문화된 AutoML 방법이 부족합니다

4. 연구 동기

NiaAML 방법에서 영감을 받아 ARM 파이프라인 구축 문제를 연속 최적화 문제로 모델링하고, 모집단 메타휴리스틱 알고리즘을 사용하여 최적 파이프라인 구성을 자동으로 검색합니다.

핵심 기여

  1. 선도성: ARM 파이프라인 자동 검색을 위한 첫 번째 AutoML 솔루션을 제안하며, 자동 검색을 최적화 문제로 표현합니다
  2. 전처리 중점: ARM 전처리 단계에 특별히 중점을 두어 최근 연구 작업의 공백을 메웁니다
  3. 구현 프레임워크: NiaAutoARM이라는 Python 패키지를 구현하여 완전한 실용 도구를 제공합니다
  4. 포괄적 평가: 여러 데이터셋에서 제안된 방법에 대한 엄격한 실험 평가를 수행합니다

방법 상세 설명

작업 정의

ARM 파이프라인 구축을 연속 최적화 문제로 정의하며, 각 개체는 다음을 포함하는 실행 가능한 ARM 파이프라인 구성을 나타냅니다:

  • 알고리즘 선택
  • 하이퍼파라미터 설정
  • 전처리 방법
  • 평가 지표 및 가중치

모델 아키텍처

1. 해 표현

각 개체 xi(t)x_i^{(t)}는 다음과 같이 표현됩니다:

xi(t)=xi,1(t),yi,1(t),yi,2(t),pi,1(t),,pi,P(t),zi,1(t),,zi,M(t),wi,1(t),,wi,M(t)x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle

여기서:

  • xi,1(t)x_{i,1}^{(t)}: 알고리즘 선택
  • yi,1(t),yi,2(t)y_{i,1}^{(t)}, y_{i,2}^{(t)}: 하이퍼파라미터(모집단 크기 NP, 최대 평가 횟수 MAXFES)
  • pi,1(t),,pi,P(t)p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}: 전처리 방법
  • zi,1(t),,zi,M(t)z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}: 평가 지표
  • wi,1(t),,wi,M(t)w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}: 지표 가중치

2. 구성 요소 설계

알고리즘 풀: PSO, DE, GA, LSHADE, ILSHADE, jDE 등 6가지 메타휴리스틱 알고리즘 포함

전처리 방법:

  • Min-Max 정규화(MM)
  • Z-Score 정규화(ZS)
  • 데이터 압축(DS)
  • 높은 상관관계 특성 제거(RHC)
  • K-means 이산화(DK)

평가 지표: 지지도, 신뢰도, 커버리지, 진폭, 포함도, 이해 가능성

3. 적응도 함수

NiaAutoARM은 공정성 적응도 함수를 사용합니다:

f(xi(t))=αsupp(XY)+βconf(XY)α+βf(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}

여기서 α와 β는 서로 다른 ARM 지표가 해의 품질에 미치는 영향을 나타냅니다.

기술 혁신 포인트

  1. 이중층 최적화 구조: 외부층 메타휴리스틱이 내부층 알고리즘의 동작을 제어하고 최적 구성을 검색합니다
  2. 적응형 가중치: ARM 지표 가중치의 동적 조정을 지원합니다
  3. 다중 전처리 조합: 여러 전처리 방법 조합의 선택을 허용합니다
  4. 연속 최적화 모델링: 이산 파이프라인 구축 문제를 연속 최적화 문제로 변환합니다

실험 설정

데이터셋

10개의 UCI 머신러닝 데이터셋을 사용하여 평가합니다:

데이터셋인스턴스 수속성 수속성 유형
Abalone4,1779DN
Balance scale6255DN
Basketball965N
Bolts408N
Buying10040N
German1,00020DN
House22,78417N
Ionosphere35135DN
Quake2,1784N
Wine17814N

평가 지표

  • 적응도 값(지지도와 신뢰도의 가중 평균)
  • 생성된 규칙 수
  • 알고리즘 선택 빈도
  • 전처리 방법 사용 빈도

비교 방법

최신 VARDE(Variable-length Association Rule mining using Differential Evolution) 알고리즘과 간접 비교를 수행합니다.

구현 세부사항

  • 외부층 알고리즘: DE 및 PSO
  • 모집단 크기: NP = 30
  • 최대 적응도 평가 횟수: MAXFES = 1000
  • 독립 실행 횟수: 30회
  • 내부층 알고리즘 하이퍼파라미터 범위: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

실험 결과

주요 결과

1. 기준선 실험

  • 전처리 선택: Min-Max 정규화(MM), Z-Score 정규화(ZS) 및 전처리 없음이 가장 자주 선택됨
  • 지표 선호도: 지지도와 신뢰도가 거의 모든 파이프라인에 존재함
  • 알고리즘 선택: PSO와 jDE가 내부층 최적화 알고리즘으로 가장 자주 선택됨
  • 하이퍼파라미터: 복잡한 데이터셋(Buying, German, House16 등)은 더 높은 NP 값을 선택하는 경향이 있음

2. 가중치 적응형 실험

ARM 지표 가중치 적응을 활성화한 후:

  • 적응도 값이 약간 향상됨(Wilcoxon 검정 p값=0.41, 차이 미미함)
  • 가중치 값이 동적 분포를 나타내며, 지지도와 신뢰도가 여전히 높은 가중치 유지
  • 진폭 및 이해 가능성 지표의 사용 빈도가 낮음

3. 다중 전처리 방법 실험

여러 전처리 방법 선택을 허용할 때:

  • PSO: 가장 빈번한 조합은 {MM,RHC} 및 단독 MM
  • DE: 가장 빈번한 조합은 {RHC,ZS}, {MM,RHC,ZS} 및 단독 RHC
  • DE 알고리즘이 생성한 파이프라인의 적응도 값이 약간 높으며, PSO는 더 많은 규칙 생성

4. VARDE와의 비교

Wilcoxon 부호 순위 검정 결과:

  • 다양한 구성에서 NiaAutoARM이 생성한 파이프라인이 VARDE보다 현저히 우수함
  • 특히 가중치 적응 및 다중 전처리 방법 활성화 시 더 나은 성능 발휘

제거 실험

서로 다른 기능을 단계적으로 활성화하여 각 구성 요소의 기여도 검증:

  1. 기준선 구성(단일 전처리, 가중치 적응 없음)
  2. 가중치 적응 활성화
  3. 다중 전처리 방법 선택 활성화

계산 복잡도 분석

평균 실행 시간은 15,000-40,000초 범위이며, 계산 복잡도가 높지만 자동화로 인한 편의성을 고려하면 수용 가능한 절충입니다.

관련 연구

AutoML 분야

  • NiaAML: 자연 영감 알고리즘 기반 분류 파이프라인 자동 구축
  • NiaAML2: 개선된 버전으로 파이프라인 구축과 하이퍼파라미터 최적화를 두 개의 독립적 단계로 분리
  • 범용 AutoML: TPOT, Auto-sklearn 등 프레임워크는 주로 분류 및 회귀 작업에 중점

ARM 분야

  • NiaARM: ARM-DE 알고리즘을 구현한 Python 프레임워크
  • 전통적 ARM: 주로 범주형 속성 처리
  • NARM: 수치형 및 범주형 속성을 동시에 처리할 수 있는 개선된 버전

기술적 차이

NiaAutoARM은 ARM 파이프라인 자동 구축을 위한 첫 번째 AutoML 방법으로, 이 분야의 공백을 채웁니다.

결론 및 논의

주요 결론

  1. NiaAutoARM은 고품질의 ARM 파이프라인을 효과적으로 자동 구축할 수 있습니다
  2. PSO가 내부층 알고리즘으로 최고의 성능을 발휘하며, Min-Max 정규화가 가장 선호되는 전처리 방법입니다
  3. 지지도와 신뢰도는 ARM의 핵심 지표입니다
  4. 기존 최첨단 방법과 비교하여 이 프레임워크는 우수한 성능을 보여줍니다

한계

  1. 계산 복잡도: 반복 최적화 및 다양한 전처리 조합 탐색으로 인한 높은 계산 비용
  2. 평가 지표: 현재 주로 지지도와 신뢰도 조합에 기반하여 모든 응용 분야에 적합하지 않을 수 있음
  3. 데이터셋 규모: 실험은 주로 중소 규모 데이터셋에서 수행되었으며, 대규모 데이터셋의 성능은 검증 필요
  4. 알고리즘 풀 제한: 내부층 알고리즘 풀이 상대적으로 제한적이어서 다른 효과적인 알고리즘을 놓칠 수 있음

향후 방향

  1. 알고리즘 확장: 자적응 파라미터 조정을 갖춘 더 많은 자연 영감 알고리즘 통합
  2. 전처리 강화: 더 많은 고급 전처리 기술 및 특정 영역 지표 포함
  3. 병렬 계산: 계산 복잡도 감소를 위한 병렬 및 분산 계산 전략 탐색
  4. 다목적 최적화: 프레임워크를 확장하여 다목적 최적화 지원 및 상충하는 지표 간의 절충 탐색

심층 평가

장점

  1. 높은 혁신성: AutoML을 ARM 분야에 처음 적용하여 중요한 공백 채움
  2. 완전한 방법: 전처리에서 평가까지의 완전한 파이프라인 최적화 포함
  3. 충분한 실험: 여러 데이터셋에서 포괄적인 실험 검증 수행
  4. 높은 실용 가치: 완전한 Python 구현 제공으로 실제 응용 용이
  5. 견고한 이론 기초: 성숙한 메타휴리스틱 최적화 이론에 기반

부족한 점

  1. 계산 효율성: 이중층 최적화 구조로 인한 높은 계산 비용
  2. 확장성: 대규모 데이터셋에서의 성능 표현이 충분히 검증되지 않음
  3. 비교 제한: VARDE와의 비교가 간접적이며, 더 많은 기준선 방법 비교 부족
  4. 파라미터 민감도: 외부층 알고리즘 파라미터 설정에 대한 민감도 분석 부족

영향력

  1. 학술 기여: AutoARM이라는 새로운 연구 방향 개척
  2. 실용 가치: ARM 응용의 기술 진입 장벽 낮추고 방법 보급 촉진
  3. 재현성: 오픈소스 구현 제공으로 후속 연구 용이
  4. 확장 잠재력: 관련 분야의 자동화 연구에 참고 프레임워크 제공

적용 시나리오

  1. 중소 규모 데이터셋: 특히 속성 수와 인스턴스 수가 적당한 데이터셋에 적합
  2. 혼합 속성 데이터: 수치형 및 범주형 속성을 모두 포함하는 데이터셋
  3. 비전문가 사용자: ARM 전문 지식이 부족하지만 연관 분석이 필요한 사용자
  4. 빠른 프로토타입: ARM 파이프라인을 빠르게 구축하고 테스트해야 하는 연구 시나리오

참고문헌

논문은 25개의 관련 문헌을 인용하며, 주로 다음을 포함합니다:

  • AutoML 관련 연구(Yao et al., Hutter et al., He et al.)
  • 진화 계산 기초(Eiben & Smith, Blum & Merkle)
  • 구체적 알고리즘 구현(Storn & Price for DE, Kennedy & Eberhart for PSO)
  • 관련 프레임워크(NiaPy, NiaARM, NiaAML 시리즈)

종합 평가: 이는 AutoML과 ARM의 교차 분야에서 중요한 기여를 한 고품질 연구 논문입니다. 계산 효율성과 대규모 데이터 처리 측면에서 개선의 여지가 있지만, 혁신성, 완전성 및 실용 가치로 인해 이 분야의 중요한 이정표 작업이 됩니다.