2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister

The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.

academic

NiaAutoARM: 関連ルールマイニングパイプラインの自動生成と評価

基本情報

論文ID: 2501.00138
タイトル: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
著者: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (マリボル大学、スロベニア)
分類: cs.NE (ニューラルおよび進化計算)、cs.AI (人工知能)
発表日: 2024年12月30日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2501.00138

概要

数値関連ルールマイニング(Numerical Association Rule Mining, NARM)パラダイムは、数値属性とカテゴリカル属性を同時に処理でき、両方の特徴タイプを含むデータセットから関連性を発見するのに非常に有益です。しかし、このプロセスは単純ではありません。なぜなら、前処理、アルゴリズム選択、ハイパーパラメータ最適化、関連ルール品質評価指標の定義など、複数の順序付き処理ステップを含む完全なパイプラインを形成する必要があるからです。本論文では、確率的集団メタヒューリスティックアルゴリズムに基づいて関連ルールマイニングパイプラインを自動的に構築する新規な自動機械学習手法NiaAutoARMを提案します。方法の理論的表現に加えて、提案手法の包括的な実験評価も提供します。

研究背景と動機

1. 問題定義

関連ルールマイニング(ARM)は、トランザクションデータベース内のアイテム間の関係を発見するために使用される機械学習手法です。従来のARMはカテゴリカル属性の処理に限定されていますが、ARMの変種である数値関連ルールマイニング(NARM)は、数値属性とカテゴリカル属性を同時に処理でき、従来のARMのボトルネックを排除します。

2. 問題の重要性

民主化の必要性: 自動機械学習(AutoML)は、非専門家ユーザーもML手法を使用できるようにすることを目指し、「人間を介在させる」原則を回避します
複雑性の課題: ARMパイプラインは複数の複雑なコンポーネントを含みます：データ前処理、アルゴリズム選択、ハイパーパラメータ最適化、評価指標選択、および評価
普遍的な解決策の不在: No Free Lunch定理によれば、すべてのデータセットに適用可能な普遍的なARMメタヒューリスティックアルゴリズムは存在しません

3. 既存手法の限界

ARMパイプラインの手動構築には大量の人的介入が必要であり、時間がかかり複雑です
既存研究はARM前処理ステップに十分な注意を払っていません
ARMパイプライン自動構築に特化したAutoML手法が不足しています

4. 研究動機

NiaAML手法の着想に基づき、ARMパイプライン構築問題を連続最適化問題としてモデル化し、集団メタヒューリスティックアルゴリズムを使用して最適なパイプライン構成を自動的に探索します。

核心的貢献

独創性: ARMパイプライン自動探索専用の最初のAutoMLソリューションを提案し、自動探索を最適化問題として表現します
前処理への焦点: ARM前処理ステップに特に焦点を当て、最近の研究作業の不足を補います
実装フレームワーク: NiaAutoARMという名前のPythonパッケージを実装し、完全な実用的ツールを提供します
包括的評価: 複数のデータセット上で提案手法の厳密な実験評価を実施します

方法の詳細

タスク定義

ARMパイプライン構築を連続最適化問題として定義します。各個体は実行可能なARMパイプライン構成を表し、以下を含みます：

アルゴリズム選択
ハイパーパラメータ設定
前処理方法
評価指標と重み

モデルアーキテクチャ

1. ソリューション表現

各個体 $x_i^{(t)}$ は以下のように表現されます：

$x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle$