2025-11-14T07:52:11.150813

Hybrid Interval Type-2 Mamdani-TSK Fuzzy System for Regression Analysis

Bhatia, de Amorim, De Feo

Regression analysis is employed to examine and quantify the relationships between input variables and a dependent and continuous output variable. It is widely used for predictive modelling in fields such as finance, healthcare, and engineering. However, traditional methods often struggle with real-world data complexities, including uncertainty and ambiguity. While deep learning approaches excel at capturing complex non-linear relationships, they lack interpretability and risk over-fitting on small datasets. Fuzzy systems provide an alternative framework for handling uncertainty and imprecision, with Mamdani and Takagi-Sugeno-Kang (TSK) systems offering complementary strengths: interpretability versus accuracy. This paper presents a novel fuzzy regression method that combines the interpretability of Mamdani systems with the precision of TSK models. The proposed approach introduces a hybrid rule structure with fuzzy and crisp components and dual dominance types, enhancing both accuracy and explainability. Evaluations on benchmark datasets demonstrate state-of-the-art performance in several cases, with rules maintaining a component similar to traditional Mamdani systems while improving precision through improved rule outputs. This hybrid methodology offers a balanced and versatile tool for predictive modelling, addressing the trade-off between interpretability and accuracy inherent in fuzzy systems. In the 6 datasets tested, the proposed approach gave the best fuzzy methodology score in 4 datasets, out-performed the opaque models in 2 datasets and produced the best overall score in 1 dataset with the improvements in RMSE ranging from 0.4% to 19%.

academic

Sistema Fuzzy Ibrido Interval Type-2 Mamdani-TSK per l'Analisi di Regressione

Informazioni Fondamentali

ID Articolo: 2510.13437
Titolo: Hybrid Interval Type-2 Mamdani-TSK Fuzzy System for Regression Analysis
Autori: Ashish Bhatia, Renato Cordeiro de Amorim, Vito De Feo (University of Essex, Regno Unito)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 15 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.13437v1

Riassunto

L'analisi di regressione è ampiamente applicata nella modellazione predittiva in settori quali la finanza, la medicina e l'ingegneria, per esaminare e quantificare le relazioni tra variabili di input e variabili di output continue. Tuttavia, i metodi tradizionali spesso incontrano difficoltà nel gestire la complessità dei dati del mondo reale, inclusa l'incertezza e l'ambiguità. Sebbene i metodi di deep learning eccellano nel catturare relazioni non lineari complesse, mancano di interpretabilità e presentano rischi di overfitting su piccoli dataset. I sistemi fuzzy forniscono un framework alternativo per gestire l'incertezza e l'imprecisione, dove i sistemi Mamdani e Takagi-Sugeno-Kang (TSK) offrono vantaggi complementari: interpretabilità versus accuratezza. Questo articolo propone un nuovo metodo di regressione fuzzy che combina l'interpretabilità dei sistemi Mamdani con la precisione dei modelli TSK. Il metodo introduce una struttura di regole ibride con componenti fuzzy e nitide e un tipo dominante duale, migliorando sia l'accuratezza che l'interpretabilità.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le principali sfide affrontate dai metodi di regressione tradizionali nel trattamento dei dati del mondo reale:

Incertezza e Ambiguità: Incertezza intrinseca e informazioni linguistiche presenti nei dati reali
Compromesso tra Interpretabilità e Accuratezza: I modelli di deep learning, sebbene accurati, mancano di interpretabilità
Problema dei Piccoli Dataset: I modelli complessi tendono a overfitting su piccoli dataset

Limitazioni dei Metodi Esistenti

Metodi di Regressione Tradizionali: Presuppongono relazioni numeriche esatte e definite, difficili da gestire con l'incertezza
Metodi di Deep Learning: Mancano di interpretabilità, hanno numerosi parametri e non sono adatti all'addestramento su piccoli dataset
Sistemi Fuzzy Mamdani: Forte interpretabilità ma precisione limitata, la partizione grossolana causa degradazione delle prestazioni
Sistemi Fuzzy TSK: Alta precisione ma mancanza di interpretabilità, contraddice lo scopo dell'uso di sistemi fuzzy

Motivazione della Ricerca

Sviluppare un framework ibrido che mantenga l'interpretabilità del sistema Mamdani e raggiunga la precisione del sistema TSK, fornendo uno strumento equilibrato e versatile per la modellazione predittiva.

Contributi Principali

Struttura di Regole Ibride: Propone un nuovo sistema di regressione fuzzy che combina l'interpretabilità linguistica dei sistemi Mamdani e la precisione numerica dei modelli TSK
Meccanismo di Dominanza Duale: Introduce due metodi di calcolo dei pesi delle regole—basati su supporto/confidenza fuzzy e dominanza basata su errore
Componente TSK Vincolato: L'output della funzione TSK è vincolato ai limiti dell'insieme fuzzy corrispondente, mantenendo l'interpretabilità
Insiemi Fuzzy Interval Type-2: Utilizza insiemi fuzzy interval type-2 per gestire meglio l'incertezza
Ottimizzazione ACO: Impiega l'algoritmo di ottimizzazione della colonia di formiche per la selezione del sottoinsieme di regole, bilanciando la compattezza del modello e l'accuratezza

Dettagli del Metodo

Definizione del Compito

Dato un insieme di variabili di input $x_1, x_2, ..., x_n$ e una variabile di output continua $y$ , l'obiettivo è costruire un modello di regressione sia accurato che interpretabile, capace di gestire l'incertezza e l'ambiguità nei dati.

Architettura del Modello

1. Fuzificazione con Insiemi Fuzzy Interval Type-2

Gli input e gli output sono fuzificati utilizzando insiemi fuzzy interval type-2:

$\tilde{F} = \int_{x \in X} \left[ \int_{u \in [\underline{\mu}(x), \overline{\mu}(x)]} 1/u \right] /x$

dove $\underline{\mu}(x)$ e $\overline{\mu}(x)$ sono rispettivamente il grado di appartenenza inferiore e superiore.

2. Struttura di Regole Ibride

Ogni regola contiene due componenti di conseguente:

Forma della Regola:

SE x1 è F1 E ... E xn è Fn 
ALLORA (y è G, y = f(x1, x2, ..., xn))

Componente Fuzzy: Conseguente Mamdani tradizionale, che punta a un insieme fuzzy di output
Componente Funzione TSK: Funzione polinomiale di n-esimo ordine, fornisce un valore di output nitido

Vincolo della Funzione TSK: $y_{output} \in [LowerBound(F_{upper}), UpperBound(F_{upper})]$

Assicura che l'output TSK rimanga sempre entro i limiti dell'insieme fuzzy corrispondente.

3. Meccanismo di Pesi Duali

Peso della Regola Fuzzy:

Supporto: $Support(A_j \to \tilde{C}_j) = \frac{1}{|N|} \sum_{p=1}^N \mu_{A_j}(x_p) \cdot \mu_{C_j}(y_p)$
Confidenza: $Confidence(A_j \to \tilde{C}_j) = \frac{\sum_{p=1}^N \mu_{A_j}(x_p) \cdot \mu_{C_j}(y_p)}{\sum_{p=1}^N \mu_{A_j}(x_p)}$
Dominanza: $D = [S_{Rule\_lower} \cdot C_{lower}, S_{Rule\_upper} \cdot C_{upper}]$

Dominanza Basata su Errore: $Dominance_{ri} = \frac{1}{1 + r_i}$ dove $r_i$ è l'RMSE della i-esima regola.

4. Selezione di Regole ACO

Utilizza l'algoritmo di ottimizzazione della colonia di formiche per selezionare il sottoinsieme di regole ottimale:

Ogni formica costruisce una soluzione di sottoinsieme di regole
La qualità della soluzione è valutata in base alle prestazioni RMSE
Il meccanismo di aggiornamento dei feromoni guida il processo di ricerca
Bilancia la compattezza del modello e l'accuratezza predittiva

5. Defuzificazione

Utilizza il metodo della media ponderata TSK per calcolare l'output finale: $y_{final} = \frac{\sum_{i=1}^M \omega_i y_i}{\sum_{i=1}^M \omega_i}$

Punti di Innovazione Tecnica

Componente TSK Vincolato: A differenza del TSK tradizionale, l'output della funzione è limitato ai limiti dell'insieme fuzzy
Addestramento su Sottoinsieme: La funzione TSK è addestrata solo su campioni di addestramento con intensità di eccitazione positiva
Meccanismo di Dominanza Duale: Combina la logica fuzzy e la precisione numerica nel calcolo dei pesi
Mantenimento dell'Interpretabilità: La forma della regola è simile ai sistemi Mamdani tradizionali, ma con maggiore precisione

Configurazione Sperimentale

Dataset

Utilizza 6 dataset di benchmark dal repository KEEL:

Concrete Compressive Strength: 1030 istanze, 8 variabili di input
Diabetes: 768 record, 2 attributi di input
ELE-2: 11.105 istanze, 4 variabili predittive
Mortgage: 1045 istanze, 14 variabili
Treasury: 956 record, 16 attributi finanziari
Wankara: 1609 record, 4 variabili di input

Metriche di Valutazione

RMSE (Root Mean Squared Error): Metrica di valutazione principale
Metriche di Interpretabilità: Copertura delle regole, numero di regole attive, caratteristiche della base di regole, robustezza

Metodi di Confronto

MP: Perceptron Multistrato
SMOreg: Sequential Minimal Optimization
WM: Algoritmo di Wang e Mendel
CHV: Algoritmo di Cordon, Herrera e Villar
GLD-WM: Parametri Globali Laterali + Base di Regole WM

Varianti del Modello

HIT2-MTSK-D2: Funzione TSK di 2° ordine
HIT2-MTSK-D3: Funzione TSK di 3° ordine

Risultati Sperimentali

Risultati Principali

Su 6 dataset:

4 dataset: Migliori prestazioni tra i metodi fuzzy
2 dataset: Superano i modelli non trasparenti
1 dataset: Migliore prestazione complessiva
Miglioramento RMSE: 0,4% - 19%

Prestazioni Specifiche:

Concrete: HIT2-MTSK-D3 raggiunge RMSE di 7,29, migliore prestazione complessiva
Mortgage: HIT2-MTSK-D3 raggiunge RMSE di 0,13, miglior metodo fuzzy
Treasury: HIT2-MTSK-D3 raggiunge RMSE di 0,27, miglior metodo fuzzy
Wankara: Entrambe le varianti raggiungono RMSE di 1,58, prestazioni equivalenti a SMOreg

Caso di Studio: Previsione dei Prezzi Immobiliari della California

Prestazioni sul dataset di alloggi della California:

Dataset: 20.640 osservazioni, 8 caratteristiche
RMSE HIT2-MTSK: 0,695
RMSE Mamdani FRBS: 0,751
Numero di Regole: 75 regole
Copertura: 100% delle istanze di test attiva almeno una regola

Valutazione dell'Interpretabilità

Copertura di Categoria: Copre il 96% dell'intervallo di dati di test effettivi
Regole Attive: Media di 8,38 regole eccitate con soglia 0,15
Caratteristiche delle Regole: 75 regole, media di 2,67 antecedenti
Robustezza al Rumore: Variazione di previsione del 12,24% con livello di rumore del 10%

Lavori Correlati

Sviluppo dei Sistemi di Regole Fuzzy

Metodo Wang-Mendel: Generazione di regole guidata dai dati nei primi anni
Sistemi Fuzzy Genetici (GFS): Integrazione di algoritmi genetici per l'ottimizzazione dell'apprendimento delle regole
Applicazione di Algoritmi Evolutivi: Ottimizzazione della base di conoscenza, base di regole e database

Metodi Ibridi

Metodi Gr-MF e GA-WM: Combinazione di ottimizzazione della base di regole e database
Metodo GA-COR: Integrazione di algoritmi genetici con framework COR
Metodo WM+GL: Utilizzo di 2-tuple linguistiche per l'ottimizzazione laterale

Vantaggi di questo Articolo

Rispetto ai lavori esistenti, il metodo proposto migliora significativamente la precisione mantenendo l'interpretabilità, risolvendo il compromesso tra accuratezza e interpretabilità nei metodi tradizionali.

Conclusioni e Discussione

Conclusioni Principali

Equilibrio Efficace: Bilancia con successo il compromesso tra interpretabilità e accuratezza nei sistemi fuzzy
Miglioramento Significativo: Raggiunge prestazioni migliori o quasi migliori su la maggior parte dei dataset di benchmark
Mantenimento dell'Interpretabilità: La forma della regola è simile ai sistemi Mamdani tradizionali, facile da comprendere
Robustezza Forte: Prestazioni stabili su diversi domini e dataset

Limitazioni

Compromesso di Complessità: Le funzioni TSK di ordine superiore possono portare a overfitting
Spazio di Ottimizzazione: Esiste ancora spazio per il miglioramento delle prestazioni su alcuni dataset
Complessità Computazionale: L'ottimizzazione ACO aumenta i costi computazionali
Sensibilità ai Parametri: Richiede l'impostazione appropriata del numero di insiemi fuzzy e dell'ordine della funzione TSK

Direzioni Future

Miglioramento dell'Ottimizzazione: Esplorazione di altre tecniche di ottimizzazione metaeuristica
Adattamento al Dominio: Preelaborazione e selezione delle caratteristiche specifiche del dominio
Valutazione Estesa: Validazione su più dataset e metriche di valutazione
Analisi Teorica: Analisi approfondita della convergenza e della complessità

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo a proporre un sistema fuzzy ibrido con componente TSK vincolato
Alto Valore Pratico: Risolve problemi chiave nelle applicazioni reali
Sperimentazione Completa: Validazione su più dataset di benchmark, con analisi dettagliata dell'interpretabilità
Metodologia Razionale: Progettazione tecnica logica e fondamenti teorici solidi

Insufficienze

Analisi Teorica Insufficiente: Mancanza di garanzie teoriche sulla convergenza e complessità
Guida nella Selezione dei Parametri: Mancanza di strategie sistematiche per la selezione dei parametri
Efficienza Computazionale: Analisi della complessità computazionale dell'ottimizzazione ACO non sufficientemente dettagliata
Limiti di Applicabilità: Discussione limitata sulle condizioni di applicabilità del metodo

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo dei sistemi fuzzy
Valore Pratico: Ha importante valore applicativo in scenari che richiedono AI interpretabile
Riproducibilità: Descrizione dettagliata del metodo, facile da riprodurre e estendere

Scenari di Applicazione

Valutazione del Rischio Finanziario: Richiede modelli predittivi interpretabili
Diagnosi Medica: Richiede processi decisionali trasparenti
Controllo Ingegneristico: Richiede la comprensione del comportamento del sistema
Regressione su Piccoli Dataset: Scenari dove i metodi tradizionali di deep learning non sono applicabili

Bibliografia

L'articolo cita importanti letterature nei campi della logica fuzzy, degli algoritmi evolutivi e del machine learning, inclusi i lavori fondamentali di Zadeh sulla logica fuzzy, i sistemi fuzzy classici di Mamdani e TSK, nonché ricerche recenti su sistemi fuzzy genetici e insiemi fuzzy interval type-2.

Valutazione Complessiva: Questo è un articolo accademico di alta qualità che propone un metodo innovativo di sistema fuzzy ibrido, migliorando significativamente la precisione della regressione mantenendo l'interpretabilità. La progettazione del metodo è razionale, la validazione sperimentale è completa e ha un importante valore di contributo per i campi dei sistemi fuzzy e dell'AI interpretabile.