2025-11-14T07:52:11.150813

Hybrid Interval Type-2 Mamdani-TSK Fuzzy System for Regression Analysis

Bhatia, de Amorim, De Feo
Regression analysis is employed to examine and quantify the relationships between input variables and a dependent and continuous output variable. It is widely used for predictive modelling in fields such as finance, healthcare, and engineering. However, traditional methods often struggle with real-world data complexities, including uncertainty and ambiguity. While deep learning approaches excel at capturing complex non-linear relationships, they lack interpretability and risk over-fitting on small datasets. Fuzzy systems provide an alternative framework for handling uncertainty and imprecision, with Mamdani and Takagi-Sugeno-Kang (TSK) systems offering complementary strengths: interpretability versus accuracy. This paper presents a novel fuzzy regression method that combines the interpretability of Mamdani systems with the precision of TSK models. The proposed approach introduces a hybrid rule structure with fuzzy and crisp components and dual dominance types, enhancing both accuracy and explainability. Evaluations on benchmark datasets demonstrate state-of-the-art performance in several cases, with rules maintaining a component similar to traditional Mamdani systems while improving precision through improved rule outputs. This hybrid methodology offers a balanced and versatile tool for predictive modelling, addressing the trade-off between interpretability and accuracy inherent in fuzzy systems. In the 6 datasets tested, the proposed approach gave the best fuzzy methodology score in 4 datasets, out-performed the opaque models in 2 datasets and produced the best overall score in 1 dataset with the improvements in RMSE ranging from 0.4% to 19%.
academic

Sistema Fuzzy Ibrido Interval Type-2 Mamdani-TSK per l'Analisi di Regressione

Informazioni Fondamentali

  • ID Articolo: 2510.13437
  • Titolo: Hybrid Interval Type-2 Mamdani-TSK Fuzzy System for Regression Analysis
  • Autori: Ashish Bhatia, Renato Cordeiro de Amorim, Vito De Feo (University of Essex, Regno Unito)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 15 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.13437v1

Riassunto

L'analisi di regressione è ampiamente applicata nella modellazione predittiva in settori quali la finanza, la medicina e l'ingegneria, per esaminare e quantificare le relazioni tra variabili di input e variabili di output continue. Tuttavia, i metodi tradizionali spesso incontrano difficoltà nel gestire la complessità dei dati del mondo reale, inclusa l'incertezza e l'ambiguità. Sebbene i metodi di deep learning eccellano nel catturare relazioni non lineari complesse, mancano di interpretabilità e presentano rischi di overfitting su piccoli dataset. I sistemi fuzzy forniscono un framework alternativo per gestire l'incertezza e l'imprecisione, dove i sistemi Mamdani e Takagi-Sugeno-Kang (TSK) offrono vantaggi complementari: interpretabilità versus accuratezza. Questo articolo propone un nuovo metodo di regressione fuzzy che combina l'interpretabilità dei sistemi Mamdani con la precisione dei modelli TSK. Il metodo introduce una struttura di regole ibride con componenti fuzzy e nitide e un tipo dominante duale, migliorando sia l'accuratezza che l'interpretabilità.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le principali sfide affrontate dai metodi di regressione tradizionali nel trattamento dei dati del mondo reale:

  1. Incertezza e Ambiguità: Incertezza intrinseca e informazioni linguistiche presenti nei dati reali
  2. Compromesso tra Interpretabilità e Accuratezza: I modelli di deep learning, sebbene accurati, mancano di interpretabilità
  3. Problema dei Piccoli Dataset: I modelli complessi tendono a overfitting su piccoli dataset

Limitazioni dei Metodi Esistenti

  • Metodi di Regressione Tradizionali: Presuppongono relazioni numeriche esatte e definite, difficili da gestire con l'incertezza
  • Metodi di Deep Learning: Mancano di interpretabilità, hanno numerosi parametri e non sono adatti all'addestramento su piccoli dataset
  • Sistemi Fuzzy Mamdani: Forte interpretabilità ma precisione limitata, la partizione grossolana causa degradazione delle prestazioni
  • Sistemi Fuzzy TSK: Alta precisione ma mancanza di interpretabilità, contraddice lo scopo dell'uso di sistemi fuzzy

Motivazione della Ricerca

Sviluppare un framework ibrido che mantenga l'interpretabilità del sistema Mamdani e raggiunga la precisione del sistema TSK, fornendo uno strumento equilibrato e versatile per la modellazione predittiva.

Contributi Principali

  1. Struttura di Regole Ibride: Propone un nuovo sistema di regressione fuzzy che combina l'interpretabilità linguistica dei sistemi Mamdani e la precisione numerica dei modelli TSK
  2. Meccanismo di Dominanza Duale: Introduce due metodi di calcolo dei pesi delle regole—basati su supporto/confidenza fuzzy e dominanza basata su errore
  3. Componente TSK Vincolato: L'output della funzione TSK è vincolato ai limiti dell'insieme fuzzy corrispondente, mantenendo l'interpretabilità
  4. Insiemi Fuzzy Interval Type-2: Utilizza insiemi fuzzy interval type-2 per gestire meglio l'incertezza
  5. Ottimizzazione ACO: Impiega l'algoritmo di ottimizzazione della colonia di formiche per la selezione del sottoinsieme di regole, bilanciando la compattezza del modello e l'accuratezza

Dettagli del Metodo

Definizione del Compito

Dato un insieme di variabili di input x1,x2,...,xnx_1, x_2, ..., x_n e una variabile di output continua yy, l'obiettivo è costruire un modello di regressione sia accurato che interpretabile, capace di gestire l'incertezza e l'ambiguità nei dati.

Architettura del Modello

1. Fuzificazione con Insiemi Fuzzy Interval Type-2

Gli input e gli output sono fuzificati utilizzando insiemi fuzzy interval type-2:

F~=xX[u[μ(x),μ(x)]1/u]/x\tilde{F} = \int_{x \in X} \left[ \int_{u \in [\underline{\mu}(x), \overline{\mu}(x)]} 1/u \right] /x

dove μ(x)\underline{\mu}(x) e μ(x)\overline{\mu}(x) sono rispettivamente il grado di appartenenza inferiore e superiore.

2. Struttura di Regole Ibride

Ogni regola contiene due componenti di conseguente:

Forma della Regola:

SE x1 è F1 E ... E xn è Fn 
ALLORA (y è G, y = f(x1, x2, ..., xn))
  • Componente Fuzzy: Conseguente Mamdani tradizionale, che punta a un insieme fuzzy di output
  • Componente Funzione TSK: Funzione polinomiale di n-esimo ordine, fornisce un valore di output nitido

Vincolo della Funzione TSK: youtput[LowerBound(Fupper),UpperBound(Fupper)]y_{output} \in [LowerBound(F_{upper}), UpperBound(F_{upper})]

Assicura che l'output TSK rimanga sempre entro i limiti dell'insieme fuzzy corrispondente.

3. Meccanismo di Pesi Duali

Peso della Regola Fuzzy:

  • Supporto: Support(AjC~j)=1Np=1NμAj(xp)μCj(yp)Support(A_j \to \tilde{C}_j) = \frac{1}{|N|} \sum_{p=1}^N \mu_{A_j}(x_p) \cdot \mu_{C_j}(y_p)
  • Confidenza: Confidence(AjC~j)=p=1NμAj(xp)μCj(yp)p=1NμAj(xp)Confidence(A_j \to \tilde{C}_j) = \frac{\sum_{p=1}^N \mu_{A_j}(x_p) \cdot \mu_{C_j}(y_p)}{\sum_{p=1}^N \mu_{A_j}(x_p)}
  • Dominanza: D=[SRule_lowerClower,SRule_upperCupper]D = [S_{Rule\_lower} \cdot C_{lower}, S_{Rule\_upper} \cdot C_{upper}]

Dominanza Basata su Errore: Dominanceri=11+riDominance_{ri} = \frac{1}{1 + r_i} dove rir_i è l'RMSE della i-esima regola.

4. Selezione di Regole ACO

Utilizza l'algoritmo di ottimizzazione della colonia di formiche per selezionare il sottoinsieme di regole ottimale:

  • Ogni formica costruisce una soluzione di sottoinsieme di regole
  • La qualità della soluzione è valutata in base alle prestazioni RMSE
  • Il meccanismo di aggiornamento dei feromoni guida il processo di ricerca
  • Bilancia la compattezza del modello e l'accuratezza predittiva

5. Defuzificazione

Utilizza il metodo della media ponderata TSK per calcolare l'output finale: yfinal=i=1Mωiyii=1Mωiy_{final} = \frac{\sum_{i=1}^M \omega_i y_i}{\sum_{i=1}^M \omega_i}

Punti di Innovazione Tecnica

  1. Componente TSK Vincolato: A differenza del TSK tradizionale, l'output della funzione è limitato ai limiti dell'insieme fuzzy
  2. Addestramento su Sottoinsieme: La funzione TSK è addestrata solo su campioni di addestramento con intensità di eccitazione positiva
  3. Meccanismo di Dominanza Duale: Combina la logica fuzzy e la precisione numerica nel calcolo dei pesi
  4. Mantenimento dell'Interpretabilità: La forma della regola è simile ai sistemi Mamdani tradizionali, ma con maggiore precisione

Configurazione Sperimentale

Dataset

Utilizza 6 dataset di benchmark dal repository KEEL:

  1. Concrete Compressive Strength: 1030 istanze, 8 variabili di input
  2. Diabetes: 768 record, 2 attributi di input
  3. ELE-2: 11.105 istanze, 4 variabili predittive
  4. Mortgage: 1045 istanze, 14 variabili
  5. Treasury: 956 record, 16 attributi finanziari
  6. Wankara: 1609 record, 4 variabili di input

Metriche di Valutazione

  • RMSE (Root Mean Squared Error): Metrica di valutazione principale
  • Metriche di Interpretabilità: Copertura delle regole, numero di regole attive, caratteristiche della base di regole, robustezza

Metodi di Confronto

  • MP: Perceptron Multistrato
  • SMOreg: Sequential Minimal Optimization
  • WM: Algoritmo di Wang e Mendel
  • CHV: Algoritmo di Cordon, Herrera e Villar
  • GLD-WM: Parametri Globali Laterali + Base di Regole WM

Varianti del Modello

  • HIT2-MTSK-D2: Funzione TSK di 2° ordine
  • HIT2-MTSK-D3: Funzione TSK di 3° ordine

Risultati Sperimentali

Risultati Principali

Su 6 dataset:

  • 4 dataset: Migliori prestazioni tra i metodi fuzzy
  • 2 dataset: Superano i modelli non trasparenti
  • 1 dataset: Migliore prestazione complessiva
  • Miglioramento RMSE: 0,4% - 19%

Prestazioni Specifiche:

  • Concrete: HIT2-MTSK-D3 raggiunge RMSE di 7,29, migliore prestazione complessiva
  • Mortgage: HIT2-MTSK-D3 raggiunge RMSE di 0,13, miglior metodo fuzzy
  • Treasury: HIT2-MTSK-D3 raggiunge RMSE di 0,27, miglior metodo fuzzy
  • Wankara: Entrambe le varianti raggiungono RMSE di 1,58, prestazioni equivalenti a SMOreg

Caso di Studio: Previsione dei Prezzi Immobiliari della California

Prestazioni sul dataset di alloggi della California:

  • Dataset: 20.640 osservazioni, 8 caratteristiche
  • RMSE HIT2-MTSK: 0,695
  • RMSE Mamdani FRBS: 0,751
  • Numero di Regole: 75 regole
  • Copertura: 100% delle istanze di test attiva almeno una regola

Valutazione dell'Interpretabilità

  • Copertura di Categoria: Copre il 96% dell'intervallo di dati di test effettivi
  • Regole Attive: Media di 8,38 regole eccitate con soglia 0,15
  • Caratteristiche delle Regole: 75 regole, media di 2,67 antecedenti
  • Robustezza al Rumore: Variazione di previsione del 12,24% con livello di rumore del 10%

Lavori Correlati

Sviluppo dei Sistemi di Regole Fuzzy

  • Metodo Wang-Mendel: Generazione di regole guidata dai dati nei primi anni
  • Sistemi Fuzzy Genetici (GFS): Integrazione di algoritmi genetici per l'ottimizzazione dell'apprendimento delle regole
  • Applicazione di Algoritmi Evolutivi: Ottimizzazione della base di conoscenza, base di regole e database

Metodi Ibridi

  • Metodi Gr-MF e GA-WM: Combinazione di ottimizzazione della base di regole e database
  • Metodo GA-COR: Integrazione di algoritmi genetici con framework COR
  • Metodo WM+GL: Utilizzo di 2-tuple linguistiche per l'ottimizzazione laterale

Vantaggi di questo Articolo

Rispetto ai lavori esistenti, il metodo proposto migliora significativamente la precisione mantenendo l'interpretabilità, risolvendo il compromesso tra accuratezza e interpretabilità nei metodi tradizionali.

Conclusioni e Discussione

Conclusioni Principali

  1. Equilibrio Efficace: Bilancia con successo il compromesso tra interpretabilità e accuratezza nei sistemi fuzzy
  2. Miglioramento Significativo: Raggiunge prestazioni migliori o quasi migliori su la maggior parte dei dataset di benchmark
  3. Mantenimento dell'Interpretabilità: La forma della regola è simile ai sistemi Mamdani tradizionali, facile da comprendere
  4. Robustezza Forte: Prestazioni stabili su diversi domini e dataset

Limitazioni

  1. Compromesso di Complessità: Le funzioni TSK di ordine superiore possono portare a overfitting
  2. Spazio di Ottimizzazione: Esiste ancora spazio per il miglioramento delle prestazioni su alcuni dataset
  3. Complessità Computazionale: L'ottimizzazione ACO aumenta i costi computazionali
  4. Sensibilità ai Parametri: Richiede l'impostazione appropriata del numero di insiemi fuzzy e dell'ordine della funzione TSK

Direzioni Future

  1. Miglioramento dell'Ottimizzazione: Esplorazione di altre tecniche di ottimizzazione metaeuristica
  2. Adattamento al Dominio: Preelaborazione e selezione delle caratteristiche specifiche del dominio
  3. Valutazione Estesa: Validazione su più dataset e metriche di valutazione
  4. Analisi Teorica: Analisi approfondita della convergenza e della complessità

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a proporre un sistema fuzzy ibrido con componente TSK vincolato
  2. Alto Valore Pratico: Risolve problemi chiave nelle applicazioni reali
  3. Sperimentazione Completa: Validazione su più dataset di benchmark, con analisi dettagliata dell'interpretabilità
  4. Metodologia Razionale: Progettazione tecnica logica e fondamenti teorici solidi

Insufficienze

  1. Analisi Teorica Insufficiente: Mancanza di garanzie teoriche sulla convergenza e complessità
  2. Guida nella Selezione dei Parametri: Mancanza di strategie sistematiche per la selezione dei parametri
  3. Efficienza Computazionale: Analisi della complessità computazionale dell'ottimizzazione ACO non sufficientemente dettagliata
  4. Limiti di Applicabilità: Discussione limitata sulle condizioni di applicabilità del metodo

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo dei sistemi fuzzy
  2. Valore Pratico: Ha importante valore applicativo in scenari che richiedono AI interpretabile
  3. Riproducibilità: Descrizione dettagliata del metodo, facile da riprodurre e estendere

Scenari di Applicazione

  1. Valutazione del Rischio Finanziario: Richiede modelli predittivi interpretabili
  2. Diagnosi Medica: Richiede processi decisionali trasparenti
  3. Controllo Ingegneristico: Richiede la comprensione del comportamento del sistema
  4. Regressione su Piccoli Dataset: Scenari dove i metodi tradizionali di deep learning non sono applicabili

Bibliografia

L'articolo cita importanti letterature nei campi della logica fuzzy, degli algoritmi evolutivi e del machine learning, inclusi i lavori fondamentali di Zadeh sulla logica fuzzy, i sistemi fuzzy classici di Mamdani e TSK, nonché ricerche recenti su sistemi fuzzy genetici e insiemi fuzzy interval type-2.


Valutazione Complessiva: Questo è un articolo accademico di alta qualità che propone un metodo innovativo di sistema fuzzy ibrido, migliorando significativamente la precisione della regressione mantenendo l'interpretabilità. La progettazione del metodo è razionale, la validazione sperimentale è completa e ha un importante valore di contributo per i campi dei sistemi fuzzy e dell'AI interpretabile.