2025-11-14T07:52:11.150813

Hybrid Interval Type-2 Mamdani-TSK Fuzzy System for Regression Analysis

Bhatia, de Amorim, De Feo

Regression analysis is employed to examine and quantify the relationships between input variables and a dependent and continuous output variable. It is widely used for predictive modelling in fields such as finance, healthcare, and engineering. However, traditional methods often struggle with real-world data complexities, including uncertainty and ambiguity. While deep learning approaches excel at capturing complex non-linear relationships, they lack interpretability and risk over-fitting on small datasets. Fuzzy systems provide an alternative framework for handling uncertainty and imprecision, with Mamdani and Takagi-Sugeno-Kang (TSK) systems offering complementary strengths: interpretability versus accuracy. This paper presents a novel fuzzy regression method that combines the interpretability of Mamdani systems with the precision of TSK models. The proposed approach introduces a hybrid rule structure with fuzzy and crisp components and dual dominance types, enhancing both accuracy and explainability. Evaluations on benchmark datasets demonstrate state-of-the-art performance in several cases, with rules maintaining a component similar to traditional Mamdani systems while improving precision through improved rule outputs. This hybrid methodology offers a balanced and versatile tool for predictive modelling, addressing the trade-off between interpretability and accuracy inherent in fuzzy systems. In the 6 datasets tested, the proposed approach gave the best fuzzy methodology score in 4 datasets, out-performed the opaque models in 2 datasets and produced the best overall score in 1 dataset with the improvements in RMSE ranging from 0.4% to 19%.

academic

회귀 분석을 위한 하이브리드 구간 2형 맘다니-TSK 퍼지 시스템

기본 정보

논문 ID: 2510.13437
제목: Hybrid Interval Type-2 Mamdani-TSK Fuzzy System for Regression Analysis
저자: Ashish Bhatia, Renato Cordeiro de Amorim, Vito De Feo (영국 에섹스 대학교)
분류: cs.LG (머신러닝)
발표 시간: 2025년 10월 15일
논문 링크: https://arxiv.org/abs/2510.13437v1

초록

회귀 분석은 금융, 의료 및 공학 분야의 예측 모델링에 광범위하게 적용되어 입력 변수와 연속 출력 변수 간의 관계를 검토하고 정량화합니다. 그러나 기존 방법들은 불확실성과 모호성을 포함한 실제 데이터의 복잡성을 처리할 때 어려움을 겪습니다. 심층 학습 방법은 복잡한 비선형 관계를 포착하는 데 탁월하지만 해석 가능성이 부족하고 소규모 데이터셋에서 과적합 위험이 있습니다. 퍼지 시스템은 불확실성과 부정확성을 처리하기 위한 대체 프레임워크를 제공하며, 맘다니(Mamdani)와 타카기-스기에노-캉(Takagi-Sugeno-Kang, TSK) 시스템은 상호 보완적인 장점을 제공합니다: 해석 가능성과 정확성. 본 논문은 맘다니 시스템의 해석 가능성과 TSK 모델의 정확성을 결합한 새로운 퍼지 회귀 방법을 제안합니다. 이 방법은 퍼지 및 명확한 구성 요소와 이중 우위 유형을 갖춘 혼합 규칙 구조를 도입하면서 정확성과 해석 가능성을 모두 향상시킵니다.

연구 배경 및 동기

문제 정의

기존 회귀 방법이 실제 데이터를 처리할 때 직면하는 주요 과제:

불확실성과 모호성: 실제 데이터에 내재된 불확실성과 언어 정보
해석 가능성과 정확성의 균형: 심층 학습 모델은 정확하지만 해석 가능성이 부족함
소규모 데이터셋 문제: 복잡한 모델은 소규모 데이터셋에서 과적합되기 쉬움

기존 방법의 한계

기존 회귀 방법: 정확하고 명확한 수치 관계를 가정하여 불확실성 처리 곤란
심층 학습 방법: 해석 가능성 부족, 매개변수 많음, 소규모 데이터셋 학습에 부적합
맘다니 퍼지 시스템: 해석 가능성 강하지만 정확도 제한적, 거친 입도 분할로 인한 성능 저하
TSK 퍼지 시스템: 높은 정확도이지만 해석 가능성 부족, 퍼지 시스템 사용 목적에 위배

연구 동기

맘다니 시스템의 해석 가능성과 TSK 시스템의 정확성을 모두 유지할 수 있는 혼합 프레임워크를 개발하여 예측 모델링을 위한 균형잡힌 다목적 도구를 제공합니다.

핵심 기여

혼합 규칙 구조: 맘다니 시스템의 언어 해석 가능성과 TSK 모델의 수치 정확성을 결합한 새로운 퍼지 회귀 시스템 제안
이중 우위 메커니즘: 퍼지 지지도/신뢰도 기반 및 오류 기반의 두 가지 규칙 가중치 계산 방법 도입
제약된 TSK 구성 요소: TSK 함수 출력이 해당 퍼지 집합의 경계 내로 제한되어 해석 가능성 유지
구간 2형 퍼지 집합: 불확실성을 더 잘 처리하기 위해 구간 2형 퍼지 집합 사용
ACO 최적화: 규칙 부분집합 선택을 위해 개미 군집 최적화 알고리즘 채택, 모델 간결성과 정확성 균형

방법 상세 설명

작업 정의

입력 변수 $x_1, x_2, ..., x_n$ 과 연속 출력 변수 $y$ 가 주어졌을 때, 정확하면서도 해석 가능하고 데이터의 불확실성과 모호성을 처리할 수 있는 회귀 모델을 구축하는 것이 목표입니다.

모델 아키텍처

1. 구간 2형 퍼지 집합 퍼지화

입력 및 출력은 구간 2형 퍼지 집합을 사용하여 퍼지화됩니다:

$\tilde{F} = \int_{x \in X} \left[ \int_{u \in [\underline{\mu}(x), \overline{\mu}(x)]} 1/u \right] /x$

여기서 $\underline{\mu}(x)$ 와 $\overline{\mu}(x)$ 는 각각 하한 및 상한 소속도입니다.

2. 혼합 규칙 구조

각 규칙은 두 개의 후건 구성 요소를 포함합니다:

규칙 형식:

IF x1 is F1 AND ... AND xn is Fn 
THEN (y is G, y = f(x1, x2, ..., xn))

퍼지 구성 요소: 기존 맘다니 후건, 출력 퍼지 집합을 지시
TSK 함수 구성 요소: n차 다항식 함수, 명확한 출력값 제공

TSK 함수 제약: $y_{output} \in [LowerBound(F_{upper}), UpperBound(F_{upper})]$

TSK 출력이 항상 해당 퍼지 집합 경계 내에 있도록 보장합니다.

3. 이중 가중치 메커니즘

퍼지 규칙 가중치:

지지도: $Support(A_j \to \tilde{C}_j) = \frac{1}{|N|} \sum_{p=1}^N \mu_{A_j}(x_p) \cdot \mu_{C_j}(y_p)$
신뢰도: $Confidence(A_j \to \tilde{C}_j) = \frac{\sum_{p=1}^N \mu_{A_j}(x_p) \cdot \mu_{C_j}(y_p)}{\sum_{p=1}^N \mu_{A_j}(x_p)}$
우위도: $D = [S_{Rule\_lower} \cdot C_{lower}, S_{Rule\_upper} \cdot C_{upper}]$

오류 기반 우위도: $Dominance_{ri} = \frac{1}{1 + r_i}$ 여기서 $r_i$ 는 i번째 규칙의 RMSE입니다.

4. ACO 규칙 선택

개미 군집 최적화 알고리즘을 사용하여 최적 규칙 부분집합을 선택합니다:

각 개미가 규칙 부분집합 솔루션 구성
RMSE 성능을 기반으로 솔루션 품질 평가
페로몬 업데이트 메커니즘이 탐색 과정 지도
모델 간결성과 예측 정확성 균형

5. 비퍼지화

TSK 가중 평균 방법을 사용하여 최종 출력 계산: $y_{final} = \frac{\sum_{i=1}^M \omega_i y_i}{\sum_{i=1}^M \omega_i}$

기술 혁신 포인트

제약된 TSK 구성 요소: 기존 TSK와 달리 함수 출력이 퍼지 집합 경계 내로 제한됨
부분집합 학습: TSK 함수는 양의 활성화 강도를 갖는 학습 샘플에서만 학습
이중 우위 메커니즘: 퍼지 논리와 수치 정확성을 결합한 가중치 계산
해석 가능성 유지: 규칙 형식이 기존 맘다니 시스템과 유사하지만 정확도 향상

실험 설정

데이터셋

KEEL 저장소의 6개 벤치마크 데이터셋 사용:

콘크리트 압축 강도: 1,030개 인스턴스, 8개 입력 변수
당뇨병: 768개 레코드, 2개 입력 속성
ELE-2: 11,105개 인스턴스, 4개 예측 변수
모기지: 1,045개 인스턴스, 14개 변수
재무부: 956개 레코드, 16개 금융 속성
완카라: 1,609개 레코드, 4개 입력 변수

평가 지표

RMSE (제곱 평균 제곱근 오차): 주요 평가 지표
해석 가능성 지표: 규칙 커버리지, 활성 규칙 수, 규칙 라이브러리 특성, 견고성

비교 방법

MP: 다층 퍼셉트론
SMOreg: 순차 최소 최적화
WM: Wang과 Mendel 알고리즘
CHV: Cordon, Herrera 및 Villar 알고리즘
GLD-WM: 전역 횡단 매개변수 + WM 규칙 라이브러리

모델 변형

HIT2-MTSK-D2: 2차 TSK 함수
HIT2-MTSK-D3: 3차 TSK 함수

실험 결과

주요 결과

6개 데이터셋에서:

4개 데이터셋에서 최고의 퍼지 방법 점수 달성
2개 데이터셋에서 불투명 모델 초과
1개 데이터셋에서 최고의 전체 점수 달성
RMSE 개선 범위: 0.4% - 19%

구체적 성능:

콘크리트: HIT2-MTSK-D3이 7.29 RMSE 달성, 최고의 전체 성능
모기지: HIT2-MTSK-D3이 0.13 RMSE 달성, 최고의 퍼지 방법
재무부: HIT2-MTSK-D3이 0.27 RMSE 달성, 최고의 퍼지 방법
완카라: 두 변형 모두 1.58 RMSE 달성, SMOreg 성능과 일치

사례 분석: 캘리포니아 주택 가격 예측

캘리포니아 주택 데이터셋에서의 성능:

데이터셋: 20,640개 관측값, 8개 특성
HIT2-MTSK RMSE: 0.695
맘다니 FRBS RMSE: 0.751
규칙 수: 75개 규칙
커버리지: 100% 테스트 인스턴스가 최소 하나의 규칙 활성화

해석 가능성 평가

범주 커버리지: 실제 테스트 데이터 범위의 96% 커버
활성 규칙: 임계값 0.15에서 평균 8.38개 규칙 활성화
규칙 특성: 75개 규칙, 평균 2.67개 전건
노이즈 견고성: 10% 노이즈 수준에서 예측 변화 12.24%

결론 및 토론

주요 결론

효과적인 균형: 퍼지 시스템에서 해석 가능성과 정확성의 균형을 성공적으로 달성
현저한 개선: 대부분의 벤치마크 데이터셋에서 최고 또는 거의 최고의 성능 달성
해석 가능성 유지: 규칙 형식이 기존 맘다니 시스템과 유사하여 이해하기 용이
강한 견고성: 다양한 영역 및 데이터셋에서 안정적인 성능

한계

복잡도 균형: 고차 TSK 함수는 과적합을 초래할 수 있음
최적화 공간: 일부 데이터셋에서 성능 향상 여지 있음
계산 복잡성: ACO 최적화로 인한 계산 비용 증가
매개변수 민감성: 퍼지 집합 수 및 TSK 함수 차수의 합리적 설정 필요

향후 방향

최적화 강화: 다른 메타휴리스틱 최적화 기법 탐색
영역 적응: 특정 영역의 전처리 및 특성 선택
확장 평가: 더 많은 데이터셋 및 평가 지표를 통한 검증
이론 분석: 수렴성 및 복잡도에 대한 심층 분석

심층 평가

장점

높은 혁신성: 제약된 TSK 구성 요소를 갖춘 혼합 퍼지 시스템 최초 제안
높은 실용 가치: 실제 응용의 핵심 문제 해결
충분한 실험: 다양한 벤치마크 데이터셋 검증, 상세한 해석 가능성 분석 포함
합리적 방법: 기술 설계 논리가 명확하고 이론적 기초가 견고함

부족한 점

이론 분석 부족: 수렴성 및 복잡도에 대한 이론적 보장 부재
매개변수 선택 지침: 체계적인 매개변수 선택 전략 미제공
계산 효율성: ACO 최적화의 계산 복잡도 분석 미흡
적용 범위 논의: 방법 적용 조건에 대한 논의 제한적

영향력

학술 기여: 퍼지 시스템 분야에 새로운 연구 방향 제시
실용 가치: 해석 가능한 AI가 필요한 시나리오에서 중요한 응용 가치
재현 가능성: 상세한 방법 설명으로 재현 및 확장 용이

적용 시나리오

금융 위험 평가: 해석 가능한 예측 모델 필요
의료 진단: 투명한 의사 결정 과정 요구
공학 제어: 시스템 동작 이해가 필요한 제어 응용
소규모 데이터셋 회귀: 기존 심층 학습 방법이 부적합한 시나리오

참고문헌

논문은 퍼지 시스템, 진화 알고리즘 및 머신러닝 분야의 중요 문헌을 인용하고 있으며, Zadeh의 퍼지 논리 기초 연구, Mamdani와 TSK의 고전 퍼지 시스템, 그리고 최근의 유전 퍼지 시스템 및 구간 2형 퍼지 집합 연구를 포함합니다.

종합 평가: 이는 높은 품질의 학술 논문으로, 해석 가능성을 유지하면서 회귀 정확도를 크게 향상시키는 혁신적인 혼합 퍼지 시스템 방법을 제안합니다. 방법 설계가 합리적이고 실험 검증이 충분하며, 퍼지 시스템 및 해석 가능한 AI 분야에 중요한 기여 가치를 갖습니다.