2025-11-20T09:28:14.240195

Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast

Qi, Do, Liu et al.

Unlike conventional "black-box" transformers with classical self-attention mechanism, we build a lightweight and interpretable transformer-like neural net by unrolling a mixed-graph-based optimization algorithm to forecast traffic with spatial and temporal dimensions. We construct two graphs: an undirected graph $\mathcal{G}^u$ capturing spatial correlations across geography, and a directed graph $\mathcal{G}^d$ capturing sequential relationships over time. We predict future samples of signal $\mathbf{x}$, assuming it is "smooth" with respect to both $\mathcal{G}^u$ and $\mathcal{G}^d$, where we design new $\ell_2$ and $\ell_1$-norm variational terms to quantify and promote signal smoothness (low-frequency reconstruction) on a directed graph. We design an iterative algorithm based on alternating direction method of multipliers (ADMM), and unroll it into a feed-forward network for data-driven parameter learning. We insert graph learning modules for $\mathcal{G}^u$ and $\mathcal{G}^d$ that play the role of self-attention. Experiments show that our unrolled networks achieve competitive traffic forecast performance as state-of-the-art prediction schemes, while reducing parameter counts drastically. Our code is available in https://github.com/SingularityUndefined/Unrolling-GSP-STForecast .

academic

मिश्रित ग्राफ एल्गोरिदम अनरोलिंग के माध्यम से हल्का और व्याख्यायोग्य ट्रांसफॉर्मर ट्रैफिक पूर्वानुमान के लिए

बुनियादी जानकारी

पेपर आईडी: 2505.13102
शीर्षक: Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
लेखक: Ji Qi, Mingxiao Liu, Tam Thuc Do, Yuzhe Li, Zhuoshi Pan, Gene Cheung, H. Vicky Zhao
वर्गीकरण: cs.LG cs.AI eess.SP
प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2505.13102

सारांश

यह पेपर ट्रैफिक पूर्वानुमान के लिए मिश्रित ग्राफ एल्गोरिदम अनरोलिंग पर आधारित एक हल्का और व्याख्यायोग्य ट्रांसफॉर्मर मॉडल प्रस्तावित करता है। पारंपरिक "ब्लैक बॉक्स" ट्रांसफॉर्मर के विपरीत, यह विधि मिश्रित ग्राफ अनुकूलन एल्गोरिदम को अनरोल करके एक व्याख्यायोग्य ट्रांसफॉर्मर-जैसा तंत्रिका नेटवर्क बनाती है। मॉडल दो ग्राफ बनाता है: अप्रत्यक्ष ग्राफ $\mathcal{G}^u$ भौगोलिक-स्थानिक सहसंबंध को पकड़ता है, और निर्देशित ग्राफ $\mathcal{G}^d$ समय-क्रम संबंध को पकड़ता है। नए $\ell_2$ और $\ell_1$ मानदंड भिन्नात्मक पदों को डिजाइन करके निर्देशित ग्राफ पर संकेत समरूपता को मापा और बढ़ावा दिया जाता है, और वैकल्पिक दिशा गुणक विधि (ADMM) के आधार पर एक पुनरावृत्ति एल्गोरिदम डिजाइन किया जाता है, जिसे डेटा-संचालित पैरामीटर सीखने के लिए फीडफॉरवर्ड नेटवर्क में अनरोल किया जाता है। प्रयोग दर्शाते हैं कि यह मॉडल प्रतिस्पर्धी ट्रैफिक पूर्वानुमान प्रदर्शन बनाए रखते हुए पैरामीटर की संख्या में काफी कमी करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

ट्रैफिक पूर्वानुमान एक महत्वपूर्ण स्पेस-टाइम डेटा मॉडलिंग समस्या है, जिसे निम्नलिखित को एक साथ पकड़ना आवश्यक है:

स्थानिक सहसंबंध: भौगोलिक रूप से निकटवर्ती निगरानी स्टेशनों के बीच सहसंबंध
समय निर्भरता: ऐतिहासिक अवलोकनों का भविष्य पर प्रभाव

मौजूदा विधियों की सीमाएं

पारंपरिक ट्रांसफॉर्मर: विशाल पैरामीटर मात्रा, व्याख्यायोग्यता की कमी, व्यावहारिक तैनाती में कम्प्यूटेशनल और मेमोरी बाधाओं का सामना
मॉडल-आधारित विधियां: अक्सर स्थान और समय आयामों को स्वतंत्र रूप से संभालती हैं, स्पेस-टाइम संबंधों का पूर्ण लाभ नहीं उठातीं
मौजूदा गहन शिक्षण विधियां: उत्कृष्ट प्रदर्शन के बावजूद अभी भी "ब्लैक बॉक्स" मॉडल हैं, बड़ी पैरामीटर मात्रा

अनुसंधान प्रेरणा

औद्योगिक अनुप्रयोगों के लिए हल्के मॉडल की तत्काल आवश्यकता
एल्गोरिदम अनरोलिंग मॉडल-संचालित और डेटा-संचालित का संयोजन करने के लिए एक नया दृष्टिकोण प्रदान करता है
मौजूदा कार्य केवल सकारात्मक अप्रत्यक्ष ग्राफ का उपयोग करते हैं, जटिल स्पेस-टाइम संबंधों को प्रभावी ढंग से मॉडल नहीं कर सकते

मुख्य योगदान

मिश्रित ग्राफ एल्गोरिदम अनरोलिंग का पहला प्रस्ताव: अप्रत्यक्ष ग्राफ (स्थान) और निर्देशित ग्राफ (समय) को जटिल स्पेस-टाइम संबंधों को मॉडल करने के लिए जोड़ता है
नवीन निर्देशित ग्राफ नियमितकरण पद: निर्देशित ग्राफ लैप्लासियन नियमितकरण (DGLR) और निर्देशित ग्राफ कुल भिन्नता (DGTV) डिजाइन किया
हल्का व्याख्यायोग्य ट्रांसफॉर्मर: ADMM एल्गोरिदम अनरोलिंग के माध्यम से पैरामीटर में भारी कमी (केवल PDFormer का 6.4%)
सैद्धांतिक योगदान: साबित किया कि निर्देशित ग्राफ आवृत्ति परिभाषा अभारित निर्देशित लाइन ग्राफ के मामले में शास्त्रीय फूरियर आवृत्ति में कम हो जाती है

विधि विवरण

कार्य परिभाषा

N निगरानी स्टेशनों के पिछले T+1 समय बिंदुओं पर अवलोकन दिए गए हैं, भविष्य के S समय बिंदुओं के लिए ट्रैफिक स्थिति की भविष्यवाणी करें। इनपुट आंशिक रूप से अवलोकित स्पेस-टाइम संकेत $y \in \mathbb{R}^M$ है, आउटपुट पूर्ण स्पेस-टाइम संकेत $x \in \mathbb{R}^{N(T+S+1)}$ है।

मिश्रित ग्राफ निर्माण

अप्रत्यक्ष ग्राफ $\mathcal{G}^u$

समान समय बिंदु पर भौगोलिक रूप से निकटवर्ती नोड्स को जोड़ता है
स्थानिक सहसंबंध को पकड़ता है
सममित आसन्न मैट्रिक्स $W^u$ का उपयोग करता है

निर्देशित ग्राफ $\mathcal{G}^d$

समय $\tau$ के नोड्स को $\tau+1, ..., \tau+W$ समय के समान नोड्स से जोड़ता है
समय कारण संबंध को पकड़ता है
असममित आसन्न मैट्रिक्स $W^d$ का उपयोग करता है

निर्देशित ग्राफ भिन्नात्मक पद डिजाइन

$\ell_2$ मानदंड पद: निर्देशित ग्राफ लैप्लासियन नियमितकरण (DGLR)

$x^T\mathcal{L}_r^d x = x^T(L_r^d)^T L_r^d x = \|x - W_r^d x\|_2^2$

जहां $L_r^d = I - W_r^d$ यादृच्छिक चलना लैप्लासियन मैट्रिक्स है, $W_r^d = (D^d)^{-1}W^d$ पंक्ति-यादृच्छिक आसन्न मैट्रिक्स है।

$\ell_1$ मानदंड पद: निर्देशित ग्राफ कुल भिन्नता (DGTV)

$\|L_r^d x\|_1 = \sum_{j \in \bar{S}} |x_j - \sum_i w_{j,i} x_i|$

अनुकूलन उद्देश्य फलन

$\min_x \|y - Hx\|_2^2 + \mu_u x^T L^u x + \mu_{d,2} x^T \mathcal{L}_r^d x + \mu_{d,1} \|L_r^d x\|_1$

जहां $H$ नमूना मैट्रिक्स है, $\mu_u, \mu_{d,2}, \mu_{d,1}$ भार पैरामीटर हैं।

ADMM एल्गोरिदम डिजाइन

सहायक चर $\phi$ का परिचय देकर, अनुकूलन समस्या को रूपांतरित किया जाता है: $\min_{x,\phi} \|y - Hx\|_2^2 + \mu_u x^T L^u x + \mu_{d,2} x^T \mathcal{L}_r^d x + \mu_{d,1} \|\phi\|_1$ $\text{s.t. } \phi = L_r^d x$

उप-समस्या समाधान

$x$ उप-समस्या: संयुग्म ढाल विधि के माध्यम से रैखिक प्रणाली को हल करें
$\phi$ उप-समस्या: नरम थ्रेशहोल्ड संचालन $\phi_i^{\tau+1} = \text{sign}(\delta) \cdot \max(|\delta| - \rho^{-1}\mu_{d,1}, 0)$ जहां $\delta = (L_r^d)_i x^{\tau+1} - \rho^{-1}\gamma_i^\tau$

ग्राफ सीखने का मॉड्यूल

अप्रत्यक्ष ग्राफ सीखना (UGL)

नोड समानता की गणना के लिए महालनोबिस दूरी का उपयोग करें: $d^u(i,j) = (f_i^u - f_j^u)^T M (f_i^u - f_j^u)$

किनारे के वजन को सामान्यीकृत घातीय फलन के माध्यम से गणना की जाती है: $w_{i,j}^u = \frac{\exp(-d^u(i,j))}{\sqrt{\sum_{l \in \mathcal{N}_i} \exp(-d^u(i,l))} \sqrt{\sum_{k \in \mathcal{N}_j} \exp(-d^u(k,j))}}$

निर्देशित ग्राफ सीखना (DGL)

इसी तरह निर्देशित किनारे के वजन की गणना के लिए मेट्रिक मैट्रिक्स $P$ का उपयोग करें।

नेटवर्क आर्किटेक्चर

ADMM के प्रत्येक पुनरावृत्ति को तंत्रिका परत के रूप में लागू करें:

5 ADMM ब्लॉक, प्रत्येक 25 परतें
प्रत्येक ब्लॉक से पहले ग्राफ सीखने का मॉड्यूल डालें
बहु-सिर ध्यान तंत्र का उपयोग करें (4 समानांतर ग्राफ सीखने के मॉड्यूल)

प्रयोगात्मक सेटअप

डेटासेट

METR-LA: लॉस एंजिल्स ट्रैफिक गति डेटा, 207 नोड्स, 1315 किनारे
PEMS03: ट्रैफिक प्रवाह डेटा, 358 नोड्स, 547 किनारे
नमूना अंतराल: 5 मिनट
डेटा विभाजन: 6:2:2 (प्रशिक्षण:सत्यापन:परीक्षण)

मूल्यांकन मेट्रिक्स

RMSE: रूट मीन स्क्वायर त्रुटि
MAE: माध्य निरपेक्ष त्रुटि
MAPE: माध्य निरपेक्ष प्रतिशत त्रुटि

तुलना विधियां

6 वर्गों की आधारभूत विधियां शामिल हैं:

मॉडल-आधारित: VAR
GNN विधियां: STGCN, STSGCN
GAT विधियां: GMAN, ST-Wave
ट्रांसफॉर्मर विधियां: PDFormer, STAEformer
अनुकूली ग्राफ विधियां: Graph WaveNet, AGCRN
सरल रैखिक मॉडल: STID, SimpleTM

कार्यान्वयन विवरण

भविष्यवाणी अवधि: 30/60/120 मिनट (6/12/24 कदम)
ऐतिहासिक विंडो: 60 मिनट (12 कदम)
अनुकूलक: Adam, सीखने की दर 5×10⁻⁴
हानि फलन: Huber हानि (δ=1)
हार्डवेयर: NVIDIA GeForce RTX 3090

प्रयोगात्मक परिणाम

मुख्य परिणाम

डेटासेट	अवधि	यह विधि	सर्वश्रेष्ठ आधारभूत	पैरामीटर तुलना
PEMS03	30min	26.10/17.03/18.85	23.71/15.05/18.16	34K vs 531K
PEMS03	60min	27.67/17.46/17.72	25.56/15.97/15.49	(6.4% पैरामीटर)
METR-LA	60min	12.34/5.18/11.80	11.96/5.49/9.65

मुख्य निष्कर्ष

पैरामीटर दक्षता: PDFormer के केवल 6.4% पैरामीटर का उपयोग करके प्रतिस्पर्धी प्रदर्शन प्राप्त करें
दीर्घकालीन पूर्वानुमान लाभ: भविष्यवाणी अवधि जितनी लंबी होगी, सर्वश्रेष्ठ विधि के साथ प्रदर्शन का अंतर उतना ही कम होगा
डेटा दक्षता: डेटा की कमी की स्थिति में अधिक स्थिर प्रदर्शन

विलोपन प्रयोग

वेरिएंट	PEMS03 (RMSE/MAE/MAPE)	METR-LA (RMSE/MAE/MAPE)
पूर्ण मॉडल	27.67/17.46/17.72	12.34/5.18/11.80
DGTV के बिना	27.78/17.85/17.90	12.36/5.40/12.31
DGLR के बिना	30.89/20.02/21.10	12.41/5.35/12.20
अप्रत्यक्ष समय ग्राफ	27.52/17.87/18.82	12.51/5.42/12.11

परिणाम दर्शाते हैं:

DGLR पद प्रदर्शन सुधार के लिए सबसे महत्वपूर्ण है
DGTV पद भी स्पष्ट योगदान देता है
निर्देशित ग्राफ मॉडलिंग अप्रत्यक्ष ग्राफ मॉडलिंग से बेहतर है

सैद्धांतिक सत्यापन

प्रमेय 3.1 साबित करता है: अभारित निर्देशित लाइन ग्राफ के लिए, सममित निर्देशित ग्राफ लैप्लासियन $\mathcal{L}_r^d = (L_r^d)^T L_r^d$ अप्रत्यक्ष लाइन ग्राफ के लैप्लासियन मैट्रिक्स के समान है, आवृत्ति परिभाषा की वैधता को सत्यापित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मिश्रित ग्राफ एल्गोरिदम अनरोलिंग ने सफलतापूर्वक हल्का व्याख्यायोग्य ट्रैफिक पूर्वानुमान मॉडल प्राप्त किया
निर्देशित ग्राफ भिन्नात्मक पद ने प्रभावी रूप से समय कारण संबंधों को पकड़ा
पैरामीटर में भारी कमी के साथ प्रतिस्पर्धी प्रदर्शन बनाए रखा

सीमाएं

दूरी सीमा: सीखी गई महालनोबिस दूरी गैर-नकारात्मक है, जबकि पारंपरिक स्व-ध्यान नकारात्मक हो सकता है
ग्राफ विरलता: वास्तविक सड़क कनेक्शन पर आधारित ग्राफ की कनेक्टिविटी को सीमित करता है
निश्चित समय विंडो: पूर्वनिर्धारित समय विंडो पर्याप्त लचीला नहीं हो सकता है

भविष्य की दिशाएं

हस्ताक्षरित दूरी और अधिक जटिल ग्राफ मॉडलिंग तक विस्तार
अनुकूली समय विंडो सीखना
अन्य स्पेस-टाइम पूर्वानुमान कार्यों में अनुप्रयोग

गहन मूल्यांकन

शक्तियां

सैद्धांतिक नवाचार: निर्देशित ग्राफ के लिए पहली बार आवृत्ति अवधारणा परिभाषित की और संबंधित नियमितकरण पद डिजाइन किए
विधि नवीनता: मिश्रित ग्राफ एल्गोरिदम अनरोलिंग ट्रांसफॉर्मर डिजाइन के लिए नया दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: पैरामीटर में उल्लेखनीय कमी व्यावहारिक तैनाती के लिए महत्वपूर्ण है
व्याख्यायोग्यता: प्रत्येक परत अनुकूलन एल्गोरिदम पुनरावृत्ति के अनुरूप है, स्पष्ट गणितीय अर्थ है

कमियां

प्रदर्शन व्यापार: कुछ मेट्रिक्स पर अभी भी सर्वश्रेष्ठ आधारभूत विधि से कम नहीं है
लागू क्षेत्र: मुख्य रूप से ट्रैफिक पूर्वानुमान को सत्यापित किया गया है, अन्य स्पेस-टाइम कार्यों में सामान्यीकरण अज्ञात है
सैद्धांतिक विश्लेषण: अभिसरण और जटिलता का सैद्धांतिक विश्लेषण अभाव

प्रभाव

शैक्षणिक योगदान: ग्राफ संकेत प्रसंस्करण और ट्रांसफॉर्मर डिजाइन के लिए नया दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: हल्का विशेषता मोबाइल डिवाइस और संसाधन-सीमित वातावरण के लिए उपयुक्त है
पुनरुत्पादनीयता: खुला स्रोत कोड प्रदान करता है, प्रयोगात्मक सेटअप विस्तृत है

लागू परिदृश्य

संसाधन-सीमित वातावरण: मोबाइल डिवाइस, किनारे कंप्यूटिंग
वास्तविक समय पूर्वानुमान प्रणाली: तेजी से प्रतिक्रिया की आवश्यकता वाली ट्रैफिक प्रबंधन प्रणाली
व्याख्यायोग्य AI अनुप्रयोग: मॉडल पारदर्शिता की आवश्यकता वाली सुरक्षा-महत्वपूर्ण प्रणाली

संदर्भ

पेपर कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

ट्रांसफॉर्मर मूल पेपर (Vaswani et al., 2017)
एल्गोरिदम अनरोलिंग सर्वेक्षण (Monga et al., 2021)
ग्राफ संकेत प्रसंस्करण आधार (Ortega et al., 2018)
ट्रैफिक पूर्वानुमान संबंधित कार्य (Li et al., 2017; Yu et al., 2018)

समग्र मूल्यांकन: यह ट्रैफिक पूर्वानुमान क्षेत्र में नवीन कार्य है, जो एल्गोरिदम अनरोलिंग विचार को मिश्रित ग्राफ सेटिंग तक सफलतापूर्वक विस्तारित करता है, प्रदर्शन बनाए रखते हुए पैरामीटर में भारी कमी करता है। हालांकि कुछ मेट्रिक्स पर सुधार की गुंजाइश है, लेकिन इसकी हल्की और व्याख्यायोग्य विशेषताएं इसे महत्वपूर्ण व्यावहारिक मूल्य और शैक्षणिक महत्व प्रदान करती हैं।