2025-11-23T22:22:17.433145

CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor

Xu, Zhu, Zhang et al.

CPU simulators are vital for computer architecture research, primarily for estimating performance under different programs. This poses challenges for fast and accurate simulation of modern CPUs, especially in multi-core systems. Modern CPU peformance simulators such as GEM5 adopt the cycle-accurate and event-driven approach, which is timeconsuming to simulate the extensive microarchitectural behavior of a real benchmark running on out-of-order CPUs. Recently, machine leaning based approach has been proposed to improve simulation speed, but they are currently limited to estimating the cycles of basic blocks rather than the complete benchmark program. This paper introduces a novel ML-based CPU simulator named CAPSim, which uses an attention-based neural network performance predictor and instruction trace sampling method annotated with context. The attention mechanism effectively captures long-range influence within the instruction trace, emphasizing critical context information. This allows the model to improve performance prediction accuracy by focusing on important code instruction. CAPSim can predict the execution time of unseen benchmarks at a significantly fast speed compared with an accurate O3 simulator built with gem5. Our evaluation on a commercial Intel Xeon CPU demonstrates that CAPSim achieves a 2.2 - 8.3x speedup compared to using gem5 built simulator, which is superior to the cutting-edge deep learning approach

academic

CAPSim: ध्यान-आधारित भविष्यवक्ता का उपयोग करके तेज़ CPU प्रदर्शन सिम्युलेटर

बुनियादी जानकारी

पेपर ID: 2510.10484
शीर्षक: CAPSim: A Fast CPU Performance Simulator Using Attention-based Predictor
लेखक: Buqing Xu, Jianfeng Zhu, Yichi Zhang, Qinyi Cai, Guanhua Li, Shaojun Wei, Leibo Liu
वर्गीकरण: cs.PF (प्रदर्शन)
प्रकाशन तिथि: 12 अक्टूबर 2025
संस्थान: थिंघुआ विश्वविद्यालय एकीकृत सर्किट स्कूल
पेपर लिंक: https://arxiv.org/abs/2510.10484v1

सारांश

CPU सिम्युलेटर कंप्यूटर आर्किटेक्चर अनुसंधान के लिए महत्वपूर्ण हैं, जिनका उपयोग विभिन्न प्रोग्रामों के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। आधुनिक CPU प्रदर्शन सिम्युलेटर जैसे GEM5 चक्र-सटीक और घटना-संचालित दृष्टिकोण अपनाते हैं, लेकिन अव्यवस्थित CPU पर वास्तविक बेंचमार्क परीक्षणों के जटिल माइक्रोआर्किटेक्चर व्यवहार को सिम्युलेट करते समय बहुत समय लगता है। यह पेपर CAPSim प्रस्तुत करता है, जो संदर्भ-एनोटेटेड निर्देश ट्रेस सैंपलिंग विधि का उपयोग करके ध्यान तंत्र तंत्रिका नेटवर्क प्रदर्शन भविष्यवक्ता पर आधारित एक नया ML-संचालित CPU सिम्युलेटर है। ध्यान तंत्र निर्देश ट्रेस में दीर्घ-दूरी के प्रभावों को प्रभावी ढंग से कैप्चर करता है, महत्वपूर्ण संदर्भ जानकारी पर जोर देता है। प्रयोग दर्शाते हैं कि CAPSim ने gem5 द्वारा निर्मित O3 सिम्युलेटर की तुलना में 2.2-8.3 गुना त्वरण प्राप्त किया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

पारंपरिक सिम्युलेटर गति की बाधा: आधुनिक चक्र-स्तरीय सिम्युलेटर (जैसे gem5) पूर्ण बेंचमार्क प्रोग्रामों को सिम्युलेट करते समय बहुत धीमे होते हैं, मुख्य कारणों में शामिल हैं:
- चक्र-सटीक सिम्युलेशन स्वाभाविक रूप से एक क्रमिक प्रक्रिया है, जिसे समानांतर करना मुश्किल है
- आधुनिक अव्यवस्थित CPU को सिम्युलेट करने के लिए सभी माइक्रोआर्किटेक्चर विवरणों को मॉडल करने की आवश्यकता होती है, जिससे कम्प्यूटेशनल ओवरहेड बहुत अधिक होता है
मौजूदा ML विधियों की सीमाएं: पहले से मौजूद मशीन लर्निंग विधियां (जैसे Ithemal, Granite आदि) केवल बुनियादी ब्लॉक थ्रूपुट की भविष्यवाणी तक सीमित हैं, पूर्ण प्रोग्राम के प्रदर्शन की भविष्यवाणी नहीं कर सकते
सटीकता और गति संतुलन: भविष्यवाणी सटीकता सुनिश्चित करते हुए सिम्युलेशन गति में महत्वपूर्ण सुधार की आवश्यकता है

अनुसंधान का महत्व

CPU सिम्युलेटर कंप्यूटर आर्किटेक्चर अनुसंधान के लिए महत्वपूर्ण उपकरण हैं
CPU माइक्रोआर्किटेक्चर जटिलता में वृद्धि और बहु-कोर सिस्टम के प्रसार के साथ, पारंपरिक सिम्युलेशन विधियों को गंभीर दक्षता समस्याओं का सामना करना पड़ रहा है
तेज़ और सटीक प्रदर्शन भविष्यवाणी सॉफ्टवेयर-हार्डवेयर सह-डिजाइन और अनुकूलन के लिए महत्वपूर्ण है

मुख्य योगदान

ध्यान तंत्र-आधारित CPU प्रदर्शन भविष्यवाणी विधि प्रस्तुत करना: पहली बार निर्देश-स्तरीय प्रदर्शन भविष्यवाणी के लिए ध्यान तंत्र लागू करना, निर्देशों के बीच दीर्घ-दूरी की निर्भरता को कैप्चर कर सकता है, भविष्यवाणी क्षमता को बुनियादी ब्लॉक स्तर से पूर्ण प्रोग्राम स्तर तक विस्तारित करना
CAPSim पूर्ण सिम्युलेटर फ्रेमवर्क डिजाइन करना: तेज़ कार्यात्मक सिम्युलेटर और सूक्ष्म-दानेदार कोड ब्लॉक प्रदर्शन भविष्यवक्ता को एकीकृत करना, गति और सटीकता के बीच संतुलन प्राप्त करना
त्वरित प्रशिक्षण विधि विकसित करना: क्लस्टरिंग और सैंपलिंग तकनीकों के माध्यम से प्रशिक्षण डेटा सेट को कम्प्यूटेशन-गहन, मेमोरी-गहन और नियंत्रण-गहन आदि श्रेणियों में विभाजित करना, प्रशिक्षण समय को महत्वपूर्ण रूप से कम करना और ओवरफिटिंग को रोकना
महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: SPEC2017 बेंचमार्क परीक्षणों पर अधिकतम 8.3 गुना त्वरण, औसत 4.9 गुना त्वरण प्राप्त करना, साथ ही स्वीकार्य भविष्यवाणी सटीकता बनाए रखना

विधि विवरण

कार्य परिभाषा

इनपुट: निर्देश ट्रेस अनुक्रम और CPU संदर्भ जानकारी (रजिस्टर स्थिति) आउटपुट: कोड खंड के निष्पादन समय की भविष्यवाणी लक्ष्य: भविष्यवाणी सटीकता सुनिश्चित करते हुए पूर्ण बेंचमार्क प्रोग्राम के प्रदर्शन मूल्यांकन की गति में महत्वपूर्ण सुधार

मॉडल आर्किटेक्चर

1. समग्र आर्किटेक्चर डिजाइन

CAPSim एक अंत-से-अंत आर्किटेक्चर अपनाता है, जिसमें निम्नलिखित घटक शामिल हैं:

AtomicSimple CPU सिम्युलेटर: निर्देश ट्रेस तेजी से उत्पन्न करना
निर्देश अनुक्रम स्लाइसर: लंबे निर्देश अनुक्रमों को प्रोसेस करने योग्य कोड खंडों में विभाजित करना
सैंपलर: प्रशिक्षण डेटा की मात्रा को कम करना, प्रशिक्षण प्रक्रिया को तेज करना
ध्यान-आधारित प्रदर्शन भविष्यवक्ता: मुख्य भविष्यवाणी मॉड्यूल

2. सैद्धांतिक आधार

पेपर कुल निष्पादन समय को इस प्रकार मॉडल करता है:

$T_{total} = \sum_{n=1}^{N} t_i \cdot \alpha_i$

जहां $t_i$ i-वें निर्देश का आदर्श निष्पादन समय है, $\alpha_i$ प्रभाव कारक है। वेक्टर प्रतिनिधित्व और ध्यान तंत्र को शामिल करके, अंतिम रूप इस प्रकार है:

$T_{total} = \sum_{i=1}^{M} MLP(Attention(context_{M \times E}, T_E^T, T_E^T))$

3. प्रदर्शन भविष्यवक्ता विस्तृत डिजाइन

सामान्यीकरण रूपांतरण परत: कच्चे असेंबली निर्देशों को सामान्यीकृत टोकन अनुक्रम में परिवर्तित करना, चार खंड शामिल हैं:

<OPCODE>: ऑपरेशन कोड
<DSTS>: गंतव्य ऑपरेंड
<SRCS>: स्रोत ऑपरेंड
<MEM>: मेमोरी एक्सेस जानकारी

संदर्भ जानकारी निर्माण: संदर्भ मैट्रिक्स का निर्माण CPU स्थिति जानकारी शामिल करता है, जैसा कि तालिका I में विभिन्न रजिस्टरों में दिखाया गया है:

रजिस्टर प्रकार	संख्या	बिट चौड़ाई	विवरण
सामान्य-उद्देश्य रजिस्टर (GPR)	32	64	मुख्य भंडारण रजिस्टर
वेक्टर स्केलर रजिस्टर (VSR)	64	128	फ्लोटिंग-पॉइंट ऑपरेशन रजिस्टर
शर्त रजिस्टर (CR)	1	32	ऑपरेशन परिणाम प्रतिबिंबित करता है
प्रोग्राम काउंटर (CIA/NIA)	2	64	निर्देश पता

बहु-परत ध्यान नेटवर्क:

निर्देश एनकोडर: प्रत्येक निर्देश पर स्व-ध्यान तंत्र लागू करना
ब्लॉक एनकोडर: निर्देश अनुक्रमों के बीच निर्भरता को संभालना
MLP परत: निष्पादन समय भविष्यवाणी का अंतिम आउटपुट

तकनीकी नवाचार बिंदु

दीर्घ-दूरी की निर्भरता मॉडलिंग: LSTM जैसे अनुक्रम मॉडल की तुलना में, ध्यान तंत्र निर्देशों के बीच दीर्घ-दूरी की निर्भरता को बेहतर तरीके से कैप्चर कर सकता है
संदर्भ-जागरूक भविष्यवाणी: CPU रजिस्टर स्थिति को संदर्भ जानकारी के रूप में शामिल करना, भविष्यवाणी सटीकता में सुधार करना
स्तरीय ध्यान डिजाइन: निर्देश-स्तरीय और ब्लॉक-स्तरीय दोहरी ध्यान तंत्र, निर्देश के भीतर टोकन संबंध पर विचार करना और निर्देशों के बीच निर्भरता को मॉडल करना
समानांतर प्रसंस्करण: लंबे निर्देश अनुक्रमों को छोटे खंडों में विभाजित करना, GPU समानांतर प्रसंस्करण का समर्थन करना, अनुमान गति में महत्वपूर्ण सुधार करना

प्रायोगिक सेटअप

डेटा सेट

बेंचमार्क सूट: SPEC2017, 24 बेंचमार्क प्रोग्राम शामिल हैं
निर्देश सेट आर्किटेक्चर: Power ISA
अंतराल आकार: 5,000,000 निर्देश, वार्मअप आकार 1,000,000 निर्देश
कोड खंड लंबाई: 100-200 निर्देश
कुल चेकपॉइंट: 623

मूल्यांकन मेट्रिक्स

गति मेट्रिक्स: gem5 सिम्युलेटर के सापेक्ष त्वरण अनुपात
सटीकता मेट्रिक्स: औसत निरपेक्ष प्रतिशत त्रुटि (MAPE)

तुलना विधियां

पारंपरिक विधि: gem5 O3 सुपरस्केलर प्रोसेसर सिम्युलेटर
ML आधारभूत: Ithemal मॉडल पर आधारित LSTM
विलोपन प्रयोग: संदर्भ जानकारी के बिना CAPSim वेरिएंट

कार्यान्वयन विवरण

हार्डवेयर प्लेटफॉर्म: NVIDIA GeForce RTX 4090 (24GB), Intel Xeon CPU E5-2623 v4
मॉडल पैरामीटर: एम्बेडिंग वेक्टर आयाम 128, ध्यान हेड संख्या 4, एनकोडर परत संख्या 4
प्रशिक्षण सेटिंग्स: SGD ऑप्टिमाइज़र, सीखने की दर 0.001, गति 0.9
सैंपलिंग पैरामीटर: थ्रेशोल्ड 200, सैंपलिंग गुणांक 0.02

प्रायोगिक परिणाम

मुख्य परिणाम

गति सुधार:

अधिकतम त्वरण अनुपात: 8.3 गुना (510.parest बेंचमार्क)
औसत त्वरण अनुपात: 4.9 गुना
त्वरण प्रभाव चेकपॉइंट संख्या के साथ सकारात्मक रूप से संबंधित है, GPU समानांतरकरण लाभ को प्रदर्शित करता है

सटीकता प्रदर्शन:

LSTM आधारभूत की तुलना में 9.5%-21.2% सुधार, औसत 15.8% सुधार
संदर्भ जानकारी शामिल करने के बाद 1.3%-9.6% सटीकता सुधार, औसत 6.2% सुधार
मिश्रित प्रशिक्षण सेट पर औसत MAPE 12.0%

विलोपन प्रयोग

ध्यान तंत्र बनाम LSTM: लंबे कोड खंडों को संभालते समय ध्यान तंत्र LSTM से महत्वपूर्ण रूप से बेहतर है
संदर्भ जानकारी प्रभाव: संदर्भ जानकारी भविष्यवाणी सटीकता में सुधार के लिए महत्वपूर्ण भूमिका निभाती है
वर्गीकृत प्रशिक्षण प्रभाव: वर्गीकृत प्रशिक्षण मिश्रित प्रशिक्षण की तुलना में 0.5% सटीकता सुधार

सामान्यीकरण क्षमता परीक्षण

क्रॉस-बेंचमार्क परीक्षण:

6×6 क्रॉस-सत्यापन प्रयोग, 36 प्रशिक्षण-परीक्षण संयोजन
प्रशिक्षण सेट सटीकता 91.3%, समग्र औसत सटीकता 88.3%
अदेखे बेंचमार्क के लिए मॉडल की अच्छी सामान्यीकरण क्षमता को प्रमाणित करता है

क्रॉस-आर्किटेक्चर पैरामीटर परीक्षण: विभिन्न माइक्रोआर्किटेक्चर पैरामीटर कॉन्फ़िगरेशन के तहत सटीकता प्रदर्शन:

पैरामीटर कॉन्फ़िगरेशन	FetchWidth	IssueWidth	CommitWidth	ROBEntry	त्रुटि
आधारभूत कॉन्फ़िगरेशन	8	8	8	192	12.0%
वेरिएंट 1	4	8	8	192	12.2%
वेरिएंट 2	8	4	8	192	12.9%

प्रायोगिक निष्कर्ष

समानांतरकरण प्रभाव महत्वपूर्ण है: GPU समानांतर प्रसंस्करण CPU क्रमिक सिम्युलेशन की तुलना में स्पष्ट लाभ है
दीर्घ-दूरी की निर्भरता महत्वपूर्ण है: ध्यान तंत्र निर्देशों के बीच जटिल निर्भरता संबंधों को प्रभावी ढंग से कैप्चर करता है
संदर्भ जानकारी महत्वपूर्ण है: CPU स्थिति जानकारी निष्पादन समय की सटीक भविष्यवाणी के लिए महत्वपूर्ण है
वर्गीकृत प्रशिक्षण प्रभावी है: प्रोग्राम विशेषताओं के अनुसार वर्गीकृत प्रशिक्षण मॉडल सामान्यीकरण क्षमता में सुधार करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

तकनीकी व्यवहार्यता: ध्यान तंत्र-आधारित विधि पूर्ण प्रोग्राम के CPU प्रदर्शन की प्रभावी ढंग से भविष्यवाणी कर सकती है
प्रदर्शन लाभ: पारंपरिक gem5 सिम्युलेटर की तुलना में महत्वपूर्ण त्वरण (2.2-8.3 गुना)
सटीकता आश्वासन: गति में महत्वपूर्ण सुधार करते हुए स्वीकार्य भविष्यवाणी सटीकता बनाए रखना
सामान्यीकरण क्षमता: मॉडल अदेखे बेंचमार्क और विभिन्न आर्किटेक्चर पैरामीटर के लिए अच्छी अनुकूलन क्षमता

सीमाएं

सटीकता समझौता: हालांकि गति में महत्वपूर्ण सुधार हुआ है, लेकिन भविष्यवाणी सटीकता विशेष चक्र-स्तरीय सिम्युलेटर की तुलना में अभी भी अंतराल है (12% औसत त्रुटि)
आर्किटेक्चर निर्भरता: वर्तमान कार्यान्वयन Power ISA पर आधारित है, अन्य निर्देश सेटों में विस्तार के लिए पुनः अनुकूलन की आवश्यकता है
प्रशिक्षण डेटा आवश्यकता: प्रशिक्षण के लिए बड़ी मात्रा में एनोटेटेड डेटा की आवश्यकता होती है, प्रारंभिक लागत अधिक होती है
जटिल परिदृश्य प्रसंस्करण: अत्यंत जटिल प्रोग्राम व्यवहार और माइक्रोआर्किटेक्चर विशेषताओं के लिए, भविष्यवाणी क्षमता सीमित हो सकती है

भविष्य की दिशाएं

बहु-आर्किटेक्चर समर्थन: x86, ARM आदि मुख्यधारा के निर्देश सेट आर्किटेक्चर तक विस्तार
सटीकता सुधार: अधिक उन्नत ध्यान तंत्र और संदर्भ मॉडलिंग विधियों की खोज
बहु-कोर समर्थन: बहु-कोर और विषम सिस्टम के प्रदर्शन भविष्यवाणी तक विस्तार
ऑनलाइन शिक्षण: रनटाइम स्व-अनुकूल शिक्षण और मॉडल अपडेट का समर्थन

गहन मूल्यांकन

शक्तियां

तकनीकी नवाचार:

पहली बार CPU प्रदर्शन भविष्यवाणी क्षेत्र में Transformer ध्यान तंत्र लागू करना
संदर्भ जानकारी और निर्देश अनुक्रम मॉडलिंग को नवीन तरीके से संयोजित करना
एक पूर्ण अंत-से-अंत भविष्यवाणी फ्रेमवर्क डिजाइन करना

प्रायोगिक पूर्णता:

मानक SPEC2017 बेंचमार्क पर व्यापक मूल्यांकन
विस्तृत विलोपन प्रयोग और सामान्यीकरण क्षमता परीक्षण शामिल हैं
कई आधारभूत विधियों के साथ तुलना

परिणाम विश्वसनीयता:

महत्वपूर्ण गति सुधार (अधिकतम 8.3 गुना त्वरण)
मौजूदा ML विधियों की तुलना में सटीकता सुधार
अच्छी क्रॉस-बेंचमार्क सामान्यीकरण क्षमता

लेखन स्पष्टता:

समस्या प्रेरणा स्पष्ट रूप से व्यक्त की गई है
विधि विवरण विस्तृत है, गणितीय सूत्र शामिल हैं
प्रायोगिक सेटअप और परिणाम प्रदर्शन पूर्ण है

कमियां

विधि सीमाएं:

भविष्यवाणी सटीकता में सुधार की गुंजाइश है (12% औसत त्रुटि)
केवल Power ISA पर सत्यापित, बहु-आर्किटेक्चर सत्यापन की कमी
अत्यंत जटिल परिदृश्यों के प्रसंस्करण क्षमता का अपर्याप्त सत्यापन

प्रायोगिक सेटअप खामियां:

हार्डवेयर प्लेटफॉर्म तुलना संभवतः पूरी तरह से निष्पक्ष नहीं है (GPU बनाम CPU)
अधिक नवीनतम ML विधियों के साथ तुलना की कमी
विभिन्न प्रकार के प्रोग्रामों के लिए भविष्यवाणी प्रभाव अंतर का अपर्याप्त विश्लेषण

विश्लेषण अपर्याप्तता:

ध्यान तंत्र की व्याख्यात्मकता विश्लेषण पर्याप्त गहन नहीं है
त्रुटि केस विश्लेषण कम है
कम्प्यूटेशनल संसाधन खपत विश्लेषण पर्याप्त विस्तृत नहीं है

प्रभाव

क्षेत्र में योगदान:

CPU प्रदर्शन भविष्यवाणी के लिए नई तकनीकी दिशा प्रदान करना
कंप्यूटर आर्किटेक्चर क्षेत्र में ML अनुप्रयोग को आगे बढ़ाना
तेज आर्किटेक्चर डिजाइन स्पेस अन्वेषण के लिए उपकरण प्रदान करना

व्यावहारिक मूल्य:

बड़े पैमाने पर बेंचमार्क परीक्षण मूल्यांकन दक्षता में महत्वपूर्ण सुधार
कंपाइलर अनुकूलन और हार्डवेयर डिजाइन के लिए तेज प्रतिक्रिया प्रदान करना
कंप्यूटर आर्किटेक्चर अनुसंधान के समय लागत को कम करना

पुनरुत्पादनीयता:

विधि विवरण अपेक्षाकृत विस्तृत है
मानक बेंचमार्क परीक्षण सूट का उपयोग करता है
लेकिन कुछ कार्यान्वयन विवरण और कोड सार्वजनिक नहीं हैं

लागू परिदृश्य

आर्किटेक्चर डिजाइन स्पेस अन्वेषण: विभिन्न डिजाइन पैरामीटर के प्रदर्शन प्रभाव का तेजी से मूल्यांकन
कंपाइलर अनुकूलन: कोड अनुकूलन के लिए तेज प्रदर्शन प्रतिक्रिया प्रदान करना
बेंचमार्क परीक्षण त्वरण: मानक बेंचमार्क परीक्षण के रनटाइम को महत्वपूर्ण रूप से कम करना
शिक्षण और अनुसंधान: आर्किटेक्चर पाठ्यक्रम और अनुसंधान के लिए कुशल सिम्युलेशन उपकरण प्रदान करना

संदर्भ

पेपर में 61 संबंधित संदर्भ उद्धृत हैं, मुख्य रूप से शामिल हैं:

पारंपरिक सिम्युलेटर:

gem5: The gem5 simulator (Binkert et al.)
SimpleScalar, Sniper, Zesto आदि पारंपरिक सिम्युलेटर

मशीन लर्निंग विधियां:

Ithemal: Accurate, portable and fast basic block throughput estimation (Mendis et al.)
Granite: A graph neural network model for basic block throughput estimation (Sýkora et al.)

ध्यान तंत्र:

Attention is all you need (Vaswani et al.)
Transformer संबंधित अनुसंधान

बेंचमार्क परीक्षण:

SPEC CPU2017 बेंचमार्क परीक्षण सूट

समग्र मूल्यांकन: यह CPU प्रदर्शन भविष्यवाणी क्षेत्र में नवाचार और व्यावहारिक मूल्य वाला एक पेपर है। लेखकों ने सफलतापूर्वक ध्यान तंत्र को CPU प्रदर्शन भविष्यवाणी में शामिल किया है, बुनियादी ब्लॉक-स्तरीय से पूर्ण प्रोग्राम-स्तरीय भविष्यवाणी में सफलता प्राप्त की है, और महत्वपूर्ण गति सुधार प्राप्त किए हैं। हालांकि भविष्यवाणी सटीकता और विधि सामान्यीकरण में सुधार की गुंजाइश है, यह कार्य कंप्यूटर आर्किटेक्चर अनुसंधान के लिए मूल्यवान उपकरण और विचार प्रदान करता है, और अच्छी अनुप्रयोग संभावनाएं हैं।