Marketing Mix Modeling (MMM) is a statistical technique used to estimate the impact of marketing activities on business outcomes such as sales, revenue, or customer visits. Traditional MMM approaches often rely on linear regression or Bayesian hierarchical models that assume independence between marketing channels and struggle to capture complex temporal dynamics and non-linear saturation effects [@Hanssens2005; @Ng2021Bayesian].
DeepCausalMMM is a Python package that addresses these limitations by combining deep learning, causal inference, and advanced marketing science. The package uses Gated Recurrent Units (GRUs) to automatically learn temporal patterns such as adstock (carryover effects) and lag, while simultaneously learning statistical dependencies and potential causal structures between marketing channels through Directed Acyclic Graph (DAG) learning [@Zheng2018NOTEARS; @Gong2024CausalMMM]. Additionally, it implements Hill equation-based saturation curves to model diminishing returns and optimize budget allocation.
Key innovations include: (1) a data-driven design where hyperparameters and transformations (e.g., adstock decay, saturation curves) are learned or estimated from data with sensible defaults, rather than requiring fixed heuristics or manual specification, (2) multi-region modeling with both shared and region-specific parameters, (3) robust statistical methods including Huber loss and advanced regularization, (4) comprehensive response curve analysis for understanding channel saturation, and (5) an extensive visualization suite with 14+ interactive dashboards for business insights.
- पेपर ID: 2510.13087
- शीर्षक: DeepCausalMMM: A Deep Learning Framework for Marketing Mix Modeling with Causal Inference
- लेखक: Aditya Puttaparthi Tirumala (स्वतंत्र शोधकर्ता)
- वर्गीकरण: cs.LG, stat.ME, stat.ML
- प्रकाशन समय: 5 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.13087
विपणन मिश्रण मॉडलिंग (MMM) एक सांख्यिकीय तकनीक है जिसका उपयोग विपणन अभियानों के बिक्री, राजस्व या ग्राहक दौरे जैसे व्यावसायिक परिणामों पर प्रभाव का अनुमान लगाने के लिए किया जाता है। परंपरागत MMM विधियां आमतौर पर रैखिक प्रतिगमन या बेयसियन पदानुक्रमित मॉडल पर निर्भर करती हैं, जो विपणन चैनलों के बीच स्वतंत्रता मानते हैं और जटिल अस्थायी गतिशीलता और गैर-रैखिक संतृप्ति प्रभावों को पकड़ने में कठिनाई होती है।
DeepCausalMMM एक Python पैकेज है जो गहन शिक्षण, कारणात्मक अनुमान और उन्नत विपणन विज्ञान को संयोजित करके इन सीमाओं को संबोधित करता है। यह पैकेज गेटेड रिकरेंट यूनिट (GRU) का उपयोग करके स्वचालित रूप से अस्थायी पैटर्न (जैसे विज्ञापन स्टॉक प्रभाव और अंतराल) सीखता है, जबकि निर्देशित अचक्रीय ग्राफ (DAG) शिक्षण के माध्यम से विपणन चैनलों के बीच सांख्यिकीय निर्भरता और संभावित कारणात्मक संरचना सीखता है। इसके अतिरिक्त, यह Hill समीकरण के आधार पर संतृप्ति वक्र लागू करता है ताकि घटते रिटर्न को मॉडल किया जा सके और बजट आवंटन को अनुकूलित किया जा सके।
मुख्य नवाचार शामिल हैं: (1) डेटा-संचालित डिजाइन, जहां हाइपरपैरामीटर और परिवर्तन डेटा से सीखे जाते हैं या अनुमानित किए जाते हैं, न कि निश्चित अनुमानी या मैनुअल निर्दिष्ट; (2) साझा और क्षेत्र-विशिष्ट पैरामीटर के साथ बहु-क्षेत्र मॉडलिंग; (3) Huber हानि और उन्नत नियमितकरण सहित मजबूत सांख्यिकीय विधियां; (4) चैनल संतृप्ति को समझने के लिए व्यापक प्रतिक्रिया वक्र विश्लेषण; (5) 14+ इंटरैक्टिव डैशबोर्ड वाला व्यापक दृश्य सूट।
विपणन संगठन प्रतिवर्ष विभिन्न चैनलों (टेलीविजन, डिजिटल, सोशल मीडिया, खोज) पर विज्ञापन के लिए अरबों डॉलर का निवेश करते हैं, लेकिन निवेश पर रिटर्न (ROI) को मापना अभी भी चुनौतीपूर्ण है, मुख्य कारणों में शामिल हैं:
- अस्थायी जटिलता: विपणन प्रभाव में विलंब और स्थायित्व की विशेषताएं होती हैं
- चैनल अंतर-निर्भरता: विभिन्न विपणन चैनलों के बीच जटिल पारस्परिक प्रभाव मौजूद हैं
- गैर-रैखिक संतृप्ति प्रभाव: विपणन निवेश में घटते रिटर्न की घटना होती है
- क्षेत्रीय विषमता: विभिन्न भौगोलिक क्षेत्रों में विपणन प्रभाव में महत्वपूर्ण अंतर होता है
- बहुसंरेखता: विपणन गतिविधियों के बीच सांख्यिकीय सहसंबंध मौजूद है
परंपरागत MMM विधियों में निम्नलिखित समस्याएं हैं:
- रैखिक धारणा: जटिल गैर-रैखिक संबंधों को पकड़ने में असमर्थ
- स्वतंत्रता धारणा: चैनलों के बीच अंतःक्रिया को नजरअंदाज करता है
- मैनुअल पैरामीटर सेटिंग: पैरामीटर ट्यूनिंग के लिए बड़ी मात्रा में डोमेन विशेषज्ञ ज्ञान की आवश्यकता होती है
- सीमित अस्थायी मॉडलिंग: जटिल अस्थायी निर्भरता को स्वचालित रूप से सीखना मुश्किल है
यह अनुसंधान गहन शिक्षण, कारणात्मक अनुमान और विपणन विज्ञान को एकीकृत करने वाली एक ढांचा विकसित करने का लक्ष्य रखता है ताकि परंपरागत MMM विधियों की सीमाओं को दूर किया जा सके और अधिक सटीक, अधिक व्याख्यायोग्य विपणन प्रभाव माप और बजट अनुकूलन समाधान प्रदान किए जा सकें।
- एकीकृत ढांचा प्रस्तावित किया: GRU अस्थायी मॉडलिंग, DAG संरचना शिक्षण और Hill संतृप्ति वक्र को संयोजित करने वाली एकीकृत ढांचा
- डेटा-संचालित पैरामीटर शिक्षण: डेटा से स्वचालित रूप से हाइपरपैरामीटर और परिवर्तन सीखना, मैनुअल ट्यूनिंग की आवश्यकता को कम करना
- बहु-क्षेत्र मॉडलिंग क्षमता: साझा और क्षेत्र-विशिष्ट पैरामीटर के साथ कई भौगोलिक क्षेत्रों के मॉडलिंग का समर्थन
- मजबूत सांख्यिकीय विधि: Huber हानि, ग्रेडिएंट क्लिपिंग और उन्नत नियमितकरण तकनीकों को लागू करना
- उत्पादन-तैयार प्रदर्शन: वास्तविक डेटा पर 91.8% holdout R² और 3.0% प्रशिक्षण-परीक्षण अंतराल प्राप्त करना
- व्यापक दृश्य सूट: व्यावसायिक अंतर्दृष्टि के लिए 14+ इंटरैक्टिव Plotly डैशबोर्ड प्रदान करना
- ओपन सोर्स Python पैकेज: 28 परीक्षण मामलों और विस्तृत दस्तावेज़ के साथ पूर्ण कार्यान्वयन
अस्थायी श्रृंखला विपणन डेटा दिया गया है, जिसमें कई विपणन चैनलों के निवेश, नियंत्रण चर और व्यावसायिक KPI शामिल हैं, लक्ष्य है:
- विभिन्न विपणन चैनलों के व्यावसायिक परिणामों पर कारणात्मक प्रभाव का अनुमान लगाना
- चैनलों के बीच निर्भरता संबंध और कारणात्मक संरचना सीखना
- अस्थायी गतिशीलता (विज्ञापन स्टॉक प्रभाव, अंतराल) और संतृप्ति प्रभाव को मॉडल करना
- चैनलों के बीच बजट आवंटन को अनुकूलित करना
गेटेड रिकरेंट यूनिट (GRU) नेटवर्क का उपयोग करके स्वचालित रूप से सीखना:
- विज्ञापन स्टॉक प्रभाव (Adstock): विपणन गतिविधि का निरंतर प्रभाव
- अंतराल पैटर्न: विपणन निवेश से प्रभाव प्रकट होने तक का समय विलंब
- समय-परिवर्तनशील गुणांक: समय के साथ परिवर्तनशील विपणन प्रभाव
निरंतर अनुकूलन-आधारित DAG शिक्षण विधि को अपनाना (Zheng et al. 2018):
- विपणन चैनलों के बीच निर्देशित अचक्रीय ग्राफ सीखना
- सांख्यिकीय निर्भरता संबंध और संभावित कारणात्मक संबंध की खोज करना
- संरचना अनुकूलन के लिए NOTEARS एल्गोरिदम का उपयोग करना
Hill परिवर्तन को लागू करके घटते रिटर्न को पकड़ना:
y=xa+gaxa
जहां:
- a S वक्र की खड़ीपन को नियंत्रित करता है (उचित संतृप्ति सुनिश्चित करने के लिए a≥2.0 को बाध्य करना)
- g अर्ध-संतृप्ति बिंदु है
- क्षेत्र-विशिष्ट आधार रेखा: प्रत्येक भौगोलिक क्षेत्र का अद्वितीय आधार स्तर
- साझा अस्थायी पैटर्न: क्षेत्रों में सामान्य अस्थायी गतिशीलता
- सीखने योग्य स्केलिंग कारक: क्षेत्रों के बीच प्रभाव अंतर समायोजन
- अंत-से-अंत शिक्षण: परंपरागत विधि की दो-चरणीय प्रक्रिया के विपरीत, यह ढांचा अस्थायी गतिशीलता, कारणात्मक संरचना और संतृप्ति प्रभाव को एक साथ सीखता है
- डेटा-संचालित डिजाइन: हाइपरपैरामीटर डेटा के माध्यम से सीखे जाते हैं न कि मैनुअल रूप से निर्दिष्ट किए जाते हैं, सामान्यीकरण क्षमता में सुधार करते हैं
- कारणात्मक-जागरूक: DAG शिक्षण को एकीकृत करके चैनलों के बीच कारणात्मक संबंधों की खोज करता है, केवल सहसंबंध मॉडलिंग के बजाय
- मजबूत सांख्यिकी: विषम मूल्यों को संभालने के लिए Huber हानि का उपयोग करता है, विरलता को नियंत्रित करने के लिए L1/L2 नियमितकरण
गुमनाम वास्तविक विपणन डेटा का उपयोग:
- भौगोलिक कवरेज: 190 भौगोलिक क्षेत्र (DMA)
- अस्थायी अवधि: 109 सप्ताह की अवलोकन डेटा
- विपणन चैनल: 13 विपणन चैनल
- नियंत्रण चर: 7 नियंत्रण चर
- प्रशिक्षण-सत्यापन विभाजन: 101 सप्ताह प्रशिक्षण, हाल के 8 सप्ताह (7.3%) नमूना-बाहर सत्यापन के लिए
- R² स्कोर: व्याख्या किए गए विचरण का अनुपात
- RMSE: मूल माध्य वर्ग त्रुटि
- सापेक्ष त्रुटि: RMSE और माध्य का अनुपात
- प्रदर्शन अंतराल: प्रशिक्षण और holdout प्रदर्शन में अंतर
पेपर में मौजूदा प्रमुख MMM ढांचे की तुलना की गई है:
- Robyn (Meta): बेयसियन हाइपरपैरामीटर अनुकूलन, निश्चित परिवर्तन
- LightweightMMM (Google): JAX और Numpyro आधारित बेयसियन MMM
- PyMC-Marketing: अत्यधिक लचीला बेयसियन MMM
- CausalMMM: तंत्रिका नेटवर्क और ग्राफ शिक्षण को शामिल करने वाला MMM
- प्रोग्रामिंग भाषा: Python 3.9+
- गहन शिक्षण ढांचा: PyTorch 2.0+
- डेटा प्रसंस्करण: pandas, NumPy
- अनुकूलन: scipy, scikit-learn
- दृश्य: Plotly, NetworkX
- सांख्यिकीय विधि: statsmodels
वास्तविक विपणन डेटा पर प्रदर्शन:
| मेट्रिक | प्रशिक्षण सेट | Holdout सेट |
|---|
| R² | 0.947 | 0.918 |
| RMSE | 314,692 | 351,602 |
| सापेक्ष त्रुटि | 42.8% | 41.9% |
प्रदर्शन अंतराल: 3.0%, जो उत्कृष्ट सामान्यीकरण क्षमता और अति-फिटिंग की कमी को दर्शाता है।
- मजबूत सामान्यीकरण क्षमता: प्रशिक्षण और holdout सेट के बीच छोटा प्रदर्शन अंतराल (3.0%) मॉडल की अच्छी सामान्यीकरण क्षमता को दर्शाता है
- उच्च भविष्यवाणी सटीकता: 91.8% की holdout R² मजबूत भविष्यवाणी क्षमता दर्शाती है
- मजबूत प्रदर्शन: सापेक्ष त्रुटि मेट्रिक क्षेत्रीय विपणन डेटा की उच्च विचरण विशेषता को ध्यान में रखता है
- कारणात्मक खोज: चैनलों के बीच निर्भरता संबंधों को सफलतापूर्वक पहचाना, जैसे टेलीविजन विज्ञापन और खोज व्यवहार का संबंध
ResponseCurveFit मॉड्यूल प्रदान करता है:
- चैनल डेटा के लिए Hill समीकरण फिटिंग
- संतृप्ति बिंदु की पहचान
- इंटरैक्टिव दृश्य
- बजट अनुकूलन सुझाव
- रैखिक प्रतिगमन मॉडल: Hanssens et al. (2005) द्वारा स्थापित शास्त्रीय बाजार प्रतिक्रिया मॉडल
- बेयसियन पदानुक्रमित मॉडल: Ng et al. (2021) द्वारा प्रस्तावित बेयसियन समय-परिवर्तनशील गुणांक मॉडल
- Robyn: Meta द्वारा विकसित ओपन सोर्स MMM, बेयसियन अनुकूलन का उपयोग करता है
- LightweightMMM: Google का JAX कार्यान्वयन, संभाव्य अनुमान का समर्थन करता है
- PyMC-Marketing: PyMC आधारित अत्यधिक लचीला बेयसियन MMM
- CausalMMM: Gong et al. (2024) द्वारा MMM में कारणात्मक ग्राफ शिक्षण को पहली बार शामिल किया गया
- DAG शिक्षण: Zheng et al. (2018) का NOTEARS एल्गोरिदम निरंतर अनुकूलन संरचना शिक्षण के लिए
- तकनीकी व्यवहार्यता: गहन शिक्षण और कारणात्मक अनुमान का संयोजन MMM में व्यवहार्य और प्रभावी है
- प्रदर्शन लाभ: डेटा-संचालित पैरामीटर शिक्षण परंपरागत विधियों की तुलना में बेहतर सामान्यीकरण क्षमता प्रदान करता है
- व्यावहारिक मूल्य: व्यापक दृश्य और विश्लेषण उपकरण इसे वास्तविक व्यावसायिक अनुप्रयोग के लिए उपयुक्त बनाते हैं
- कारणात्मक अंतर्दृष्टि: DAG शिक्षण मूल्यवान चैनल अंतर-कारणात्मक संबंधों की खोज कर सकता है
- कम्प्यूटेशनल जटिलता: गहन शिक्षण मॉडल परंपरागत रैखिक मॉडल की तुलना में अधिक कम्प्यूटेशनल लागत है
- डेटा आवश्यकताएं: जटिल मॉडल को प्रशिक्षित करने के लिए पर्याप्त ऐतिहासिक डेटा की आवश्यकता होती है
- व्याख्यात्मकता व्यापार: हालांकि कारणात्मक ग्राफ प्रदान करता है, लेकिन GRU की आंतरिक तंत्र अभी भी ब्लैक बॉक्स है
- कारणात्मक धारणा: DAG शिक्षण अवलोकन डेटा पर आधारित है, कारणात्मक संबंधों को पूरी तरह से सुनिश्चित नहीं कर सकता है
- अधिक उन्नत कारणात्मक अनुमान: अधिक मजबूत कारणात्मक पहचान विधियों को एकीकृत करना
- वास्तविक समय अनुकूलन: तेजी से बदलते विपणन वातावरण के अनुकूल होने के लिए ऑनलाइन शिक्षण क्षमता विकसित करना
- क्रॉस-इंडस्ट्री सत्यापन: अधिक उद्योगों और परिदृश्यों में विधि की प्रभावशीलता को सत्यापित करना
- सैद्धांतिक विश्लेषण: विधि के अभिसरण और सांख्यिकीय गुणों के लिए गहन सैद्धांतिक गारंटी प्रदान करना
- मजबूत नवाचार: पहली बार GRU, DAG शिक्षण और Hill संतृप्ति वक्र को एकीकृत ढांचे में व्यवस्थित रूप से एकीकृत किया गया
- उच्च व्यावहारिकता: समृद्ध दृश्य और विश्लेषण उपकरणों के साथ पूर्ण Python पैकेज प्रदान करता है
- उत्कृष्ट प्रदर्शन: वास्तविक डेटा पर मजबूत भविष्यवाणी प्रदर्शन और सामान्यीकरण क्षमता प्रदर्शित करता है
- व्यापक विधि: MMM में कई मुख्य चुनौतियों को एक साथ संबोधित करता है
- अच्छी पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण, परीक्षण मामले और दस्तावेज़ प्रदान करता है
- सीमित सैद्धांतिक विश्लेषण: विधि के अभिसरण और सांख्यिकीय गुणों के लिए सैद्धांतिक विश्लेषण की कमी
- अपर्याप्त तुलनात्मक प्रयोग: अन्य MMM ढांचे के साथ प्रत्यक्ष मात्रात्मक तुलना नहीं की गई
- कारणात्मक सत्यापन कठिन: सीखे गए कारणात्मक संबंधों को स्वतंत्र प्रयोगों के माध्यम से सत्यापित करना मुश्किल है
- कम्प्यूटेशनल दक्षता का मूल्यांकन नहीं किया गया: प्रशिक्षण समय और कम्प्यूटेशनल संसाधन आवश्यकताओं की रिपोर्ट नहीं की गई
- एकल डेटासेट: केवल एक (गुमनाम) डेटासेट पर मूल्यांकन किया गया
- शैक्षणिक योगदान: MMM क्षेत्र में नई तकनीकी प्रतिमान को शामिल करता है, जो बाद के अनुसंधान को प्रेरित कर सकता है
- व्यावहारिक मूल्य: विपणन पेशेवरों को उन्नत विश्लेषण उपकरण प्रदान करता है
- ओपन सोर्स प्रभाव: ओपन सोर्स पैकेज के रूप में, व्यापक रूप से अपनाया जा सकता है और समुदाय विकास को बढ़ावा दे सकता है
- क्रॉस-डोमेन महत्व: गहन शिक्षण और कारणात्मक अनुमान का संयोजन अन्य अनुप्रयोग क्षेत्रों के लिए भी प्रेरणादायक है
- बड़े उद्यम: कई चैनल विपणन निवेश और पर्याप्त ऐतिहासिक डेटा वाले उद्यम
- डिजिटल विपणन: वास्तविक समय अनुकूलन और सटीक विशेषण की आवश्यकता वाले डिजिटल विपणन परिदृश्य
- क्षेत्रीय व्यवसाय: भौगोलिक विषमता पर विचार करने की आवश्यकता वाले राष्ट्रव्यापी या अंतर्राष्ट्रीय उद्यम
- अनुसंधान संस्थान: उन्नत MMM उपकरणों की आवश्यकता वाले शैक्षणिक और वाणिज्यिक अनुसंधान
- Hanssens, D. M., Parsons, L. J., & Schultz, R. L. (2005). Market Response Models: Econometric and Time Series Analysis.
- Zheng, X., Aragam, B., Ravikumar, P. K., & Xing, E. P. (2018). DAGs with NO TEARS: Continuous Optimization for Structure Learning.
- Gong, C., Yao, D., Zhang, L., et al. (2024). Learning Causal Structure for Marketing Mix Modeling.
- Ng, E., Wang, Z., & Dai, A. (2021). Bayesian Time Varying Coefficient Model with Applications to Marketing Mix Modeling.
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुप्रयुक्त अनुसंधान पेपर है जो गहन शिक्षण और कारणात्मक अनुमान तकनीकों को विपणन मिश्रण मॉडलिंग में सफलतापूर्वक लागू करता है, इस क्षेत्र की कई मुख्य चुनौतियों को हल करता है। हालांकि सैद्धांतिक विश्लेषण और प्रयोगात्मक तुलना के मामले में कुछ कमियां हैं, लेकिन इसकी नवाचार, व्यावहारिकता और पूर्ण ओपन सोर्स कार्यान्वयन इसे महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य प्रदान करते हैं।