2025-11-14T09:49:10.731774

Targeted Pooled Latent-Space Steganalysis Applied to Generative Steganography, with a Fix

Levecque, Noirault, PevnÃ½ et al.

Steganographic schemes dedicated to generated images modify the seed vector in the latent space to embed a message, whereas most steganalysis methods attempt to detect the embedding in the image space. This paper proposes to perform steganalysis in the latent space by modeling the statistical distribution of the norm of the latent vector. Specifically, we analyze the practical security of a scheme proposed by Hu et. al. for latent diffusion models, which is both robust and practically undetectable when steganalysis is performed on generated images. We show that after embedding, the Stego (latent) vector is distributed on a hypersphere while the Cover vector is i.i.d. Gaussian. By going from the image space to the latent space, we show that it is possible to model the norm of the vector in the latent space under the Cover or Stego hypothesis as Gaussian distributions with different variances. A Likelihood Ratio Test is then derived to perform pooled steganalysis. The impact of the potential knowledge of the prompt and the number of diffusion steps, is also studied. Additionally, we also show how, by randomly sampling the norm of the latent vector before generation, the initial Stego scheme becomes undetectable in the latent space.

academic

लक्षित पूल्ड लेटेंट-स्पेस स्टेगानालिसिस जेनरेटिव स्टेगानोग्राफी पर लागू, एक सुधार के साथ

बुनियादी जानकारी

पेपर ID: 2510.12414
शीर्षक: Targeted Pooled Latent-Space Steganalysis Applied to Generative Steganography, with a Fix
लेखक: Etienne Levecque, Aurelien Noirault, Tomas Pevny, Jan Butora, Patrick Bas, Rémi Cogranne
वर्गीकरण: cs.CR (क्रिप्टोग्राफी और सुरक्षा), eess.IV (छवि और वीडियो प्रसंस्करण)
प्रकाशन समय: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.12414

सारांश

यह पेपर जेनरेटिव छवियों के स्टेगानोग्राफी के लिए एक नई स्टेगानालिसिस विधि प्रस्तावित करता है। पारंपरिक स्टेगानालिसिस मुख्य रूप से छवि स्पेस में पहचान करता है, जबकि जेनरेटिव स्टेगानोग्राफी संदेश एम्बेड करने के लिए लेटेंट स्पेस में सीड वेक्टर को संशोधित करता है। यह पेपर लेटेंट स्पेस में स्टेगानालिसिस प्रस्तावित करता है, लेटेंट वेक्टर नॉर्म के सांख्यिकीय वितरण को मॉडल करके स्टेगानोग्राफी का पता लगाता है। अनुसंधान Hu et al. द्वारा प्रस्तावित लेटेंट डिफ्यूजन मॉडल स्टेगानोग्राफी योजना की व्यावहारिक सुरक्षा का विश्लेषण करता है, जो छवि स्पेस स्टेगानालिसिस में मजबूती और अपहचान योग्यता प्रदर्शित करता है। अनुसंधान पाता है कि एम्बेडेड स्टेगानोग्राफिक लेटेंट वेक्टर हाइपरस्फीयर पर वितरित होते हैं, जबकि कवर वेक्टर स्वतंत्र और समान रूप से वितरित गॉसियन वितरण का पालन करते हैं। संभावना अनुपात परीक्षण के माध्यम से पूल्ड स्टेगानालिसिस किया जाता है, और प्रॉम्प्ट शब्द ज्ञान और डिफ्यूजन चरणों के प्रभाव का अध्ययन किया जाता है। इसके अतिरिक्त, लेटेंट वेक्टर नॉर्म को यादृच्छिक रूप से नमूना करके मूल स्टेगानोग्राफी योजना को लेटेंट स्पेस में अपहचान योग्य बनाने का तरीका दिखाया जाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

जेनरेटिव स्टेगानोग्राफी एक उभरता हुआ सक्रिय अनुसंधान क्षेत्र है जो बड़ी क्षमता वाले पेलोड को एम्बेड कर सकता है और JPEG संपीड़न जैसे संचालन के लिए मजबूत है, साथ ही अपहचान योग्य हो सकता है। पारंपरिक स्टेगानोग्राफी केवल छवि शोर घटक को बदलने के विपरीत, जेनरेटिव स्टेगानोग्राफी की एम्बेडिंग प्रक्रिया छवि की सिमेंटिक सामग्री को भी बदलती है।

अनुसंधान प्रेरणा

मौजूदा विधियों की सीमाएं: अधिकांश स्टेगानालिसिस विधियां छवि स्पेस में एम्बेडिंग का पता लगाने का प्रयास करती हैं, जबकि जेनरेटिव स्टेगानोग्राफी लेटेंट स्पेस में सीड वेक्टर को संशोधित करती है
अपर्याप्त सुरक्षा विश्लेषण: कई प्रकाशित योजनाओं में लेटेंट स्पेस में सुरक्षा विश्लेषण में अंधे बिंदु हैं
पहचान चुनौती: Hu et al. की योजना छवि डोमेन स्टेगानालिसिस में मजबूत और अपहचान योग्य दोनों है, नई विश्लेषण विधि की आवश्यकता है

महत्व

जेनरेटिव स्टेगानोग्राफी लेटेंट डिफ्यूजन मॉडल में विशेष रूप से लोकप्रिय है क्योंकि ये मॉडल उच्च गुणवत्ता वाली छवियां प्रदान कर सकते हैं। इस प्रकार की योजनाओं की सुरक्षा को समझना और विश्लेषण करना सूचना सुरक्षा क्षेत्र के लिए महत्वपूर्ण है।

मुख्य योगदान

लेटेंट स्पेस स्टेगानालिसिस विधि प्रस्तावित करना: पहली बार छवि स्पेस या सीमांत वितरण के बजाय लेटेंट स्पेस में स्टेगानालिसिस करना
सांख्यिकीय पहचान मॉडल स्थापित करना: लेटेंट वेक्टर नॉर्म के सांख्यिकीय वितरण को मॉडल करके, कवर और स्टेगानोग्राफिक परिकल्पनाओं के तहत वितरण को विभिन्न विचरण वाले गॉसियन वितरण के रूप में मॉडल करना
संभावना अनुपात परीक्षण विकसित करना: संभावना अनुपात परीक्षण (LRT) के आधार पर पूल्ड डिटेक्टर, बैच छवि पहचान तक विस्तार के लिए आसान
सुरक्षा सुधार योजना प्रदान करना: स्केल्ड स्प्रेड स्पेक्ट्रम (Scaled SS) एन्कोडिंग विधि प्रस्तावित करना, लेटेंट वेक्टर नॉर्म को यादृच्छिक रूप से नमूना करके स्टेगानोग्राफी योजना को लेटेंट स्पेस में अपहचान योग्य बनाना
व्यापक प्रायोगिक विश्लेषण: प्रॉम्प्ट शब्द ज्ञान और डिफ्यूजन चरणों के पहचान प्रदर्शन पर प्रभाव का अध्ययन करना

विधि विवरण

कार्य परिभाषा

इनपुट: लेटेंट डिफ्यूजन मॉडल द्वारा उत्पन्न छवि और संबंधित लेटेंट वेक्टर आउटपुट: यह निर्धारित करना कि छवि कवर छवि है या स्टेगानोग्राफिक छवि बाधाएं: Kerckhoffs सिद्धांत का पालन करना, हमलावर L2L चैनल और निश्चित पैरामीटर α को जानता है, लेकिन कुंजी को नहीं

स्टेगानोग्राफी योजना विश्लेषण

Hu et al. की एम्बेडिंग योजना

स्प्रेड स्पेक्ट्रम वॉटरमार्किंग सिद्धांत का उपयोग करता है, ऑर्थोनॉर्मल कुंजी-संबंधित छद्म-यादृच्छिक मैट्रिक्स Q के माध्यम से मॉड्यूलेशन:

$X = Q \cdot M \cdot Q^T$

जहां M को लेटेंट स्पेस आयाम में पुनर्गठित ±1 गुप्त संदेश है।

L2L चैनल मॉडल

लेटेंट से लेटेंट (L2L) चैनल में तीन भाग होते हैं:

जेनरेशन प्रक्रिया: सीड को छवि में मैप करना
विकृति संचालन: जैसे संपीड़न
व्युत्क्रम जेनरेशन: छवि को लेटेंट स्पेस वेक्टर Y में मैप करना

इसे इस प्रकार दर्शाया जाता है: $Y = f(X, α)$

सांख्यिकीय पहचान मॉडल

एम्बेडिंग से पहले नॉर्म मॉडलिंग

शून्य परिकल्पना (कवर): $X \sim N(0, I_n)$ , नॉर्म $R_X \sim χ_n$
वैकल्पिक परिकल्पना (स्टेगानोग्राफी): $X = Q \cdot M \cdot Q^T$ , नॉर्म $R_X = \sqrt{n}$ (स्थिरांक)

जब n बड़ा हो, कवर परिकल्पना के तहत: $R_X \xrightarrow{d} N(\sqrt{n}, \frac{1}{2})$

एम्बेडिंग के बाद नॉर्म मॉडलिंग

मान लीजिए L2L चैनल नॉर्म पर गॉसियन शोर $\varepsilon(α) \sim N(0, σ^2(α))$ प्रस्तुत करता है:

$H_0: R_Y \sim N(\sqrt{n}, \frac{1}{2} + σ^2(α))$ $H_1: R_Y \sim N(\sqrt{n}, σ^2(α))$

दोनों परिकल्पनाएं केवल विचरण में भिन्न होती हैं, यह अंतर पहचान की कुंजी है।

संभावना अनुपात परीक्षण

एकल छवि परीक्षण

$Λ(r_Y) = \frac{N(r_Y; \hat{μ}_1, \hat{σ}^2_1)}{N(r_Y; \hat{μ}_0, \hat{σ}^2_0)}$

जब $Λ(r_Y) > τ$ हो तो शून्य परिकल्पना को अस्वीकार करें, स्टेगानोग्राफिक छवि के रूप में निर्णय लें।

बैच परीक्षण

छवि बैच B के लिए, मान लीजिए सभी छवियां एक ही वर्ग से संबंधित हैं: $Λ(B) = \prod_i \frac{N(r_{Y_i}; \hat{μ}_1, \hat{σ}^2_1)}{N(r_{Y_i}; \hat{μ}_0, \hat{σ}^2_0)}$

सुरक्षा सुधार योजना

स्केल्ड स्प्रेड स्पेक्ट्रम एन्कोडिंग

वितरण अंतर को ठीक करने के लिए, χ_n वितरण के अनुसार नॉर्म s को नमूना करने का प्रस्ताव दिया जाता है, फिर स्केल करें:

$X = \frac{s}{\sqrt{n}} Q \cdot M \cdot Q^T$

यह स्टेगानोग्राफिक वेक्टर नॉर्म को भी χ_n वितरण का पालन करने देता है, सांख्यिकीय अंतर को समाप्त करता है।

प्रायोगिक सेटअप

डेटासेट

मॉडल: Stable Diffusion 1.5
पैरामीटर: guidance=5.0, डिफ्यूजन चरण=20 चरण
प्रॉम्प्ट शब्द: DiffusionDB डेटाबेस से यादृच्छिक रूप से चुने गए
स्केल: प्रत्येक प्रयोग में 20k प्रॉम्प्ट शब्द का उपयोग, 20k कवर छवियां और 20k स्टेगानोग्राफिक छवियां उत्पन्न करना
लेटेंट स्पेस आयाम: (4, 64, 64), संदेश लंबाई n=16384 बिट्स

मूल्यांकन मेट्रिक्स

त्रुटि संभावना (PE): $PE = \min_{P_{FA}} \frac{P_{FA} + P_{MD}(P_{FA})}{2}$
बिट त्रुटि दर (BER): सही रूप से डिकोड किए गए बिट्स का अनुपात
क्रॉस-वैलिडेशन: 20-फोल्ड क्रॉस-वैलिडेशन

कार्यान्वयन विवरण

1k कवर और 1k स्टेगानोग्राफिक छवियों का उपयोग करके माध्य और विचरण का अनुमान लगाएं
शेष 19k छवियों का उपयोग PE की गणना के लिए करें
संभावना अनुपात थ्रेशोल्ड τ=1

प्रायोगिक परिणाम

मुख्य परिणाम

पहचान प्रदर्शन

एकल छवि पहचान: PE लगभग 48%
बैच पहचान: बैच आकार के साथ बढ़ने पर, PE में उल्लेखनीय कमी
- बैच आकार 10: PE=45.3%
- बैच आकार 100: PE=33.4%

डिफ्यूजन चरणों का प्रभाव

बैच आकार	20 चरण	50 चरण
1	48.5%	47.2%
10	45.3%	41.6%
100	33.4%	30.0%

अधिक डिफ्यूजन चरण L2L चैनल विकृति को कम करते हैं, हमले के प्रभाव को बढ़ाते हैं।

प्रॉम्प्ट शब्द ज्ञान का प्रभाव

चाहे प्रॉम्प्ट शब्द ज्ञात हो या नहीं, BER मूलतः अपरिवर्तित रहता है:

SS एन्कोडिंग: 97.53% बनाम 97.56%
स्केल्ड SS एन्कोडिंग: 97.53% बनाम 97.52%

सुधार योजना प्रभाव

स्केल्ड SS एन्कोडिंग प्रभावी रूप से पहचान अंतर को समाप्त करता है, सभी नॉर्म्स की संभावना अनुपात को 1 के करीब बनाता है, पहचान प्रदर्शन को यादृच्छिक करता है।

प्रायोगिक निष्कर्ष

लेटेंट स्पेस पहचान व्यावहारिक: यहां तक कि छवि स्पेस में अपहचान योग्य स्टेगानोग्राफी योजनाएं लेटेंट स्पेस में अभी भी पहचानी जा सकती हैं
बैच पहचान अधिक प्रभावी: कई छवियों को पूल करना पहचान प्रदर्शन में उल्लेखनीय सुधार करता है
सुधार योजना प्रभावी: नॉर्म को नमूना करके सांख्यिकीय अंतर को समाप्त किया जा सकता है
प्रॉम्प्ट शब्द प्रभाव सीमित: सटीक प्रॉम्प्ट शब्द न जानना पहचान प्रभाव को प्रभावित नहीं करता

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

लेटेंट स्पेस स्टेगानालिसिस व्यावहारिक: यहां तक कि छवि स्पेस में अपहचान योग्य, लेटेंट स्पेस में अभी भी सांख्यिकीय अंतर मौजूद हो सकता है
नॉर्म वितरण महत्वपूर्ण: स्टेगानोग्राफिक और कवर वेक्टर के नॉर्म वितरण में अंतर पहचान का आधार है
सुधार योजना प्रभावी: उचित वितरण मिलान के माध्यम से वास्तविक अपहचान योग्यता प्राप्त की जा सकती है
व्यावहारिक पैरामीटर प्रभाव: डिफ्यूजन चरण जैसे पैरामीटर पहचान प्रदर्शन को प्रभावित करते हैं, लेकिन प्रॉम्प्ट शब्द प्रभाव सीमित है

सीमाएं

मॉडल धारणाएं: L2L चैनल की गॉसियन शोर धारणा अत्यधिक सरलीकृत हो सकती है
कम्प्यूटेशनल जटिलता: लेटेंट वेक्टर प्राप्त करने के लिए छवि व्युत्क्रम प्रक्रिया की आवश्यकता होती है
लागू श्रेणी: मुख्य रूप से विशिष्ट स्प्रेड स्पेक्ट्रम स्टेगानोग्राफी योजना के लिए
पैरामीटर संवेदनशीलता: पहचान प्रदर्शन डिफ्यूजन मॉडल की विशिष्ट पैरामीटर सेटिंग पर निर्भर करता है

भविष्य की दिशाएं

अधिक जटिल L2L मॉडलिंग: अधिक यथार्थवादी चैनल मॉडल पर विचार करना
अन्य सांख्यिकीय विशेषताएं: पहचान के लिए लेटेंट स्पेस की अन्य सांख्यिकीय विशेषताओं की खोज करना
अनुकूली हमले: इस पहचान विधि के विरुद्ध प्रतिकूल रणनीतियों का अनुसंधान करना
वास्तविक समय पहचान: अधिक कुशल पहचान एल्गोरिदम विकसित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार लेटेंट स्पेस में स्टेगानालिसिस प्रस्तावित करना, नया दृष्टिकोण
ठोस सैद्धांतिक आधार: कठोर सांख्यिकीय मॉडल और संभावना अनुपात परीक्षण सिद्धांत पर आधारित
व्यापक प्रयोग: विभिन्न पैरामीटर सेटिंग्स और ablation अध्ययन सहित व्यापक प्रायोगिक सत्यापन
उच्च व्यावहारिक मूल्य: पहचान और सुधार दोनों की पूर्ण योजना प्रदान करता है
गहन विश्लेषण: पहचान सिद्धांत और विफलता तंत्र दोनों के लिए स्पष्ट सैद्धांतिक व्याख्या

कमियां

मॉडल सरलीकरण: L2L चैनल की मॉडलिंग अपेक्षाकृत सरल है, वास्तविक स्थिति अधिक जटिल हो सकती है
कम्प्यूटेशनल ओवरहेड: छवि व्युत्क्रम प्रक्रिया की आवश्यकता होती है, कम्प्यूटेशनल लागत अधिक है
सामान्यीकरण: मुख्य रूप से विशिष्ट स्टेगानोग्राफी योजना के लिए, अन्य योजनाओं के लिए लागू क्षमता की प्रतीक्षा है
व्यावहारिक तैनाती: वास्तविक अनुप्रयोग में परिचालन क्षमता और दक्षता का मूल्यांकन किया जाना बाकी है

प्रभाव

शैक्षणिक योगदान: जेनरेटिव स्टेगानोग्राफी की सुरक्षा विश्लेषण के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: मौजूदा स्टेगानोग्राफी योजनाओं की सुरक्षा मूल्यांकन के लिए महत्वपूर्ण है
प्रेरणादायक: अधिक लेटेंट स्पेस आधारित सुरक्षा विश्लेषण अनुसंधान को प्रेरित कर सकता है
पुनरुत्पादनीयता: प्रयोग सेटअप स्पष्ट है, पुनरुत्पादन और विस्तार के लिए सुविधाजनक

लागू परिदृश्य

सुरक्षा मूल्यांकन: जेनरेटिव स्टेगानोग्राफी योजनाओं की व्यावहारिक सुरक्षा का मूल्यांकन करना
योजना सुधार: स्टेगानोग्राफी योजना की सुरक्षा सुधार को निर्देशित करना
पहचान प्रणाली: जेनरेटिव स्टेगानोग्राफी के विरुद्ध पहचान प्रणाली का निर्माण करना
अनुसंधान उपकरण: लेटेंट स्पेस सुरक्षा विश्लेषण के अनुसंधान उपकरण के रूप में

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिसमें शामिल हैं:

Hu et al. (2024): विश्लेषण की गई मूल स्टेगानोग्राफी योजना
Rombach et al. (2022): लेटेंट डिफ्यूजन मॉडल का मौलिक कार्य
Cox et al. (2008): डिजिटल वॉटरमार्किंग की शास्त्रीय पाठ्यपुस्तक
Fridrich (2009): स्टेगानोग्राफी की शास्त्रीय पाठ्यपुस्तक
साथ ही गहन शिक्षण स्टेगानालिसिस के कई संबंधित कार्य

यह पेपर जेनरेटिव स्टेगानोग्राफी सुरक्षा विश्लेषण में महत्वपूर्ण योगदान देता है, विश्लेषण के लिए नया दृष्टिकोण और प्रभावी पहचान विधि प्रस्तावित करता है, साथ ही संबंधित सुरक्षा सुधार योजना भी प्रदान करता है, जो इस क्षेत्र के विकास को महत्वपूर्ण रूप से आगे बढ़ाता है।