Existing deepfake analysis methods are primarily based on discriminative models, which significantly limit their application scenarios. This paper aims to explore interactive deepfake analysis by performing instruction tuning on multi-modal large language models (MLLMs). This will face challenges such as the lack of datasets and benchmarks, and low training efficiency. To address these issues, we introduce (1) a GPT-assisted data construction process resulting in an instruction-following dataset called DFA-Instruct, (2) a benchmark named DFA-Bench, designed to comprehensively evaluate the capabilities of MLLMs in deepfake detection, deepfake classification, and artifact description, and (3) construct an interactive deepfake analysis system called DFA-GPT, as a strong baseline for the community, with the Low-Rank Adaptation (LoRA) module. The dataset and code will be made available at https://github.com/lxq1000/DFA-Instruct to facilitate further research.
मौजूदा डीपफेक विश्लेषण विधियाँ मुख्य रूप से विभेदक मॉडल पर आधारित हैं, जो उनके अनुप्रयोग परिदृश्यों को महत्वपूर्ण रूप से सीमित करती हैं। यह पेपर बहु-मोडल बड़े भाषा मॉडल (MLLMs) पर निर्देश ट्यूनिंग के माध्यम से इंटरैक्टिव डीपफेक विश्लेषण की खोज करना चाहता है। यह अनुसंधान डेटासेट और बेंचमार्क की कमी तथा प्रशिक्षण दक्षता में कमी जैसी चुनौतियों का सामना करता है। इन समस्याओं को हल करने के लिए, लेखकों ने निम्नलिखित प्रस्तावित किया है: (1) GPT-सहायता प्राप्त डेटा निर्माण प्रक्रिया, जो DFA-Instruct नामक निर्देश-अनुसरण डेटासेट उत्पन्न करती है; (2) DFA-Bench नामक बेंचमार्क, जो डीपफेक पहचान, वर्गीकरण और कलाकृति विवरण में MLLMs की क्षमताओं का व्यापक मूल्यांकन करने के लिए; (3) DFA-GPT नामक एक इंटरैक्टिव डीपफेक विश्लेषण प्रणाली का निर्माण, जो कम-रैंक अनुकूलन (LoRA) मॉड्यूल को समुदाय के लिए एक मजबूत आधार के रूप में नियोजित करती है।
कृत्रिम बुद्धिमत्ता द्वारा उत्पन्न सामग्री (AIGC) के तीव्र विकास के साथ, काल्पनिक और वास्तविकता के बीच की सीमा धुंधली हो गई है। अनुमति के बिना डीपफेक छवियाँ या वीडियो जनमत में हेराफेरी, साइबर बुलिंग, जबरदस्ती और साक्ष्य जालसाजी जैसे दुर्भावनापूर्ण उद्देश्यों के लिए उपयोग किए जा सकते हैं। डीपफेक विश्लेषण (DFA) डीपफेक तकनीक के संभावित नकारात्मक प्रभावों को विनियमित और कम करने के लिए महत्वपूर्ण है।
मौजूदा डीपफेक विश्लेषण विधियाँ मुख्य रूप से डीपफेक पहचान और वर्गीकरण के लिए विभेदक मॉडल पर निर्भर करती हैं, जो उनके अनुप्रयोग की सीमा को सीमित करती है। पारंपरिक विधियाँ केवल सरल द्विआधारी वर्गीकरण परिणाम (वास्तविक/जाली) या तकनीकी श्रेणियाँ प्रदान कर सकती हैं, विस्तृत कलाकृति विवरण प्रदान नहीं कर सकतीं या इंटरैक्टिव संवाद नहीं कर सकतीं।
सामाजिक सुरक्षा, व्यक्तिगत गोपनीयता संरक्षण और न्यायिक जांच जैसे महत्वपूर्ण क्षेत्रों में, इंटरैक्टिव डीपफेक विश्लेषण प्रणाली मानव विशेषज्ञों को आगे की जांच की आवश्यकता वाले सुराग प्रदान कर सकती है, कार्य दक्षता में उल्लेखनीय सुधार कर सकती है। बहु-मोडल बड़े भाषा मॉडल सूक्ष्म-दानेदार जटिल दृश्य सुराग का वर्णन और तर्क करने में महत्वपूर्ण सफलता प्राप्त कर चुके हैं, और निर्देश ट्यूनिंग के बाद इंटरैक्टिव डीपफेक विश्लेषण प्रणाली के लिए उपयुक्त हैं।
इंटरैक्टिव डीपफेक विश्लेषण की अवधारणा पहली बार प्रस्तावित की: चार मुख्य क्षमताओं को परिभाषित किया: डीपफेक पहचान (DF-D), डीपफेक वर्गीकरण (DF-C), कलाकृति विवरण (AD) और मुक्त संवाद (FC)
बड़े पैमाने पर निर्देश-अनुसरण डेटासेट DFA-Instruct का निर्माण: 127.3K संरेखित चेहरे की छवियाँ और 891.6K प्रश्न-उत्तर जोड़े शामिल हैं, GPT-सहायता प्राप्त डेटा निर्माण प्रवाह का उपयोग करते हुए
व्यापक मूल्यांकन बेंचमार्क DFA-Bench की स्थापना: डीपफेक विश्लेषण में कलाकृति विवरण कार्य के लिए पहली बार मूल्यांकन ढांचा प्रदान किया
DFA-GPT प्रणाली का विकास: LoRA-आधारित कुशल प्रशिक्षण रणनीति, सीमित कंप्यूटिंग संसाधनों के तहत इंटरैक्टिव डीपफेक विश्लेषण प्रणाली का सफल निर्माण
पारंपरिक विधियाँ मुख्य रूप से यह निर्धारित करने के लिए विभेदक मॉडल का उपयोग करती हैं कि इनपुट छवि जाली है या नहीं, लेकिन कलाकृति विवरण प्रदान नहीं कर सकतीं।
पेपर में 48 संबंधित संदर्भ हैं, जो डीपफेक तकनीकें, पहचान विधियाँ, बहु-मोडल बड़े भाषा मॉडल, निर्देश ट्यूनिंग आदि महत्वपूर्ण क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह एक अग्रणी महत्व वाला उच्च-गुणवत्ता वाला पेपर है, जो पहली बार इंटरैक्टिव डीपफेक विश्लेषण की इस महत्वपूर्ण दिशा की व्यवस्थित रूप से खोज करता है। पेपर तकनीकी नवाचार, प्रयोगात्मक डिज़ाइन और व्यावहारिक मूल्य के संदर्भ में उत्कृष्ट प्रदर्शन करता है, डीपफेक विश्लेषण क्षेत्र के विकास में महत्वपूर्ण योगदान देता है। हालांकि कुछ सीमाएँ हैं, लेकिन इसकी अग्रणी अनुसंधान सोच और व्यवस्थित समाधान इसे महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य प्रदान करते हैं।