2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

Jarolím, Fajčík, Makaiová
Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
academic

क्या LLM साक्ष्य-आधारित तथ्य-जांच के लिए मानव-जैसे सूक्ष्म-दानेदार साक्ष्य निकाल सकते हैं?

बुनियादी जानकारी

  • पेपर ID: 2511.21401
  • शीर्षक: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
  • लेखक: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (ब्रनो प्रौद्योगिकी विश्वविद्यालय, चेक गणराज्य)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन तिथि: 26 नवंबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2511.21401

सारांश

यह पेपर बड़े भाषा मॉडल (LLM) की तथ्य-जांच परिदृश्य में सूक्ष्म-दानेदार साक्ष्य निकालने की क्षमता का अध्ययन करता है, विशेष रूप से चेक और स्लोवाक भाषाओं पर ध्यान केंद्रित करता है। अनुसंधान में 186 नमूनों वाला एक दोहरी-टिप्पणीकृत डेटासेट शामिल है, जहाँ प्रत्येक नमूने को दो स्वतंत्र टिप्पणीकारों द्वारा सूक्ष्म-दानेदार साक्ष्य के साथ टिप्पणी की गई है। 17 विभिन्न आकारों के LLM (4B से 685B पैरामीटर तक) का मूल्यांकन किया गया, जिससे पता चला: (1) LLM अक्सर स्रोत पाठ से साक्ष्य को शब्दशः प्रतिलिपि करने में विफल रहते हैं, जिससे अमान्य आउटपुट होता है; (2) llama3.1:8b मॉडल छोटे आकार के बावजूद उच्च सटीकता दिखाता है, जबकि gpt-oss-120b अधिक पैरामीटर होने के बावजूद खराब प्रदर्शन करता है; (3) qwen3:14b, deepseek-r1:32b और gpt-oss:20b मॉडल आकार और मानव टिप्पणी संरेखण के बीच प्रभावी संतुलन प्राप्त करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समाधान की जाने वाली समस्या

ऑनलाइन समाचार लेख टिप्पणी अनुभाग गलत सूचना प्रसार के लिए एक महत्वपूर्ण स्थान हैं। ऑनलाइन चर्चा को प्रभावी ढंग से प्रबंधित करने और गलत सूचना से लड़ने के लिए, स्वचालित सिस्टम की आवश्यकता है जो:

  • उपयोगकर्ता टिप्पणियों से सत्यापन योग्य दावे निकाल सकें
  • प्रासंगिक विश्वसनीय दस्तावेज़ पुनः प्राप्त कर सकें
  • दस्तावेज़ों में दावों का समर्थन या खंडन करने वाले पाठ के टुकड़ों को सटीक रूप से स्थानीयकृत कर सकें (सूक्ष्म-दानेदार साक्ष्य)

यह पेपर अंतिम कार्य पर केंद्रित है — सूक्ष्म-दानेदार साक्ष्य निष्कर्षण।

2. समस्या की महत्ता

  • उपयोगकर्ता की आवश्यकता: 3/4 से अधिक उपयोगकर्ता चाहते हैं कि विशेषज्ञ टिप्पणी अनुभाग में चर्चा का जवाब दें, लेकिन मानव प्रतिक्रिया व्यावहारिक नहीं है
  • दक्षता और प्रेरक शक्ति: पूरे दस्तावेज़ को साक्ष्य के रूप में प्रदान करना बहुत सामान्य है, जबकि सूक्ष्म-दानेदार पाठ के टुकड़े पाठकों को तेजी से मूल्यांकन करने देते हैं और निर्णय सटीकता को कम नहीं करते हैं
  • प्लेटफॉर्म अभ्यास: X प्लेटफॉर्म (पूर्व Twitter) "सामुदायिक नोट्स" का उपयोग करता है, Seznam.cz चयनित टिप्पणियों के लिए तथ्य-जांच जानकारी प्रदान करता है

3. मौजूदा विधियों की सीमाएं

  • मोटे-दानेदार साक्ष्य: मौजूदा स्वचालित तथ्य-जांच सिस्टम (जैसे FactLens, Loki) केवल पैराग्राफ-स्तरीय साक्ष्य प्रदान करते हैं
  • डेटासेट की कमी: FEVER और SciFact वाक्य-स्तरीय साक्ष्य प्रदान करते हैं, लेकिन चेक/स्लोवाक के लिए कोई डेटासेट नहीं है, और मौजूदा डेटासेट सबसे सूक्ष्म-दानेदार केवल वाक्य-स्तर तक हैं, अवधि (span) स्तर नहीं
  • LLM क्षमता अज्ञात: हालांकि LLM की तर्क क्षमता लगातार सुधार रही है, सूक्ष्म-दानेदार साक्ष्य निष्कर्षण कार्य पर मानव टिप्पणी के साथ इसके संरेखण की डिग्री अभी तक व्यवस्थित रूप से मूल्यांकन नहीं की गई है

4. अनुसंधान प्रेरणा

यह सत्यापित करना कि क्या LLM मनुष्यों की तरह सूक्ष्म-दानेदार साक्ष्य की पहचान और निष्कर्षण कर सकते हैं, स्वचालित तथ्य-जांच प्रणाली के निर्माण के लिए तकनीकी आधार प्रदान करना।

मुख्य योगदान

  1. नया डेटासेट निर्माण: चेक/स्लोवाक दावे-पाठ जोड़ियों के साथ 186 नमूनों वाला डेटासेट बनाया गया, जहाँ प्रत्येक नमूने को दो स्वतंत्र टिप्पणीकारों द्वारा सूक्ष्म-दानेदार साक्ष्य के साथ टिप्पणी की गई है, इस भाषा जोड़ी और अवधि-स्तरीय टिप्पणी में अंतर को भरता है
  2. LLM का व्यवस्थित मूल्यांकन: 17 विभिन्न आकारों के LLM (685B DeepSeek-R1, 120B gpt-oss जैसे तर्क मॉडल सहित, साथ ही Gemma-3, Phi4 जैसे खुले-वजन मॉडल) का सूक्ष्म-दानेदार साक्ष्य निष्कर्षण कार्य पर प्रदर्शन का मूल्यांकन
  3. त्रुटि दर और संरेखण विश्लेषण:
    • LLM द्वारा अमान्य आउटपुट उत्पन्न करने की त्रुटि दर का विश्लेषण
    • हंगेरियन मिलान एल्गोरिथ्म और Token-F1 का उपयोग करके मानव टिप्पणी के साथ संरेखण का मूल्यांकन
    • मॉडल आकार और प्रदर्शन के बीच गैर-रैखिक संबंध की खोज
  4. इष्टतम मॉडल की पहचान: मध्यम आकार के मॉडल (14B-32B) को दक्षता और सटीकता के बीच सर्वोत्तम संतुलन प्राप्त करते हुए पाया गया

विधि विवरण

कार्य परिभाषा

समस्या कथन: एक दावे और एक टोकनयुक्त पाठ t = (t₁, t₂, ..., tₙ) को देखते हुए, अवधि के एक सेट S = {s₁, s₂, ..., sₘ} का चयन करें, जहाँ प्रत्येक अवधि sₘ = (tᵢ, ..., tⱼ) (i ≤ j) दावे का समर्थन करने वाले एक सतत उप-अनुक्रम का प्रतिनिधित्व करता है।

मुख्य बाधाएं:

  • अवधि पाठ में सतत उप-अनुक्रम होना चाहिए
  • न्यूनतम पाठ के टुकड़ों का चयन करें
  • कई अवधि का चयन किया जा सकता है
  • अवधि को दावे की सत्यता का सीधे समर्थन करना चाहिए

डेटा निर्माण विधि

दोहरी-टिप्पणी प्रक्रिया

  1. नमूना संग्रह: 186 दावे-पाठ जोड़ियाँ
  2. टिप्पणीकार पूल: 8 गैर-विशेषज्ञ सशुल्क टिप्पणीकार
  3. स्वतंत्र टिप्पणी: प्रत्येक नमूने को दो विभिन्न टिप्पणीकारों द्वारा स्वतंत्र रूप से टिप्पणी की गई
  4. टिप्पणी उपकरण:
    • पहली टिप्पणी: कस्टम टिप्पणी उपकरण
    • दूसरी टिप्पणी: Label Studio
  5. टिप्पणी दिशानिर्देश:

    "दावे का समर्थन या खंडन करने वाले न्यूनतम पाठ भाग को हाइलाइट करें। सबसे अधिक आश्वस्त करने वाले भाग को हाइलाइट करें कि कथन सत्य है।"

टिप्पणी विशेषताएं

  • मानव टिप्पणीकार सीधे पाठ को हाइलाइट करते हैं, यह सुनिश्चित करते हुए कि चयनित पाठ स्रोत पाठ में सतत अवधि है
  • LLM को अवधि पाठ को पुनः उत्पन्न करने की आवश्यकता है, जो स्रोत पाठ में न होने वाले आउटपुट का उत्पादन कर सकता है

LLM साक्ष्य निष्कर्षण विधि

मॉडल चयन

तीन प्रकार के मॉडलों का मूल्यांकन किया गया:

1. मानक LLM (9):

  • qwen2.5 (72B, 32B)
  • llama3.3 (70B)
  • llama3.1 (8B)
  • gemma2 (27B)
  • gemma3 (27B, 12B, 4B)
  • phi4 (14B)
  • mixtral (8×7B)

2. चिंतन-श्रृंखला (CoT) तर्क मॉडल (8):

  • deepseek-r1 (685B, 32B)
  • gpt-oss (120B, 20B)
  • qwen3 (32B, 14B)

प्रॉम्प्ट इंजीनियरिंग

LLM को निम्नलिखित इनपुट प्राप्त होता है:

  • मूल टिप्पणी (संदर्भ प्रदान करने के लिए)
  • निकाला गया दावा
  • जिस पाठ से साक्ष्य निकालना है

मुख्य निर्देश:

  1. दावे का सीधे समर्थन करने वाले न्यूनतम पाठ भाग की पहचान करें
  2. दावे की सत्यता को सबसे अच्छी तरह से साबित करने वाले वाक्यांश का चयन करें
  3. पूरे वाक्य का चयन करने से बचें, जब तक बिल्कुल आवश्यक न हो
  4. कई अवधि का चयन किया जा सकता है
  5. पाठ को संशोधित, सुधार या पुनः लिखें नहीं, सभी व्याकरण और वाक्य संरचना त्रुटियों को संरक्षित करें
  6. JSON प्रारूप में आउटपुट: {"spans": [...]}
  7. प्रत्येक अवधि स्रोत पाठ का सटीक उप-स्ट्रिंग होना चाहिए (शब्दशः पूरी तरह से समान)

आधारभूत विधियाँ

1. दावा आधारभूत:

  • दावे को टोकन में विभाजित करें c = (c₁, c₂, ..., cₒ)
  • पाठ में दावे में शब्द अनुक्रम का मिलान करें
  • अवधि सेट Sᴄ बनाएं

2. क्वेरी आधारभूत:

  • टिप्पणीकार द्वारा साक्ष्य खोजते समय उपयोग की गई क्वेरी शर्तों का उपयोग करें
  • दावा आधारभूत के समान मिलान विधि

3. यादृच्छिक आधारभूत:

  • सतत अवधि को यादृच्छिक रूप से नमूना करें
  • अवधि संख्या और लंबाई यादृच्छिक रूप से चयनित टिप्पणीकार से मेल खाती है

मूल्यांकन विधि

पूर्व-प्रसंस्करण

सभी साक्ष्य सेट से स्टॉप शब्द हटाएं (परिशिष्ट A देखें, चेक/स्लोवाक सामान्य स्टॉप शब्द जैसे "a", "je", "to" आदि शामिल हैं)

Token-F1 गणना

  1. अवधि जोड़ी F1: दो टिप्पणी सेट में सभी संभावित अवधि जोड़ियों के लिए टोकन-स्तरीय F1 स्कोर की गणना करें
  2. हंगेरियन मिलान: हंगेरियन एल्गोरिथ्म का उपयोग करके इष्टतम असाइनमेंट खोजें, कुल F1 को अधिकतम करें
  3. अंतिम स्कोर: इष्टतम मिलान का औसत F1 एकल डेटा बिंदु के लिए टोकन-स्तरीय F1 के रूप में

कारण: चूंकि टिप्पणीकार और LLM विभिन्न संख्या में अवधि का चयन कर सकते हैं (विस्तार की डिग्री में भिन्न), हंगेरियन एल्गोरिथ्म इस अंतर के लिए दंड देने से बचता है।

मूल्यांकन मेट्रिक्स

  • त्रुटि दर: अमान्य आउटपुट का अनुपात (उत्पन्न अवधि स्रोत पाठ में नहीं है)
  • Token-F1: मानव टिप्पणी के साथ संरेखण
  • मानव-मध्य सहमति: दो टिप्पणीकारों के बीच F1 स्कोर

प्रयोगात्मक सेटअप

डेटासेट

  • आकार: 186 नमूने
  • भाषा: चेक और स्लोवाक
  • टिप्पणी: प्रत्येक नमूने के लिए 2 स्वतंत्र टिप्पणियाँ
  • स्रोत: ऑनलाइन समाचार टिप्पणियों में सत्यापन योग्य दावे
  • दस्तावेज़: टिप्पणीकारों द्वारा खोज इंजन का उपयोग करके पाए गए अत्यधिक प्रासंगिक दस्तावेज़

मूल्यांकन मेट्रिक्स

  • Invalid %: अमान्य आउटपुट प्रतिशत (उत्पन्न अवधि स्रोत पाठ में नहीं है)
  • Token-F1: हंगेरियन मिलान के आधार पर टोकन-स्तरीय F1 स्कोर (0-100 स्केल)
  • Max F1: दो टिप्पणीकारों में से उच्चतर F1 स्कोर के साथ (कम से कम एक टिप्पणीकार के साथ संरेखण को दर्शाता है)

तुलना विधियाँ

  • मानव टिप्पणी: ann 1 (LS) और ann 2
  • 17 LLM: विभिन्न आकार और आर्किटेक्चर
  • 3 आधारभूत: random, claim, query

कार्यान्वयन विवरण

  • समान प्रॉम्प्ट टेम्पलेट का उपयोग करें (परिशिष्ट B देखें)
  • JSON प्रारूप आउटपुट
  • तकनीकी बाधा लागू नहीं की गई (त्रुटियों को देखने के लिए स्रोत पाठ में न होने वाली अवधि उत्पन्न करने की अनुमति)
  • स्टॉप शब्द हटाने के बाद F1 की गणना करें

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. त्रुटि दर विश्लेषण (चित्र 1)

सबसे कम त्रुटि दर:

  • qwen2.5:72b: 4.3% (सर्वश्रेष्ठ, 72B पैरामीटर)
  • deepseek-r1: 7.0% (685B पैरामीटर)
  • llama3.1:8b: 13.4% (केवल 8B पैरामीटर, उत्कृष्ट प्रदर्शन)

सबसे अधिक त्रुटि दर:

  • mixtral:8x7b: 61.8% (सबसे खराब, 7B प्रभावी पैरामीटर)
  • gemma3:4b: 57.5% (4B पैरामीटर)
  • qwen3:14b: 40.3%

असामान्य मामले:

  • gpt-oss-120b: 32.8% (120B पैरामीटर लेकिन उच्च त्रुटि दर, अपेक्षा पूरी नहीं की)
  • llama3.3:70b: 27.4% (70B पैरामीटर लेकिन अपेक्षाकृत उच्च त्रुटि दर)

समग्र प्रवृत्ति: मॉडल आकार जितना बड़ा, त्रुटि दर आमतौर पर उतनी ही कम, लेकिन महत्वपूर्ण अपवाद मौजूद हैं।

2. निष्कर्षण प्रदर्शन विश्लेषण (चित्र 2)

मानव-मध्य सहमति:

  • ann 1 (LS) vs ann 2: F1 = 48

सर्वश्रेष्ठ LLM प्रदर्शन (ann 1 (LS) के साथ):

  • qwen3:14b: F1 = 56 (मानव सहमति से अधिक)
  • deepseek-r1:32b: F1 = 55 (मानव सहमति से अधिक)
  • deepseek-r1 (685B): F1 = 38
  • qwen2.5:72b: F1 = 43

ann 2 के साथ संरेखण:

  • सभी LLM का ann 2 के साथ F1 स्कोर ann 1 (LS) के साथ F1 स्कोर से कम है
  • यह दर्शाता है कि दोनों टिप्पणी वातावरण ने विभिन्न टिप्पणी शैलियों का उत्पादन किया

आधारभूत प्रदर्शन:

  • दावा आधारभूत: F1 = 17 (सटीकता लगभग 30, बहुत कम रिकॉल)
  • क्वेरी आधारभूत: F1 = 12
  • यादृच्छिक आधारभूत: F1 = 10

सभी गैर-तंत्रिका आधारभूत विधियाँ कमजोर प्रदर्शन करती हैं (F1 < 18)।

3. मॉडल आकार और प्रदर्शन संबंध (चित्र 3)

मुख्य निष्कर्ष:

  • छोटे से मध्यम आकार: प्रदर्शन आकार के साथ बढ़ता है
  • अति-बड़े आकार: 685B deepseek-r1 और 120B gpt-oss आगे सुधार नहीं लाते
  • सर्वश्रेष्ठ संतुलन बिंदु:
    • qwen3:14b: Max F1 ≈ 0.56
    • deepseek-r1:32b: Max F1 ≈ 0.55
    • gpt-oss:20b: Max F1 ≈ 0.45

निष्कर्ष: एक निश्चित सीमा से अधिक, केवल पैरामीटर बढ़ाना निष्कर्षण प्रदर्शन में सुधार नहीं करता है।

विलोपन प्रयोग

हालांकि पेपर पारंपरिक विलोपन प्रयोग नहीं करता है, विभिन्न मॉडलों की तुलना के माध्यम से निम्नलिखित विश्लेषण निहित है:

मॉडल आर्किटेक्चर का प्रभाव:

  • तर्क मॉडल (CoT) मानक मॉडलों से सुसंगत रूप से बेहतर नहीं हैं
  • deepseek-r1:32b उत्कृष्ट प्रदर्शन करता है, लेकिन deepseek-r1 (685B) बेहतर नहीं है

मॉडल आकार का प्रभाव:

  • 8B llama3.1 कई बड़े मॉडलों से बेहतर प्रदर्शन करता है
  • यह दर्शाता है कि मॉडल गुणवत्ता और प्रशिक्षण डेटा शुद्ध आकार से अधिक महत्वपूर्ण हैं

टिप्पणी उपकरण का प्रभाव:

  • Label Studio टिप्पणी (ann 1) और कस्टम उपकरण टिप्पणी (ann 2) में व्यवस्थित अंतर है
  • सभी LLM Label Studio टिप्पणी के करीब हैं

केस विश्लेषण

पेपर विशिष्ट केस प्रदान नहीं करता है, लेकिन विधि विवरण से निम्नलिखित का अनुमान लगाया जा सकता है:

मानव टिप्पणी उदाहरण:

  • इंटरफेस में सीधे न्यूनतम प्रासंगिक पाठ को हाइलाइट करें
  • व्याकरण त्रुटियों वाले मूल पाठ को शामिल कर सकते हैं

LLM आउटपुट उदाहरण (अनुमानित):

  • सही मामला: स्रोत पाठ के टुकड़ों को सटीक रूप से प्रतिलिपि करें
  • त्रुटि मामला: पुनः लिखना, व्याकरण सुधार, या गैर-मौजूद पाठ उत्पन्न करना

प्रयोगात्मक निष्कर्ष

  1. मॉडल आकार गैर-एकरूप संबंध: मध्यम आकार के मॉडल अति-बड़े मॉडलों से बेहतर हो सकते हैं
  2. निर्देश पालन क्षमता में अंतर: कई LLM "शब्दशः प्रतिलिपि" निर्देश का कठोरता से पालन नहीं कर सकते
  3. टिप्पणी वातावरण प्रभाव: विभिन्न टिप्पणी उपकरण विभिन्न दानेदारता की टिप्पणी उत्पन्न करते हैं
  4. आधारभूत विधि सीमा: सरल शब्द मिलान विधि सटीकता ठीक है लेकिन बहुत कम रिकॉल है
  5. क्रॉस-भाषा क्षमता: LLM चेक/स्लोवाक पर उचित प्रदर्शन करते हैं, इसकी बहुभाषी क्षमता को साबित करता है
  6. त्रुटि दर और संरेखण पूरी तरह से संबंधित नहीं: कम त्रुटि दर का मतलब उच्च F1 नहीं है (जैसे qwen2.5:72b)

संबंधित कार्य

1. स्वचालित तथ्य-जांच

FactLens:

  • जटिल दावों को उप-दावों में विभाजित करें
  • प्रत्येक उप-दावे की सत्यता का स्वतंत्र रूप से मूल्यांकन करें
  • सीमा: केवल पैराग्राफ-स्तरीय साक्ष्य प्रदान करता है

Loki:

  • स्वचालित प्रक्रिया: सत्यापन योग्य दावों की पहचान → साक्ष्य पुनः प्राप्ति → सत्यापन
  • सीमा: साक्ष्य अभी भी पैराग्राफ-स्तर पर है

AmbiFC:

  • अस्पष्टता का परिचय दें, कई वाक्य-स्तरीय टिप्पणी की अनुमति दें
  • वाक्य-स्तरीय साक्ष्य चयन की महत्ता दिखाएं
  • लेकिन वास्तविक टिप्पणी अभी भी पैराग्राफ-स्तर पर है

2. तथ्य-जांच डेटासेट

FEVER:

  • सामान्य दावे, विकिपीडिया से स्रोत
  • वाक्य-स्तरीय साक्ष्य
  • अंग्रेजी डेटा

SciFact:

  • वैज्ञानिक पेपर सारांश में कारण टिप्पणी
  • वाक्य-स्तरीय साक्ष्य
  • अंग्रेजी डेटा

इस पेपर के डेटासेट की विशिष्टता:

  • चेक/स्लोवाक
  • अवधि-स्तरीय साक्ष्य (वाक्य-स्तर से अधिक सूक्ष्म-दानेदार)
  • दोहरी टिप्पणी

3. LLM तर्क क्षमता

स्केलिंग कानून:

  • प्रदर्शन मॉडल आकार, आर्किटेक्चर सुधार और तर्क क्षमता के साथ सुधार होता है
  • लेकिन यह पेपर घटती हुई रिटर्न की खोज करता है

बहुभाषी क्षमता:

  • पूर्व कार्य दिखाता है कि LLM चेक और स्लोवाक डेटासेट पर मजबूत तर्क क्षमता रखते हैं
  • यह पेपर सूक्ष्म-दानेदार साक्ष्य निष्कर्षण कार्य पर इसकी प्रयोज्यता को सत्यापित करता है

इस पेपर की स्थिति

  • अवधि-स्तरीय सूक्ष्म-दानेदार साक्ष्य निष्कर्षण पर LLM के प्रदर्शन का पहला व्यवस्थित मूल्यांकन
  • चेक/स्लोवाक के लिए पहला सूक्ष्म-दानेदार साक्ष्य डेटासेट
  • मॉडल आकार और प्रदर्शन के बीच गैर-रैखिक संबंध को प्रकट करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. डेटासेट योगदान: चेक/स्लोवाक के लिए पहला अवधि-स्तरीय सूक्ष्म-दानेदार साक्ष्य डेटासेट, मानव-मध्य सहमति F1 47 के साथ
  2. त्रुटि दर और मॉडल आकार:
    • स्पष्ट संबंध: छोटे मॉडल (4B gemma3, 8B mixtral) की त्रुटि दर > 50%
    • बाधित डिकोडिंग तंत्र को अपनाने की आवश्यकता है
  3. प्रदर्शन घटती हुई रिटर्न:
    • छोटे से मध्यम आकार: प्रदर्शन सुधार
    • अति-बड़े आकार (685B, 120B): आगे सुधार नहीं
    • इष्टतम संतुलन: 14B qwen3, 32B deepseek-r1, 20B gpt-oss
  4. मानव संरेखण अतिक्रमण: कुछ LLM (qwen3:14b, deepseek-r1:32b) का F1 स्कोर मानव-मध्य सहमति से अधिक है (लेकिन केवल वैध नमूनों पर)

सीमाएं

  1. डेटासेट आकार:
    • केवल 186 नमूने
    • कुछ मॉडल 116 अमान्य आउटपुट उत्पन्न करते हैं
    • मूल्यांकन पूर्वाग्रह का परिचय दे सकता है
  2. मूल्यांकन पूर्वाग्रह:
    • अमान्य आउटपुट को बाहर करना अधिक कठिन नमूनों को हटा सकता है
    • कुछ मॉडलों के प्रदर्शन मेट्रिक्स को कृत्रिम रूप से बढ़ा सकता है
  3. एकल कार्य:
    • केवल समर्थक साक्ष्य पर ध्यान केंद्रित करता है
    • विरोधी साक्ष्य का विश्लेषण नहीं करता है
  4. भाषा सीमा:
    • केवल चेक और स्लोवाक को कवर करता है
    • अन्य भाषाओं में सामान्यीकरण क्षमता अज्ञात है
  5. टिप्पणी अंतर:
    • दो टिप्पणी उपकरण व्यवस्थित अंतर उत्पन्न करते हैं
    • कारणों का आगे विश्लेषण आवश्यक है
  6. बिना बाधा के उत्पादन:
    • अवधि को स्रोत पाठ में होना चाहिए यह तकनीकी रूप से लागू नहीं किया गया
    • उच्च त्रुटि दर का कारण बनता है

भविष्य की दिशा

  1. बाधित डिकोडिंग:
    • बाधित डिकोडिंग या संरचित आउटपुट उत्पादन लागू करें
    • शब्दार्थ और संरचनात्मक रूप से वैध साक्ष्य उत्पादन को बाध्य करें
    • अमान्य आउटपुट को महत्वपूर्ण रूप से कम करें
  2. विरोधी साक्ष्य:
    • विरोधी साक्ष्य पर समान विश्लेषण करें
    • तथ्य-जांच प्रक्रिया को पूर्ण करें
  3. डेटासेट विस्तार:
    • नमूना संख्या बढ़ाएं
    • सांख्यिकीय महत्व में सुधार करें
  4. टिप्पणी अंतर विश्लेषण:
    • दो टिप्पणी वातावरणों के अंतर का गहराई से विश्लेषण करें
    • टिप्पणी मानकों को एकीकृत करें
  5. अंत-से-अंत प्रणाली:
    • दावा निष्कर्षण, दस्तावेज़ पुनः प्राप्ति और साक्ष्य निष्कर्षण को एकीकृत करें
    • पूर्ण स्वचालित तथ्य-जांच प्रणाली का निर्माण करें
  6. बहुभाषी विस्तार:
    • अन्य भाषाओं में विस्तार करें
    • क्रॉस-भाषा सामान्यीकरण क्षमता का मूल्यांकन करें

गहन मूल्यांकन

लाभ

1. विधि नवीनता

  • पहली अवधि-स्तरीय टिप्पणी: मौजूदा वाक्य-स्तर से अधिक सूक्ष्म-दानेदार, वास्तविक अनुप्रयोग आवश्यकताओं के अनुरूप
  • दोहरी-टिप्पणी डिजाइन: मानव-मध्य सहमति की गणना करने में सक्षम, LLM मूल्यांकन के लिए बेंचमार्क प्रदान करता है
  • हंगेरियन मिलान एल्गोरिथ्म: विभिन्न विस्तार स्तरों के संरेखण समस्या को चतुराई से हल करता है, अन्यायपूर्ण दंड से बचता है

2. प्रयोग पूर्णता

  • मॉडल कवरेज व्यापक: 17 LLM, 4B से 685B पैरामीटर, मानक मॉडल और तर्क मॉडल को कवर करता है
  • बहु-आयामी विश्लेषण: त्रुटि दर, संरेखण, मॉडल आकार संबंध
  • आधारभूत तुलना: गैर-तंत्रिका आधारभूत और मानव टिप्पणी बेंचमार्क शामिल

3. परिणाम अंतर्दृष्टि

  • प्रति-सहज खोज: मॉडल आकार और प्रदर्शन के बीच गैर-रैखिक संबंध को प्रकट करता है
  • व्यावहारिक मूल्य: सर्वोत्तम मूल्य-प्रदर्शन मॉडल (14B-32B) की पहचान करता है
  • ईमानदार रिपोर्टिंग: उच्च त्रुटि दर और मूल्यांकन पूर्वाग्रह को ईमानदारी से रिपोर्ट करता है

4. लेखन स्पष्टता

  • समस्या परिभाषा स्पष्ट (औपचारिक परिभाषा)
  • विधि विवरण विस्तृत (पूर्ण प्रॉम्प्ट शामिल)
  • परिणाम दृश्य स्पष्ट (चित्र 1-3)

कमियाँ

1. विधि सीमाएं

  • बिना बाधा के उत्पादन: अवधि को स्रोत पाठ में होना चाहिए यह तकनीकी रूप से लागू नहीं किया गया, 30%-60% अमान्य आउटपुट का कारण बनता है
  • स्टॉप शब्द प्रसंस्करण: सरल हटाना महत्वपूर्ण जानकारी खो सकता है
  • एकल प्रॉम्प्ट: विभिन्न प्रॉम्प्ट रणनीतियों के प्रभाव की खोज नहीं की गई

2. प्रयोगात्मक सेटअप दोष

  • नमूना आकार छोटा: 186 नमूने मजबूत निष्कर्षों के लिए अपर्याप्त हो सकते हैं
  • मूल्यांकन पूर्वाग्रह: अमान्य नमूनों को बाहर करना प्रदर्शन तुलना को विकृत कर सकता है
  • सांख्यिकीय महत्व परीक्षण की कमी: सांख्यिकीय महत्व रिपोर्ट नहीं किया गया
  • एकल रन: कई रन के विचरण की रिपोर्ट नहीं की गई

3. विश्लेषण अपर्याप्त

  • केस स्टडी की कमी: सफल/विफल केस नहीं दिखाए गए
  • त्रुटि प्रकार विश्लेषण की कमी: त्रुटि प्रकारों को विभाजित नहीं किया गया (पुनः लिखना, भ्रम, काटना आदि)
  • टिप्पणी अंतर अस्पष्ट: दो टिप्पणी उपकरणों के व्यवस्थित अंतर की खोज की गई लेकिन गहराई से विश्लेषण नहीं किया गया
  • क्रॉस-भाषा अंतर: चेक और स्लोवाक प्रदर्शन को अलग नहीं किया गया

4. तकनीकी विवरण

  • हाइपरपैरामीटर रिपोर्ट नहीं: LLM तापमान, top-p आदि सेटिंग्स बताई नहीं गई
  • अनुमान लागत रिपोर्ट नहीं: विभिन्न आकार मॉडलों की वास्तविक कम्प्यूटेशनल लागत की तुलना नहीं की गई
  • दृढ़ता सत्यापित नहीं: प्रॉम्प्ट परिवर्तन, पाठ लंबाई आदि के प्रति दृढ़ता परीक्षण नहीं की गई

प्रभाव

1. क्षेत्र में योगदान

  • अंतर भरना: चेक/स्लोवाक के लिए पहला अवधि-स्तरीय सूक्ष्म-दानेदार साक्ष्य डेटासेट
  • पद्धति योगदान: अवधि संरेखण मूल्यांकन के लिए हंगेरियन मिलान विधि
  • अनुभवजन्य अंतर्दृष्टि: मॉडल आकार घटती हुई रिटर्न का अनुभवजन्य प्रमाण

2. व्यावहारिक मूल्य

  • मॉडल चयन मार्गदर्शन: वास्तविक तैनाती के लिए सर्वोत्तम मूल्य-प्रदर्शन मॉडल सुझाव
  • समस्या जागरूकता: LLM निर्देश पालन समस्या पर शोधकर्ताओं का ध्यान आकर्षित करता है
  • अनुप्रयोग परिदृश्य: ऑनलाइन चर्चा प्रबंधन के लिए तकनीकी पथ

3. पुनरुत्पादनीयता

  • लाभ:
    • पूर्ण प्रॉम्प्ट प्रदान करता है (परिशिष्ट B)
    • खुले-स्रोत मॉडल का उपयोग करता है (अधिकांश)
    • विधि विवरण विस्तृत
  • कमी:
    • डेटासेट सार्वजनिक नहीं (पेपर में प्रकाशन योजना का उल्लेख नहीं)
    • कोड खुला-स्रोत नहीं
    • विशिष्ट हाइपरपैरामीटर की कमी

लागू परिदृश्य

उपयुक्त परिदृश्य

  1. ऑनलाइन चर्चा प्रबंधन: टिप्पणियों के लिए स्वचालित तथ्य-जांच साक्ष्य
  2. समाचार प्लेटफॉर्म: उपयोगकर्ता टिप्पणियों के लिए संदर्भ जानकारी
  3. शैक्षिक अनुप्रयोग: छात्रों को साक्ष्य की पहचान करना सीखने में मदद करना
  4. अनुसंधान उपकरण: साहित्य समीक्षा में शोधकर्ताओं को सहायता करना

अनुपयुक्त परिदृश्य

  1. उच्च-जोखिम निर्णय: चिकित्सा, कानूनी आदि जहाँ 100% सटीकता आवश्यक है (त्रुटि दर अभी भी अधिक है)
  2. वास्तविक-समय अनुप्रयोग: अति-बड़े मॉडल (685B) की कम्प्यूटेशनल लागत बहुत अधिक है
  3. कम-संसाधन भाषाएं: विधि की अन्य भाषाओं में प्रभावशीलता सत्यापित नहीं है
  4. लंबे दस्तावेज़: लंबे पाठ को संभालने की क्षमता परीक्षण नहीं की गई

तैनाती सुझाव

  • अनुशंसित मॉडल: qwen3:14b या deepseek-r1:32b (प्रदर्शन और लागत का संतुलन)
  • आवश्यक सुधार: त्रुटि दर कम करने के लिए बाधित डिकोडिंग लागू करें
  • मानव समीक्षा: उच्च-जोखिम अनुप्रयोगों में मानव समीक्षा चरण रखें
  • बहुभाषी विस्तार: लक्ष्य भाषा के लिए पुनः मूल्यांकन की आवश्यकता है

संदर्भ (मुख्य साहित्य)

  1. FEVER (Thorne et al., 2018): बड़े पैमाने पर तथ्य निष्कर्षण और सत्यापन डेटासेट, वाक्य-स्तरीय साक्ष्य
  2. SciFact (Wadden et al., 2020): वैज्ञानिक दावा सत्यापन, वाक्य-स्तरीय कारण टिप्पणी
  3. AmbiFC (Glockner et al., 2024): अस्पष्टता के साथ तथ्य-जांच, सूक्ष्म-दानेदार साक्ष्य महत्व पर जोर
  4. DeepSeek-R1 (Guo et al., 2025): सुदृढ़ीकरण सीखने के माध्यम से तर्क को प्रोत्साहित करने वाला LLM
  5. Llama 3 (Grattafiori et al., 2024): Meta का खुला-स्रोत LLM श्रृंखला
  6. Hungarian Algorithm (Kuhn, 1955): असाइनमेंट समस्या के लिए शास्त्रीय एल्गोरिथ्म, अवधि मिलान के लिए उपयोग किया जाता है

सारांश मूल्यांकन

यह पेपर तथ्य-जांच में सूक्ष्म-दानेदार साक्ष्य निष्कर्षण के इस महत्वपूर्ण लेकिन कम-अनुसंधान किए गए कार्य पर मूल्यवान योगदान देता है। सबसे बड़ी ताकत अवधि-स्तरीय टिप्पणी वाला पहला चेक/स्लोवाक डेटासेट बनाना है, और इस कार्य पर LLM की क्षमता और सीमाओं को प्रकट करता है — विशेष रूप से मॉडल आकार घटती हुई रिटर्न और मध्यम आकार मॉडलों की उत्कृष्ट मूल्य-प्रदर्शन।

हालांकि, मुख्य सीमाएं छोटे नमूना आकार (186), उच्च त्रुटि दर (कुछ मॉडल > 50%) और अमान्य नमूनों को बाहर करने से संभावित मूल्यांकन पूर्वाग्रह हैं। भविष्य के कार्य को तकनीकी समस्याओं को हल करने के लिए बाधित डिकोडिंग तंत्र और डेटासेट विस्तार की तत्काल आवश्यकता है।

कमियों के बावजूद, यह पेपर स्वचालित तथ्य-जांच प्रणाली के निर्माण के लिए महत्वपूर्ण अनुभवजन्य आधार और पद्धति योगदान प्रदान करता है, विशेष रूप से अपेक्षाकृत कम-संसाधन भाषाओं के लिए। अनुशंसित रेटिंग: 4/5 — मूल्यवान अन्वेषणात्मक अनुसंधान, लेकिन वास्तविक तैनाती के लिए तकनीकी समस्याओं को हल करने के लिए बाद के कार्य की आवश्यकता है।