The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
- Papier-ID: 2510.08605
- Titel: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- Autoren: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
- Klassifizierung: cs.CL (Computerlinguistik), cs.AI, cs.CR, cs.LG
- Veröffentlichungsdatum: 7. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.08605
Die schnelle Verbreitung von Desinformation auf digitalen Plattformen gefährdet den öffentlichen Diskurs, die emotionale Stabilität und die Entscheidungsfindung. Obwohl frühere Arbeiten verschiedene adversariale Anschläge bei der Desinformationserkennung untersucht haben, wurden die in diesem Papier untersuchten spezifischen Transformationen bisher nicht systematisch erforscht. Insbesondere untersucht dieses Papier Sprachwechsel über Englisch, Französisch, Spanisch, Arabisch, Hindi und Chinesisch sowie nachfolgende Übersetzungen. Gleichzeitig werden die Abfragelängenerweiterung vor der Zusammenfassung und die strukturierte Umformatierung in Multiple-Choice-Fragen untersucht. Das Papier schlägt ein mehrsprachiges Multi-Agent-Sprachmodell-Framework vor, das Retrieval-Augmented-Generation-Techniken kombiniert und als Web-Plugin auf Online-Plattformen bereitgestellt werden kann. Diese Arbeit unterstreicht die Bedeutung von KI-gestützter Desinformationserkennung zum Schutz der Online-Faktentreue und demonstriert die Machbarkeit einer Plugin-basierten Bereitstellung in echten Webanwendungen.
Das Kernproblem dieser Forschung ist die mangelnde Fähigkeit großer Sprachmodelle (LLMs), bei adversarialen Angriffen wirksam Desinformation zu erkennen, was dazu führt, dass sie unbeabsichtigt die Verbreitung von Desinformation verstärken.
- Gesellschaftliche Auswirkungen: Die schnelle Verbreitung von Desinformation gefährdet ernsthaft den öffentlichen Diskurs, die emotionale Stabilität und die Entscheidungsfindung
- Technische Herausforderungen: Bestehende LLMs zeigen bei der Desinformationserkennung eine Leistung nahe am Zufallsraten
- Sicherheitsanforderungen: Es ist ein robustes Erkennungssystem erforderlich, das verschiedenartigen Angriffen standhält
- Begrenzte eingebettete Kenntnisse: LLMs verlassen sich nur auf während des Trainings eingebettete Kenntnisse und fehlt die Echtzeit-Faktenprüfungsfähigkeit
- Sprachverzerrung: Die Leistung bei nicht-englischen Sprachen sinkt erheblich
- Anfälligkeit für adversariale Anschläge: Mangelnde Widerstandsfähigkeit gegen Formatkonvertierung, Übersetzung, Zusammenfassung und andere Anschläge
- Mangel an systematischer Forschung: Bestehende Arbeiten bewerten mehrsprachige, mehrstrukturelle adversariale Anschläge nicht systematisch
Die Autoren schlagen vor, ein mehrsprachiges Desinformationserkennungssystem zu entwickeln, das verschiedenen adversarialen Angriffen widerstehen kann und als praktisches Web-Plugin bereitgestellt werden kann.
- Vorschlag eines Multi-Agent-RAG-Frameworks: Multi-Agent-Architektur, die Llama 3.1-8B und Retrieval-Augmented-Generation-Techniken kombiniert
- Konstruktion eines neuartigen adversarialen Anschlagsdatensatzes: Datensatz mit drei Angriffsformen: Multiple-Choice-Fragen (MCQ), Übersetzung und Zusammenfassung
- Implementierung mehrsprachiger Erkennungsfähigkeiten: Unterstützung für sechs Sprachen: Englisch, Französisch, Spanisch, Arabisch, Hindi und Chinesisch
- Validierung der praktischen Bereitstellungsmachbarkeit: Konzipiert als bereitstellbares Web-Plugin
- Umfassende experimentelle Bewertung: Erreicht über 95% Genauigkeit bei der Desinformationserkennung
Eingabe: Textinhalte aus dem Web (Nachrichtenartikel, Benutzerkommentare, Social-Media-Beiträge usw.), die möglicherweise adversariale Transformationen enthalten
Ausgabe: Binäres Klassifizierungsergebnis (Wahr/Falsch), das bestimmt, ob der Eingabetext Desinformation enthält
Einschränkungen: Das System muss in einer Black-Box-Einstellung funktionieren und Urteile nur auf Grundlage von binärem Feedback fällen
- Einbettungsmodelle: Vergleich von drei mehrsprachigen Einbettungsmodellen
- OpenAI's text-embedding-3-large (proprietär)
- jina-embeddings-v3 (proprietär)
- multilingual-e5-large (Open Source)
- Abrufmechanismus: Abrufsystem basierend auf Kosinusähnlichkeit
- Speicherung von Desinformations-Überschriften-Einbettungen in CSV-Dateien
- Abruf der relevantesten Desinformations-Überschriften zur Abfrage
- Verwendung von Llama für kontextuelle Analyse zur endgültigen Beurteilung
Das System umfasst vier zusammenarbeitende Agenten:
- Web-Crawler-Agent
- Extraktion strukturierter Inhalte von dynamischen Websites
- Aufteilung von Text in verwaltbare Blöcke
- Weitergabe an Manager-Agent zur Verarbeitung
- Manager-Agent
- Interaktion mit Web-Crawler zum Empfang von Text
- Weiterleitung an Thema- und Desinformationserkennungs-Agenten
- Benachrichtigungen an Benutzer senden
- Desinformationserkennungs-Agent
- Nutzung von RAG-Llama zur Erkennung
- Abruf aus einer Datenbank mit 5.000 verifizierten Desinformations-Überschriften
- Verwendung des Open-Source-Llama-Modells für endgültige Beurteilung
- Thema-Agent (optional)
- Klassifizierung von Abfragen in 10 vordefinierte Kategorien
- Beschleunigung des RAG-Suchprozesses
- Verwendung von GPT-4o-mini für Themenklassifizierung
- Bewertungs-Agent
- Sicherstellung, dass alle Textblöcke verarbeitet werden
- Validierung der Konsistenz aller Systemkomponenten
- Fungiert als zusätzliche Validierungsebene zur Verbesserung der Robustheit
- Mehrmodal-Adversariale-Angriffsverarbeitung: Erstmalige systematische Behandlung von MCQ-, Übersetzungs- und Zusammenfassungsangriffen
- Mehrsprachige Abruffähigkeit: Nutzung mehrsprachiger Einbettungsmodelle für sprachübergreifende Erkennung
- Negative-Stichproben-Matching-Strategie: Verwendung nur der Desinformationsdatenbank für negatives Matching
- Modulares Plugin-Design: Direkte Bereitstellung als Web-Browser-Plugin
- Desinformations-Überschriften: 20.950 Desinformations-Überschriften von Snopes und Politifact
- Fakten-Überschriften: 4.000 echte Überschriften
- Experimentelle Daten: Auswahl von 5.000 Desinformations-Überschriften und 2.000 Fakten-Überschriften
- MCQ-Datensatz: Umwandlung von Überschriften in Multiple-Choice-Fragen, die mit "Warum" beginnen
- Übersetzungs-Datensatz: Übersetzung erweiterter Texte in sechs Sprachen
- Zusammenfassungs-Datensatz: Generierung von 500-Wort-Texten für Zusammenfassungsaufgaben
- Fakten-Genauigkeit: Prozentsatz der korrekten Klassifizierung von Faktinformationen
- Desinformations-Genauigkeit: Prozentsatz der korrekten Klassifizierung von Desinformation
- Anschlagserfolgquote (ASR): Anteil der adversarialen Eingaben, die zum Systemausfall führen (je niedriger, desto besser)
- Basis-Modell: Original Llama 3.1-8B-Instruct
- RAG-Llama-Varianten mit verschiedenen Einbettungsmodellen
- Systemvarianten mit/ohne Themenklassifizierung
- Modell: Llama 3.1-8B-Instruct
- Hardware: GPU A100 80GB
- Hyperparameter: temperature=0.1, top-p=1
- Einbettungsspeicherung: CSV-Dateiformat
- Direkte Fragen ASR: 46,74%
- MCQ-Anschlag ASR: 97,72%
- Übersetzungs-Anschlag ASR: 100%
- Zusammenfassungs-Anschlag ASR: 100%
| Anschlagstyp | Desinformations-Genauigkeit | Fakten-Genauigkeit |
|---|
| Direkte Fragen | 99,76% | 85,25% |
| MCQ | 97,38% | 89,85% |
| Zusammenfassung | 99,3% | 95,15% |
| Französische Übersetzung | 97,72% | 87,25% |
| Arabische Übersetzung | 97,26% | 88,65% |
| Hindi-Übersetzung | 95,2% | 87,4% |
| Chinesische Übersetzung | 96,44% | 93,5% |
| Spanische Übersetzung | 97,9% | 90,9% |
| Einbettungsmodell | Durchschnittliche MCQ-Genauigkeit | Durchschnittliche Zusammenfassungs-Genauigkeit | Durchschnittliche Übersetzungs-Genauigkeit |
|---|
| text-embedding-3-large | 93,62% | 97,23% | 93,22% |
| jina-embeddings-v3 | 95,29% | 89,08% | 93,35% |
| multilingual-e5-large | 95,26% | 89,02% | 93,92% |
- Geschwindigkeitssteigerung: Median über 2x, Durchschnitt über 3x
- Genauigkeit: Variiert zwischen 78,27%-91,18%
- Relativ niedrigere MCQ-Aufgaben-Genauigkeit: Aufgrund mehrerer Themen in Multiple-Choice-Antworten schwierig zu klassifizieren
- RAG deutlich besser als Basis-Modell: Erhebliche Verbesserungen bei allen Anschlagstypen
- Mehrsprachige Fähigkeit: Aufrechterhaltung von über 95% Desinformations-Erkennungsgenauigkeit in sechs Sprachen
- Einfluss des Einbettungsmodells: multilingual-e5-large zeigt die beste Balance zwischen Leistung und Zugänglichkeit
- Themenklassifizierungs-Beschleunigung: Effektive Verbesserung der Abrufgeschwindigkeit, aber mit etwas reduzierter Genauigkeit bei komplexen Abfragen
- BERT-basierte Methoden (FakeBERT usw.)
- T5-Instruktions-Fine-Tuning
- Llama-2 PEFT/LoRA Fine-Tuning
- Verstärkungslernmethoden
- Mixtral-8x7B kombiniert mit RAG
- Integration von Echtzeit-Webdaten
- Adaptive Topic RAG (AT-RAG)
- LLM-Consensus für visuelle Desinformationserkennung
- TruEDebate (TED) strukturiertes Debattensystem
- Framework für vollständigen Desinformations-Lebenszyklus
- Gradient-basierte Token-Level-Ersetzung
- Verstärkungslern-gesteuerte Aussage-Störung
- Black-Box-Angriffsstrategien
- Signifikante LLM-Anfälligkeit: Original-LLMs sind unter adversarialen Angriffen äußerst anfällig für die Verbreitung von Desinformation
- RAG verbessert Robustheit wirksam: RAG-Llama übertrifft das Basis-Modell deutlich unter verschiedenen Angriffen
- Mehrsprachige Erkennung ist machbar: Das System kann Desinformation in sechs Hauptsprachen wirksam verarbeiten
- Praktisches Bereitstellungspotenzial: Multi-Agent-Architektur eignet sich für die Bereitstellung als Web-Plugin
- Themenklassifizierungsgenauigkeit: Themen-Fehlklassifizierung beeinträchtigt Abrufgenauigkeit
- Datenbankabhängigkeit: Die Systemleistung hängt stark von der Qualität und Vollständigkeit der Desinformationsdatenbank ab
- Dynamische Aktualisierungsanforderungen: Kontinuierliche Datenbankaktualisierung erforderlich, um neue Desinformation zu bekämpfen
- Sicherheitslücken: RAG-Systeme können mit Datenbankverunreinigung und Einbettungsangriffen konfrontiert werden
- Verbesserung der Themenklassifizierung: Erhöhung der Klassifizierungsgenauigkeit bei komplexen Abfragen
- Erkundung anderer LLMs: Bewertung der Leistung verschiedener Sprachmodelle in RAG
- Verbesserte Sicherheit: Entwicklung von Schutzmechanismen gegen Einbettungsanschläge und Datenbankverunreinigung
- Erweiterung von Anschlagstypen: Untersuchung weiterer Arten adversarialer Transformationen
- Problemrelevanz: Löst kritische Sicherheitsprobleme bei der LLM-Desinformationserkennung
- Methodische Innovation: Erste systematische Untersuchung mehrsprachiger, mehrstruktureller adversarialer Anschläge
- Experimentelle Umfassendheit: Umfassende Bewertung über sechs Sprachen und drei Anschlagstypen
- Praktischer Wert: Bietet bereitstellbare Plugin-Lösung
- Technische Fortgeschrittenheit: Kombiniert neueste RAG- und Multi-Agent-Techniken
- Datensatzgrößenbeschränkung: Verwendung von nur 7.000 Überschriften, relativ kleine Skalierung
- Begrenzte Anschlagstypen: Berücksichtigung von nur drei spezifischen Angriffsformen
- Einzelne Bewertungsmetriken: Hauptfokus auf Genauigkeit, Mangel an Effizienz-, Kostenmetriken usw.
- Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung für Methodeneffektivität
- Langzeitstabilität nicht validiert: Keine Bewertung der Leistungsabnahme bei längerfristiger Nutzung
- Akademischer Beitrag: Bietet neue Forschungsrichtung für mehrsprachige Desinformationserkennung
- Praktischer Wert: Direkt anwendbar auf Social-Media- und Nachrichtenplattformen
- Reproduzierbarkeit: Verwendung von Open-Source-Modellen ermöglicht einfache Reproduktion und Verbesserung
- Branchenauswirkungen: Bietet technische Grundlage für Content-Moderation und Faktenprüfung
- Social-Media-Plattformen: Echtzeiterkennung von Desinformation in Benutzerbeiträgen
- Nachrichtenaggregate-Websites: Validierung der Authentizität von Nachrichtenartikeln
- Bildungsplattformen: Unterstützung von Benutzern bei der Identifizierung von Desinformation
- Unternehmens-Content-Moderation: Automatisierte Moderation großer Inhaltsmengen
- Behördliche Regulierung: Unterstützung relevanter Behörden bei der Überwachung von Online-Desinformation
Dieses Papier zitiert 50 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich LLMs, RAG, Multi-Agent-Systemen und adversarialen Angriffen, und bietet eine solide theoretische Grundlage für die Forschung.
Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich der Desinformationserkennung, das ein innovatives Multi-Agent-RAG-Framework vorschlägt und unter mehrsprachigen, mehrfachen Angriffstypen-Einstellungen hervorragende experimentelle Ergebnisse erzielt. Obwohl es einige Einschränkungen gibt, machen sein praktischer Wert und seine technische Innovation es zu einem wichtigen Fortschritt in diesem Bereich.