2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki

The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.

academic

Auf dem Weg zu einem sichereren Web: Mehrsprachige Multi-Agent-LLMs zur Minderung adversarialer Desinformationsanschläge

Grundlegende Informationen

Papier-ID: 2510.08605
Titel: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
Autoren: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
Klassifizierung: cs.CL (Computerlinguistik), cs.AI, cs.CR, cs.LG
Veröffentlichungsdatum: 7. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.08605

Zusammenfassung

Die schnelle Verbreitung von Desinformation auf digitalen Plattformen gefährdet den öffentlichen Diskurs, die emotionale Stabilität und die Entscheidungsfindung. Obwohl frühere Arbeiten verschiedene adversariale Anschläge bei der Desinformationserkennung untersucht haben, wurden die in diesem Papier untersuchten spezifischen Transformationen bisher nicht systematisch erforscht. Insbesondere untersucht dieses Papier Sprachwechsel über Englisch, Französisch, Spanisch, Arabisch, Hindi und Chinesisch sowie nachfolgende Übersetzungen. Gleichzeitig werden die Abfragelängenerweiterung vor der Zusammenfassung und die strukturierte Umformatierung in Multiple-Choice-Fragen untersucht. Das Papier schlägt ein mehrsprachiges Multi-Agent-Sprachmodell-Framework vor, das Retrieval-Augmented-Generation-Techniken kombiniert und als Web-Plugin auf Online-Plattformen bereitgestellt werden kann. Diese Arbeit unterstreicht die Bedeutung von KI-gestützter Desinformationserkennung zum Schutz der Online-Faktentreue und demonstriert die Machbarkeit einer Plugin-basierten Bereitstellung in echten Webanwendungen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die mangelnde Fähigkeit großer Sprachmodelle (LLMs), bei adversarialen Angriffen wirksam Desinformation zu erkennen, was dazu führt, dass sie unbeabsichtigt die Verbreitung von Desinformation verstärken.

Problemrelevanz

Gesellschaftliche Auswirkungen: Die schnelle Verbreitung von Desinformation gefährdet ernsthaft den öffentlichen Diskurs, die emotionale Stabilität und die Entscheidungsfindung
Technische Herausforderungen: Bestehende LLMs zeigen bei der Desinformationserkennung eine Leistung nahe am Zufallsraten
Sicherheitsanforderungen: Es ist ein robustes Erkennungssystem erforderlich, das verschiedenartigen Angriffen standhält

Einschränkungen bestehender Methoden

Begrenzte eingebettete Kenntnisse: LLMs verlassen sich nur auf während des Trainings eingebettete Kenntnisse und fehlt die Echtzeit-Faktenprüfungsfähigkeit
Sprachverzerrung: Die Leistung bei nicht-englischen Sprachen sinkt erheblich
Anfälligkeit für adversariale Anschläge: Mangelnde Widerstandsfähigkeit gegen Formatkonvertierung, Übersetzung, Zusammenfassung und andere Anschläge
Mangel an systematischer Forschung: Bestehende Arbeiten bewerten mehrsprachige, mehrstrukturelle adversariale Anschläge nicht systematisch

Forschungsmotivation

Die Autoren schlagen vor, ein mehrsprachiges Desinformationserkennungssystem zu entwickeln, das verschiedenen adversarialen Angriffen widerstehen kann und als praktisches Web-Plugin bereitgestellt werden kann.

Kernbeiträge

Vorschlag eines Multi-Agent-RAG-Frameworks: Multi-Agent-Architektur, die Llama 3.1-8B und Retrieval-Augmented-Generation-Techniken kombiniert
Konstruktion eines neuartigen adversarialen Anschlagsdatensatzes: Datensatz mit drei Angriffsformen: Multiple-Choice-Fragen (MCQ), Übersetzung und Zusammenfassung
Implementierung mehrsprachiger Erkennungsfähigkeiten: Unterstützung für sechs Sprachen: Englisch, Französisch, Spanisch, Arabisch, Hindi und Chinesisch
Validierung der praktischen Bereitstellungsmachbarkeit: Konzipiert als bereitstellbares Web-Plugin
Umfassende experimentelle Bewertung: Erreicht über 95% Genauigkeit bei der Desinformationserkennung

Methodische Details

Aufgabendefinition

Eingabe: Textinhalte aus dem Web (Nachrichtenartikel, Benutzerkommentare, Social-Media-Beiträge usw.), die möglicherweise adversariale Transformationen enthalten Ausgabe: Binäres Klassifizierungsergebnis (Wahr/Falsch), das bestimmt, ob der Eingabetext Desinformation enthält Einschränkungen: Das System muss in einer Black-Box-Einstellung funktionieren und Urteile nur auf Grundlage von binärem Feedback fällen

Modellarchitektur

RAG-Llama-Kernkomponenten

Einbettungsmodelle: Vergleich von drei mehrsprachigen Einbettungsmodellen
- OpenAI's text-embedding-3-large (proprietär)
- jina-embeddings-v3 (proprietär)
- multilingual-e5-large (Open Source)
Abrufmechanismus: Abrufsystem basierend auf Kosinusähnlichkeit
- Speicherung von Desinformations-Überschriften-Einbettungen in CSV-Dateien
- Abruf der relevantesten Desinformations-Überschriften zur Abfrage
- Verwendung von Llama für kontextuelle Analyse zur endgültigen Beurteilung

Multi-Agent-Architektur

Das System umfasst vier zusammenarbeitende Agenten:

Web-Crawler-Agent
- Extraktion strukturierter Inhalte von dynamischen Websites
- Aufteilung von Text in verwaltbare Blöcke
- Weitergabe an Manager-Agent zur Verarbeitung
Manager-Agent
- Interaktion mit Web-Crawler zum Empfang von Text
- Weiterleitung an Thema- und Desinformationserkennungs-Agenten
- Benachrichtigungen an Benutzer senden
Desinformationserkennungs-Agent
- Nutzung von RAG-Llama zur Erkennung
- Abruf aus einer Datenbank mit 5.000 verifizierten Desinformations-Überschriften
- Verwendung des Open-Source-Llama-Modells für endgültige Beurteilung
Thema-Agent (optional)
- Klassifizierung von Abfragen in 10 vordefinierte Kategorien
- Beschleunigung des RAG-Suchprozesses
- Verwendung von GPT-4o-mini für Themenklassifizierung
Bewertungs-Agent
- Sicherstellung, dass alle Textblöcke verarbeitet werden
- Validierung der Konsistenz aller Systemkomponenten
- Fungiert als zusätzliche Validierungsebene zur Verbesserung der Robustheit

Technische Innovationen

Mehrmodal-Adversariale-Angriffsverarbeitung: Erstmalige systematische Behandlung von MCQ-, Übersetzungs- und Zusammenfassungsangriffen
Mehrsprachige Abruffähigkeit: Nutzung mehrsprachiger Einbettungsmodelle für sprachübergreifende Erkennung
Negative-Stichproben-Matching-Strategie: Verwendung nur der Desinformationsdatenbank für negatives Matching
Modulares Plugin-Design: Direkte Bereitstellung als Web-Browser-Plugin

Experimentelle Einrichtung

Datensatz

Datenquellen

Desinformations-Überschriften: 20.950 Desinformations-Überschriften von Snopes und Politifact
Fakten-Überschriften: 4.000 echte Überschriften
Experimentelle Daten: Auswahl von 5.000 Desinformations-Überschriften und 2.000 Fakten-Überschriften

Drei Anschlagsdatensätze

MCQ-Datensatz: Umwandlung von Überschriften in Multiple-Choice-Fragen, die mit "Warum" beginnen
Übersetzungs-Datensatz: Übersetzung erweiterter Texte in sechs Sprachen
Zusammenfassungs-Datensatz: Generierung von 500-Wort-Texten für Zusammenfassungsaufgaben

Bewertungsmetriken

Fakten-Genauigkeit: Prozentsatz der korrekten Klassifizierung von Faktinformationen
Desinformations-Genauigkeit: Prozentsatz der korrekten Klassifizierung von Desinformation
Anschlagserfolgquote (ASR): Anteil der adversarialen Eingaben, die zum Systemausfall führen (je niedriger, desto besser)

Vergleichsmethoden

Basis-Modell: Original Llama 3.1-8B-Instruct
RAG-Llama-Varianten mit verschiedenen Einbettungsmodellen
Systemvarianten mit/ohne Themenklassifizierung

Implementierungsdetails

Modell: Llama 3.1-8B-Instruct
Hardware: GPU A100 80GB
Hyperparameter: temperature=0.1, top-p=1
Einbettungsspeicherung: CSV-Dateiformat

Experimentelle Ergebnisse

Hauptergebnisse

Anfälligkeit des Basis-Modells

Direkte Fragen ASR: 46,74%
MCQ-Anschlag ASR: 97,72%
Übersetzungs-Anschlag ASR: 100%
Zusammenfassungs-Anschlag ASR: 100%

RAG-Llama-Leistung

Anschlagstyp	Desinformations-Genauigkeit	Fakten-Genauigkeit
Direkte Fragen	99,76%	85,25%
MCQ	97,38%	89,85%
Zusammenfassung	99,3%	95,15%
Französische Übersetzung	97,72%	87,25%
Arabische Übersetzung	97,26%	88,65%
Hindi-Übersetzung	95,2%	87,4%
Chinesische Übersetzung	96,44%	93,5%
Spanische Übersetzung	97,9%	90,9%

Vergleich der Einbettungsmodelle

Einbettungsmodell	Durchschnittliche MCQ-Genauigkeit	Durchschnittliche Zusammenfassungs-Genauigkeit	Durchschnittliche Übersetzungs-Genauigkeit
text-embedding-3-large	93,62%	97,23%	93,22%
jina-embeddings-v3	95,29%	89,08%	93,35%
multilingual-e5-large	95,26%	89,02%	93,92%

Themenklassifizierungseffekt

Geschwindigkeitssteigerung: Median über 2x, Durchschnitt über 3x
Genauigkeit: Variiert zwischen 78,27%-91,18%
Relativ niedrigere MCQ-Aufgaben-Genauigkeit: Aufgrund mehrerer Themen in Multiple-Choice-Antworten schwierig zu klassifizieren

Experimentelle Erkenntnisse

RAG deutlich besser als Basis-Modell: Erhebliche Verbesserungen bei allen Anschlagstypen
Mehrsprachige Fähigkeit: Aufrechterhaltung von über 95% Desinformations-Erkennungsgenauigkeit in sechs Sprachen
Einfluss des Einbettungsmodells: multilingual-e5-large zeigt die beste Balance zwischen Leistung und Zugänglichkeit
Themenklassifizierungs-Beschleunigung: Effektive Verbesserung der Abrufgeschwindigkeit, aber mit etwas reduzierter Genauigkeit bei komplexen Abfragen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Signifikante LLM-Anfälligkeit: Original-LLMs sind unter adversarialen Angriffen äußerst anfällig für die Verbreitung von Desinformation
RAG verbessert Robustheit wirksam: RAG-Llama übertrifft das Basis-Modell deutlich unter verschiedenen Angriffen
Mehrsprachige Erkennung ist machbar: Das System kann Desinformation in sechs Hauptsprachen wirksam verarbeiten
Praktisches Bereitstellungspotenzial: Multi-Agent-Architektur eignet sich für die Bereitstellung als Web-Plugin

Einschränkungen

Themenklassifizierungsgenauigkeit: Themen-Fehlklassifizierung beeinträchtigt Abrufgenauigkeit
Datenbankabhängigkeit: Die Systemleistung hängt stark von der Qualität und Vollständigkeit der Desinformationsdatenbank ab
Dynamische Aktualisierungsanforderungen: Kontinuierliche Datenbankaktualisierung erforderlich, um neue Desinformation zu bekämpfen
Sicherheitslücken: RAG-Systeme können mit Datenbankverunreinigung und Einbettungsangriffen konfrontiert werden

Zukünftige Richtungen

Verbesserung der Themenklassifizierung: Erhöhung der Klassifizierungsgenauigkeit bei komplexen Abfragen
Erkundung anderer LLMs: Bewertung der Leistung verschiedener Sprachmodelle in RAG
Verbesserte Sicherheit: Entwicklung von Schutzmechanismen gegen Einbettungsanschläge und Datenbankverunreinigung
Erweiterung von Anschlagstypen: Untersuchung weiterer Arten adversarialer Transformationen

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Löst kritische Sicherheitsprobleme bei der LLM-Desinformationserkennung
Methodische Innovation: Erste systematische Untersuchung mehrsprachiger, mehrstruktureller adversarialer Anschläge
Experimentelle Umfassendheit: Umfassende Bewertung über sechs Sprachen und drei Anschlagstypen
Praktischer Wert: Bietet bereitstellbare Plugin-Lösung
Technische Fortgeschrittenheit: Kombiniert neueste RAG- und Multi-Agent-Techniken

Mängel

Datensatzgrößenbeschränkung: Verwendung von nur 7.000 Überschriften, relativ kleine Skalierung
Begrenzte Anschlagstypen: Berücksichtigung von nur drei spezifischen Angriffsformen
Einzelne Bewertungsmetriken: Hauptfokus auf Genauigkeit, Mangel an Effizienz-, Kostenmetriken usw.
Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung für Methodeneffektivität
Langzeitstabilität nicht validiert: Keine Bewertung der Leistungsabnahme bei längerfristiger Nutzung

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für mehrsprachige Desinformationserkennung
Praktischer Wert: Direkt anwendbar auf Social-Media- und Nachrichtenplattformen
Reproduzierbarkeit: Verwendung von Open-Source-Modellen ermöglicht einfache Reproduktion und Verbesserung
Branchenauswirkungen: Bietet technische Grundlage für Content-Moderation und Faktenprüfung

Anwendungsszenarien

Social-Media-Plattformen: Echtzeiterkennung von Desinformation in Benutzerbeiträgen
Nachrichtenaggregate-Websites: Validierung der Authentizität von Nachrichtenartikeln
Bildungsplattformen: Unterstützung von Benutzern bei der Identifizierung von Desinformation
Unternehmens-Content-Moderation: Automatisierte Moderation großer Inhaltsmengen
Behördliche Regulierung: Unterstützung relevanter Behörden bei der Überwachung von Online-Desinformation

Literaturverzeichnis

Dieses Papier zitiert 50 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich LLMs, RAG, Multi-Agent-Systemen und adversarialen Angriffen, und bietet eine solide theoretische Grundlage für die Forschung.

Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich der Desinformationserkennung, das ein innovatives Multi-Agent-RAG-Framework vorschlägt und unter mehrsprachigen, mehrfachen Angriffstypen-Einstellungen hervorragende experimentelle Ergebnisse erzielt. Obwohl es einige Einschränkungen gibt, machen sein praktischer Wert und seine technische Innovation es zu einem wichtigen Fortschritt in diesem Bereich.