2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki
The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
academic

Auf dem Weg zu einem sichereren Web: Mehrsprachige Multi-Agent-LLMs zur Minderung adversarialer Desinformationsanschläge

Grundlegende Informationen

  • Papier-ID: 2510.08605
  • Titel: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
  • Autoren: Nouar Aldahoul, Yasir Zaki (New York University Abu Dhabi)
  • Klassifizierung: cs.CL (Computerlinguistik), cs.AI, cs.CR, cs.LG
  • Veröffentlichungsdatum: 7. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.08605

Zusammenfassung

Die schnelle Verbreitung von Desinformation auf digitalen Plattformen gefährdet den öffentlichen Diskurs, die emotionale Stabilität und die Entscheidungsfindung. Obwohl frühere Arbeiten verschiedene adversariale Anschläge bei der Desinformationserkennung untersucht haben, wurden die in diesem Papier untersuchten spezifischen Transformationen bisher nicht systematisch erforscht. Insbesondere untersucht dieses Papier Sprachwechsel über Englisch, Französisch, Spanisch, Arabisch, Hindi und Chinesisch sowie nachfolgende Übersetzungen. Gleichzeitig werden die Abfragelängenerweiterung vor der Zusammenfassung und die strukturierte Umformatierung in Multiple-Choice-Fragen untersucht. Das Papier schlägt ein mehrsprachiges Multi-Agent-Sprachmodell-Framework vor, das Retrieval-Augmented-Generation-Techniken kombiniert und als Web-Plugin auf Online-Plattformen bereitgestellt werden kann. Diese Arbeit unterstreicht die Bedeutung von KI-gestützter Desinformationserkennung zum Schutz der Online-Faktentreue und demonstriert die Machbarkeit einer Plugin-basierten Bereitstellung in echten Webanwendungen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die mangelnde Fähigkeit großer Sprachmodelle (LLMs), bei adversarialen Angriffen wirksam Desinformation zu erkennen, was dazu führt, dass sie unbeabsichtigt die Verbreitung von Desinformation verstärken.

Problemrelevanz

  1. Gesellschaftliche Auswirkungen: Die schnelle Verbreitung von Desinformation gefährdet ernsthaft den öffentlichen Diskurs, die emotionale Stabilität und die Entscheidungsfindung
  2. Technische Herausforderungen: Bestehende LLMs zeigen bei der Desinformationserkennung eine Leistung nahe am Zufallsraten
  3. Sicherheitsanforderungen: Es ist ein robustes Erkennungssystem erforderlich, das verschiedenartigen Angriffen standhält

Einschränkungen bestehender Methoden

  1. Begrenzte eingebettete Kenntnisse: LLMs verlassen sich nur auf während des Trainings eingebettete Kenntnisse und fehlt die Echtzeit-Faktenprüfungsfähigkeit
  2. Sprachverzerrung: Die Leistung bei nicht-englischen Sprachen sinkt erheblich
  3. Anfälligkeit für adversariale Anschläge: Mangelnde Widerstandsfähigkeit gegen Formatkonvertierung, Übersetzung, Zusammenfassung und andere Anschläge
  4. Mangel an systematischer Forschung: Bestehende Arbeiten bewerten mehrsprachige, mehrstrukturelle adversariale Anschläge nicht systematisch

Forschungsmotivation

Die Autoren schlagen vor, ein mehrsprachiges Desinformationserkennungssystem zu entwickeln, das verschiedenen adversarialen Angriffen widerstehen kann und als praktisches Web-Plugin bereitgestellt werden kann.

Kernbeiträge

  1. Vorschlag eines Multi-Agent-RAG-Frameworks: Multi-Agent-Architektur, die Llama 3.1-8B und Retrieval-Augmented-Generation-Techniken kombiniert
  2. Konstruktion eines neuartigen adversarialen Anschlagsdatensatzes: Datensatz mit drei Angriffsformen: Multiple-Choice-Fragen (MCQ), Übersetzung und Zusammenfassung
  3. Implementierung mehrsprachiger Erkennungsfähigkeiten: Unterstützung für sechs Sprachen: Englisch, Französisch, Spanisch, Arabisch, Hindi und Chinesisch
  4. Validierung der praktischen Bereitstellungsmachbarkeit: Konzipiert als bereitstellbares Web-Plugin
  5. Umfassende experimentelle Bewertung: Erreicht über 95% Genauigkeit bei der Desinformationserkennung

Methodische Details

Aufgabendefinition

Eingabe: Textinhalte aus dem Web (Nachrichtenartikel, Benutzerkommentare, Social-Media-Beiträge usw.), die möglicherweise adversariale Transformationen enthalten Ausgabe: Binäres Klassifizierungsergebnis (Wahr/Falsch), das bestimmt, ob der Eingabetext Desinformation enthält Einschränkungen: Das System muss in einer Black-Box-Einstellung funktionieren und Urteile nur auf Grundlage von binärem Feedback fällen

Modellarchitektur

RAG-Llama-Kernkomponenten

  1. Einbettungsmodelle: Vergleich von drei mehrsprachigen Einbettungsmodellen
    • OpenAI's text-embedding-3-large (proprietär)
    • jina-embeddings-v3 (proprietär)
    • multilingual-e5-large (Open Source)
  2. Abrufmechanismus: Abrufsystem basierend auf Kosinusähnlichkeit
    • Speicherung von Desinformations-Überschriften-Einbettungen in CSV-Dateien
    • Abruf der relevantesten Desinformations-Überschriften zur Abfrage
    • Verwendung von Llama für kontextuelle Analyse zur endgültigen Beurteilung

Multi-Agent-Architektur

Das System umfasst vier zusammenarbeitende Agenten:

  1. Web-Crawler-Agent
    • Extraktion strukturierter Inhalte von dynamischen Websites
    • Aufteilung von Text in verwaltbare Blöcke
    • Weitergabe an Manager-Agent zur Verarbeitung
  2. Manager-Agent
    • Interaktion mit Web-Crawler zum Empfang von Text
    • Weiterleitung an Thema- und Desinformationserkennungs-Agenten
    • Benachrichtigungen an Benutzer senden
  3. Desinformationserkennungs-Agent
    • Nutzung von RAG-Llama zur Erkennung
    • Abruf aus einer Datenbank mit 5.000 verifizierten Desinformations-Überschriften
    • Verwendung des Open-Source-Llama-Modells für endgültige Beurteilung
  4. Thema-Agent (optional)
    • Klassifizierung von Abfragen in 10 vordefinierte Kategorien
    • Beschleunigung des RAG-Suchprozesses
    • Verwendung von GPT-4o-mini für Themenklassifizierung
  5. Bewertungs-Agent
    • Sicherstellung, dass alle Textblöcke verarbeitet werden
    • Validierung der Konsistenz aller Systemkomponenten
    • Fungiert als zusätzliche Validierungsebene zur Verbesserung der Robustheit

Technische Innovationen

  1. Mehrmodal-Adversariale-Angriffsverarbeitung: Erstmalige systematische Behandlung von MCQ-, Übersetzungs- und Zusammenfassungsangriffen
  2. Mehrsprachige Abruffähigkeit: Nutzung mehrsprachiger Einbettungsmodelle für sprachübergreifende Erkennung
  3. Negative-Stichproben-Matching-Strategie: Verwendung nur der Desinformationsdatenbank für negatives Matching
  4. Modulares Plugin-Design: Direkte Bereitstellung als Web-Browser-Plugin

Experimentelle Einrichtung

Datensatz

Datenquellen

  • Desinformations-Überschriften: 20.950 Desinformations-Überschriften von Snopes und Politifact
  • Fakten-Überschriften: 4.000 echte Überschriften
  • Experimentelle Daten: Auswahl von 5.000 Desinformations-Überschriften und 2.000 Fakten-Überschriften

Drei Anschlagsdatensätze

  1. MCQ-Datensatz: Umwandlung von Überschriften in Multiple-Choice-Fragen, die mit "Warum" beginnen
  2. Übersetzungs-Datensatz: Übersetzung erweiterter Texte in sechs Sprachen
  3. Zusammenfassungs-Datensatz: Generierung von 500-Wort-Texten für Zusammenfassungsaufgaben

Bewertungsmetriken

  • Fakten-Genauigkeit: Prozentsatz der korrekten Klassifizierung von Faktinformationen
  • Desinformations-Genauigkeit: Prozentsatz der korrekten Klassifizierung von Desinformation
  • Anschlagserfolgquote (ASR): Anteil der adversarialen Eingaben, die zum Systemausfall führen (je niedriger, desto besser)

Vergleichsmethoden

  • Basis-Modell: Original Llama 3.1-8B-Instruct
  • RAG-Llama-Varianten mit verschiedenen Einbettungsmodellen
  • Systemvarianten mit/ohne Themenklassifizierung

Implementierungsdetails

  • Modell: Llama 3.1-8B-Instruct
  • Hardware: GPU A100 80GB
  • Hyperparameter: temperature=0.1, top-p=1
  • Einbettungsspeicherung: CSV-Dateiformat

Experimentelle Ergebnisse

Hauptergebnisse

Anfälligkeit des Basis-Modells

  • Direkte Fragen ASR: 46,74%
  • MCQ-Anschlag ASR: 97,72%
  • Übersetzungs-Anschlag ASR: 100%
  • Zusammenfassungs-Anschlag ASR: 100%

RAG-Llama-Leistung

AnschlagstypDesinformations-GenauigkeitFakten-Genauigkeit
Direkte Fragen99,76%85,25%
MCQ97,38%89,85%
Zusammenfassung99,3%95,15%
Französische Übersetzung97,72%87,25%
Arabische Übersetzung97,26%88,65%
Hindi-Übersetzung95,2%87,4%
Chinesische Übersetzung96,44%93,5%
Spanische Übersetzung97,9%90,9%

Vergleich der Einbettungsmodelle

EinbettungsmodellDurchschnittliche MCQ-GenauigkeitDurchschnittliche Zusammenfassungs-GenauigkeitDurchschnittliche Übersetzungs-Genauigkeit
text-embedding-3-large93,62%97,23%93,22%
jina-embeddings-v395,29%89,08%93,35%
multilingual-e5-large95,26%89,02%93,92%

Themenklassifizierungseffekt

  • Geschwindigkeitssteigerung: Median über 2x, Durchschnitt über 3x
  • Genauigkeit: Variiert zwischen 78,27%-91,18%
  • Relativ niedrigere MCQ-Aufgaben-Genauigkeit: Aufgrund mehrerer Themen in Multiple-Choice-Antworten schwierig zu klassifizieren

Experimentelle Erkenntnisse

  1. RAG deutlich besser als Basis-Modell: Erhebliche Verbesserungen bei allen Anschlagstypen
  2. Mehrsprachige Fähigkeit: Aufrechterhaltung von über 95% Desinformations-Erkennungsgenauigkeit in sechs Sprachen
  3. Einfluss des Einbettungsmodells: multilingual-e5-large zeigt die beste Balance zwischen Leistung und Zugänglichkeit
  4. Themenklassifizierungs-Beschleunigung: Effektive Verbesserung der Abrufgeschwindigkeit, aber mit etwas reduzierter Genauigkeit bei komplexen Abfragen

Verwandte Arbeiten

Fine-Tuning-Methoden

  • BERT-basierte Methoden (FakeBERT usw.)
  • T5-Instruktions-Fine-Tuning
  • Llama-2 PEFT/LoRA Fine-Tuning
  • Verstärkungslernmethoden

RAG-Methoden

  • Mixtral-8x7B kombiniert mit RAG
  • Integration von Echtzeit-Webdaten
  • Adaptive Topic RAG (AT-RAG)

Multi-Agent-Systeme

  • LLM-Consensus für visuelle Desinformationserkennung
  • TruEDebate (TED) strukturiertes Debattensystem
  • Framework für vollständigen Desinformations-Lebenszyklus

Adversariale Anschläge

  • Gradient-basierte Token-Level-Ersetzung
  • Verstärkungslern-gesteuerte Aussage-Störung
  • Black-Box-Angriffsstrategien

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Signifikante LLM-Anfälligkeit: Original-LLMs sind unter adversarialen Angriffen äußerst anfällig für die Verbreitung von Desinformation
  2. RAG verbessert Robustheit wirksam: RAG-Llama übertrifft das Basis-Modell deutlich unter verschiedenen Angriffen
  3. Mehrsprachige Erkennung ist machbar: Das System kann Desinformation in sechs Hauptsprachen wirksam verarbeiten
  4. Praktisches Bereitstellungspotenzial: Multi-Agent-Architektur eignet sich für die Bereitstellung als Web-Plugin

Einschränkungen

  1. Themenklassifizierungsgenauigkeit: Themen-Fehlklassifizierung beeinträchtigt Abrufgenauigkeit
  2. Datenbankabhängigkeit: Die Systemleistung hängt stark von der Qualität und Vollständigkeit der Desinformationsdatenbank ab
  3. Dynamische Aktualisierungsanforderungen: Kontinuierliche Datenbankaktualisierung erforderlich, um neue Desinformation zu bekämpfen
  4. Sicherheitslücken: RAG-Systeme können mit Datenbankverunreinigung und Einbettungsangriffen konfrontiert werden

Zukünftige Richtungen

  1. Verbesserung der Themenklassifizierung: Erhöhung der Klassifizierungsgenauigkeit bei komplexen Abfragen
  2. Erkundung anderer LLMs: Bewertung der Leistung verschiedener Sprachmodelle in RAG
  3. Verbesserte Sicherheit: Entwicklung von Schutzmechanismen gegen Einbettungsanschläge und Datenbankverunreinigung
  4. Erweiterung von Anschlagstypen: Untersuchung weiterer Arten adversarialer Transformationen

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Löst kritische Sicherheitsprobleme bei der LLM-Desinformationserkennung
  2. Methodische Innovation: Erste systematische Untersuchung mehrsprachiger, mehrstruktureller adversarialer Anschläge
  3. Experimentelle Umfassendheit: Umfassende Bewertung über sechs Sprachen und drei Anschlagstypen
  4. Praktischer Wert: Bietet bereitstellbare Plugin-Lösung
  5. Technische Fortgeschrittenheit: Kombiniert neueste RAG- und Multi-Agent-Techniken

Mängel

  1. Datensatzgrößenbeschränkung: Verwendung von nur 7.000 Überschriften, relativ kleine Skalierung
  2. Begrenzte Anschlagstypen: Berücksichtigung von nur drei spezifischen Angriffsformen
  3. Einzelne Bewertungsmetriken: Hauptfokus auf Genauigkeit, Mangel an Effizienz-, Kostenmetriken usw.
  4. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung für Methodeneffektivität
  5. Langzeitstabilität nicht validiert: Keine Bewertung der Leistungsabnahme bei längerfristiger Nutzung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für mehrsprachige Desinformationserkennung
  2. Praktischer Wert: Direkt anwendbar auf Social-Media- und Nachrichtenplattformen
  3. Reproduzierbarkeit: Verwendung von Open-Source-Modellen ermöglicht einfache Reproduktion und Verbesserung
  4. Branchenauswirkungen: Bietet technische Grundlage für Content-Moderation und Faktenprüfung

Anwendungsszenarien

  1. Social-Media-Plattformen: Echtzeiterkennung von Desinformation in Benutzerbeiträgen
  2. Nachrichtenaggregate-Websites: Validierung der Authentizität von Nachrichtenartikeln
  3. Bildungsplattformen: Unterstützung von Benutzern bei der Identifizierung von Desinformation
  4. Unternehmens-Content-Moderation: Automatisierte Moderation großer Inhaltsmengen
  5. Behördliche Regulierung: Unterstützung relevanter Behörden bei der Überwachung von Online-Desinformation

Literaturverzeichnis

Dieses Papier zitiert 50 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich LLMs, RAG, Multi-Agent-Systemen und adversarialen Angriffen, und bietet eine solide theoretische Grundlage für die Forschung.


Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich der Desinformationserkennung, das ein innovatives Multi-Agent-RAG-Framework vorschlägt und unter mehrsprachigen, mehrfachen Angriffstypen-Einstellungen hervorragende experimentelle Ergebnisse erzielt. Obwohl es einige Einschränkungen gibt, machen sein praktischer Wert und seine technische Innovation es zu einem wichtigen Fortschritt in diesem Bereich.