2025-11-12T20:19:10.515588

Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks

Aldahoul, Zaki
The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
academic

더 안전한 웹을 향하여: 적대적 허위정보 공격 완화를 위한 다국어 다중에이전트 LLM

기본 정보

  • 논문 ID: 2510.08605
  • 제목: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
  • 저자: Nouar Aldahoul, Yasir Zaki (뉴욕대학교 아부다비 캠퍼스)
  • 분류: cs.CL (계산언어학), cs.AI, cs.CR, cs.LG
  • 발표 시간: 2025년 10월 7일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.08605

초록

디지털 플랫폼에서 허위정보의 빠른 확산은 공공 담론, 감정 안정성 및 의사결정을 위협하고 있습니다. 선행 연구에서 허위정보 탐지의 다양한 적대적 공격을 탐색했지만, 본 논문에서 연구하는 특정 변환은 아직 체계적으로 연구되지 않았습니다. 특히, 본 논문은 영어, 프랑스어, 스페인어, 아랍어, 힌디어, 중국어 간의 언어 전환 및 후속 번역을 조사합니다. 또한 요약 전 쿼리 길이 확장 및 객관식 문제로의 구조화된 재포맷팅을 연구합니다. 본 논문은 검색 증강 생성 기술을 결합한 다국어 다중에이전트 대규모언어모델(LLM) 프레임워크를 제안하며, 이는 온라인 플랫폼에 웹 플러그인으로 배포될 수 있습니다. 이 연구는 온라인 사실 무결성 보호에 있어 AI 기반 허위정보 탐지의 중요성을 강조하면서, 실제 웹 애플리케이션에서 플러그인 기반 배포의 실행 가능성을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 대규모언어모델(LLM)이 적대적 공격에 직면했을 때 효과적인 허위정보 탐지 능력이 부족하여 의도치 않게 허위정보 확산을 증폭시킨다는 것입니다.

문제의 중요성

  1. 사회적 영향: 허위정보의 빠른 확산은 공공 담론, 감정 안정성 및 의사결정을 심각하게 위협
  2. 기술적 과제: 기존 LLM은 허위정보 탐지에서 무작위 추측에 가까운 성능 발휘
  3. 보안 요구사항: 다양한 공격에 대한 견고한 탐지 시스템 필요

기존 방법의 한계

  1. 내재 지식 제한: LLM은 학습 시점의 내재 지식에만 의존하며, 실시간 사실 검증 능력 부족
  2. 언어 편향: 비영어 언어에서의 성능 현저히 저하
  3. 적대적 공격 취약성: 형식 변환, 번역, 요약 등의 공격에 대한 저항력 부족
  4. 체계적 연구 부재: 기존 연구는 다국어, 다중 구조의 적대적 공격을 체계적으로 평가하지 않음

연구 동기

저자들은 다양한 적대적 공격에 저항할 수 있는 다국어 허위정보 탐지 시스템을 개발하고 이를 실용적인 웹 플러그인으로 배포할 필요성을 제시합니다.

핵심 기여

  1. 다중에이전트 RAG 프레임워크 제안: Llama 3.1-8B와 검색 증강 생성 기술을 결합한 다중에이전트 아키텍처
  2. 신규 적대적 공격 데이터셋 구축: 객관식 문제(MCQ), 번역, 요약 세 가지 공격 형태를 포함한 데이터셋
  3. 다국어 탐지 능력 구현: 영어, 프랑스어, 스페인어, 아랍어, 힌디어, 중국어 6개 언어 지원
  4. 실제 배포 가능성 검증: 웹 플러그인 형태로 배포 가능하도록 설계
  5. 포괄적 실험 평가 제공: 허위정보 탐지 정확도 95% 이상 달성

방법론 상세 설명

작업 정의

입력: 웹에서 수집한 텍스트 콘텐츠(뉴스 기사, 사용자 댓글, 소셜 미디어 게시물 등), 적대적 변환 포함 가능 출력: 이진 분류 결과(참/거짓), 입력 텍스트가 허위정보를 포함하는지 판단 제약 조건: 시스템은 블랙박스 설정에서 작동하며, 이진 피드백만을 기반으로 판단

모델 아키텍처

RAG-Llama 핵심 구성요소

  1. 임베딩 모델: 세 가지 다국어 임베딩 모델 비교
    • OpenAI의 text-embedding-3-large (독점)
    • jina-embeddings-v3 (독점)
    • multilingual-e5-large (오픈소스)
  2. 검색 메커니즘: 코사인 유사도 기반 검색 시스템
    • 허위 제목을 CSV 파일에 임베딩 저장
    • 쿼리와 가장 관련성 높은 허위 제목 검색
    • Llama를 사용한 문맥 분석으로 최종 판단

다중에이전트 아키텍처

시스템은 네 개의 협력 에이전트로 구성:

  1. 웹 크롤러 에이전트
    • 동적 웹사이트에서 구조화된 콘텐츠 추출
    • 텍스트를 관리 가능한 청크로 분할
    • 관리자 에이전트에 전달하여 처리
  2. 관리자 에이전트
    • 웹 크롤러와 상호작용하여 텍스트 수신
    • 주제 및 허위정보 탐지 에이전트로 라우팅
    • 사용자에게 알림 전송
  3. 허위정보 탐지 에이전트
    • RAG-Llama를 활용한 탐지
    • 5,000개의 검증된 허위 제목 데이터베이스에서 검색
    • 오픈소스 Llama 모델을 사용한 최종 판단
  4. 주제 에이전트 (선택사항)
    • 쿼리를 10개의 사전정의된 범주로 분류
    • RAG 검색 프로세스 가속화
    • GPT-4o-mini를 사용한 주제 분류
  5. 평가 에이전트
    • 모든 텍스트 청크가 처리되었는지 확인
    • 시스템 각 구성요소의 일관성 검증
    • 추가 검증 계층으로 견고성 강화

기술 혁신점

  1. 다중 적대적 공격 처리: 객관식 문제, 번역, 요약 세 가지 공격 형태를 처음으로 체계적으로 처리
  2. 다국어 검색 능력: 다국어 임베딩 모델을 활용한 언어 간 탐지
  3. 부정 샘플 매칭 전략: 허위정보 데이터베이스만을 사용한 부정 매칭 탐지
  4. 모듈식 플러그인 설계: 웹 브라우저 플러그인으로 직접 배포 가능

실험 설정

데이터셋

데이터 출처

  • 허위 제목: Snopes 및 Politifact에서 20,950개의 허위 제목 수집
  • 사실 제목: 4,000개의 진정한 제목 수집
  • 실험 데이터: 5,000개의 허위 제목과 2,000개의 사실 제목 선택

세 가지 공격 데이터셋

  1. 객관식 데이터셋: 제목을 "왜"로 시작하는 객관식 문제로 변환
  2. 번역 데이터셋: 확장 텍스트를 6개 언어로 번역
  3. 요약 데이터셋: 요약 작업용 500단어 길이의 긴 텍스트 생성

평가 지표

  • 사실 정확도: 사실 정보를 올바르게 분류하는 백분율
  • 허위 정확도: 허위 정보를 올바르게 분류하는 백분율
  • 공격 성공률(ASR): 적대적 입력으로 인한 시스템 실패 비율(낮을수록 좋음)

비교 방법

  • 기준 모델: 원본 Llama 3.1-8B-Instruct
  • 다양한 임베딩 모델의 RAG-Llama 변형
  • 주제 분류 유무 시스템 변형

구현 세부사항

  • 모델: Llama 3.1-8B-Instruct
  • 하드웨어: GPU A100 80GB
  • 하이퍼파라미터: temperature=0.1, top-p=1
  • 임베딩 저장: CSV 파일 형식

실험 결과

주요 결과

기준 모델 취약성

  • 직접 질문 ASR: 46.74%
  • 객관식 공격 ASR: 97.72%
  • 번역 공격 ASR: 100%
  • 요약 공격 ASR: 100%

RAG-Llama 성능

공격 유형허위 탐지 정확도사실 탐지 정확도
직접 질문99.76%85.25%
객관식97.38%89.85%
요약99.3%95.15%
프랑스어 번역97.72%87.25%
아랍어 번역97.26%88.65%
힌디어 번역95.2%87.4%
중국어 번역96.44%93.5%
스페인어 번역97.9%90.9%

임베딩 모델 비교

임베딩 모델객관식 평균 정확도요약 평균 정확도번역 평균 정확도
text-embedding-3-large93.62%97.23%93.22%
jina-embeddings-v395.29%89.08%93.35%
multilingual-e5-large95.26%89.02%93.92%

주제 분류 효과

  • 속도 향상: 중앙값 2배 이상, 평균 3배 이상
  • 정확도: 78.27%-91.18% 범위
  • 객관식 작업 정확도 상대적 저하: 객관식이 여러 주제 답변을 포함하기 때문에 분류 어려움

실험 발견

  1. RAG가 기준 모델을 크게 능가: 모든 공격 유형에서 대폭 개선
  2. 다국어 능력: 6개 언어 모두에서 95% 이상의 허위 탐지 정확도 유지
  3. 임베딩 모델 영향: multilingual-e5-large가 성능과 접근성 측면에서 최고 성능
  4. 주제 분류 가속화: 검색 속도 효과적 향상, 복잡한 쿼리에서 정확도 저하

관련 연구

미세조정 방법

  • BERT 기반 방법(FakeBERT 등)
  • T5 지시사항 미세조정
  • Llama-2 PEFT/LoRA 미세조정
  • 강화학습 방법

RAG 방법

  • Mixtral-8x7B와 RAG 결합
  • 실시간 웹 데이터 통합
  • 적응형 주제 RAG(AT-RAG)

다중에이전트 시스템

  • LLM-Consensus 시각적 허위정보 탐지
  • TruEDebate(TED) 구조화된 토론 시스템
  • 완전한 허위정보 생명주기 처리 프레임워크

적대적 공격

  • 그래디언트 기반 토큰 수준 대체
  • 강화학습 기반 주장 교란
  • 블랙박스 공격 전략

결론 및 논의

주요 결론

  1. LLM의 현저한 취약성: 원본 LLM은 적대적 공격 하에서 허위정보 확산에 극도로 취약
  2. RAG의 견고성 향상 효과: RAG-Llama는 다양한 공격에서 기준 모델을 크게 능가
  3. 다국어 탐지 실행 가능성: 시스템은 6개 주요 언어의 허위정보를 효과적으로 처리 가능
  4. 실제 배포 잠재력: 다중에이전트 아키텍처는 웹 플러그인으로 배포에 적합

한계

  1. 주제 분류 정확성: 주제 오분류는 검색 정확도에 영향
  2. 데이터베이스 의존성: 시스템 성능은 허위정보 데이터베이스의 품질과 완전성에 크게 의존
  3. 동적 업데이트 필요성: 신흥 허위정보에 대응하기 위해 데이터베이스 지속적 업데이트 필요
  4. 보안 취약점: RAG 시스템은 데이터베이스 오염 및 임베딩 공격에 직면할 수 있음

향후 방향

  1. 주제 분류 개선: 복잡한 쿼리의 분류 정확도 향상
  2. 다른 LLM 탐색: 다양한 언어 모델의 RAG 성능 평가
  3. 보안 강화: 임베딩 공격 및 데이터베이스 오염에 대한 방어 메커니즘 개발
  4. 공격 유형 확장: 더 많은 종류의 적대적 변환 연구

심층 평가

장점

  1. 문제의 중요성: LLM의 허위정보 탐지 관련 핵심 보안 문제 해결
  2. 방법의 혁신성: 다국어, 다중 구조 적대적 공격을 처음으로 체계적으로 연구
  3. 실험의 포괄성: 6개 언어, 3가지 공격 유형의 종합적 평가 포함
  4. 실용적 가치: 배포 가능한 플러그인 솔루션 제공
  5. 기술의 선진성: 최신 RAG 및 다중에이전트 기술 결합

부족한 점

  1. 데이터셋 규모 제한: 7,000개 제목만 사용, 상대적으로 소규모
  2. 공격 유형 제한: 3가지 특정 공격 형태만 고려
  3. 평가 지표 단순성: 주로 정확도에 집중, 효율성, 비용 등 지표 부족
  4. 이론적 분석 부족: 방법 유효성에 대한 이론적 설명 부족
  5. 장기 안정성 미검증: 장기 사용 중 시스템 성능 저하 미평가

영향력

  1. 학술적 기여: 다국어 허위정보 탐지에 새로운 연구 방향 제시
  2. 실용적 가치: 소셜 미디어 및 뉴스 플랫폼에 직접 적용 가능
  3. 재현 가능성: 오픈소스 모델 사용으로 재현 및 개선 용이
  4. 산업 영향: 콘텐츠 조정 및 사실 검증에 기술 기반 제공

적용 시나리오

  1. 소셜 미디어 플랫폼: 사용자 게시 허위정보의 실시간 탐지
  2. 뉴스 집계 웹사이트: 뉴스 기사의 진정성 검증
  3. 교육 플랫폼: 사용자의 허위정보 식별 지원
  4. 기업 콘텐츠 조정: 대규모 콘텐츠의 자동화된 조정
  5. 정부 규제: 관련 부서의 네트워크 허위정보 모니터링 지원

참고문헌

본 논문은 LLM, RAG, 다중에이전트 시스템, 적대적 공격 등 여러 분야의 중요한 연구를 포함한 50편의 관련 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공합니다.


종합 평가: 이는 허위정보 탐지 분야에서 중요한 기여를 하는 논문으로, 혁신적인 다중에이전트 RAG 프레임워크를 제안하고 다국어, 다중 공격 유형 설정에서 우수한 실험 결과를 달성했습니다. 일부 한계가 있지만, 실용적 가치와 기술 혁신성으로 인해 해당 분야의 중요한 진전을 이루었습니다.