2025-11-17T10:07:13.253503

Stronger Re-identification Attacks through Reasoning and Aggregation

Charpentier, Lison

Text de-identification techniques are often used to mask personally identifiable information (PII) from documents. Their ability to conceal the identity of the individuals mentioned in a text is, however, hard to measure. Recent work has shown how the robustness of de-identification methods could be assessed by attempting the reverse process of _re-identification_, based on an automated adversary using its background knowledge to uncover the PIIs that have been masked. This paper presents two complementary strategies to build stronger re-identification attacks. We first show that (1) the _order_ in which the PII spans are re-identified matters, and that aggregating predictions across multiple orderings leads to improved results. We also find that (2) reasoning models can boost the re-identification performance, especially when the adversary is assumed to have access to extensive background knowledge.

academic

추론과 집계를 통한 더 강력한 재식별 공격

기본 정보

논문 ID: 2510.09184
제목: Stronger Re-identification Attacks through Reasoning and Aggregation
저자: Lucas Georges Gabriel Charpentier (오슬로 대학교), Pierre Lison (노르웨이 컴퓨팅 센터)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 10월 10일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09184

초록

텍스트 익명화 기술은 일반적으로 문서에서 개인식별정보(PII)를 마스킹하는 데 사용됩니다. 그러나 이러한 기술이 텍스트에서 개인의 신원을 언급하는 정보를 숨기는 능력을 측정하기는 어렵습니다. 최근 연구에 따르면 자동화된 대적이 배경 지식을 활용하여 마스킹된 PII를 드러내는 역방향 재식별 과정을 시도함으로써 익명화 방법의 견고성을 평가할 수 있습니다. 본 논문은 더 강력한 재식별 공격을 구성하기 위한 두 가지 상호 보완적 전략을 제안합니다: (1) PII 범위의 재식별 순서가 중요하며, 여러 순서에 걸친 예측 집계가 결과를 개선할 수 있음; (2) 추론 모델은 재식별 성능을 향상시킬 수 있으며, 특히 대적이 광범위한 배경 지식을 보유한 경우에 그러합니다.

연구 배경 및 동기

문제 정의

텍스트 익명화는 문서에서 개인식별정보(PII)를 제거하거나 마스킹하는 것을 목표로 하는 중요한 개인정보 보호 기술입니다. 여기에는 직접 식별자(예: 이름, 전화번호)와 간접 식별자(예: 나이, 성별, 위치 등)가 포함됩니다. 이 기술은 법원 판결문, 의료 기록 등 민감한 문서 처리에서 중요한 응용 가치를 가집니다.

연구의 중요성

익명화 방법의 효과를 평가하는 것은 핵심 과제입니다. 기존 평가 방법은 익명화된 문서의 개인정보 보호 수준을 정확하게 측정하기 어렵습니다. 사이버 보안의 레드팀 테스트와 유사하게 재식별 공격을 구성하여 익명화 방법의 견고성을 테스트하면 개인정보 보호 기술을 더 잘 평가하고 개선할 수 있습니다.

기존 방법의 한계

기존 재식별 공격 방법은 다음과 같은 부족함이 있습니다:

PII 재식별 순서의 중요성에 대한 체계적 연구 부족
현대 추론 모델의 능력을 충분히 활용하지 못함
효과적인 예측 집계 전략 부족

연구 동기

본 논문은 두 가지 차원에서 재식별 공격의 강도를 향상시키는 것을 목표로 합니다: 다양한 재식별 순서 전략을 탐색하고 여러 예측 결과를 집계하며, 추론 능력을 갖춘 대규모 언어 모델을 활용하여 공격 효과를 높입니다.

핵심 기여

네 가지 PII 재식별 순서 전략 제안: 하향식, 상향식, 무작위 순서 및 엔트로피 기반 순서를 제시하고 체계적으로 효과를 평가
가중 투표 집계 메커니즘 설계: 여러 다양한 순서의 예측 결과를 집계하여 재식별 정확도를 크게 향상
추론 모델의 우수성 검증: 추론 최적화 LLM이 명령어 조정 모델에 비해 재식별 성능을 크게 향상시킬 수 있음을 입증
포괄적인 실험 평가 제공: TAB 데이터셋에서 다양한 배경 지식 수준을 가진 대적을 고려한 체계적 실험 수행

방법 상세 설명

작업 정의

익명화된 문서(PII가 마스킹된)가 주어졌을 때, 재식별 작업은 배경 지식을 활용하여 마스킹된 PII 내용을 추론하는 것을 목표로 합니다. 입력은 여러 MASK 토큰을 포함하는 익명화된 문서이고, 출력은 각 마스킹 위치의 구체적인 PII 값입니다.

모델 아키텍처

2단계 재식별 프레임워크

검색 단계:
- 희소 검색: BMx 모델을 사용하여 배경 지식 기반에서 상위 100개의 가장 관련성 높은 문서 선택
- 밀집 검색: 각 PII 범위에 대해 가장 관련성 높은 텍스트 블록을 찾기 위해 훈련된 ColBERT 스타일 검색기 사용
채우기 단계:
- 관련 텍스트 블록과 로컬 컨텍스트를 LLM에 입력
- Qwen3-4B 모델의 두 가지 버전 사용: 명령어 조정 버전과 추론 최적화 버전

밀집 검색기 훈련

ModernBERT-base를 기반으로 문서 및 쿼리 인코더 초기화
Wikipedia 전기 데이터로 훈련, 긍정 샘플은 목표 엔티티를 포함하는 텍스트 블록, 부정 샘플은 포함하지 않음
훈련 데이터는 약 16만 개의 로컬 텍스트 및 해당 긍정/부정 샘플 쌍

재식별 순서 전략

하향식(Top-down): 문서에 나타나는 순서대로 PII를 순차적으로 재식별
상향식(Bottom-up): 마지막 PII부터 시작하여 역순으로 재식별
무작위 순서(Random): 미식별 PII를 무작위로 선택하여 처리
엔트로피 기반(Entropy-based): 각 PII 범위의 엔트로피 값을 계산하여 낮은 것부터 높은 순서로 재식별

엔트로피 값 계산 공식: $H(s) = -\sum_{i=1}^{k} p_i \log p_i$

여기서 $p_i$ 는 LLM이 범위 $s$ 의 $i$ 번째 토큰에 할당한 확률입니다.

집계 전략

여러 순서의 예측 결과를 집계하기 위해 가중 투표 메커니즘을 채택합니다:

$A_s(c) = \sum_{i=1}^{m} \mathbf{1}(c_i = c) p_i$

여기서 $A_s(c)$ 는 범위 $s$ 에 대한 후보값 $c$ 의 집계 점수, $\mathbf{1}$ 은 지시 함수, $p_i$ 는 $i$ 번째 실행에서 후보값의 확률입니다.

실험 설정

데이터셋

주요 데이터셋: TAB (Text Anonymization Benchmark) 테스트 세트, 유럽인권법원(ECHR) 사건 127건 포함
배경 지식: 두 가지 수준
- 일반 지식: 법원 요약, 법률 보고서 및 공개 사건, 그리고 Mistral-12B가 생성한 합성 기사 추가
- 최악의 경우: 모든 원본 법원 판결을 포함하는 완전한 배경 지식