2025-11-17T12:40:13.303016

Over-Threshold Multiparty Private Set Intersection for Collaborative Network Intrusion Detection

Arpaci, Boutaba, Kerschbaum

An important function of collaborative network intrusion detection is to analyze the network logs of the collaborators for joint IP addresses. However, sharing IP addresses in plain is sensitive and may be even subject to privacy legislation as it is personally identifiable information. In this paper, we present the privacy-preserving collection of IP addresses. We propose a single collector, over-threshold private set intersection protocol. In this protocol $N$ participants identify the IP addresses that appear in at least $t$ participant's sets without revealing any information about other IP addresses. Using a novel hashing scheme, we reduce the computational complexity of the previous state-of-the-art solution from $O(M(N \log{M}/t)^{2t})$ to $O(t^2M\binom{N}{t})$, where $M$ denotes the dataset size. This reduction makes it practically feasible to apply our protocol to real network logs. We test our protocol using joint networks logs of multiple institutions. Additionally, we present two deployment options: a collusion-safe deployment, which provides stronger security guarantees at the cost of increased communication overhead, and a non-interactive deployment, which assumes a non-colluding collector but offers significantly lower communication costs and applicable to many use cases of collaborative network intrusion detection similar to ours.

academic

협력적 네트워크 침입 탐지를 위한 임계값 초과 다자간 개인정보보호 집합 교집합

기본 정보

논문 ID: 2510.12045
제목: Over-Threshold Multiparty Private Set Intersection for Collaborative Network Intrusion Detection
저자: Onur Eren Arpaci, Raouf Boutaba, Florian Kerschbaum (워털루 대학교)
분류: cs.CR (암호학 및 보안), cs.NI (네트워킹 및 인터넷 아키텍처)
발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.12045

초록

협력적 네트워크 침입 탐지의 중요한 기능은 협력 기관의 네트워크 로그를 분석하여 공통 IP 주소를 식별하는 것입니다. 그러나 IP 주소를 평문으로 공유하는 것은 민감한 정보이며, 개인식별정보(PII)이므로 개인정보보호법의 규제를 받을 수 있습니다. 본 논문은 IP 주소의 개인정보보호 수집 방법을 제안하며, 단일 수집기, 임계값 초과 개인정보보호 집합 교집합 프로토콜을 제시합니다. 이 프로토콜에서 N명의 참여자는 최소 t명의 참여자 집합에 나타나는 IP 주소를 식별하면서 다른 IP 주소에 대한 정보는 공개하지 않습니다. 새로운 해싱 방식을 통해 기존 최첨단 솔루션의 계산 복잡도를 $O(M(N \log{M}/t)^{2t})$ 에서 $O(t^2M\binom{N}{t})$ 로 감소시켰습니다. 여기서 M은 데이터셋 크기를 나타냅니다. 이러한 감소로 인해 프로토콜을 실제 네트워크 로그에 적용하는 것이 실무적으로 가능해졌습니다.

연구 배경 및 동기

문제 정의

협력적 네트워크 침입 탐지가 직면한 핵심 문제는 개인정보보호를 유지하면서 다중 기관 공격을 식별하는 방법입니다. 연구에 따르면 기관 공격의 75%가 하루 내에 두 번째 기관으로 확산되며, 40% 이상이 1시간 내에 확산됩니다. 공격자는 일반적으로 소수의 외부 IP 주소를 사용하여 여러 기관을 동시에 공격하며, 특정 시간 창에서 외부 IP가 최소 t개의 기관에 연결되면 95%의 재현율로 악의적인 것으로 분류할 수 있습니다.

개인정보보호 과제

기존 방법은 기관이 네트워크 로그를 평문으로 공유하도록 요구하며, 이는 심각한 개인정보보호 위험을 야기합니다:

법적 준수: IP 주소는 GDPR, PIPEDA, CCPA 등의 법률에 의해 개인식별정보로 인정됨
데이터 민감성: 원본 네트워크 데이터는 보안 경고보다 더 민감하며 많은 무관한 민감 정보 포함
데이터 규모: 원본 데이터는 보안 경고보다 수 배 크기가 크므로 기존 솔루션을 계산상 불가능하게 함

기존 방법의 한계

Kissner and Song 26: O(N)의 통신 라운드 필요, 계산 복잡도 O(N³M³)
Mahdavi et al. 34: 통신 복잡도는 개선했지만 계산 비용은 여전히 높음, 복잡도 O(M(N logM/t)²ᵗ)

핵심 기여

새로운 해싱 방식: 계산 복잡도를 O(M(N logM/t)²ᵗ)에서 O(t²M(N choose t))로 감소시키는 혁신적인 해싱 알고리즘 제안, M에 대한 선형 복잡도 달성
실용성 향상: 프로토콜이 실제 규모의 네트워크 로그를 처리할 수 있게 함, 33개 참여 기관, 최대 144,045개 IP 설정에서 170초 내 탐지 완료
이중 배포 옵션:
- 공모 방지 배포: 더 강한 보안 보장 제공, 통신 오버헤드 높음
- 비상호작용 배포: 비공모 수집기 가정, 통신 비용 대폭 감소
보안성 증명: 반정직 다자간 계산 모델에서 프로토콜의 보안성 증명
실제 검증: CANARIE IDS 프로젝트의 실제 네트워크 로그를 사용한 평가

방법 상세 설명

작업 정의

임계값 초과 다자간 개인정보보호 집합 교집합 (OT-MP-PSI):

입력: N명의 참여자, 각각 최대 M개 요소의 집합 Si 보유
출력: 최소 t개 집합에 나타나는 요소 식별, 임계값 이하 요소 정보 공개 안 함
제약: 반정직 보안 모델, 참여자는 프로토콜을 따르지만 추가 정보 학습 시도 가능

핵심 기술 구성 요소

1. Shamir 비밀 공유

(t,n) 임계값 방식 사용, 임의의 t방이 비밀 V를 재구성할 수 있으며, t 미만의 방은 정보를 얻을 수 없음:

P(x) = c_{t-1}x^{t-1} + c_{t-2}x^{t-2} + ... + c_1x + V

2. 망각 의사난수 함수(OPRF)

참여자는 H_K(x)를 학습하지만 키 K를 알 수 없으며, 키 보유자는 입력 x나 출력값을 알 수 없음.

3. 망각 의사난수 비밀 공유(OPR-SS)

비밀 공유와 OPRF의 보안 속성을 결합하여 참여자가 키 보유자로부터 고유한 비밀 공유를 얻을 수 있게 함.

프로토콜 아키텍처

비상호작용 배포

공유 생성: 각 참여자가 자신의 집합의 각 요소에 대해 비밀 공유 생성
해시 매핑: 새로운 해싱 방식을 사용하여 공유를 크기 1의 버킷으로 매핑
재구성: 수집기가 모든 t명 참여자의 조합을 시도하여 라그랑주 보간법 수행
결과 알림: 수집기가 참여자에게 성공적으로 재구성된 인덱스 통지

공모 방지 배포

공유 키 대신 OPR-SS 프로토콜 사용, 다중 키 OPRF 프로토콜을 통해 해시 함수 계산, 더 강한 공모 방지 보장 제공.

기술 혁신 포인트

새로운 해싱 방식

핵심 아이디어: 충돌을 수용하는 대신 크기 1의 버킷을 사용하여 해시 충돌 회피:

충돌 처리: 여러 요소가 동일 버킷으로 매핑될 때, 의사난수 정렬을 사용하여 최소값 선택
다중 테이블 전략: 각 참여자가 여러 테이블 생성, 손실된 값이 다른 테이블에 나타나도록 보장
실패 확률 제어: 20개 테이블을 통해 실패 확률을 2⁻⁴⁰ 이하로 제어

주요 장점:

수집기는 공유 조합이 아닌 참여자 조합만 시도 필요
복잡도가 지수에서 선형(M에 대해)으로 감소
기존 버킷팅 방법의 큰 상수 인수 회피

최적화 기법

정렬 반전: 연속된 두 테이블이 동일한 정렬 함수 사용, 짝수 테이블은 정렬 반전
빈 버킷 활용: 두 번째 삽입이 첫 번째 삽입 후의 빈 버킷 활용

실험 설정

데이터셋

실제 데이터: CANARIE IDS 프로젝트 54개 기관의 네트워크 연결 로그
시간 범위: 2023년 11월 1-8일, 일일 약 80억 로그 항목
데이터 규모: 일일 약 700GB (gzip 압축)
처리 방식: 시간별 배치 처리, 외부 IP에서 내부 IP로의 연결 추출

평가 지표

재구성 시간: 수집기가 재구성을 완료하는 시간
공유 생성 시간: 단일 참여자가 공유를 생성하는 시간
통신 복잡도: 프로토콜의 총 통신 오버헤드
정확성: 실패 확률 검증

비교 방법

Mahdavi et al. 34: 현재 최첨단 OT-MP-PSI 솔루션
이론적 상한: 계산된 실패 확률 상한과 비교

구현 세부 사항

프로그래밍 언어: Julia, 430줄 코드
암호학 라이브러리: SHA.jl, Nettle.jl
유한 필드: 61비트 메르센 소수
하드웨어 환경: 8×Intel Xeon E7-8870 프로세서, 80개 물리 코어, 1TB 메모리

실험 결과

주요 결과

성능 비교

Mahdavi et al. 34와 비교:

속도 향상: 최소 2개 수량급, 최대 23,066배
확장성: M=10⁵일 때, 본 방법은 수백 초 필요, 비교 방법은 수일 필요

실제 데이터 성능

CANARIE 데이터에서의 성능:

평균 재구성 시간: 170초
최대 재구성 시간: 438초 (40개 기관, 220,011개 IP)
평균 참여 기관: 33개
평균 최대 집합 크기: 144,045개 IP

복잡도 분석

계산 복잡도

수집기: O(t²M(N choose t))
참여자 (비상호작용): O(tM)
특수 경우: N=t=2일 때 O(M), N=t일 때 O(N²M)

통신 복잡도

비상호작용 배포: O(tMN)
공모 방지 배포: O(tkMN), 5라운드 통신

정확성 검증

이론적 실패 확률: 2⁻⁴⁰
실험 검증: 10⁷회 시도에서 실제 실패 횟수가 이론적 상한보다 훨씬 낮음
테이블 수 최적화: 이론적 28개 테이블에서 실제 20개 테이블로 최적화

실용성 돌파: OT-MP-PSI를 실제 네트워크 로그 규모에서 처음으로 실용적으로 가능하게 함
효율성 향상: 새로운 해싱 방식을 통해 수량급 성능 향상 달성
유연한 배포: 서로 다른 보안 요구에 맞는 두 가지 배포 옵션 제공
실제 검증: 실제 다중 기관 네트워크 환경에서 프로토콜의 실용성 검증

한계

반정직 모델: 악의적 모델로 확장 가능하지만 입력 대체 공격에 여전히 취약
집합 크기 공개: 핵심 프로토콜이 참여자 집합 크기를 개인정보로 취급하지 않음
수집기 신뢰: 비상호작용 배포는 수집기가 참여자와 공모하지 않음을 신뢰해야 함
임계값 제한: t가 N/2에 가깝고 N이 클 때 복잡도 이점이 명확하지 않을 수 있음

향후 방향

악의적 보안: 능동적 공격자에 저항하도록 프로토콜 확장
동적 임계값: 추가 클라이언트 비용 없이 다중 임계값 계산 지원
대규모 최적화: 참여자 조합 처리 효율성 추가 최적화
개인정보보호 강화: 집합 크기 정보 보호를 위한 차등 개인정보보호 기술 탐색

심층 평가

장점

이론적 기여 현저함: 새로운 해싱 방식은 기존 기술의 중요한 돌파, 지수 복잡도를 선형으로 감소
실용적 가치 높음: 실제 세계 협력 침입 탐지의 핵심 개인정보보호 문제 해결
실험 충분함: 이론 분석과 실제 데이터 검증 모두 포함, 실험 설정 합리적
공학 구현 완전함: 오픈소스 구현 제공, 재현성 향상
보안성 엄격함: 형식적 보안 증명 제공 및 두 가지 배포 옵션

부족한 점

보안 모델 제한: 반정직 모델이 일부 실제 시나리오에서 충분하지 않을 수 있음
매개변수 선택: 20개 테이블의 선택이 경험적 최적화에 기반, 이론적 지도 부족
확장성 경계: 극대규모(예: 전 지구적 인터넷 수준)에 대한 적용성 충분히 탐색되지 않음
비교 기준 제한: 주로 하나의 기준 방법과 비교, 더 포괄적인 성능 비교 부족

영향력

학술적 가치: 다자간 보안 계산 분야에 새로운 기술 경로 제공
실용적 의미: 네트워크 보안 분야의 실제 요구 직접 해결
기술 확산: 해싱 방식이 다른 다자간 계산 문제에 적용 가능
표준화 잠재력: 협력 침입 탐지의 표준 프로토콜이 될 가능성

적용 시나리오

다중 기관 네트워크 보안: 대학, 병원 등 유사 기관의 협력 방어
클라우드 보안 서비스: 보안 운영 센터의 개인정보보호 로그 분석
위협 정보 공유: 개인정보보호 제약 하에서의 위협 지표 교환
규정 준수 요구: GDPR 등 개인정보보호 규정 준수 데이터 협력

참고문헌

본 논문은 53개의 관련 문헌을 인용하며, 암호학, 네트워크 보안, 다자간 계산 등 여러 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초와 포괄적인 기술 배경을 제공합니다.

전체 평가: 이는 이론적 혁신과 실제 응용 사이에서 좋은 균형을 이룬 고품질의 응용 암호학 논문입니다. 새로 제안된 해싱 방식은 이론적으로 중요한 돌파일 뿐만 아니라 실제 응용에서도 현저한 가치를 보여줍니다. 논문의 실험 검증은 충분하고, 보안 분석은 엄격하며, 협력 네트워크 보안 분야에 중요한 기술적 기여를 제공합니다.