2025-11-29T10:22:18.756657

Blockchain-Based Federated Learning: Incentivizing Data Sharing and Penalizing Dishonest Behavior

Jaberzadeh, Shrestha, Khan et al.

With the increasing importance of data sharing for collaboration and innovation, it is becoming more important to ensure that data is managed and shared in a secure and trustworthy manner. Data governance is a common approach to managing data, but it faces many challenges such as data silos, data consistency, privacy, security, and access control. To address these challenges, this paper proposes a comprehensive framework that integrates data trust in federated learning with InterPlanetary File System, blockchain, and smart contracts to facilitate secure and mutually beneficial data sharing while providing incentives, access control mechanisms, and penalizing any dishonest behavior. The experimental results demonstrate that the proposed model is effective in improving the accuracy of federated learning models while ensuring the security and fairness of the data-sharing process. The research paper also presents a decentralized federated learning platform that successfully trained a CNN model on the MNIST dataset using blockchain technology. The platform enables multiple workers to train the model simultaneously while maintaining data privacy and security. The decentralized architecture and use of blockchain technology allow for efficient communication and coordination between workers. This platform has the potential to facilitate decentralized machine learning and support privacy-preserving collaboration in various domains.

academic

블록체인 기반 연합학습: 데이터 공유 인센티브 제공 및 부정직한 행동 처벌

기본 정보

논문 ID: 2307.10492
제목: Blockchain-Based Federated Learning: Incentivizing Data Sharing and Penalizing Dishonest Behavior
저자: Amir Jaberzadeh, Ajay Kumar Shrestha, Faijan Ahamad Khan, Mohammed Afaan Shaikh, Bhargav Dave, Jason Geng
소속 기관: Bayes Solutions (미국) 및 Vancouver Island University (캐나다)
분류: cs.LG (기계학습)
발표 시간: 2023년 7월
논문 링크: https://arxiv.org/abs/2307.10492

초록

본 논문은 데이터 공유 중의 보안성 및 신뢰 문제를 해결하기 위해 연합학습과 블록체인, 스마트 계약, IPFS(성간 파일 시스템)를 결합한 종합적 프레임워크를 제안한다. 본 프레임워크는 인센티브 메커니즘, 접근 제어 및 처벌 메커니즘을 제공하여 안전하고 상호 호혜적인 데이터 공유를 촉진한다. 실험 결과는 본 모델이 MNIST 데이터셋에서 CNN 모델을 훈련할 때 95% 이상의 정확도를 달성하면서 동시에 데이터 공유 과정의 보안성과 공정성을 보장함을 보여준다. 본 플랫폼은 여러 작업 노드의 동시 모델 훈련을 지원하며, 분산 아키텍처 및 블록체인 기술을 통해 데이터 개인정보 보호 및 보안을 유지한다.

연구 배경 및 동기

1. 해결해야 할 핵심 문제

본 연구는 다음의 여러 주요 과제를 다룬다:

데이터 사일로 문제: 서로 다른 조직 간의 데이터 공유 및 통합의 어려움
개인정보 보호 및 보안: 중앙집중식 데이터 저장 및 공유로 인한 개인정보 유출 위험
신뢰 부족: 참여자 간 신뢰할 수 있는 신뢰 메커니즘의 부재
인센티브 부족: 고품질 데이터 공유를 촉진하는 효과적인 인센티브 메커니즘의 부재
악의적 행동: 저품질 또는 악의적 데이터를 제공하는 참여자에 대한 방어 및 처벌 필요

2. 문제의 중요성

데이터 공유가 협업 및 혁신에서의 중요성이 증가함에 따라, 데이터를 안전하고 신뢰할 수 있는 방식으로 관리하고 공유하는 것이 매우 중요해졌다. 전통적인 데이터 거버넌스 방법은 데이터 일관성, 호환성, 개인정보 보호, 보안, 접근 제어, 소유권 및 공유 보상 등 다중의 과제에 직면해 있다.

3. 기존 방법의 한계

전통적 연합학습: 중앙 서버에 의존하며, 단일 장애점 위험이 존재하고, 중앙 서버가 공격받을 수 있어 전체 시스템의 개인정보 보호를 위협할 수 있음
중앙집중식 저장: 데이터 유출 위험을 증가시키고 데이터 소유권 및 제어권 문제를 야기함
기존 FedAvg 변형: 다양한 개선 방안(예: 모멘텀 방법, 적응형 학습률 등)이 제안되었으나, 개인정보 보호, 인센티브 메커니즘 및 악의적 행동 방어 측면에서 여전히 부족함

4. 연구 동기

본 논문은 블록체인, 스마트 계약, IPFS 및 암호화 기술을 통합하여 분산 연합학습 프레임워크를 구축하는 것을 목표로 하며, 동시에 개인정보 보호, 인센티브 메커니즘, 접근 제어 및 악의적 행동 처벌 등 다중 문제를 해결한다.

핵심 기여

종합적인 분산 연합학습 프레임워크 제안: 데이터 신뢰, IPFS, 블록체인 및 스마트 계약을 연합학습에 통합하여 안전하고 상호 호혜적인 데이터 공유 실현
담보 기반 인센티브 및 처벌 메커니즘 설계: 스마트 계약을 통해 참여자가 담보금을 제공하도록 요구하며, 저품질 또는 악의적 데이터를 제공하는 참여자에 대해 경제적 처벌을 실시하고 벌금을 성실한 참여자에게 배분
이중 암호화 방식 구현: 대칭 암호화(AES)와 비대칭 암호화(RSA)를 결합하여 모델 및 데이터의 기밀성을 보호하며, 계산 오버헤드는 2%에 불과함
IPFS 기반 분산 모델 저장소 구축: 중앙집중식 저장소의 위험을 회피하고 피어투피어 모델 공유 지원
프레임워크의 유효성 검증: MNIST 데이터셋에서 95% 이상의 정확도 달성, 분산 아키텍처의 가능성 및 효율성 입증

방법론 상세 설명

작업 정의

본 논문에서 연구하는 작업은 여러 참여자(작업 노드)가 원본 데이터를 공유하지 않으면서 전역 기계학습 모델을 협력하여 훈련할 수 있는 분산 연합학습 플랫폼을 구축하는 것이다. 시스템은 다음 요구사항을 충족해야 한다:

입력: 각 작업 노드의 로컬 데이터셋, 초기 모델, 훈련 라운드 수, 총 보상액
출력: 훈련 완료된 전역 모델
제약 조건: 데이터 개인정보 보호, 악의적 행동 방어, 공정한 보상 배분, 분산 아키텍처

모델 아키텍처

1. 전체 아키텍처 설계

시스템은 두 가지 역할을 포함한다:

요청자(Requester): 연합학습 작업을 시작하고, 스마트 계약을 배포하며, 훈련 매개변수(라운드 수 N, 총 보상액 D)를 설정하고, 초기 모델을 IPFS에 푸시
작업 노드(Workers): 훈련 작업에 참여하고, 로컬 데이터에서 모델을 훈련하며, 다른 노드의 모델을 평가하고, 성능에 따라 보상을 획득

핵심 구성 요소:

블록체인 및 스마트 계약: FL 작업 조정, 참여자 정보 관리, 보상 및 처벌 배분
IPFS 저장소: 훈련 모델의 분산 저장
암호화 모듈: 모델 및 데이터의 기밀성 보호

2. 각 모듈의 기능 및 구현

a) 데이터 신뢰, 접근 제어 및 인센티브 메커니즘

참여자는 등록 후 담보금(collateral deposit)을 제공해야 함
담보금은 경제적 처벌 수단으로 작용하여 참여자가 저품질 또는 오도적 데이터 제공을 방지
참여자의 행동이 부정직한 경우, 담보금은 몰수되어 성실한 참여자에게 배분됨
스마트 계약은 참여자의 기여도에 따라 총 보상을 업데이트하고 배분
각 참여자는 한 번만 등록할 수 있으며, 보상은 총 보상액이 양수일 때만 배분됨

b) IPFS 저장소

InterPlanetary File System을 피어투피어 분산 파일 시스템으로 사용
모델은 사용자 기기에 저장되며, 중앙집중식 저장소가 필요 없음
데이터 유출 위험을 감소시키고 데이터 소유권 및 제어권 강화

c) 기밀성 및 개인정보 보호

혼합 암호화 방식 채택:
- 대칭 키(AES)를 사용하여 실제 데이터/모델 암호화
- 비대칭 키(RSA)를 사용하여 대칭 키 암호화
- 해당 개인 키를 소유한 수신자만 데이터 복호화 가능
Python의 cryptography 라이브러리를 사용하여 암호화 기능 구현
암호화된 모델 상태의 획득, 복호화 및 푸시 방법 구현
메모리 사용 최적화: 푸시된 모델의 해시 목록을 유지하고, 지정된 수량에 도달한 후 비움

d) 스마트 계약 기능 스마트 계약은 다음의 주요 함수를 포함한다:

initializeTask: 요청자가 FL 작업을 초기화하고, 모델 URI 및 라운드 수를 설정하며, 보증금 입금 요구
startTask: 요청자가 작업을 시작하고, 상태를 "실행 중"으로 변경
joinTask: 작업 노드가 작업에 참여하고, 등록하며, 모델 URI 획득
submitScore: 작업 노드가 각 라운드 평가 후 모델 점수 제출
removeWorker: 작업 노드가 작업 탈퇴
nextRound: 요청자가 다음 라운드로 진행
getSubmissions: 요청자가 현재 라운드의 모든 제출 획득
submitRoundTopK: 성능이 최고인 상위 K명의 작업 노드 획득
distributeRewards: 성능이 최고인 작업 노드에 보상 배분(상위 K명이 절반의 보상 획득, 나머지는 더 작은 몫 배분)

3. 작업 흐름

초기화 단계:
- 요청자가 스마트 계약을 배포하고, 훈련 라운드 수 N 및 총 보상액 D 설정
- 요청자가 초기 모델을 IPFS에 푸시
- 작업 노드가 스마트 계약을 통해 작업에 참여
훈련 단계(총 N 라운드):
- 각 라운드 시작 시, 작업 노드가 IPFS에서 다른 모든 작업 노드의 훈련 모델 획득
- 작업 노드가 로컬 데이터에서 이 모델들을 평가하고 점수 계산
- 점수를 스마트 계약에 제출
- 스마트 계약이 점수를 집계하고 성능이 최고인 상위 K명의 작업 노드 결정
- 성능에 따라 보상 배분
- 작업 노드가 로컬 데이터에서 모델 훈련
- 훈련된 모델을 IPFS에 푸시
- N 라운드 반복
종료 단계:
- 훈련 완료 후, 요청자가 IPFS에서 최종 전역 모델 획득
- 스마트 계약 함수를 호출하여 작업 종료

4. 집계/평균화 방법

작업 노드가 IPFS 저장소에서 자신의 모델 및 다른 작업 노드의 모델 획득
평균 함수를 사용하여 모든 모델을 더하고 기여 모델의 작업 노드 수로 나눔
정확도 향상을 위해 평균 모델 획득
이 방법은 중앙집중식 FedAvg의 중앙 서버와 클라이언트 간 대량 통신을 회피하여 채널 혼잡 및 개인정보 공격 위험 감소

기술 혁신 포인트

1. 기준선 방법과의 차이점

분산 아키텍처: 중앙 서버에 의존하지 않으며, 단일 장애점 및 개인정보 공격 회피
경제적 인센티브 메커니즘: 담보금 및 보상 시스템을 통해 성실한 행동 장려 및 악의적 행동 처벌
이중 암호화: AES와 RSA 결합으로 보안성 보장 동시에 오버헤드를 2%로 제어
블록체인 + IPFS: 블록체인의 변조 불가능성 및 IPFS의 분산 저장소 활용

2. 설계 합리성 분석

담보금 메커니즘: 경제적 수단을 통해 참여자 행동을 효과적으로 제약하며, 순수 기술 수단보다 더 큰 억제력 발휘
성능 평가 다차원성: 정확도, 일관성, 정밀도 및 재현율 등 여러 지표를 고려하여 작업 노드 기여도를 포괄적으로 평가
혼합 암호화: 대칭 암호화는 효율성이 높음(대용량 데이터에 적합), 비대칭 암호화는 보안성이 높음(키 교환에 적합), 두 가지 결합으로 효율성과 보안성 모두 확보
IPFS 저장소: 분산 아키텍처와 자연스럽게 부합하며, 콘텐츠 주소 지정 메커니즘이 데이터 무결성 보장

실험 설정

데이터셋

데이터셋 이름: MNIST 손글씨 숫자 데이터셋
데이터 규모:
- 훈련셋: 60,000개 이미지
- 테스트셋: 10,000개 이미지
작업: 0-9 손글씨 숫자 분류
데이터 배분: 훈련셋은 훈련 시작 시 각 작업 노드에 균등하게 배분
평가: 각 작업 노드는 테스트셋을 사용하여 평가 및 점수 계산

평가 지표

정확도(Accuracy): 올바르게 분류된 비율
정밀도(Precision): 0.973
재현율(Recall): 0.97
수렴 시간: 모델이 목표 정확도에 도달하는 데 필요한 시간

비교 방법

암호화 vs 미암호화: 이중 암호화가 수렴 시간에 미치는 영향 비교
서로 다른 작업 노드 수량: 3개 작업 노드 vs 5개 작업 노드

구현 세부사항

모델: 간단한 피드포워드 신경망(CNN), N층
프레임워크: PyTorch
블록체인: Ethereum 블록체인
시뮬레이션 환경: Ganache(로컬 Ethereum 블록체인 테스트 환경)
하드웨어: Xeon CPU, 8코어
훈련 방식: 로컬 머신에서 분산 클라이언트-서버 시스템 구현, 순차 실행(병렬 실행도 가능)
최대 라운드 수: 90개 에포크

실험 결과

주요 결과

1. 성능 분석

정확도: 90개 에포크 내에 95% 이상의 정확도 달성
정밀도: 0.973
재현율: 0.97
총 훈련 시간(3개 작업 노드): 6525.46초
각 작업 노드 수렴 시간: 약 36분
결론: 수렴 시간은 분산 연합학습 프레임워크와 상당함

2. 암호화 오버헤드 분석

이중 암호화 추가 오버헤드:
- 모든 3개 작업 노드 합계: 2분 34초
- 각 작업 노드: 51초
- 통신 비용 비율: 수렴에 필요한 시간의 **2%**에 불과함
결론: 이중 암호화 및 복호화 과정과 보안 키 쌍 전송 프로토콜의 오버헤드는 극히 미미하며, 동일한 정확도를 보장하면서 수용 가능함

3. 작업 노드 수량 비교

3개 작업 노드:
- 정확도 패턴이 더 안정적
- 원인: 각 작업 노드가 더 많은 훈련 데이터 보유
5개 작업 노드:
- 유사한 에포크 수 내에 수용 가능한 정확도 달성
- 훈련 과정을 가속화하고 훈련 규모 확장 가능
- 각 작업 노드의 필요 계산 능력 감소로 저사양 기기도 계산 노드로 작동 가능
결론:
- 작업 노드 수량 증가가 모델 수렴에 부정적 영향을 미치지 않음
- 작업 노드 수량은 훈련 데이터셋의 비율에 따라 선택해야 함
- 실제 시나리오에서 훈련 데이터셋을 증가시키면 다중 작업 노드 모델의 안정성 향상 가능

소거 실험

논문은 주로 암호화 오버헤드의 소거 실험을 수행했다:

이중 암호화 사용과 미사용 시의 수렴 시간 비교
암호화 메커니즘이 2%의 오버헤드만 증가시킴을 입증하여 설계의 효율성 검증

사례 분석

논문은 훈련 과정 중 정확도의 변화를 보여준다:

세 작업 노드 모두 초기 정확도가 낮음
첫 번째 라운드(3개 에포크) 내에 정확도가 현저히 향상
그 후 작업 노드가 순차적으로 훈련되면서 정확도가 꾸준히 향상
최종적으로 모든 작업 노드가 95% 이상의 정확도 달성

실험 발견

분산 아키텍처의 가능성: 실험은 분산 연합학습이 중앙집중식 방법과 상당한 성능을 달성할 수 있음을 입증
암호화 오버헤드 제어 가능: 이중 암호화 방식이 2%의 시간 오버헤드만 증가시켜 보안성과 효율성의 우수한 균형 입증
확장성: 작업 노드 수량 증가가 모델 성능을 손상시키지 않으며, 오히려 훈련을 가속화하고 단일 노드의 계산 요구사항 감소
데이터 배분의 중요성: 작업 노드 수량은 훈련 데이터셋 규모와 일치해야 훈련 안정성 유지 가능

결론 및 논의

주요 결론

제안된 분산 연합학습 아키텍처가 블록체인, 스마트 계약 및 IPFS를 성공적으로 통합하여 안전하고 효율적인 전역 모델 훈련 실현
실험 결과는 본 프레임워크가 90개 에포크 내에 95% 이상의 정확도를 달성하며, 수렴 시간이 중앙집중식 연합학습 프레임워크와 상당함을 보여줌
이중 암호화 방식이 2%의 최소 오버헤드만 증가시켜 보안성과 효율성의 우수한 균형 입증
본 방법은 이해관계자 간 신뢰 구축, 상호 호혜적 데이터 공유 촉진, 데이터 보안 및 정확성을 위협할 수 있는 행동 방지를 통해 데이터 관리 및 공유의 다중 과제를 효과적으로 해결

한계

실험 규모: 로컬 머신에서만 순차 실행 테스트를 수행했으며, 대규모 분산 환경에서 검증하지 않음
데이터셋 단일성: MNIST 데이터셋만 사용했으며, 더 복잡한 데이터셋 및 작업에서의 검증 부족
블록체인 비용: 블록체인 거래 비용 및 확장성 문제를 상세히 분석하지 않음
악의적 행동 탐지: 담보금 메커니즘이 정확한 성능 평가에 의존하나, 모델 투독 공격 등 더 복잡한 악의적 행동 탐지 방법을 심도 있게 논의하지 않음
작업 노드 선택: 작업 노드의 동적 선택 및 관리 방법, 노드의 동적 참여 및 탈퇴 처리 방법을 논의하지 않음
실제 배포 과제: 실제 배포 중의 네트워크 지연, 노드 이질성 등 문제를 다루지 않음

향후 방향

논문이 명시적으로 제시한 향후 연구 방향:

확장성 연구: 실제 세계 시나리오에서의 확장성 탐색
가능성 검증: 실제 응용에서 모델의 가능성 검증

기타 잠재적 방향:

더 복잡한 데이터셋 및 작업에서 프레임워크 테스트
더 고급 악의적 행동 탐지 및 방어 메커니즘 연구
블록체인 거래 비용 및 처리량 최적화
동적 작업 노드 관리 메커니즘 개발
이질적 기기 및 네트워크 조건 하의 성능 연구

심층 평가

장점

1. 방법의 혁신성

다중 기술 융합: 블록체인, 스마트 계약, IPFS 및 암호화 기술을 혁신적으로 연합학습에 통합하여 완전한 생태계 형성
경제적 인센티브 메커니즘: 담보금 및 보상 시스템이 경제적 관점에서 참여자 행동을 제약하며, 기술 수단의 효과적 보완
혼합 암호화 방식: AES+RSA 조합이 효율성과 보안성을 모두 고려

2. 실험의 충분성

정확도, 정밀도, 재현율 등 다차원 평가 제공
암호화 및 미암호화 성능 차이 비교
서로 다른 작업 노드 수량의 영향 테스트
구체적인 시간 및 성능 데이터 제공

3. 결과의 설득력

95% 이상의 정확도가 방법의 유효성 입증
2%의 암호화 오버헤드가 방안의 실용성 입증
수렴 시간이 기존 방법과 상당하여 경쟁력 입증

4. 작성의 명확성

아키텍처 설계가 명확하고 프로세스 설명이 상세
시스템 아키텍처 다이어그램 및 실험 결과 그래프 제공
스마트 계약 함수 기능 설명이 완전

부족한 점

1. 방법의 한계

악의적 행동 탐지 부족: 주로 성능 평가에 의존하며, 모델 투독, 그래디언트 공격 등 고급 공격에 대한 방어 부족
담보금 설정: 합리적인 담보금 액도 결정 방법을 논의하지 않음
비잔틴 용오차: 시스템이 용인할 수 있는 악의적 노드 수를 명확히 설명하지 않음

2. 실험 설정의 결함

데이터셋 과도하게 단순: MNIST는 경전적이나 단순한 데이터셋으로, 복잡한 시나리오를 반영하기 어려움
실제 환경 테스트 부족: 로컬 머신에서만 순차 실행하며, 실제 분산 환경에서 테스트하지 않음
비교 실험 부족: 다른 블록체인+연합학습 방식과 직접 비교하지 않음
블록체인 비용 미분석: Gas 비용, 거래 지연 등 주요 지표를 제공하지 않음

3. 분석의 부족

확장성 분석 부재: 작업 노드 수량이 대폭 증가할 때의 성능을 논의하지 않음
네트워크 조건 영향: 서로 다른 네트워크 조건 하의 성능을 고려하지 않음
이질성 처리: 기기 이질성 및 데이터 이질성의 영향을 논의하지 않음
이론적 분석 부족: 수렴성 증명 및 이론적 보장이 부족

영향력

1. 분야에 대한 기여

종합적 해결책: 다양한 기술을 통합한 완전한 프레임워크를 제공하여 후속 연구의 참고 자료 제공
실용 지향: 인센티브 메커니즘 및 악의적 행동 처벌에 중점을 두어 실제 응용 요구에 더 부합
개척적 작업: 블록체인+연합학습 분야에서 유익한 탐색 수행

2. 실용 가치

개인정보 보호: 의료, 금융 등 개인정보 민감 분야에 적용 가능
분산화: 중앙 서버를 신뢰하지 않는 시나리오에 적합
인센티브 메커니즘: 데이터 공유 및 협업 촉진 가능
그러나 실제 배포는 여전히 과제: 블록체인 비용, 확장성 등 문제 추가 해결 필요

3. 재현성

장점:
- 시스템 아키텍처 및 작업 흐름을 상세히 설명
- 스마트 계약 함수 설명 제공
- 사용 기술 스택 명시(PyTorch, Ethereum, Ganache 등)
부족:
- 코드 오픈소스 미제공
- 상세한 하이퍼파라미터 설정 부족
- 스마트 계약의 완전한 코드 미제공

적용 시나리오

1. 높은 적용성 시나리오

의료 데이터 협업: 여러 병원이 협력하여 모델 훈련, 환자 개인정보 보호
금융 위험 관리: 여러 은행이 데이터 특징 공유, 원본 데이터 미노출
연합 추천 시스템: 여러 플랫폼이 협력하여 추천 알고리즘 개선
엣지 컴퓨팅: IoT 기기가 협력하여 모델 훈련

2. 적용 조건

참여자 간 신뢰 부족으로 중앙 서버 사용 불원
데이터 개인정보 보호 요구사항이 높아 중앙 저장 불가
데이터 공유 촉진을 위한 인센티브 메커니즘 필요
일정 수준의 블록체인 거래 비용 수용 가능

3. 부적합 시나리오

실시간성 요구사항이 극히 높은 응용(블록체인 거래에 지연 있음)
참여자 수량이 극히 많은 시나리오(확장성 제한)
계산 자원이 극히 제한된 기기(암호화 및 블록체인 연산에 오버헤드)
신뢰할 수 있는 중앙 서버가 이미 존재하는 경우(분산화의 필요성 감소)

참고문헌

논문은 21편의 중요 문헌을 인용했으며, 주요 문헌은 다음을 포함한다:

Delacroix & Lawrence (2019): 데이터 신뢰의 기초 방법
McMahan et al. (2017): FedAvg 알고리즘의 원본 논문
Sun et al. (2022): 분산 연합 평균화의 최신 진전
Singh et al. (2022): IoT 의료에서의 블록체인 및 연합학습 응용
Wang et al. (2022): 블록체인 기반 차량 네트워크 개인정보 보호 연합학습
Shrestha et al. (2020, 2021): 사용자 데이터 공유의 블록체인 플랫폼 및 인센티브 메커니즘 설계

요약

본 논문은 다양한 기술(블록체인, 스마트 계약, IPFS, 혼합 암호화)을 통합하여 분산 연합학습 프레임워크를 제안했으며, 분산 기계학습에서의 신뢰, 인센티브 및 개인정보 보호 문제를 해결했다. 실험은 방법의 유효성을 검증했으나, 실제 배포, 확장성 및 복잡한 공격 방어 측면에서는 추가 연구가 필요하다. 본 작업은 개인정보 보호 협력 기계학습을 위한 가치 있는 아이디어를 제공하며, 특히 의료, 금융 등 민감한 분야에서의 응용 잠재력이 있다.