연합학습 (Federated Learning)

1. 연합학습 (Federated Learning)의 개념 및 필요성

(1) 연합학습의 개념

개념도개념
분산 저장된 데이터 이동 없이 각 장치의 학습 결과를 수집/종합하여 모델을 생성하는 분산형 머신러닝 기술

(2) 연합학습의 필요성

대규모 데이터 관리대용량 데이터 저장 및 전송이 불필요하므로 대규모 데이터 관리 용이
분산 시스템 활용분산된 장치의 학습 결과만 종합하므로 중앙 서버는 고성능 컴퓨팅 불필요
개인정보 보호데이터 자체를 전송하지 않기 때문에 개인정보 유출 안전성 확보
지속적 학습로컬에서 학습 및 중앙 서버로 업로드 과정을 반복하여 지속적 학습 가능
  • 연합 학습은 분산된 위치에 저장된 데이터를 학습하고 결과만 중앙 서버로 전송하므로 분산 시스템을 적극적으로 활용하여 센서, IoT, 자동차, 스마트폰 등 다양한 분야에 적용

 

2. 연합학습 수행 과정과 주요 알고리즘

(1) 연합학습 수행 과정

① 생성할 통계 모델 선택② 각 Worker로 초기 모델 배포
③ 각 Worker에서 개별 학습④ 학습 결과 수집, Global Model 생성

(2) 연합학습의 주요 알고리즘

주요 알고리즘동작 설명
FedSGD– Federated Stochastic Gradient Descent
– 모든 참가자 참여, 각 트레이닝 라운드 별 하나의 pass(1 step training) 수행
– minibatch 사이즈가 각 참가자의 데이터셋 크기와 같은 것을 의미하며 centeralized DL에서 full-batch 학습과 유사
FedAvg– Federated Averaging
– 각 단말이 일정 횟수(K)로 반복 학습 수행 후 파라미터 값을 서버로 전달
– 각 단말에서 batch size 크기로 학습하여(minibatch 효과) global parameter 수렴 시간 단축
FedBCD– Federated Stochastic Block Coordinate Descent
– 각 참가자는 global aggregation 통신 전에 multiple local update 수행
– 각 통신마다 approximate 보정 적용되며 convergence가 보증
FedTrans– Federated Transfer
– 통신 비용을 절감 방안으로 수렴 속도를 증가 시켜 학습 알고리즘 변경
– 전이 학습과 domain adaptation의 공통 사용 two-stream 모델 사용
HierFaVG– Hierachical FL
– edge server가 local model의 파라미터 집계
– 사전 정의된 edge server 집계 수 만족 시 global model aggregation 수행
  • 연합학습은 분산 시스템을 적극적으로 활용하여 효율적으로 머신러닝 학습 모델을 생성할 수 있지만 분산 장치 간 환경 차이 또는 학습 결과를 이용한 추론 등 문제점이 있으므로, 수집 결과 밸런싱이나 차분 프라이버시, 동형암호화, 안전한 다자간 연산(SMPC) 적용 등 적절한 대응 필요

 

3. 연합학습의 문제점 및 대응 방안

문제점대응 방안
– IID(Independent and Identically Distribution)
– 장치 간 학습 환경 차이로 모델 안정성 저하
– 수집 시 동일 환경의 결과와 같도록 밸런싱
– 장치 고유 특성을 고려하여 Personalisation
– Privacy Preserving
– 학습 결과 정보 기반 원본 데이터 추론, 복원
차분 프라이버시, 동형 암호화, SMPC
– 특정 부분 학습 결과 제거하여 개인정보 제거
– Communication Cost
– 분산 장치 수/거리에 따라 모델생성비용 증가
– 학습 참여 장치 개수 조정, 모델 압축 적용
– 여러 번 학습한 결과를 한 번에 모아서 전송
  • 추가로 차분 프라이버시(차등정보보호), 동형암호 등으로 해결하기 어려운 파라미터 업데이트 공격, 학습 데이터 공격, 회피 공격 등 외부 공격에 대한 안전성 문제와 함께 기존 머신러닝의 문제점인 공정성(Fairness)과 편향성(Bias) 문제에 대해 고려 필요

 

[참고]

  • 한국전자통신연구원(ETRI), 연합학습 기술 동향 및 산업적 시사점
  • 숭실대학교, 금융데이터의 성능 비교를 통한 연합학습 기법의 효용성 분석

콘텐츠 사용 시 출처 표기 부탁 드리고, 궁금한 점이나 의견은 댓글 남겨주세요^^