2024년 6월 23일
연합학습 (Federated Learning)
1. 연합학습 (Federated Learning)의 개념 및 필요성
(1) 연합학습의 개념
개념도 | 개념 |
---|---|
분산 저장된 데이터 이동 없이 각 장치의 학습 결과를 수집/종합하여 모델을 생성하는 분산형 머신러닝 기술 |
(2) 연합학습의 필요성
대규모 데이터 관리 | 대용량 데이터 저장 및 전송이 불필요하므로 대규모 데이터 관리 용이 |
분산 시스템 활용 | 분산된 장치의 학습 결과만 종합하므로 중앙 서버는 고성능 컴퓨팅 불필요 |
개인정보 보호 | 데이터 자체를 전송하지 않기 때문에 개인정보 유출 안전성 확보 |
지속적 학습 | 로컬에서 학습 및 중앙 서버로 업로드 과정을 반복하여 지속적 학습 가능 |
- 연합 학습은 분산된 위치에 저장된 데이터를 학습하고 결과만 중앙 서버로 전송하므로 분산 시스템을 적극적으로 활용하여 센서, IoT, 자동차, 스마트폰 등 다양한 분야에 적용
2. 연합학습 수행 과정과 주요 알고리즘
(1) 연합학습 수행 과정
① 생성할 통계 모델 선택 | ② 각 Worker로 초기 모델 배포 |
③ 각 Worker에서 개별 학습 | ④ 학습 결과 수집, Global Model 생성 |
(2) 연합학습의 주요 알고리즘
주요 알고리즘 | 동작 설명 |
---|---|
FedSGD | – Federated Stochastic Gradient Descent – 모든 참가자 참여, 각 트레이닝 라운드 별 하나의 pass(1 step training) 수행 – minibatch 사이즈가 각 참가자의 데이터셋 크기와 같은 것을 의미하며 centeralized DL에서 full-batch 학습과 유사 |
FedAvg | – Federated Averaging – 각 단말이 일정 횟수(K)로 반복 학습 수행 후 파라미터 값을 서버로 전달 – 각 단말에서 batch size 크기로 학습하여(minibatch 효과) global parameter 수렴 시간 단축 |
FedBCD | – Federated Stochastic Block Coordinate Descent – 각 참가자는 global aggregation 통신 전에 multiple local update 수행 – 각 통신마다 approximate 보정 적용되며 convergence가 보증 |
FedTrans | – Federated Transfer – 통신 비용을 절감 방안으로 수렴 속도를 증가 시켜 학습 알고리즘 변경 – 전이 학습과 domain adaptation의 공통 사용 two-stream 모델 사용 |
HierFaVG | – Hierachical FL – edge server가 local model의 파라미터 집계 – 사전 정의된 edge server 집계 수 만족 시 global model aggregation 수행 |
- 연합학습은 분산 시스템을 적극적으로 활용하여 효율적으로 머신러닝 학습 모델을 생성할 수 있지만 분산 장치 간 환경 차이 또는 학습 결과를 이용한 추론 등 문제점이 있으므로, 수집 결과 밸런싱이나 차분 프라이버시, 동형암호화, 안전한 다자간 연산(SMPC) 적용 등 적절한 대응 필요
3. 연합학습의 문제점 및 대응 방안
문제점 | 대응 방안 |
---|---|
– IID(Independent and Identically Distribution) – 장치 간 학습 환경 차이로 모델 안정성 저하 | – 수집 시 동일 환경의 결과와 같도록 밸런싱 – 장치 고유 특성을 고려하여 Personalisation |
– Privacy Preserving – 학습 결과 정보 기반 원본 데이터 추론, 복원 | – 차분 프라이버시, 동형 암호화, SMPC 등 – 특정 부분 학습 결과 제거하여 개인정보 제거 |
– Communication Cost – 분산 장치 수/거리에 따라 모델생성비용 증가 | – 학습 참여 장치 개수 조정, 모델 압축 적용 – 여러 번 학습한 결과를 한 번에 모아서 전송 |
- 추가로 차분 프라이버시(차등정보보호), 동형암호 등으로 해결하기 어려운 파라미터 업데이트 공격, 학습 데이터 공격, 회피 공격 등 외부 공격에 대한 안전성 문제와 함께 기존 머신러닝의 문제점인 공정성(Fairness)과 편향성(Bias) 문제에 대해 고려 필요
[참고]
- 한국전자통신연구원(ETRI), 연합학습 기술 동향 및 산업적 시사점
- 숭실대학교, 금융데이터의 성능 비교를 통한 연합학습 기법의 효용성 분석