2019년 1월 11일
배깅(Bagging), 부스팅(Boosting)
I. 분류 모델 생성 알고리즘, 배깅과 부스팅
배깅 | 부스팅 |
---|---|
데이터에서 여러 bootstrap 자료 생성, 모델링 후 결합하여 최종 예측 모형을 만드는 알고리즘 | 오분류 개체들에 가중치를 적용하여 새로운 분류 규칙 생성 반복 기반 최종 예측 모형 생성 |
II. 배깅과 부스팅 알고리즘 수행 절차
가. 배깅 알고리즘 수행 절차
절차도 | |
절차 | ① Row data에서 bootstrap 데이터 추출 ② 추출을 반복하여 n개의 데이터 생성 ③ 각 데이터를 각각 모델링 하여 모델 생성 ④ 단일 모델을 결합하여 배깅 모델 생성 |
나. 부스팅 알고리즘 수행 기법
절차도 | |
절차 | ① Row data에 동일가중치로 모델 생성 ② 생성된 모델로 인한 오분류 데이터 수집 ③ 오분류 데이터에 높은 가중치 부어 ④ 과정 반복을 통하여 모델의 정확도 향상 |
- 배깅은 여러 번의 샘플링을 통해 분산을 줄여 모델 변동성 감소
- 부스팅은 잘못 분류된 데이터에 집중해 모델의 정확도를 향상
III. 배깅과 부스팅 기술적 특징 비교
항목 | 배깅 | 부스팅 |
---|---|---|
수행원리 | 샘플링에 의한 결합 | 가중치 재조정 반복 |
수행목적 | 모델 변동성 감소 | 모델 정확도 향상 |
적용연산 | 평균, 다수결 | 가중치 선형 결합 |
초기모델 | Bootstrap 모델 | Weak Classification |
최종모델 | Bagging 모델 | Strong Classification |
분류성능 | 결측치 존재 시 우수 | 데이터 다수 시 우수 |
- 데이터 마이닝의 분류 문제 해결 시 목표 변수 예측 모델 생성, 특성 별 모델 생성 알고리즘 선택 적용 필요
2 Comments
안녕하세요. ‘배깅과 부스팅 기술적 특징’ 비교 부분에서, 배깅의 수행원리가 ‘샘플링에 의한 결함’이 아니라 ‘샘플링에 의한 결합’ 으로 이해하면 될까요?
네. “샘플링에 의한 결합”으로 이해하시면 되며, 본문 업데이트하였습니다. 오타지적 감사합니다.^^