2019년 1월 11일
배깅(Bagging), 부스팅(Boosting)
1. 분류 모델 생성 알고리즘, 배깅과 부스팅
| 배깅 | 부스팅 |
|---|---|
| 데이터에서 여러 bootstrap 자료 생성, 모델링 후 결합하여 최종 예측 모형을 만드는 알고리즘 | 오분류 개체들에 가중치를 적용하여 새로운 분류 규칙 생성 반복 기반 최종 예측 모형 생성 |
2. 배깅과 부스팅 알고리즘 수행 절차
(1) 배깅 알고리즘 수행 절차
| 절차도 | ![]() |
| 절차 | ① Row data에서 bootstrap 데이터 추출 ② 추출을 반복하여 n개의 데이터 생성 ③ 각 데이터를 각각 모델링 하여 모델 생성 ④ 단일 모델을 결합하여 배깅 모델 생성 |
(2) 부스팅 알고리즘 수행 기법
| 절차도 | ![]() |
| 절차 | ① Row data에 동일가중치로 모델 생성 ② 생성된 모델로 인한 오분류 데이터 수집 ③ 오분류 데이터에 높은 가중치 부어 ④ 과정 반복을 통하여 모델의 정확도 향상 |
- 배깅은 여러 번의 샘플링을 통해 분산을 줄여 모델 변동성 감소
- 부스팅은 잘못 분류된 데이터에 집중해 모델의 정확도를 향상
3. 배깅과 부스팅 기술적 특징 비교
| 항목 | 배깅 | 부스팅 |
|---|---|---|
| 수행원리 | 샘플링에 의한 결합 | 가중치 재조정 반복 |
| 수행목적 | 모델 변동성 감소 | 모델 정확도 향상 |
| 적용연산 | 평균, 다수결 | 가중치 선형 결합 |
| 초기모델 | Bootstrap 모델 | Weak Classification |
| 최종모델 | Bagging 모델 | Strong Classification |
| 분류성능 | 결측치 존재 시 우수 | 데이터 다수 시 우수 |
- 데이터 마이닝의 분류 문제 해결 시 목표 변수 예측 모델 생성, 특성 별 모델 생성 알고리즘 선택 적용 필요
2 Comments


안녕하세요. ‘배깅과 부스팅 기술적 특징’ 비교 부분에서, 배깅의 수행원리가 ‘샘플링에 의한 결함’이 아니라 ‘샘플링에 의한 결합’ 으로 이해하면 될까요?
네. “샘플링에 의한 결합”으로 이해하시면 되며, 본문 업데이트하였습니다. 오타지적 감사합니다.^^