앙상블은 여러 개의 개별적인 머신러닝 모델을 결합하여 하나의 좋은 모델 만드는 기법. (집단지성같은 느낌)
앙상블의 대표적 두 기법이 배깅부스팅*

용어

병렬 : 여러 모델이 서로에게 영향을 주지 않고, 동시에 독립적으로 각자의 학습을 진행한 뒤, 마지막에 그 결과들을 합치는 방식
직렬 : 하나의 모델이 학습을 끝내면, 그 결과(주로 실수)를 다음 모델에게 전달하여, 다음 모델이 앞선 모델의 실수를 보완하며 학습을 진행하는 방식

개념

서로 독립적으로 병렬 학습을 한 뒤, 그 결과를 종합하여 결론을 내리는 방식

알고리즘

랜덤 포레스트 (Random Forest)

배깅의 가장 대표적인 알고리즘
여러 개의 의사결정 트리를 앙상블하는데, 부트스트랩뿐만 아니라 각 트리의 노드를 분기할 때마다 특징(feature)의 일부를 무작위로 선택하는 과정을 추가하여 다양성을 극대화

부트스트랩 (Bootstrap)

원본 데이터셋에서 중복을 허용하여 여러 개의 작은 훈련 데이터셋을 무작위로 만드는 과정

어그리게이팅 (Aggregating)

독립적으로 학습된 모든 모델의 예측 결과를 하나로 합치는 과정

여러 모델들이 순차적으로 학습하며, 이전 모델이 틀린 문제를 다음 모델이 집중적으로 학습하여 보완해나가는 방식

알고리즘

순차적 학습 (Sequential Learning)

첫 번째 모델이 학습하고 예측하면, 그 예측이 틀린 데이터에 가중치를 부여. 두 번째 모델은 이 가중치가 높은(어려운) 문제들을 더 열심히 학습. 이 과정이 계속 반복

가중 투표 (Weighted Voting)

모든 모델의 학습이 끝나면, 각 모델의 예측을 종합하여 최종 결론을 냄
전체 과정에서 성능이 좋았던(정답을 많이 맞힌) 모델의 의견에 더 높은 가중치를 주어 최종 예측에 더 크게 반영


  • 머신러닝/앙상블.txt
  • Last modified: 2025/10/10 13:16
  • by masteraccount