
[데이터 분석] 17. 랜덤 포레스트 (Random Forest)
·
Data Science/데이터 분석 📊
1. 랜덤 포레스트 (Random Forest)랜덤 포레스트는 의사결정나무를 기반으로 배깅 앙상블 모형으로, 간단히 설명하자면, 여러 개의 의사결정나무의 평균을 낸 모형이라고 할 수 있다. 구체적으로는 2가지 방법을 사용해서 다양한 의사결정나무를 만든다. 첫 번째는 의사결정나무를 만들 때, 데이터의 일부를 복원추출로 꺼내고 해당 데이터에 대해서만 의사결정나무를 만드는 방법이다. 다른 하나는 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때, 일부 변수만 대상으로 해서 가지를 나눌 기준을 찾는다. 만약 새로운 데이터에 대한 예측을 수행할 때는 여러 개의 의사결정나무가 내놓은 예측결과를 투표방식으로 합한다.각 나무별로 분산이 높다는 단점이 있지만, 앙상블 기법을 이용함으로써 견고한 모델을 만들고, 일반화..