랜덤 포레스트2 랜덤 포레스트(Random Forest) 장단점 - 특성(변수) 중요도 랜덤 포레스트(random forest)에서 특성 중요도를 쉽게 측정할 수가 있는데요. 어떤 특징 때문에 가능한 것일가요? 그리고 장단점은 무엇인지 알아보도록 하겠습니다. 만약 Random Forest의 동작 원리에 대해 글을 읽지 않으셨다면 링크의 글을 읽어 보시는 것을 추천드립니다. 특성 중요도 랜덤 포레스트는 작은 트리들(trees)을 이용하는 방법을 사용해 특성의 상대적 중요도를 측정하기 쉽다는 특징이 있습니다. 랜덤 포레스트 특성 중요도는 Decision Tree 보다 더 신뢰할 만합니다. 이유는 여러 Tree를 통해 일반화 했기 때문이죠. 평균적인 불순도가 얼마나 감소하는지를 확인해 특성 중요도를 측정 가능합니다. 더 정확히 말하면 각 노드(node)의 속한 샘플의 가중치 평균이라고 계산한다고.. 2023. 9. 22. 랜덤 포레스트(Random Forest) 동작 원리 및 OOB, Random Subspace 저번 포스팅에서 Random Forest의 특징에 대해 살펴봤다면 이번 포스팅에서는 그 동작원리와 OOB 개념, 그리고 파라미터 튜닝 등에 대해 알아보도록 하겠습니다. 『 '데이널'의 컨텐츠에 포함된 정보는? 』 알고리즘 동작 원리Random Forest 알고리즘은 Bootstrap 기법(복원 추출)을 이용하여 다수 훈련 데이터 생성합니다. 이것을 이전 포스팅에서 이야기 했듯이 배깅(Bagging)이라고 합니다. 생성된 훈련 데이터로 무작위 변수를 이용한 의사결정나무 모델 구축합니다. 이것을 Random Subspace 방식이라고 하는데, 아래에 다시 다루겠습니다. 마지막으로 예측 종합(Final predicted value) 과정을 거칩니다. Bootstrap 기법으로 데이터 추출무작위 변수를 이용한.. 2023. 9. 21. 이전 1 다음