이번 포스팅에서는 나이브 베니즈 분류의 장단점 및 활용분야, 그리고 종류가 어떤 것들이 있는지 알아보도록 하겠습니다. 나이브 베이즈는 주어진 데이터의 분포를 사전 확률로 사용하는 모델인만큼 장단점도 유추할 수 있습니다.
만약 나이브 베이즈의 개요 및 특징 그리고 베이즈 정리, 가정, 공식 등의 지식은 아래를 참조해 주시기 바랍니다.
장점
- 간단하고 빠르며 효율적인 알고리즘 - 반복적 학습보다는 사전 분포로 계산함
- 노이즈와 누락 데이터를 잘 처리함 - 분포에서 벗어난 데이터가 노이즈
- 훈련을 할 때 데이터 크기에 상관 없이 잘 동작함
- 예측을 위한 추정 확률을 쉽게 얻을 수 있음
- 다중 클래스 예측에도 사용 가능
단점
- 모든 특징이 동등하게 중요하고, 독립이라는 가정이 잘못된 경우가 자주 있음 - 나이브 베이즈 가정
- 예를 들어, 텍스트의 단어들, 일기예보를 할 때 습도와 같은 중요한 특징을 다른 특징과 동등하다 판단
- 단점 보완을 위해 특성에 가중치를 주는 개념 사용
- 수치 특징이 많은 데이터셋에는 이상적이지 않음(연속형보다 이산형 데이터에 성능이 좋음, ex 스팸)
- 추정된 확률은 정교하지 않지만 판별 성능은 좋음 - 55%로 스팸 진단 하더라도 많는 비율이 높음
활용 영역
- 스팸 필터링(이진 분류) : 대중적으로 나이브베이즈의 활용에 가장 많이 알려진 영역
- 비정상인 상황 감지(이진 분류) : 컴퓨터 네트워크 침입이나 비정상 행위 등 탐지
- 의학적 질병 진단(이진 분류) : 종양의 크기, 환자의 나이 등을 여부로 암 여부를 진단
- 문서 분류(다중 분류) : 문서 데이터를 읽고, 스포츠, 정치, 연예 등의 문서 분류
나이브 베이즈 분류기 종류
나이브 베이즈 분류기에는 여러 가지 종류가 있으며, 주로 사용되는 종류는 다음과 같습니다.
가우시안 나이브 베이지(Gaussian Naive Bayes)
- 독립변수가 연속형인 경우 사용
- 특성들의 값들이 정규 분포(가우시안 분포)라는 가정에서 조건부 확률을 계산
- 연속적인 성질이 있는 데이터를 분류하는데 적합
- 테스트 데이터로 사전확률을 구해서 cut-off로 범주화
- 예) 붓꽃(iris) 데이터 셋 분류
다항분포 나이브 베이즈(Multinomial Naive Bayes)
- 데이터의 특성이 출현 횟수로 표현 됐을 때 사용
- 예를 들어, 주사위를 10번 던졌을 때 1이 3번, 2가 4번 등등
- 예) 영화 감상평을 토대로 긍정적/부정적 리뷰 분류
베르누이 나이브 베이즈(Bernoulli Naiva Bayes)
- 데이터 특성이 0 또는 1로 표현 됐을 때 사용
- e-mail과 같은 문서 내에 특정한 단어가 포함되어 있는지의 여부는 베르누이 확률변수로 모형화할 수 있음
- 예) 스팸 메일 필터
나이브 베이즈에서 스무딩(smoothing)
나이브 베이즈 분류기에서 스무딩을 사용합니가. 만약 이산적인 데이터의 경우 빈도수가 0인 경우 발생하게 됩니다. 나이브 베이즈 기반 스팸 메일 필터를 한다고 예를 들어 보겠습니다. 학습 데이터에 없는 데이터가 실제 상황에서 나타나면 확률 ’0‘이 되어 스팸 분류가 어려워집니다. 베르누이 모수가 0.5인 가장 일반적인 경우를 가정하여 ‘0’이 나오는 경우와 ‘1’이 나오는 경우, 두 개의 가상 표본 데이터를 추가합니다. 그러면 ‘0’이나 ‘1’과 같은 극단적인 추정값이 0.5에 가까운 다음과 값으로 변환됩니다. 이를 라플라스 스무딩(Laplace smoothing) 또는 애드원(Add-One) 스무딩아리고 합니다.
'데이터 분석' 카테고리의 다른 글
서포트 벡터 머신(SVM) - 주요 파리마터, 비선형 SVM, 커널 트릭(Kernal Trick) (0) | 2023.10.26 |
---|---|
서포트 벡터 머신(SVM) - 결정 경계, soft margin vs hard margin (0) | 2023.10.26 |
나이브 베이즈(Naive Bayes) - 베이즈 정리 (0) | 2023.10.24 |
나이브 베이즈(Naive Bayes) - 확률적 생성 모델, Likelihood (1) | 2023.10.23 |
불균형 데이터(Data Imbalance) 처리 - 모델 조정 방법(Cost-Sensitive,Focal loss,Novelty Detection (0) | 2023.10.23 |