본문 바로가기
데이터 분석

나이브 베이즈(Naive Bayes) - 베이즈 정리

by 데이널 2023. 10. 24.

이번 포스팅에서는 베이즈 정리, 나이브 베이즈 가정 및 이슈, 그리고 나이브 베이즈 분류에 대해 설명하도록 하겠습니다. 저번 포스팅에서 나이브 베이즈의 기본 지식인 확률 분포와 Likelyhood에 대해 알아봤다면 이번에는 나이브 베이즈가 태동된 역사적 배경과 이슈 등에 대해 살펴보겠습니다.

 

 

확률에서 베이즈 정리(Bayes Theorem)

통계학에서 역사적으로 확률에 대한 관점은 베이지안 주의와 빈도 주의 두 가지가 있었습니다. 

  • 인식적 불확실성 : 비가 올 확률 베이지안
  • 우연적 불할실성 : 주사위 확률 빈도, 베이지안

여기서 주간적으로 느끼는 확률을 인식적 확률이라고 하고 통계적으로 사전 확률이라고 말합니다. 그래서 사전 분포를 만드는 과정이 중요하다고 할 수 있습니다. 사전 분포를 만드는 과정이 곧 훈련 과정으로 보시면 됩니다. 

 

역사적으로 베이지안 주의가 먼저 나왔고 빈도 주의가 뒤에 나왔습니다. 빈도 주의가 통계학의 주류가 된 이유는 대학교의 학과를 설립을 빈도 주의에서 하게 되면서 우리가 알고 있는 통계학이 되었습니다.

1. 빈도 주의(frequentism)

  • 사전 경험이 없다는 가정으로 발생 빈도로 해석하는 관점
  • 100번 동전 던지면 50번은 앞면이 나온다.
  • 확률 계산, 유의성 검정(로널드 피셔)
  • 엄격한 확률 공간 정의하거나, 집단의 분포를 정의하고 파생 결과물을 수용

2. 베이지안 주의(Bayesianism) 

  • 토마스 베이즈 목사, 수학자 정리
  • 확률을 주장에 대한 신뢰도로 해석하는 관점
  • 동전의 앞면이 나왔다는 주장의 신뢰도가 50%다.
  • 경험에 기반, 혹은 불확실성을 내포하는 수치를 기반으로 함
  • 추가되는 정보를 바탕으로 사전 확률을 갱신함
  • 추가 근거 확보를 통해 진리로 더 다가갈 수 있다는 철할 내포

나이브 베이즈 가정 

  • 모든 특성(feature)이 동등하고 독립적이라는 가정 - 예를 들어, 스펨 메일 분류에서 광고성 단어의 개수와 비속어의 개수가 서로 연관이 있어서는 안 됨
  • 사건에 해당하는 결과변수는 범주형 변수이어야 하며, 독립변수는 범주형 변수로 가정

 

나이브 베이즈 이슈

1. 독립변수(X)는 모두 범주형 변수이어야 함

  • 훈련 데이터에 연속형 변수가 포함된 있을 경우 범주형 변수로 변환
  • cut-off = 50으로 주는 방식 → 여부 속성의 변경
  • 몇 개의 구간으로 분리(0~100, 100~200, 200~300 등)

2. 나이브베이즈는 현실과 다소 다른 가정을 함

  • 독립변수들이 서로 독립이며 모두 동일하게 중요하다는 가정
  • 현실에는 독립변수들이 서로 완전히 독립일 수가 없으며, 어떤 변수는 다른 변수보다 결과변수 예측에 더 중요한 역할을 함

 

나이브 베이즈 분류(Naive Bayes Classifier)

데이터가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법입니다. 명칭은 나이브와 베이즈의 합성어로 의미는 아래와 같습니다. 

  • 나이브(Naive) : 예측한 특징이 상호 독립적이라는 가정하에 확률 계산을 단순화, 나이브라는 의미는 순진하다는 뜻을 담고 있으며 모든 변수들이 동등하다는 것을 의미함
  • 베이즈(Bayes) : 입력 특징이 클래스 전체의 확률 분포 대비 특정 클래스에 속할 확률을 베이즈 정리를 기반으로 계산

나이브 베이즈 분류(Naive Bayes Classifier)는 베이즈 정리에 기반한 통계적 분류 기법이면서 가장 단순한 지도 학습 (supervised learning) 중 하나입니다. 특징은 정확성도 높고 대용량 데이터에 대해 속도도 빠릅니다. 개념상 데이터가 많을 수록 더 정확도 높아집니다. 

 

Naive Bayes 공식
Naive Bayes 공식

Naive Bayes 공식

  • 사전(prior) 확률과 사후(posterior) 확률 사이의 관계를 조건부 확률을 이용해서 계산하는 확률 이론
  • 조건부 확률 : 사건 B가 일어난 후 사건 A가 일어날 확률
  • 공식 :  $ 𝑃(𝐴|𝐵)=(𝑝 (𝐵|𝐴)𝑃(𝐴))/𝑃(𝐵)  $
  • 아이디어 : 사전 확률을 알고 있을 때 사후 확률을 알 수 있다.
  • P(A|B), 사후 확률 : 어떤 조건이 주어졌을 때 나오는 확률(갱신한 신뢰도)
  • P(A), 사전 확률 : 아무것도 모를때 주어지는 확률(주장에 관한 신뢰도) = 주관적 확률, 인식적 확률
    • 성염색체와 관련된 이유로 삼색이 고양는 99%가 암컷
    • 이렇게 feature없이 사전 지식만으로 판별에 도움이 됨
  • P(B|A), 가능도(likelihood) : 사건 A가 발생할 경우 사건 B의 가능성

우도, 가능도에 대한 자세한 설명은 아래 내용을 참고하시기 바랍니다.

 

* 함께 보면 좋은 글

 

 

나이브 베이즈(Naive Bayes) - 확률적 생성 모델, Likelihood

이번 포스팅 부터 나이브 베이즈(Naive Bayes) 분류에 대해 하려고 합니다. 우선 나이브 베이즈를 들어가기 전에 확률적 생성 모형이라는 기본 지식부터 알아야 합니다. 분류(Classification) 모형의 종

bommbom.tistory.com