본문 바로가기
데이터 분석

나이브 베이즈(Naive Bayes) - 확률적 생성 모델, Likelihood

by 데이널 2023. 10. 23.

이번 포스팅 부터 나이브 베이즈(Naive Bayes) 분류에 대해 하려고 합니다. 우선 나이브 베이즈를 들어가기 전에 확률적 생성 모형이라는 기본 지식부터 알아야 합니다. 

 

 

분류(Classification) 모형의 종류

분류 모형의 종류를 이야기 하려면 우선 조건부 확률에 대한 개념을 알아야 합니다. 조건부 확률은 어떤 사건이 일어나는 경우에 다른 사건이 일어날 확률을 말합니다. 즉 어떤 조건일때 일어날 확률입니다. 이 조건부 확률을 이용하는지 아니면 경계면을 이용하는지에 따라 확률적 모형과 판별함수 모형으로 분류할 수 있습니다.   

1. 확률적 모형

  • 주어진 데이터에 대해 각 Class가 정답일 조건부 확률(Conditional Probability)을 계산하는 모형
  • 확률적 판별 모형 : 직접 조건부 확률 함수의 모양을 추정하는 모형, 일반적인 머신러닝 알고리즘이 이 모형에 해당됨, 예) 로지스틱 회귀, 의사결정나무(Decision tree)
  • 확률적 생성 모형 : 베이지 정리(Bayes’ theorem)를 사용하여 간접적으로 조건부 확률을 구하는 모형, 예) Naive Bayes Classification

2. 판별 함수 모형

  • 주어진 데이터를 서로 다른 영역(Class)으로 나누는 경계면(decision boundary)을 찾아낸 다음 이 경계면으로부터 주어진 데이터가 어느 위치에 있는지를 계산하는 판별 함수를 이용하는 모형
  • 예) 퍼셉트론, 인공신경망, SVM

 

Probability vs Likelihood

1. Probability(확률) 

  • 특정 범위내에 얼마의 확률로 존재하는지(Area, 면적)
  • 분포가 주어졌을데 데이터의 확률을 의미
  • 확률 =  P(관측값 X | 확률분포 D)

2. Likelihood(우도, 가능도) 

  • 분포에서 특정 사건이 일어날 가능성 (Point. 값)
  • 데이터가 주어졌을 때 분포의 가능성(likehood)을 의미
  • 가능도 = L(확률분포 D | 관측값 X)

3. Maximum likelihood method(MLE, 최대우도법) 

  • 각 관측값에 대한 총 Likehood가 최대가되는 분포를 찾는 것
  • 결국, 데이터를 가장 잘 설명해주는 분포를 찾는 방법

 

Probability vs Likelihood
Probability vs Likelihood

 

Likelihood(가능도, 우도)

우도(Likelihood)에 대해 이해하고 넘어가야 합니다. 우선 조건부 확률 키(즉, 특정 정보)에 따라 이 사람이 남자인지, 여자인지 판별하는 문제를 푼다고 가정하겠습니다. Training sample들을 통해 다음과 같이 남자와 여자의 키 분포가 다르다는 것을 알수 있습니다.

 

이러한 분포 모델링은 정규 분포를 가정하는 경우 Training sample들의 평균과 분산을 계산하여 구축할 수 있습니다. 분류할 사람 키가 175cm 경우 구축해 놓은 확률밀도함수의 분포로 판단합니다. 분포를 볼 때 여자라고 생각하는 것 보다 남자라고 생각하는 것이 더 “가능성”이 큽니다. 여기서 이 “가능성”이 최대우도법의 “likelihood 기여도” 입니다. 

 

그렇다면 키가 175cm일 likelihood는 어떻게 될까요? 

  • 남자라고 판단 : P(키 = 175cm|성별 = 남자)
  • 여자라고 판단 : P(키 = 175cm|성별 = 여자)
  • P(키 = 175cm|성별 = 남자) > P(키 = 175cm|성별 = 여자)

Likelihood만 가지고 판단하기는 충분하지는 않습니다. 왜냐하면 Likelihood는 추가정보로 생각하는게 맞기 때문입니다.

  • Prior(사전지식) x Likehood(가능성) = 판단 근거

Likelihood 설명
Likelihood 설명

마무리

확률론적 생성 모델은 자연어 처리, 기계 학습, 통계 등 다양한 분야에서 사용됩니다. 무작위 요소를 사용하여 텍스트, 이미지 또는 기타 시퀀스와 같은 데이터를 생성하는 모델입니다. 일반적으로 확률론적 생성 모델은 가변성 요소를 사용하여 현실적이고 상황에 맞는 출력을 생성할 수 있으므로 생성된 데이터의 무작위성과 다양성이 필요한 작업에 유용하게 사용됩니다.