본문 바로가기
딥러닝

통계 기반 기법 vs 추론 기반 기법의 차이점

by 데이널 2024. 3. 22.

머신러닝을 공부하다 보면 통계 기반 기법과 추론 기반 기법이 어떻게 다르지 하는 궁금증이 생기게 됩니다. 일반적으로 현장에서는 두 기법을 같이 사용하고 있는데요. 어떤 차이점이 있는지 살펴보도록 하겠습니다. 

 

 

추론 기반 기법이란

추론 기반 기법은 추론하는 과정, 즉 계속 정답을 맞춰가는 과정을 활용한 기법입니다. 예를 들어, 신경망을 이용하는 경우는 미니배치로 학습하는 것이 바로 추론 기반 기법이죠. 미니배치 학습을 통해 신경망에 한 번에 소량(미니배치)의 학습 데이터를 반복해서 학습하게 됩니다. 그리고 그 과정에서 Loss를 계산해 가중치를 갱신하는 작업을 합니다.

 

이때 병렬 처리를 한다고 하면 병렬처리 한 것끼리 평균으로 update 하게 되죠. 언어모델로 생각해 보면, 미니배치 작업을 통해 어휘수가 많은 Corpus도 신경망 학습을 통해 가능하게 되는 원리입니다. 

 

통계 기반 vs 추론 기반

1. 학습 측면

  • 통계 : 말뭉치 전체를 1회 학습
  • 추론 : 말뭉치 미니배치(일부분)씩 여러 번 학습

2. 새로운 단어 발생시 

  • 통계 : 계산 처음 부터 다시 해야 함, 동시발생행렬 역시 다시 만들게 됨  
  • 추론 : 기존의 매개변수를 활용해 다시 학습 가능

3. 분산표현의 성격 

  • 통계 : 주로 단어의 유사성 인코딩 
  • 추론 : 단어의 유사성 + 복잡한 단어 사이의 패턴까지 학습

4. 정밀도

  • 단어 유사성은 비슷한 성능을 보
  • “Don’t count, predict”이라는 논문에서는 항상 추론 기반이 좋은 성능을 냈다고 함
  • 다른 논문에서는 단어의 유사성 작업의 경우 하이퍼파라미터에 크게 의존, 통계 기반과 추론 기반의 우열을 명확히 가릴 수 없다고 함

  통계 기반 기법 추론 기반 기법
분석 단어의 유사성 분석 맥락 분석
범위 단어와의 관계(동시발생) 단어 출현 패턴
학습 전체 학습 순차적 학습(minibatch)

 

 

통계 기반 기법은 데이터의 통계 속성을 이해하고 모집단에 대해 추론하는 데 중점을 두는 반면, 추론 기반 기법은 데이터에서 학습된 패턴을 기반으로 정확한 예측 또는 분류를 우선시합니다. 이 두 가지 접근 방식 사이의 선택은 문제의 성격, 데이터의 가용성, 해석 가능성과 예측 정확도 간의 원하는 균형과 같은 요소에 따라 달라집니다.