본문 바로가기
데이터 분석

지도학습 비지도학습 쉬운 설명

by 데이널 2023. 12. 18.

지도 학습 vs 비지도 학습 이란 말이 너무 어렵게 느껴지시나요? 위키백과의 설명을 참고해도 그렇게 와 닿는 이야기는 아닙니다. 또 우리에게 약간의 선입견도 있습니다. 

 

‘비지도’라고 하면 학습을 하지 않는 알고리즘이라는 생각이 먼저 듭니다. 만약 비지도니까 기계가 학습하지 않는 거라고 생각했던 분들은 그 생각은 바로 버리십시오. 이는 처음 분석을 하는 사람들이 많이 헷갈려하는 개념입니다. 그런데 걱정하지 마세요. 알고 보면 구별하기 너무 쉽다는 것을 알게 됩니다. 

 

 

가장 쉬운 구분 방법은 '레이블이 있냐? 없냐?'입니다. 

레이블이 뭐냐고요? 레이블(Label)은 정답지를 말합니다. 예를 들어, 수학시간에 x+1=y라는 수식이 있다고 생각해 보세요. 여기서 x값을 넣었을 때 y가 나온다고 하면 y가 레이블입니다. 보통 x값들을 feature 또는 입력 변수라고 부르고, y값은 타겟 변수라고 합니다. 다른 말로 x는 독립변수, y는 종속변수라고 하기도 하는데요. 독립, 종속이라는 통계 용어가 어려우면 사용하지 않아도 무관합니다. x는 feature라고 표현을 가장 많이 사용하니가요. 

 

그런데 왜 y를 알아야 할까요? 우리가 y를 모르면 x에 값을 넣어을 때 제대로된 정답을 잘 맞췄는지 알 수 없습니다. 그래서 우리가 만든 수식(알고리즘)이 정확한지 알 수 없죠. 그래서 레이블인 y값이 필요한 이유입니다. 그런데 잘 생각해 보면 우리가 풀려는 문제에는 y값을 얻을 수 없는 경우도 존재합니다. 예를 들어, 무엇인가 그룹핑(grouping)하는 작업 후에는 어떤 게 정답이라는 결과가 나올 수 없죠.

 

그래서 지도 학습과 비지도 학습으로 머신러닝 알고리즘이 분리되어 발전해 왔죠.  

  • 지도 학습 = 레이블(y값)이 있는 경우
  • 비지도 학습 = 레이블(y값)이 없는 경우

 

지도학습 vs 비지도학습
지도학습 vs 비지도학습

 

지도 학습 = 레이블 존재

 

지도 학습 알고리즘은 레이블이 지정된 데이터셋으로 훈련합니다. 즉, 각 입력(x) 데이터가 해당 출력(y), 즉 레이블과 쌍을 이룹니다. 모델은 레이블이 지정된 샘플(sample)의 패턴을 일반화하여 입력 데이터에 맞는 출력이 나오는 수식을 만들도록 학습합니다. 여기서 나오는 수식이 알고리즘입니다. 

 

예를 들어, 스팸 이메일 필터가 있다고 하겠습니다. 알고리즘에는 각 이메일에 스팸 또는 스팸 아님 라벨이 지정된 데이터 세트가 제공됩니다. 모델은 이러한 레이블이 지정된 예를 통해 학습하고 나중에 학습된 패턴을 기반으로 새로 전송된 이메일을 스팸으로 분류할 수 있습니다. 실제 데이터의 분류 과정을 추론(inference)라고 말합니다. 

요점 정리

 

비지도 학습 = 레이블 미존재

 

비지도 학습 알고리즘은 정답이 없기 때문에 데이터의 패턴과 관계를 식별해야 하는 작업을 합니다. 레이블이 없는 데이터셋에서 알고리즘을 훈련하게 됩니다. 정답지도 없는데 어떻게 동작할까요?


예를 들어, 전자상거래 웹사이트의 고객 세분화(Segmentation)를 한다고 하겠습니다. 이 때 크러스터링이라는 비지도 학습을 사용합니다. 클러스터링을 통해 유사한 구매 행동을 공유하는 고객 그룹을 만들어 줍니다. 여기서 '유사하다'를 판단하는 기준은 여러가지가 있지만 데이터의 거리에 따라 그룹핑(grouping)하게 됩니다. 어떤 정답지에 의해 그룹핑하지 않는다는 것이죠. 이 기법은 기업이 마케팅 전략에 맞는 Segmentation을 하는 데 사용됩니다.

요점 정리

 

마무리

본질적으로 지도 학습은 학생이 교사의 지도를 받아 학습하는 방법과 유사하다고 알려줍니다. 비지도 학습은 미리 정의된 커리큘럼이 없는 학생 스스로 탐구하는 것과 비슷하다고 설명하죠. 이렇게 설명하는 것이 교과서적인 설명입니다. 그런데 전 이 설명이 더 어렵게 느껴지더라고요. 

 

저렇게 기억하면 다음에 봤을 때 기억이 나질 않더라고요. 그래서 레이블이 있고 없고로 외우시는 것을 추천합니다. 머신 러닝 분야가 발전함에 따라 준 지도 학습(semi-supervised learning)으로 알려진 두 가지 방법을 조합하는 방식도 점점 두각을 나타내고 있습니다.