본문 바로가기
데이터 분석

클러스터링 최적 군집 수 - 엘보우 vs 실루엣 기법

by 데이널 2023. 10. 16.

이번 포스팅은 클러스터링 알고리즘의 마지막 내용으로 최적 군집 수를 결정하는 방법에 대해 알아보겠습니다. 그중에서도 대표적으로 사용하는 엘로우 기법과 실루엣 기법에 대해서 확인해 보도록 하겠습니다. 
 

 

최적 군집 수

지금까지 배웠던 다양한 군집(clustering)에서 최적의 군집 수를 구하는 것인데요. 성능 평가지표를 이용하여 최적의 군집수 선택하는 방법이 있습니다. 엘보우 포인트(Elbow point)에서 최적 군집수가 결정되는 경우가 일반적이죠.엘보우 포인트가 어디냐고요? 그래프가 완만한 경사를 이루는 지점을 말합니다.

 

여기서 군집수를 평가하는 알고리즘이 필요한데요. 평가지표로 SSE (sum of squared error), 실루엣(Silhouette) 등이 있습니다. 정확히 말해 SSE는 엘보우 기법의 평가지표로 사용되고, 실루엣은 실루엣 기법의 평가지표로 활용합니다. 그리고 대중적으로 엘보우(elbow)와 실루엣 기법을 가장 많이 사용합니다.  

엘보우 기법(Elbow method)

SSE(sum of squared error)는 클러스터 내의 데이터 포인트와 해당 클러스터의 중심 간의 거리를 측정한 후 제곱하여 모든 클러스터에 대한 제곱 오차를 합산한 값입니다. SEE 공식과 아래 그림을 보면 이해할 수 있을 것에요. 

 

결국, 각 객체마다 인접한 군집과의 거리를 최소화하는 값을 구하는 것입니다. 동일 군집끼리 최대한 가깝게 하기 위해서입니다. SSE의 감소율을 관찰하고, 클러스터 수가 증가함에 따라 SSE의 감소율이 급격히 줄어드는 지점을 찾습니다. 

  • 클러스터의 개수를 두고 비교를 한 그래프를 통해 엘보우 포인트를 찾음
  • SSE값이 급격한 경사도를 보이다가 완만한 경사를 보이는 부분(팔꿈치)를 확인
  • elbow 지점을 군집 수로 선택하는 기법을 통해 최적의 K값을 선택

 

엘보우 기법(Elbow method)
엘보우 기법(Elbow method)

 

실루엣 기법(Silhouette method)

SSE는 각 군집(cluster)이 잘 되었는지를 보았습니다. 실루엣은 군집이 효율적으로 잘 분리 됐는지에 초점을 맞췄습니다. 그 의미를 생각해 보면 이렇습니다. 첫째, 다른 군집과의 거리는 멀리 떨어져 있어야 합니다. 둘째, 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐 있어야 한다는 것입니다. 

  • 실루엣 지수는 클러스터 내 데이터 포인트 간의 거리가 가깝고(cluster cohesion), 클러스터 간의 거리가 멀다(cluster separation) 면 높은 값을 가짐
  • 실루엣 계수(Silhouette coefficient)는 -1에서 1사이의 값을 가짐
  • 클러스터 개수가 최적화 되어 있다면 분리도의 값은 커져야 하며, 응집도의 값은 작아지기 때문에 실루엣 계수는 1에 가까워 짐
  • 결국 실루엣 계수가 1에 가까울 수록 클러스터의 개수가 최적화되어있다고 판단할 수 있음

 

실루엣 기법(Silhouette method)
실루엣 기법(Silhouette method)

 

 

  • a(i): 같은 클러스터 내의 다른 모든 점까지의 평균 거리 (클러스터 내 응집도)
  • b(i): 다른 클러스터의 모든 점까지의 평균 거리 중 가장 가까운 클러스터까지의 거리 (클러스터 간 분리도)
  • 실루엣 계수 $ s(i) = \frac{b(i) - a(i)}{max(a(i), b(i))} $

결과적으로 위의 그래프를 통해 확인했을 때 클러스터의 갯수가 4개일 때 제일 실루엣 계수가 높은 것을 볼 수 있습니다. 위와 같은 시각화 도구를 통해, 클러스터의 개수(K)를 변화시키면서, 실루엣 지수를 그래프로 표현할 수 있습니다. 이 그래프를 통해 실루엣 지수가 가장 높아지는 K를 확인할 수 있으며, 이것이 최적의 군집 수로 간주됩니다.

따라서 데이터의 특성과 목적에 따라 적절한 기법을 선택하여 최적의 클러스터 수를 결정해야 합니다. 엘보우 기법은 클러스터링의 전체적인 응집도를 고려하고, 실루엣 기법은 각 클러스터링의 일관성을 측정하여 클러스터링의 품질을 평가합니다.