본문 바로가기
데이터 분석

클러스터링 - K-means 동작 원리, 장단점, 문제점

by 데이널 2023. 10. 13.

이번 포스팅에서는 클러스터링 중에 가장 유명한 K-means 클러스터링에 대해 설명해 보겠습니다. K-means 알고리즘은 비지도 학습 모델 중의 하나입니다. 클러스터란 비슷한 특성을 가진 데이터끼리 묶어주는 것을 말합니다. 

 

 

K-means Clustering

K-means는 대표적인 분리형 군집화 알고리즘입니다. 각 군집은 하나의 중심(centroid)을 가지고 있습니다. 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 생성합니다. 사전에 군집의 수(K)가 정해져야 알고리즘을 실행할 수 있습니다. 

 

동작 원리

  1. 서전에 정해진 갯수인, K개의 군집을 임의로 생성
  2. 생성된 중심(centoroid)을 기준으로 모든 관측치에 군집 할당
  3. 각 군집의 중심을 다시 계산
  4. 중심점이 변하지 않을 때까지 과정 반복

K-means 동작 원리
K-means 동작 원리

장점

  • 동작 원리에서 확인했듯이 분석 알고리즘 적용이 쉬움
  • 데이터에 대한 사전 정보, 즉 업무지식이 특별히 필요 없음
  • 특정 변수에 대해 역할 정의가 필요 없음
  • 포인트와 그룹간의 거리계산만을 하기 때문에 적은 계산량 - 결과적으로 속도 빠름

단점

  • 최적화를 위해 알고리즘을 여러번 실행햐야 함
  • 분석가의 통찰력을 이용해 군집의 개수를 정해야 함
  • 연속형 변수에 가장 최적이라, 범주형 변수에는 좋지 않음 - 거리 계산방식을 사용하기 때문
  • 클러스터 크기나 밀집도가 서로 다르거나 원형이 아닐 경우 잘 작동하지 않음
  • 노이즈와 아웃라이어에 매우 민감하여 성능에 큰 영향을 미침 - 아웃라이어 때문에 중심점이 이동할 수 있음
  • 랜덤하게 정해진 초기 중심점 때문에 결과가 매번 달라질 수 있어 일관성이 부족함

무작위 초기 중심 설정 개선(센트로이드 초가화)

  • 반복적으로 수행하여 가장 여러 번 나타나는 군집을 이용
  • 전체 데이터 중 일부만 샘플링하여 계층적 군집화를 수행한 뒤 초기 군집 중심 설정
  • 데이터 분포를 보고 그 정보를 사용하여 초기 중심 설정
  • 대체적으로 많은 경우 초기 중심 설정이 최종 결과에 큰 영향을 미치지 않음

K-means의 세가지 문제점

  • 문제점 1 : 서로 다른 크기의 군집을 찾아내지 못함
    • 크기를 다르게 군집하지 않고 다 비슷한 크기로 군집함
  • 문제점 2 : 서로 다른 밀도의 군집을 잘 찾아내지 못함
    • 밀도가 적더라도 다른 군집으로 분리함
  • 문제점 3 : 지역적 패턴이 존재하는 군집을 판별하지 못함
    • 지역적으로 서로 가까이 있더라도 구형으로 클러스터링하기 때문에 인지 못함

 

데이터의 밀도와 클러스터 모양이 다양하고 노이즈가 존재하는 경우에 K-means 보다 DBSCAN이 더 유리할 수 있습니다. 데이터의 특성에 따라 어떤 클러스터링 알고리즘을 선택할지 결정해야 합니다.