이번 포스팅에서는 클러스터링 중에 가장 유명한 K-means 클러스터링에 대해 설명해 보겠습니다. K-means 알고리즘은 비지도 학습 모델 중의 하나입니다. 클러스터란 비슷한 특성을 가진 데이터끼리 묶어주는 것을 말합니다.
『 '데이널'의 컨텐츠에 포함된 정보는? 』
K-means Clustering 특징
K-means는 대표적인 분리형 군집화 알고리즘입니다. 각 군집은 하나의 중심(centroid)을 가지고 있습니다. 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 생성합니다. 사전에 군집의 수(K)가 정해져야 알고리즘을 실행할 수 있습니다.
1. 동작 원리
- 서전에 정해진 갯수인, K개의 군집을 임의로 생성
- 생성된 중심(centoroid)을 기준으로 모든 관측치에 군집 할당
- 각 군집의 중심을 다시 계산
- 중심점이 변하지 않을 때까지 과정 반복
2. 장점
- 동작 원리에서 확인했듯이 분석 알고리즘 적용이 쉬움
- 데이터에 대한 사전 정보, 즉 업무지식이 특별히 필요 없음
- 특정 변수에 대해 역할 정의가 필요 없음
- 포인트와 그룹간의 거리계산만을 하기 때문에 적은 계산량 - 결과적으로 속도 빠름
3. 단점
- 최적화를 위해 알고리즘을 여러번 실행햐야 함
- 분석가의 통찰력을 이용해 군집의 개수를 정해야 함
- 연속형 변수에 가장 최적이라, 범주형 변수에는 좋지 않음 - 거리 계산방식을 사용하기 때문
- 클러스터 크기나 밀집도가 서로 다르거나 원형이 아닐 경우 잘 작동하지 않음
- 노이즈와 아웃라이어에 매우 민감하여 성능에 큰 영향을 미침 - 아웃라이어 때문에 중심점이 이동할 수 있음
- 랜덤하게 정해진 초기 중심점 때문에 결과가 매번 달라질 수 있어 일관성이 부족함
무작위 초기 중심 설정 개선(센트로이드 초가화)
- 반복적으로 수행하여 가장 여러 번 나타나는 군집을 이용
- 전체 데이터 중 일부만 샘플링하여 계층적 군집화를 수행한 뒤 초기 군집 중심 설정
- 데이터 분포를 보고 그 정보를 사용하여 초기 중심 설정
- 대체적으로 많은 경우 초기 중심 설정이 최종 결과에 큰 영향을 미치지 않음
K-means의 세가지 문제점
- 문제점 1 : 서로 다른 크기의 군집을 찾아내지 못함
- 크기를 다르게 군집하지 않고 다 비슷한 크기로 군집함
- 문제점 2 : 서로 다른 밀도의 군집을 잘 찾아내지 못함
- 밀도가 적더라도 다른 군집으로 분리함
- 문제점 3 : 지역적 패턴이 존재하는 군집을 판별하지 못함
- 지역적으로 서로 가까이 있더라도 구형으로 클러스터링하기 때문에 인지 못함
마치며
데이터의 밀도와 클러스터 모양이 다양하고 노이즈가 존재하는 경우에 K-means 보다 DBSCAN이 더 유리할 수 있습니다. 데이터의 특성에 따라 어떤 클러스터링 알고리즘을 선택할지 결정해야 합니다.
'데이터 분석' 카테고리의 다른 글
클러스터링 최적 군집 수 - 엘보우 vs 실루엣 기법 (0) | 2023.10.16 |
---|---|
클러스터링 - DBSCAN 장단점, 동작원리, eps (0) | 2023.10.14 |
클러스터링 - 계층적 군집화 동작 원리, 장단점 (0) | 2023.10.13 |
클러스터링(clustering) 개념 - 군집분석 사례, 계층적 vs 분할적 군집 (0) | 2023.10.12 |
모수 vs 비모수 모델 - 파라미터 vs 하이퍼파라미터 (1) | 2023.10.12 |