데이널 『데이터 ∙ 분석 ∙ 지식소통』::클러스터링

이번 포스팅에서는 클러스터링 중에 가장 유명한 K-means 클러스터링에 대해 설명해 보겠습니다. K-means 알고리즘은 비지도 학습 모델 중의 하나입니다. 클러스터란 비슷한 특성을 가진 데이터끼리 묶어주는 것을 말합니다.

『 '데이널'의 컨텐츠에 포함된 정보는? 』

K-means Clustering 특징
무작위 초기 중심 설정 개선(센트로이드 초가화)
K-means의 세가지 문제점
마치며

K-means Clustering 특징

K-means는 대표적인 분리형 군집화 알고리즘입니다. 각 군집은 하나의 중심(centroid)을 가지고 있습니다. 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 생성합니다. 사전에 군집의 수(K)가 정해져야 알고리즘을 실행할 수 있습니다.

1. 동작 원리

서전에 정해진 갯수인, K개의 군집을 임의로 생성
생성된 중심(centoroid)을 기준으로 모든 관측치에 군집 할당
각 군집의 중심을 다시 계산
중심점이 변하지 않을 때까지 과정 반복

2. 장점

동작 원리에서 확인했듯이 분석 알고리즘 적용이 쉬움
데이터에 대한 사전 정보, 즉 업무지식이 특별히 필요 없음
특정 변수에 대해 역할 정의가 필요 없음
포인트와 그룹간의 거리계산만을 하기 때문에 적은 계산량 - 결과적으로 속도 빠름

3. 단점

최적화를 위해 알고리즘을 여러번 실행햐야 함
분석가의 통찰력을 이용해 군집의 개수를 정해야 함
연속형 변수에 가장 최적이라, 범주형 변수에는 좋지 않음 - 거리 계산방식을 사용하기 때문
클러스터 크기나 밀집도가 서로 다르거나 원형이 아닐 경우 잘 작동하지 않음
노이즈와 아웃라이어에 매우 민감하여 성능에 큰 영향을 미침 - 아웃라이어 때문에 중심점이 이동할 수 있음
랜덤하게 정해진 초기 중심점 때문에 결과가 매번 달라질 수 있어 일관성이 부족함

무작위 초기 중심 설정 개선(센트로이드 초가화)

반복적으로 수행하여 가장 여러 번 나타나는 군집을 이용
전체 데이터 중 일부만 샘플링하여 계층적 군집화를 수행한 뒤 초기 군집 중심 설정
데이터 분포를 보고 그 정보를 사용하여 초기 중심 설정
대체적으로 많은 경우 초기 중심 설정이 최종 결과에 큰 영향을 미치지 않음

K-means의 세가지 문제점

문제점 1 : 서로 다른 크기의 군집을 찾아내지 못함
- 크기를 다르게 군집하지 않고 다 비슷한 크기로 군집함
문제점 2 : 서로 다른 밀도의 군집을 잘 찾아내지 못함
- 밀도가 적더라도 다른 군집으로 분리함
문제점 3 : 지역적 패턴이 존재하는 군집을 판별하지 못함
- 지역적으로 서로 가까이 있더라도 구형으로 클러스터링하기 때문에 인지 못함

마치며

데이터의 밀도와 클러스터 모양이 다양하고 노이즈가 존재하는 경우에 K-means 보다 DBSCAN이 더 유리할 수 있습니다. 데이터의 특성에 따라 어떤 클러스터링 알고리즘을 선택할지 결정해야 합니다.

저작자표시

'데이터 분석' 카테고리의 다른 글

클러스터링 최적 군집 수 - 엘보우 vs 실루엣 기법 (0)	2023.10.16
클러스터링 - DBSCAN 장단점, 동작원리, eps (0)	2023.10.14
클러스터링 - 계층적 군집화 동작 원리, 장단점 (0)	2023.10.13
클러스터링(clustering) 개념 - 군집분석 사례, 계층적 vs 분할적 군집 (0)	2023.10.12
모수 vs 비모수 모델 - 파라미터 vs 하이퍼파라미터 (1)	2023.10.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이널 『데이터 ∙ 분석 ∙ 지식소통』

클러스터링 - K-means 동작 원리, 장단점, 문제점

K-means Clustering 특징

1. 동작 원리

2. 장점

3. 단점

무작위 초기 중심 설정 개선(센트로이드 초가화)

K-means의 세가지 문제점

마치며

'데이터 분석' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

클러스터링 - K-means 동작 원리, 장단점, 문제점

K-means Clustering 특징

1. 동작 원리

2. 장점

3. 단점

무작위 초기 중심 설정 개선(센트로이드 초가화)

K-means의 세가지 문제점

마치며

'데이터 분석' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역