본문 바로가기
데이터 분석

왜도와 첨도를 활용하는 3가지 방법

by 데이널 2024. 2. 16.

왜도(skewness)와 첨도(kurtosis)를 좀 쉽게 설명해 보려고 합니다. 어려운 개념이 아니기 때문입니다. 그리고 이 왜도와 첨도를 활용하는 세 가지 방법도 알아보겠습니다. 
 

 

왜도와 첨도란?

왜도

우선 키가 작은 학생부터 가장 큰 학생까지 키에 따라 줄지어 있다고 상상해 보세요. 대부분의 학생들이 중간에 모여 있고 양쪽에 키가 작은 친구와 키가 큰 친구가 있는 경우 대칭을 이루게 되고 왜도가 없다고 합니다. 그러나 대부분의 친구가 키가 작고 한쪽 끝에 매우 키가 큰 친구가 몇 명밖에 없다면 그래프는 왼쪽으로 치우쳐집니다.

 

반면, 대부분의 친구가 키가 크고 한쪽 끝에 아주 작은 친구가 몇 명밖에 없다면 그래프는 오른쪽으로 치우쳐 있습니다. 왜도는 데이터의 편향성 또는 비대칭성을 측정합니다. 정규분포의 왜도는 0입니다. 
 

왜도
왜도(출처: codeburst.io)

첨도

첨도를 분포 그래프의 봉우리 모양을 말한다고 생각하면 됩니다. 다시 키를 기준으로 일렬로 늘어선 친구들이 평균에 많고 양쪽으로 갈수록 적다면 정규분포와 같은 적당한 봉우리를 만듭니다. 이것을 메조쿠르틱(Mesokurtic)이라고 하며 첨도는 3입니다. 그러나 봉오리가 매우 뾰족하고 측면이 가파른 경우(렙토쿠르틱, Leptokurtic) 이를 첨도가 3 이상을 갖습니다.

 

반면, 그래프가 더 많이 퍼진 평평한 봉오리를 갖는 경우( 플래티커틱, Platykurtic) 첨도가 3 이하 갖습니다. 첨도는 얼마나 많은 데이터가 평균 주위에 집중되어 있는지를 가르킵니다. 즉 분포의 정점이 얼마나 가파르거나 평평한지를 측정합니다. 정규분포의 첨도는 보통 3입니다. 
 

첨도
첨도(출처: codeburst.io)

왜도와 첨도에 대해 더 알고 싶다면 참고 사이트인 링크를 확인해 주시기 바랍니다. 

데이터 전처리에 사용

 

기본적으로 왜도와 첨도는 데이터 세트의 분포 특성을 이해하는 데 사용됩니다. 왜도는 분포의 비대칭성을 측정하여 데이터가 왼쪽이나 오른쪽으로 치우쳐 있는지 또는 대략 대칭적인지(왜도가 0에 가까움) 여부를 알 수 있죠.
 
이를 통해 데이터 전처리 단계에서 주로 활용될 수 있습니다. 예를 들어, 데이터가 상당한 왜곡되 보이는 경우 로그 또는 제곱근 변환과 같은 변환을 적용하여 분포를 보다 대칭적으로 만드는 것을 고려해 볼 수 있는 거죠. 마찬가지로, 첨도의 극단값은 이상치 또는 꼬리가 두꺼운 분포가 있음을 나타낼 수 있습니다. 이 방법으로 추가 분석하거나 또는 이상치 제거를 진행할 수 있습니다. 
 

feature selection에 활용

특정 머신러닝 알고리즘이나 통계 모델에서는 변수 분포에 대한 가정이 모델 성능에 영향을 미칠 수 있습니다. 치우치거나 꼬리가 두꺼운 분포는 이러한 가정을 위반하게 되죠. 이는 모델의 정확성과 해석 가능성에 미치게 됩니다. 왜도와 첨도를 분석하면 모델 피팅 전에 변환이나 정규화가 필요한 변수를 식별할 수 있습니다. 이런 방법을 통해 feature selection에 활용하여 모델 정확도 개선에 도움이 됩니다.
 

비교 분석 및 가정 확인

왜도와 첨도는 다양한 데이터 세트 또는 데이터 내의 하위 그룹 간의 비교 분석을 위한 기본 정보입니다. 예를 들어, 두 모집단의 왜도와 첨도를 비교하면 기본 분포의 차이를 밝힐 수 있습니다. 이러한 비교 접근 방식은 분포 차이를 이해하는 것이 필수적인 방법으로 유용합니다.
 
가정의 타당성을 평가하기 위해 가설 테스트 및 모수적 통계 분석에 일반적으로 사용됩니다. 예를 들어 t-test나 ANOVA와 같은 모수적 테스트에서는 정규성 가정이 필요한 경우가 있습니다. 왜도와 첨도는 데이터가 이러한 가정을 충족하는지 평가할 때 사용됩니다. 데이터가 정규성 가정(예: 왜도 또는 첨도)에서 크게 벗어나는 경우 대체 비모수적 테스트 또는 다른 통계 방법이 더 적절할 수 있습니다. 모수적과 비모수적에 대한 설명은 링크를 참고하시기 바랍니다. 

 

왜도와 첨도의 한계

앞에서 설명한 것과 같이 왜도와 첨도는 정규분포를 가정하고 있습니다. 그렇기 때문에 정규분포가 아닌데 왜도, 첨도가 적정한다고 했을 때 그 분포가 적합하다고 할 수 없습니다. 이렇게 왜도와 첨도는 정규분포라는 가정에서 유효한 것입니다. 그래서 참고 정보로써 활용하고 다른 측면의 검증을 통해서 이 가정이 적절한가를 꼭 테스트 해야 합니다. 
 

마무리

요약하면 왜도와 첨도를 이용하면 데이터 분석에서 분포의 모양, 분포의 대칭 여부, 꼬리 모양에 대한 기본적인 정보를 알 수 있습니다. 이러한 측정값을 효과적으로 위에서 설명한 세 가지 방법들에 활용함으로써 데이터 분석가는 모델 성능을 향상 시킬 수 있습니다.