본문 바로가기
데이터 분석

상관관계를 이용하는 이유

by 데이널 2024. 4. 2.

데이터 분석을 시작할 때 상관관계에 대한 이야기는 빈번하게 나옵니다. 이유는 우리가 예측하려는 타겟 값(y)과 Input 데이터인 x값들 즉, 변수 간의 통계적 관계가 있는지를 알고 싶어서입니다. 한 변수의 변화가 다른 변수의 변화와 연관되는 정도를 나타내는 것이죠. 

 

 

상관계수(correlation coefficient)

상관계수는 두 변수 간 관계의 강도와 방향을 수량화하는 척도입니다. 범위는 -1부터 1까지로 정해져 있죠. 상관계수 1은 완전한 양의 상관관계를 의미하는데요. 한 변수가 증가하면 다른 변수도 그에 비례하여 증가한다는 의미입니다.


반대로 상관계수 -1은 완전한 음의 상관관계를 나타내고, 한 변수가 증가하면 다른 변수도 이에 비례하여 감소하게 됩니다. 상관계수가 0이면 상관관계가 없음을 의미합니다. 그렇다면 누구나 생각할 수 있듯이 상관관계가 있을 때 그 변수는 y값에 영향을 주는 주요 변수라는 것을 알 수 있습니다. 

 

1. 상관관계 유형

  • 양의 상관관계: 한 변수의 증가가 다른 변수의 증가와 연관되어 있으면 양의 상관관계가 있습니다.
  • 음의 상관관계: 한 변수의 증가가 다른 변수의 감소와 연관되어 있는 경우 상관관계는 음의 상관관계입니다.
  • 상관관계 없음: 한 변수의 변경 사항이 다른 변수의 변경 사항과 연관되지 않은 경우 상관관계는 0입니다.

 

2. 상관 계수 종류

1) 피어슨 상관 계수

"r"로 표시되는 피어슨 상관 계수는 가장 일반적인 상관 관계 척도입니다. 보통 상관관계를 측정할 때 피어슨 상관 계수를 말하죠. 두 개의 연속 변수 사이의 선형 관계를 측정합니다. 이상값에 민감하며 변수 간의 관계가 선형이라고 가정합니다.

 

 

2) Spearman 순위 상관 계수

"ρ"(rho)로 표시되는 Spearman 상관 계수는 상관 관계에 대한 비모수적 척도입니다. 순위가 매겨진 두 변수 사이의 연관 강도와 방향을 평가합니다. Spearman 상관계수는 이상값에 덜 민감하고 변수 간의 관계가 선형이라고 가정하지 않으므로 비선형 관계에 적합합니다. 또 연속형 데이터와 순서형 데이터 모두에 사용할 수 있다는 장점이 있습니다.

 

상관관계의 시각화

상관관계를 시각화하면 데이터의 변수 간 관계를 명확하게 이해할 수 있는데요. 상관관계를 시각화에 많이 쓰이는 세 가지에 대해 알아보도록 하겠습니다.

산점도상관관계 히트맵산점도 행렬
산점도(왼쪽), 상관관계 히트맵(가운데), 산점도 행렬(오른쪽)

 

1. 산점도

가장 많이 사용되는 방법입니다. 산점도는 두 연속 변수 간의 상관 관계를 시각화하는 간단한 기법인데요. 도표의 각 점은 두 변수에 대한 값 쌍을 나타냅니다. 점의 패턴을 조사하면 상관관계의 강도와 방향을 유추할 수 있습니다. 양의 상관관계는 상승 추세를 나타내고, 음의 상관관계는 하향 추세를 나타냅니다. 만약 점들이 여기저기 퍼져있다면 상관관계가 나타나지 않는 모습입니다.

2. 상관관계 히트맵

상관관계 히트맵은 상관 행렬을 그래픽으로 표현한 것입니다. 여기서 각 셀은 두 변수 간의 상관 계수를 나타냅니다. 히트맵은 색상 그라데이션을 사용하여 상관관계의 강도와 방향을 나타내며 따뜻한 색상(예: 빨간색)은 양의 상관관계를 나타내고 차가운 색상(예: 파란색)은 음의 상관관계를 나타냅니다. 이 시각화는 데이터세트에 있는 여러 변수 간의 패턴과 관계를 빠르게 식별하는 데 유용합니다.

 

3. 산점도 행렬

산점도 행렬은 데이터셋의 모든 변수 쌍에 대한 산점도를 표시합니다. 대각선을 따라 히스토그램 또는 커널 밀도 도표는 각 변수의 분포를 보여줍니다. 쌍 도표는 여러 변수 간의 상관관계를 동시에 탐색하고 데이터의 잠재적 패턴이나 군집을 식별하는 데 특히 유용합니다.

 

상관관계 활용

 

1. 특성 선택(feature selection)

머신러닝 과정에서 Feature Selection할 때 상관 분석이 이용합니다. 상관관계가 높은 특성(변수)은 중복된 정보를 제공하여 모델의 과적합 또는 비효율성을 초래할 수 있습니다. 분석가는 상관관계가 높은 특징을 식별하고 제거함으로써 모델 성능과 해석 가능성을 향상할 수 있습니다.

예측 모델을 만들 때 목표변수(종속변수)와 강한 상관관계가 있는 변수는 중요한 예측변수가 될 가능성이 높습니다. 분석가는 알고리즘을 구현할 때 이러한 변수의 우선순위를 지정할 수 있습니다.


2. 다중 공선성 확인

상관 분석은 통계 분석에서 가정을 확인하는 데 사용됩니다. 예를 들어, 선형 회귀 분석에서는 독립 변수 사이에 높은 상관관계(다중 공선성)가 있는 경우 잔차 독립성 가정이 위반됩니다. 분석가는 상관행렬이나 분산팽창계수(VIF)를 사용하여 다중 공선성을 탐지하고 적절하게 해결할 수 있습니다.

 

3. 자기상관 진단 점검

시계열 예측에서 상관 분석은 시간 경과에 따른 변수 간의 관계를 진단할 수 있습니다. 자기 상관 및 상호상관 함수는 시간적 종속성의 존재를 평가하고 시계열 변수 간의 지연된 관계를 식별하는 데 사용됩니다.

 

상관분석은 금융, 경제, 사회과학, 자연과학 등 다양한 분야에서 널리 활용되고 있습니다. 기온과 아이스크림 판매량의 상관관계, 흡연과 폐암의 상관관계 등 변수 간의 관계를 파악하는 데 도움이 됩니다. 상관분석은 예측모델링과 회귀분석에서 독립변수와 종속변수의 관계를 이해하기 위한 방법입니다.

 

마무리

주의할 점은 상관관계는 인과관계를 의미하지 않습니다. 두 변수가 강한 상관관계를 갖고 있다고 해서 반드시 한 변수의 변화가 다른 변수의 변화를 야기한다는 의미는 아닙니다. 상관 계수는 선형 관계만 측정합니다. 변수 간에 비선형 관계가 존재할 수 있지만 상관 계수로 포착되지는 않습니다.