본문 바로가기
데이터 분석

회귀 모델 성능 평가 - 결정계수(R-squared), Adjusted R-Squared

by 데이널 2023. 10. 19.

이번 포스팅에서는 회귀 모델 성능 평가 두번째인 결정계수(R-squared)에 대해 알아보도록 하겠습니다. R-squared의 경우 통계학적으로 추정한 선형 모형이 주어진 자료에 적합도를 재는 척도입니다. 그래서 많은 영역에서 기본적으로 확인 하는 지표이기도 합니다. 

 

 

결정계수(R-Squared, Coefficient of Determination)

회귀 모델에서 독립변수(x)가 종속변수(y)를 얼마만큼 설명해 주는지 가리키는 지표로 설명력이라고 불리기도 합니다. 사용하고 있는 x 변수의 품질를 나타냅니다. 높을수록 독립변수(x)가 종속변수(y)를 많이 설명한다는 의미입니다. 예를 들어, 0.3이라면 독립변수가 종속변수의 30%를 설명한다고 생각하면 됩니다. 표현되는 값의 범위는 0~1사이이며, 일반적으로 0.2은 넘어야 의미 있다고 판단합니다. 


수식 및 계산 방법

  • SST(Total Sum of Squares) : 관측값에서 추정값의 평균을 뺀 결과의 총합
  • SSR(Residual Sum of Squares) : 관측값에서 추정값을 뺀 값, 즉 잔차의 총합
  • SSE(Explained Sum of Squares) : 추정값에서 관측값의 평균

R-squared 수식
R-squared 수식
결정계수(R-squared) 설명
결정계수(R-squared) 설명


문제점

R-squared는 모형에 독립변수가 추가될 때마다 항상 증가하고 감소하지 않습니다. 그래서 모형에 더 많은 변수를 추가하면 정확도가 올라가게 됩니다. 모형에 독립변수가 굉장히 많고, 높은 차수(high-order)의 다항을 가지고 있는 경우 데이터에 과적합되는 문제가 발생하여 틀린 예측을 하게 됩니다. 

Adjusted R-Squared

수정된 결정계수(Adjusted R-Squared)는 독립변수가 증가할 때 분자를 감소시켜주는 연산을 통해 일방적인 증가를 방지해 줍니다. 수정된 결정계수는 결정계수보다 항상 작은 것이 특징입니다. 

 

마무리

결정계수는 모델의 적합도를 평가하는 중요한 도구로 사용되지만, 이것만으로 모델을 완전히 평가하기에는 부족합니다. 다른 평가 지표와 함께 고려하여 모델의 성능을 평가하는 것이 바람직합니다. 오버피팅 또는 언더피팅 문제를 고려하여 결정계수의 한계를 이해하는 것이 중요합니다.