본문 바로가기
데이터 분석

P-value(유의 확률) 의미 및 해석 방법

by 데이널 2024. 3. 28.

'데이널'의 컨텐츠에 포함된 정보는?

     

    분석을 하다가 선임 연구자로부터 "p-value를 한번 구해보지"하는 말을 자주 듣습니다. 선임이 해보라니까 하긴 하는데 왜 하는지 모른체 합니다. P-value를 어떤 경우 사용하는지 알면 선임이 알려주기 전에 미리 내가 알아서 분석의 방향을 전개할 수 있을 것입니다.  
     
    P-value(유의 확률)는 분석하는 일이 실제로 일어날 가능성(=유의성)이 있는지를 알고 싶을 때 p-value를 사용합니다. p-value는 관찰된 결과가 우연히 발생한 것인지 아니면 신뢰할 수 있는 실제 결과인지 확인하는 데 도움을 주죠. 
     

    P-value를 사용할 경우

    1. 가설 검정

    t-test, ANOVA, 카이제곱 검정 등의 가설 검정을 수행할 때 p-value를 사용합니다. 그 결과가 귀무 가설을귀무가설을 뒷받침하는지 반박하는지 평가하는 데 도움이 됩니다. 낮은 p-value(일반적으로 0.05 미만)은 관찰된 효과가 우연에 의한 것이 아닐 가능성이 높으므로 귀무가설을 기각하게 됩니다.

    • 귀무가설(Null Hypothesis) : 별다른 문제 없이 서로 차이가 없다는 가설(기존의 입장)
    • 대립가설(Alternative Hypothesis) : 효과가 있다는 가설(상반된 입장)

     

    2. 그룹간 비교

    그룹이나 모집단을 비교할 때 p-value를 사용하여 둘 사이에 유의미한 차이가 있는지 확인할 수 있습니다. 예를 들어, 약은 제공한 그룹과 주지 않는 그룹의 효과를 비교하는 임상 시험이 있다고 했을 때, 낮은 p-value는 두 그룹 간의 결과에 유의미한 차이가 있음을 나타냅니다. 결론적으로 약의 효과가 있음을 의미합니다. 
     

    3. 상관관계 분석

    변수 간의 상관관계를 분석할 때 상관계수와 관련된 p-value를 구해 볼 수 있습니다. 보통 상관 분석 툴에서 p-value가 상관계수와 같이 나오죠. 이때 p-value가 0.05이상 크면 상관계수가 높아도 큰 의미가 없다는 이야기입니다. 이렇게 변수 간의 상관관계가 통계적으로 유의한 지 판단하는 데 도움이 됩니다.
     

    4. 모델 평가

    선형 회귀 모델 또는 로지스틱 회귀 모델과 같은 통계 모델의 적합성을 평가할 때 사용합니다. 모델 계수와 연관된 p-value는 사용하여 예측 변수의 유의성과 전체 모델 적합성을 평가할 수 있습니다. 예측 변수에 대한 낮은(0.05이하) p-value는 결과 변수에 유의한 영향을 미친다는 것을 나타냅니다.

    P-value란

    어떤 사건이 우연히 일어날 확률을 말합니다. 영어로 'Probability Value'인데, 곧이곧대로 해석하면 '확률값'이죠. 번역은 '유의 확률'로 해석하지요.   

    P-value는 t-test와 같은 가설검정에 많이 사용하는데요. 간단하게 설명해 보면, 두 그룹 간의 차이가 있는가를 알기 위해서 t-value를 계산합니다. p-value와 t-value를 구분하는 것을 어려워하시는 분도 계시는데요. 쉽게 설명하기 위해 t-값을 단순화해서 두 그룹간 평균의 차이 정도로 이해하시면 됩니다. 그리고 여기서 계산된 t-값을 검정통계량이라고 합니다. 두 그룹의 차이를 검정한 통계값이니 검정통계량이죠. 
     
     t-값은 구했는데 이걸로 뭘 할 수있을까요? 다음 단계는"t-값이 어느정도 되면 이게 의미가 있는 거지?"라는 생각을 하게 됩니다. 판단할 기준이 필요한 건데요. 보통 우리가 모델 성능평가를 할 때 threshold를 구하는 것처럼 말입니다. 가설검정(t-test)에서도 어떤 기준치(기각역, 임계치 라고 함)와 서로 비교를 하게 됩니다. 
     

    P-value-유의수준
    P-value 유의수준

     
    그 기준치는 유의 수준(여기서는 z로 표현)이 0.05가 되게 하는 값입니다. 즉, 위의 그림에서 오른쪽의 색칠된 면적이 0.05이게 하는 x 축의 값입니다. 확률이니까 그 부분부터 면적이 되겠습니다. 이렇게 계산된 t-값이 기준값보다 크면, $ P(X \geq z) $  "가설이 유의한 차이가 있다(대립가설)"라고 합니다. 그 기준값보다 작으면 "가설이 유의한 차이가 없다(귀무가설)"라고 하는 것이죠. 

    • p-value ≤ 유의수준인 경우: 귀무가설을 기각합니다.
    • p-value > 유의수준인 경우: 귀무가설을 기각하지 못합니다.

     

    왜 유의수준을 0.05로 정했나?

    유의 수준을 왜 0.05로 할까 찾아봤는데, 그냥 일반적인 관례라고 나옵니다. 확정된 것이 아니라는 이야기죠. 상황과 연구 분야에 따라 달라질 수 있다는 점을 이해하는 것이 좋습니다.
     
    다소 임의적이지만 유의 수준(알파) 0.05는 통계적 가설검정에는 거의 이 값을 사용합니다. 분석가들이 더 높은 유의 수준(예: 0.01)을 사용하면 제2종 오류 가능성이 증가하게 됩니다.

    그렇다고 더 낮은 유의 수준(예: 0.10)을 사용하면 제1종 오류 가능성이 높아질 수 있습니다. 어떤가요? 마치 threshold를 조정하는 것과 비슷하다는 생각 드시죠. 다만 가설검정에서 사용하는 기준값인 것만 다릅니다. 아래와 같이 표현해 볼 수도 있습니다. 
     
                        *   :   P < .05
                        **  :   P < .01
                        *** :   P < .001
     
    예를 들어, 연구자가 신약이 혈압을 낮추는데 효과가 있는지 알아보기 위해 가설검정을 한다고 가정해 보겠습니다. 귀무가설(H0)은 약물이 효과가 없다는 것을 나타내고, 대립가설(Ha)은 약물이 효과가 있다는 것을 나타냅니다.
     
    데이터를 분석한 후 연구자는 p-value가 0.03인 결과가 나왔습니다. 선택한 유의 수준이 0.05라면 연구자는 결과가 통계적으로 유의하다는 결론을 내리고 귀무 가설을 기각합니다. 이는 해당 약물이 혈압을 낮추는 데 효과적이라는 주장을 뒷받침하는 통계적인 증거라 할 수 있죠
     

    P-value 고려사항

    p-value만으로는 관찰된 효과의 크기나 실질적인 중요성에 대한 정보를 알수는 없습니다. 이는 효과가 통계적으로 유의한 지 여부만 나타냅니다.
     
    프로젝트를 하다보면 알고리즘이 효과가 있음을 증명하라는 요구를 받을 때가 있습니다. 이럴 때 P-value를 꺼내 놓을 수는 없습니다. 그것으로 고객이 설득되지 않는다는 말입니다. 실제 필드 테스트가 될 수 있는 검증 시나리오를 만들어야 합니다.

    또한 p-value의 해석은 선택한 유의 수준과 통계 검정의 가정에 따라 달라집니다. 결과를 해석할 때 이러한 요소를 고려하는 것이 무척 중요합니다.

    왜 데이터 분석가들은 항상 상관분석부터 할까?

     

    상관관계를 이용하는 이유

    데이터 분석을 시작할 때 상관관계에 대한 이야기는 빈번하게 나옵니다. 이유는 우리가 예측하려는 타겟 값(y)과 Input 데이터인 x값들 즉, 변수 간의 통계적 관계가 있는지를 알고 싶어서입니다.

    bommbom.tistory.com