분석하다 보면 무엇인가 의미 있는 발견인지를 확인할 때 't-test 한번 해봐'라는 말을 많이 합니다. 이는 가설 검정을 진행해 보라는 의견이고 가설 검정은 통계 분석의 기본입니다. 데이터 사이언티스트들은 데이터에서 결론을 도출하는 방법을 이해하기 위해 가설 테스트의 개념을 이용합니다.
가설 검정의 필요성
우리에게 주어진 데이터를 가지고 무엇을 할 수 있을까요? 우선 탐색적 분석(EDA)이라는 작업을 통해 데이터의 일반적인 통계와 형태를 이해합니다. 그다음에 가설 검정을 통해 표본 데이터를 사용하여 모집단에 대한 주장이나 가정의 타당성을 평가할 수 있습니다.
예를 들면 다음과 같은 질문을 할 수 있습니다. 두 그룹 사이에 어떠한 차이가 있을까? 어떤 약을 복용했을 때 효과가 있는 것을 어떻게 알 수 있을까? 내가 수집한 데이터의 변수(feature)들 사이에 상관관계가 있을까? 이러한 질문, 즉 가설을 테스트하기 위해 우리는 '가설 검증'이라는 작업을 수행합니다.
정리하면 우리가 가진 여러가지 데이터나 현상에 대한 의문들에 대한 체계적인 검정이 필요합니다. 그래야 데이터에 입각한 결정을 내리고 의미 있는 결론을 도출할 수 있기 때문이죠.
가설 검정의 기본 원칙
가설 검정에는 일반적으로 귀무 가설(H0)과 대립 가설(H1) 두 가지 존재합니다. 귀무가설은 현상 유지 또는 테스트할 가정을 나타내는 반면, 대립 가설은 이 가정에 도전을 나타냅니다. 가설 검정의 목표는 귀무가설에 반하는 증거를 찾고 대립 가설을 채택되는 것을 선호합니다. 즉 귀무가설을 기각할 만큼 충분한 지지가 있는지 결정하는 활동입니다.
가설 검정 절차
1. 가설 수립
현재 분석하고 있는 연구의 질문이나 문제를 기반으로 귀무 가설과 대립 가설을 명확하게 명시해야 합니다. 모호하게 정의해서는 안 되는 것이 우리가 확보한 표본이 어느 집단을 대표할 수 있는지에 따라 가설도 달라질 수 있습니다.
2. 유의성 수준 선택
테스트에 대한 유의성 수준을 결정하려면 α(알파)로 표시되는 미리 결정된 임계값을 선택합니다. 일반적인 선택에는 α = 0.05 또는 α = 0.01 정도입니다.
3. 검정 통계 방법 선택
데이터의 성격과 검정(test) 중인 가설을 기반으로 적절한 검정 통계 방법을 선택해야 합니다. 가장 널리 사용되는 방법은 t-test, 카이제곱 검정, ANOVA 등이 있습니다. 샘플에서 관련 데이터를 수집하고 적합한 공식을 사용하여 검정 통계를 계산합니다.
4. 임계값 또는 P-value 결정
계산된 검정 통계를 확률 분포의 임계값과 비교하거나 검정 통계와 관련된 p-value 계산합니다. 검정 통계량이 임계값을 벗어나거나 p-value가 α보다 작은 경우 귀무가설을 기각합니다. 귀무가설을 기각했다는 것은 의미 있는 결과가 나왔다는 말입니다. p-value에 대한 해석은 링크를 참고하시기 바랍니다.
가설 검정 종류
특정 시나리오와 데이터 유형에 맞춰 각각 맞춤화된 다양한 유형의 가설 검정이 있습니다. 가장 일반적으로 사용되는 테스트 중 일부는 다음과 같습니다.
1. T-test
t-test(t-검정)은 스튜던트 t-테스트(Student's t-test)라고 할 정도로 학생 집단을 샘플 검정에서 유래했다고 알려져 있습니다. 두 학생 그룹의 키의 평균을 계산하여 비교하는 방식이었죠.
- t-test는 두 독립 표본의 평균을 비교하거나 표본의 평균을 알려진 모집단 평균과 비교하는 데 사용됩니다.
- 관심 있는 변수를 연속척도로 측정하는 연속형 수치 변수 분석에 적합하다.
- t-test는 비교 대상 두 그룹의 평균 간에 유의미한 차이가 있는지 평가합니다.
- t-test에는 독립표본 t-검정(두 독립 그룹의 평균 비교), 쌍표본 t-검정(두 관련 그룹의 평균 비교), 단일표본 t-검정 등 다양한 유형이 있습니다.
- 독립표본 t-검정: 두 개의 독립된 집단의 평균이 유의하게 다른지 여부를 평가합니다.
- 대응표본 t-검정: 두 관련 그룹의 평균을 비교합니다(예: 측정 전후)
- 단일표본 t-검정: 표본의 평균을 알려진 모집단 평균과 비교합니다.
2. ANOVA(Analytic of Variance)
두 집단의 검정은 t-test로 하면 되는데 3개 이상의 그룹의 검정은 분산 분석이라고 하는 ANOVA로 가능합니다. 역시 3개 이상의 그룹 평균 간에 유의미한 차이가 있는지 확인합니다.
- ANOVA는 세 개 이상의 그룹에 걸쳐 평균을 비교할 때 사용됩니다.
- 일반적으로 세 개 이상의 개별 그룹이 있는 범주형 또는 이산형 데이터를 처리합니다. 예를 들어, 혈압 감소에 대한 세 가지 유형의 약물의 효과를 비교합니다.
- 그룹 간 분산과 그룹 내 분산을 비교하여 여러 그룹의 평균에 통계적으로 유의미한 차이가 있는지 평가합니다.
- 실험 연구 환경에서나 여러 치료법이나 요인의 효과를 비교할 때 일반적으로 사용됩니다.
3. 카이제곱 검정(Chi-Squared Test)
질문에 대한 "예" 또는 "아니요" 답변이나 서로 다른 색상의 자동차와 같은 두 가지 범주 또는 그룹이 있다고 생각해 보겠습니다. 이러한 범주 간에 관계가 있는지 알고 싶을 때 카이제곱 검정을 사용합니다.
- 카이제곱 검정은 분할표의 범주형 변수 간에 유의미한 연관성이 있는지 확인하는 데 사용됩니다.
- 변수가 수치형이 아닌 카테고리나 그룹 형태로 존재하는 범주형 데이터 분석에 적합합니다.
- 카이제곱 검정은 분할표의 관측 빈도가 변수 간의 독립성 귀무가설 하에서 예상되는 빈도와 크게 다른지 여부를 평가합니다.
- 카이제곱 검정의 일반적인 유형에는 독립성에 대한 카이제곱 검정과 적합도에 대한 카이제곱 검정이 포함됩니다.
마무리
가설 테스트는 데이터에서 결론을 도출하고 가설을 평가하고 정보에 입각한 결정을 내릴 수 있는 체계적인 프레임워크를 제공하는 강력한 도구입니다. 연구자와 분석가는 가설검증의 원리와 방법을 이해함으로써 자신 있게 데이터를 분석하고, 이론을 검증하며, 해당 분야의 지식 발전에 기여할 수 있습니다. 실험을 설계하든, 연구를 수행하든, 비즈니스 데이터를 분석하든, 가설 테스트를 마스터하는 것은 건전한 통계 추론과 데이터 기반 의사 결정에 필수적입니다.
'데이터 분석' 카테고리의 다른 글
Boosting 알고리즘 - XGBoost 특징 및 장단점 (6) | 2024.08.30 |
---|---|
Data Imputation(데이터 대치, 결측치 처리) 및 흔한 실수들 (0) | 2024.04.30 |
통계학에서 정규분포가 중요한 이유 (0) | 2024.04.24 |
피처 엔지니어링(Feature engineering) 방법, 단계별 종류 및 특징 (1) | 2024.04.05 |
머신러닝, 딥러닝 데이터 양이 충분한지 확인하는 방법 (0) | 2024.04.04 |