본문 바로가기

데이터 분석73

Data Imputation(데이터 대치, 결측치 처리) 및 흔한 실수들 누락된 데이터는 실제 데이터에서 흔히 발생하는 문제입니다. 장비 오작동, 인적 오류 또는 단순히 특정 데이터 포인트가 수집되지 않은 등 다양한 이유를 경험하게 됩니다. 이런 데이터 누락을 결측이라고 표현하는데요. 결측 데이터가 너무 많이 발생하면 어떻게 해야 할까요? 데이터 전처리의 결측 처리 부분에서 80% 이상 누락된 데이터는 버릴 수도 있다고 이야기했습니다.    그렇지만 수집된 소중한 데이터를 버리는 쪽으로 결정하기는 어렵습니다. 이때 사용하는 방법이 데이터 대치(Data Imputation)입니다. 데이터 분석 및 통계에서 데이터 세트 내의 누락된 값을 채우는 데 사용되는 기술이죠. 데이터 대치에는 여러 가지 방법이 있는데요. 방법 선택은 데이터의 성격과 수행되는 특정 분석에 따라 달라집니다. .. 2024. 4. 30.
가설 검정 왜 필요할까? t-test, ANOVA, 카이제곱 검정 분석하다 보면 무엇인가 의미 있는 발견인지를 확인할 때 't-test 한번 해봐'라는 말을 많이 합니다. 이는 가설 검정을 진행해 보라는 의견이고 가설 검정은 통계 분석의 기본입니다. 데이터 사이언티스트들은 데이터에서 결론을 도출하는 방법을 이해하기 위해 가설 테스트의 개념을 이용합니다.   가설 검정의 필요성우리에게 주어진 데이터를 가지고 무엇을 할 수 있을까요? 우선 탐색적 분석(EDA)이라는 작업을 통해 데이터의 일반적인 통계와 형태를 이해합니다. 그다음에 가설 검정을 통해 표본 데이터를 사용하여 모집단에 대한 주장이나 가정의 타당성을 평가할 수 있습니다. 예를 들면 다음과 같은 질문을 할 수 있습니다. 두 그룹 사이에 어떠한 차이가 있을까? 어떤 약을 복용했을 때 효과가 있는 것을 어떻게 알 수 .. 2024. 4. 29.
통계학에서 정규분포가 중요한 이유 아마 정규 분포를 모르시는 분은 없을 것입니다. 정규 분포는 '가우시안 분포'라고도 합니다. 통계학을 모를 때는 가우시안 분포는 어떤 분포지? 정규 분포하고 다른 것인가 하고 찾아보기도 하죠. 그런데 같은 것입니다. 이 글에서는 왜 통계학에서 정규 분포를 중요하게 생각하는지 알아보도록 하겠습니다.   (adsbygoogle = window.adsbygoogle || []).push({}); 중심 극한 정리정규 분포를 유래를 알려면 중심 극한 정리를 이야기 해야 합니다. 우리가 세상에서 발생하는 무작위로 여러 가지 일이 있습니다. 만약, 주사위를 굴려 얻은 숫자를 기록한다고 가정해 보겠습니다. 이제 계속해서 주사위를 여러 번 굴리고 매번 발생한 건수를 계산하다 보면 흥미로운 점.. 2024. 4. 24.
피처 엔지니어링(Feature engineering) 방법, 단계별 종류 및 특징 위키독스에 따르면 피처 엔지니어링(Feature Engineering)이란 기존 데이터를 손보아 더 나은 변수를 만드는 기법으로 소개합니다. Feature engineering을 번역하면 특성 공학이라고도 하죠. 우리가 흔히 ’전처리‘라고 하는 과정에서 이루어지는 작업인데요. 전처리 중애 feature에 집중해서 생각해 보는 것, 그것이 피처 엔지니어링이라고 생각하면 이해가 되실 거예요. 왜 피처 엔지니어링을 할까요? 이유는 feature(변수)들을 이용해 모델 성능을 향상할 수 있기 때문입니다. 그래서 데이터 분석 및 머신러닝의 중요한 단계입니다. 그렇다면 피처 엔지니어링에 대해 단계별로 이야기해 보겠습니다. 데이터 이해(EDA) 피처 엔지니어링을 시작하기 전에 데이터를 철저하게 이해하는 것이 중요합니.. 2024. 4. 5.
머신러닝, 딥러닝 데이터 양이 충분한지 확인하는 방법 우리가 데이터 분석을 할 때 데이터 양이 충분하지 않은 것 같다는 말을 하게 됩니다. 그런데 데이터가 불충분한지는 어떻게 알 수 있을까요? 1만건 이하는 적은 것이고 10만 건 이상은 충분한 것일까요? 물론, Case by Case로 상황에 따라 다르다는 원론적인 이야기를 할 수도 있습니다. 때론 데이터는 많으면 많을수록 좋다고 결론 지을 수도 있지요. 데이터 부족 기준의 필요성 하지만 불충분한 데이터 양은 머신러닝에서 자주 발생하는 문제입니다. 특히 복잡한 모델을 효과적으로 훈련하기 위해 대량의 레이블이 지정된 데이터가 필요한 딥러닝 작업에서는 더욱 그렇습니다. 그래서 데이터 부족에 대한 기준을 안다는 것은 중요합니다. 그러면 어떤 방식으로 데이터 양이 충분한지 확인하는지 몇 가지 방법을 알아보도록 하.. 2024. 4. 4.
상관관계를 이용하는 이유 데이터 분석을 시작할 때 상관관계에 대한 이야기는 빈번하게 나옵니다. 이유는 우리가 예측하려는 타겟 값(y)과 Input 데이터인 x값들 즉, 변수 간의 통계적 관계가 있는지를 알고 싶어서입니다. 한 변수의 변화가 다른 변수의 변화와 연관되는 정도를 나타내는 것이죠.   <ins class="adsbygoogle" style="d.. 2024. 4. 2.
P-value(유의 확률) 의미 및 해석 방법 분석을 하다 보면 선임 연구자로부터 p-value를 한번 구해보라는 말을 자주 듣습니다. 선임이 해보라니까 하긴 하는데 어떤 경우 사용하는지 알면 선임이 알려주기 전에 미리 내가 알아서 분석의 방향을 전개할 수 있을 것입니다. P-value는 분석하는 일이 실제로 일어날 가능성(=유의성)이 있는지를 알고 싶을 때 p-value를 사용합니다. p-value는 관찰된 결과가 우연히 발생한 것인지 아니면 신뢰할 수 있는 실제 결과인지 확인하는 데 도움을 주죠. P-value를 사용할 경우1. 가설 검정t-test, ANOVA, 카이제곱 검정 등의 가설 검정을 수행할 때 p-value를 사용합니다. 그 결과가 귀무 가설을귀무가설을 뒷받침하는지 반박하는지 평가하는 데 도움이 됩니다. 낮은 p-value(일반적으로.. 2024. 3. 28.
박스플롯(Boxplox) 해석과 사용 방법 박스플롯은 데이터 분석 과정에서 가장 많이 사용하는 시각화 방법입니다. 원래 이름은 상자수염 도표(Box-and-Whisker Plot)라고 불리는데요. 우리는 평균, 표준편차, 분산 등을 텍스트로 확인해 볼 수 있습니다. 하지만 시각적이지 않기 때문에 와닿지 않은 경우가 많습니다. 박스플롯은 데이터세트의 분포와 변동성을 한눈에 시각화 해보기 좋습니다. 중앙값, 사분위수, 이상값과 같은 주요 통계 측정값에 대한 간결하게 볼 수가 있죠. 박스플롯 구성요소 박스플롯은 아래와 같은 요소로 구성됩니다. 박스플롯은 주로 IQR을 기반으로 본다는 것을 알 수 있습니다. 통계적인 이야기를 할 때 IQR이라는 용어를 많이 사용하는데요. 예를 들어, 데이터를 제외할 때 "IQR의 몇으로 제외했어요?"로 묻는 식입이다. .. 2024. 3. 13.
왜도와 첨도를 활용하는 3가지 방법 왜도(skewness)와 첨도(kurtosis)를 좀 쉽게 설명해 보려고 합니다. 어려운 개념이 아니기 때문입니다. 그리고 이 왜도와 첨도를 활용하는 세 가지 방법도 알아보겠습니다. 왜도와 첨도란? 왜도 우선 키가 작은 학생부터 가장 큰 학생까지 키에 따라 줄지어 있다고 상상해 보세요. 대부분의 학생들이 중간에 모여 있고 양쪽에 키가 작은 친구와 키가 큰 친구가 있는 경우 대칭을 이루게 되고 왜도가 없다고 합니다. 그러나 대부분의 친구가 키가 작고 한쪽 끝에 매우 키가 큰 친구가 몇 명밖에 없다면 그래프는 왼쪽으로 치우쳐집니다. 반면, 대부분의 친구가 키가 크고 한쪽 끝에 아주 작은 친구가 몇 명밖에 없다면 그래프는 오른쪽으로 치우쳐 있습니다. 왜도는 데이터의 편향성 또는 비대칭성을 측정합니다. 정규분포.. 2024. 2. 16.