본문 바로가기

데이터 분석75

피처 엔지니어링(Feature engineering) 방법, 단계별 종류 및 특징 위키독스에 따르면 피처 엔지니어링(Feature Engineering)이란 기존 데이터를 손보아 더 나은 변수를 만드는 기법으로 소개합니다. Feature engineering을 번역하면 특성 공학이라고도 하죠. 우리가 흔히 ’전처리‘라고 하는 과정에서 이루어지는 작업인데요. 전처리 중애 feature에 집중해서 생각해 보는 것, 그것이 피처 엔지니어링이라고 생각하면 이해가 되실 거예요. 왜 피처 엔지니어링을 할까요? 이유는 feature(변수)들을 이용해 모델 성능을 향상할 수 있기 때문입니다. 그래서 데이터 분석 및 머신러닝의 중요한 단계입니다. 그렇다면 피처 엔지니어링에 대해 단계별로 이야기해 보겠습니다. 데이터 이해(EDA) 피처 엔지니어링을 시작하기 전에 데이터를 철저하게 이해하는 것이 중요합니.. 2024. 4. 5.
머신러닝, 딥러닝 데이터 양이 충분한지 확인하는 방법 우리가 데이터 분석을 할 때 데이터 양이 충분하지 않은 것 같다는 말을 하게 됩니다. 그런데 데이터가 불충분한지는 어떻게 알 수 있을까요? 1만건 이하는 적은 것이고 10만 건 이상은 충분한 것일까요? 물론, Case by Case로 상황에 따라 다르다는 원론적인 이야기를 할 수도 있습니다. 때론 데이터는 많으면 많을수록 좋다고 결론 지을 수도 있지요. 데이터 부족 기준의 필요성 하지만 불충분한 데이터 양은 머신러닝에서 자주 발생하는 문제입니다. 특히 복잡한 모델을 효과적으로 훈련하기 위해 대량의 레이블이 지정된 데이터가 필요한 딥러닝 작업에서는 더욱 그렇습니다. 그래서 데이터 부족에 대한 기준을 안다는 것은 중요합니다. 그러면 어떤 방식으로 데이터 양이 충분한지 확인하는지 몇 가지 방법을 알아보도록 하.. 2024. 4. 4.
상관관계를 이용하는 이유 데이터 분석을 시작할 때 상관관계에 대한 이야기는 빈번하게 나옵니다. 이유는 우리가 예측하려는 타겟 값(y)과 Input 데이터인 x값들 즉, 변수 간의 통계적 관계가 있는지를 알고 싶어서입니다. 한 변수의 변화가 다른 변수의 변화와 연관되는 정도를 나타내는 것이죠.   <ins class="adsbygoogle" style="d.. 2024. 4. 2.
P-value(유의 확률) 의미 및 해석 방법 『 '데이널'의 컨텐츠에 포함된 정보는? 』 분석을 하다가 선임 연구자로부터 "p-value를 한번 구해보지"하는 말을 자주 듣습니다. 선임이 해보라니까 하긴 하는데 왜 하는지 모른체 합니다. P-value를 어떤 경우 사용하는지 알면 선임이 알려주기 전에 미리 내가 알아서 분석의 방향을 전개할 수 있을 것입니다.   P-value(유의 확률)는 분석하는 일이 실제로 일어날 가능성(=유의성)이 있는지를 알고 싶을 때 p-value를 사용합니다. p-value는 관찰된 결과가 우연히 발생한 것인지 아니면 신뢰할 수 있는 실제 결과인지 확인하는 데 도움을 주죠.  P-value를 사용할 경우1. 가설 검정t-test, ANOVA, 카이제곱 검정 등의 가설 검정을 수행할 때 p-value를 사용합니다. 그 결.. 2024. 3. 28.
박스플롯(Boxplox) 해석과 사용 방법, 그리기까지 박스플롯은 데이터 분석 과정에서 가장 많이 사용하는 시각화 방법입니다. 원래 이름은 상자수염 도표(Box-and-Whisker Plot)라고 불리는데요. 우리는 평균, 표준편차, 분산 등을 텍스트로 확인해 볼 수 있습니다. 하지만 시각적이지 않기 때문에 와닿지 않은 경우가 많습니다.   박스플롯은 데이터세트의 분포와 변동성을 한눈에 시각화 해보기 좋습니다. 중앙값, 사분위수, 이상값과 같은 주요 통계 측정값에 대한 간결하게 볼 수가 있죠. 『 '데이널'의 컨텐츠에 포함된 정보는? 』박스플롯 구성요소박스플롯은 아래와 같은 요소로 구성됩니다. 박스플롯은 주로 IQR을 기반으로 본다는 것을 알 수 있습니다. 통계적인 이야기를 할 때 IQR이라는 용어를 많이 사용하는데요. 예를 들어, 데이터를 제외할 때 "IQ.. 2024. 3. 13.
왜도와 첨도를 활용하는 3가지 방법 왜도(skewness)와 첨도(kurtosis)를 좀 쉽게 설명해 보려고 합니다. 어려운 개념이 아니기 때문입니다. 그리고 이 왜도와 첨도를 활용하는 세 가지 방법도 알아보겠습니다. 왜도와 첨도란? 왜도 우선 키가 작은 학생부터 가장 큰 학생까지 키에 따라 줄지어 있다고 상상해 보세요. 대부분의 학생들이 중간에 모여 있고 양쪽에 키가 작은 친구와 키가 큰 친구가 있는 경우 대칭을 이루게 되고 왜도가 없다고 합니다. 그러나 대부분의 친구가 키가 작고 한쪽 끝에 매우 키가 큰 친구가 몇 명밖에 없다면 그래프는 왼쪽으로 치우쳐집니다. 반면, 대부분의 친구가 키가 크고 한쪽 끝에 아주 작은 친구가 몇 명밖에 없다면 그래프는 오른쪽으로 치우쳐 있습니다. 왜도는 데이터의 편향성 또는 비대칭성을 측정합니다. 정규분포.. 2024. 2. 16.
PCA(주성분 분석): 로딩 벡터로 주성분을 해석하라 실제 현업에서 주성분 분석을 정말 많이 쓰는 알고리즘 중에 하나입니다. 그런데 주성분 분석(PCA)을 하고 나서 내가 주성분을 얼마나 잘 만들었는지에 대한 검토는 잘 이루어지지 않죠. 주성분을 해석하기 위한 방법으로 로딩 벡터를 보는 방법이 있습니다. 이 글을 통해 PCA를 좀 더 잘 해설할 수 있는 방법을 소개할까 합니다. 로딩 벡타란?로딩 벡터는 주성분을 구성하기 위해 원래 변수(feature)에 할당된 가중치를 나타냅니다. 이러한 로딩 벡터는 각 원래 feature가 변수들의 선형 조합인 주성분(PC)에 어떻게 기여하는지에 대한 정보를 제공합니다. 그러면 주요 개념을 확인해 보겠습니다.주성분(Principal Components , PC)주성분은 데이터의 최대 분산을 포착하는 원래 특성(featur.. 2024. 2. 6.
박스콕스 변환 vs 여존슨 변환 어떻게 다른가? 가끔씩 박스콕스(Box-Cox) 변환을 해야 하는 경우가 생기는데요. 왜 하는지 모르는데 선배가 하라고 하니까 하는 경우도 많은 것 같아요. 이번 글에서는 박스콕스 변환이 무엇이고 변환하고 나면 어떤 이점이 있는지에 대해 알아보도록 하겠습니다. Box-Cox 변환이란? 박스콕스 변환은 분산을 안정화하고 데이터 세트를 정규 분포에 더 가깝게 만드는 데 사용되다고 알고 있을 것입니다. 이 수학적 기법이 어떤 상황에서 사용될까요? 선형회귀와 같은 통계적 방법에서 흔히 요구되는 '등분산성'이나 '정규성' 가정을 위반하는 데이터에 일반적으로 적용됩니다. 등분산성에 대한 재미있는 글이 있어 공유할까 합니다. 과천 경마장에 가보신 분들은 경기를 직접 보셨을 건데요. 경주마들이 빠른 말과 느린 말이 있습니다. 1등 말.. 2024. 2. 2.
커널 함수를 사용하는 이유 아마도 데이터 분석 프로젝트를 하다가 커널 함수라는 말이 자주 나오지 않으셨나요? 커널 함수는 다양한 기계 학습 알고리즘에 사용되기 때문이죠. 예를 들어 SVM(서포트 벡터 머신)와 같은 커널화 기법에서 중요한 역할을 합니다. 딥러닝, 머신러닝에서 커널 함수를 사용하는 몇 가지 이유에 대해 알아보겠습니다. 고차원 매핑(비선형을 선형으로) 커널 함수를 사용하면 입력 데이터를 고차원 공간으로 변환할 수 있습니다. 이 변환은 데이터가 원래 특징 공간에 없는 경우에도 데이터를 선형적으로 분리 가능하게 만드는 데 사용됩니다. 이는 결정 경계가 단순한 초평면이 아닌 복잡한 문제를 해결하는 데 유용합니다. 비선형 관계 처리 많은 실제 기계학습 문제에는 feature 간의 비선형 관계가 포함되어 있습니다. 커널화 방법.. 2024. 2. 1.