본문 바로가기

데이터 분석75

[머신러닝] 데이터 전처리 - 변수 추가/제거 1. 변수 추가 지금까지는 원자료를 기준으로 데이터를 전처리 했다면 이번에는 새로운 변수를 추가하는 기법입니다. 새로운 변수를 추가한다는 것은 기존 변수보다 의미있는 특성을 찾아 낸다는 점에서 아이디어가 필요한 작업입니다. 역시 비지니스를 분석과 데이터의 형태 분석이 중요한 요소입니다. 물론 변수를 추가하는 것이 어떤 경우던 효과가 좋은 것은 아닙니다. 기존 변수와 상관도가 너무 높은 변수를 추가하게 된다면 다중공선성에 의해 더 좋지 않은 모델을 만들 수 도 있습니다. 다중공선성(Multicollinearity)은 통계학에서 변수들 간에 강한 상관관계가 나타나는 경우 입니다. 일반적으로 회귀분석에서 사용되는 용어이며 변수간의 선형 독립이 아닌 경우 모델에 부정적인 영향을 미치는 현상을 말합니다. 변수를 .. 2023. 9. 4.
데이터 전처리 필수 단계: 결측치 처리 방법 비교 분석 데이터 전처리 과정 중 데이터가 값이 없는 경우. 즉, 결측이 발생했을 때 처리하는 방법은 두가지가 있습니다. 바로 제거하기와 대체하기 입니다.   결측은 왜 발생할까?데이터셋의 결측이 발생하는 이유는 다양한데요. 센서 데이터와 같은 경우 오작동에 의해 해당 값이 수집이 안되는 경우도 있고, 인간의 실수나 시스템 오류 등으로 인해 데이터가 제대로 수집되지 않을 수 있습니다.  또 데이터를 필수로 수집해야 하는 경우도 있지만 선택적으로 수집할 때 해당 항목에 대해 응답을 거부할 경우에도 데이터가 비어서 들어옵니다. 결측 확인하기몇가지 방법을 사용하여 데이터셋의 결측치 현황을 다각도로 파악할 수 있습니다. 결측치 확인 후에는 상황에 따라 제거, 대체 등의 적절한 처리 방법을 선택하여 적용해야 합니다.# 전체.. 2023. 9. 1.
[머신러닝] 데이터 전처리 - 실수를 줄이는 데이터 확인 데이터 전처리라고 하면 뭔가 거창하게 생각하거나 단순하게 생각합니다. 통계상으로 분석가들의 70~80% 정도 일량이라고 하니 많은 시간이 소요되는 작업입니다. 이런 이유 때문에 분석 프로젝트 초기에 시간을 절약하려고 샘플 데이터를 받는 방법을 사용합니다. 샘플 데이터를 이용하여 미리 분석을 진행하고 실제 인터페이스 될 경우 적용하게 되기 때문이죠.   Sample Data는 주로 엑셀, csv 등 파일 형태로 받는 경우는데요. 이메일 또는 저장장칠르 통해 직접 받기도 합니다. 이때 중요한 포인트는 원활한 업무를 위해 신속하게 확인 필요합니다. 아래 빨간색 '필수'라고 표시한 부분은 반드시 수행할 필요가 있는 단계에 대해 표시했습니다.   1. 업무(시나리오) 분석 및 검토 - 필수초기에 데이터 확인이 이.. 2023. 8. 28.