본문 바로가기

분류 전체보기271

불균형 데이터(Data Imbalance) 처리 및 해결 방법(2가지 측면) 이번 포스팅에서는 불균형 데이터는 어떤 데이터를 말하는 것이고, 그 해결 방법은 어떤 기법이 있는지 다루겠습니다. 불균형 데이터는 'Data Imbalance'라고 하고 업무적으로 발생할 수 밖에 없는 경우들이 있습니다. 단순히 많은 데이터 수집으로 해결될 문제가 아니라는 뜻이죠. 데이터 불균형이란? 불균형 데이터는 보통 타겟변수(Y)가 어느 한쪽이 너무 클 경우 불균형 데이터라고 합니다. 정상 범주의 관측치 수와 이상 범주의 관측치 수가 현저히 차이나는 Data를 Imbalance하다고 합니다. 예를 들어, 아래 3개의 업무에서 불균형 현상은 현실속에서 발생할 수 밖에 없죠. 이 부분을 데이터를 가공해 좀 더 정확도를 높이는 작업이 필요합니다. 불균형 현상 (의료 서비스) 낙상 환자가 낙상이 발생하지 .. 2023. 10. 20.
분류 모델 성능 평가 - Confusion Matrix 쉬운 설명, threshold, cut-off 이번 포스팅에서는 앞에서 배운 Confusion Matrix에 대해 정리하는 차원에서 Case Study를 해보겠습니다. 우선 생각해 볼 문제가 있습니다. 95%가 정상이고 5%만이 병에 걸린다고 할때 모델이 무조건 정상이라고 예측하면 95% 정확도가 나옵니다. 과연 제대로된 평가일까요? 우리는 실제 병이 걸릴 확률을 예측하는것이 더 중요합니다. 단지 Accuracy 만으로 평가 할 업무라는 것을 알 수 있습니다. 문제 10명의 환자중 심근경색을 예측하였습니다. Recall, Precision, Accuracy은 어떻게 구할까요? 정답과 설명 Recall은 실제 신근경색에 걸린 사람을 맞다고 예측한 비율이니까 실제로 걸린사람 4명 중 예측까지 맞은 경우는 빨간색 점선으로 표시한 1명입니다. 1/4 = R.. 2023. 10. 20.
분류 모델 성능 평가 - Confusion Matrix(정확도,정밀도,재현율,F1-score,민감도,특이도,ROC,AUC) 이번 포스팅에서는 분류 모델에 대한 대표적인 성능 평가 지표인 confusion matrix에 대해 살펴보도록 하겠습니다. 이 지표는 혼동행렬이라고도 하는데, 정확도 정밀도, 재현율, 민감도, 특이도 등 여러가지 지표를 같이 볼 수 있습니다. 왜 이렇게 다양한 지표를 사용하는 것일까요? 이유는 여러 측면에서 예측 정확도를 확인하고 해당 case에 맞는 평가방법을 적용하기 위해서입니다. 업무에 따라 recall은 좀 낮아도 되는데, precision이 높아야 한다던지, 아니면 반대의 경우라던지 각각 다를 수 있습니다. 우리는 이 지표들을 조절해 가며 알고리즘을 업무에 맞게 적용할 수 있습니다. 혼동행렬(Confusion Matrix) 행렬의 각 행은 실제 클래스의 인스턴스를 나타냅니다. 중요한 것은 아래 .. 2023. 10. 19.
회귀 모델 성능 평가 - 결정계수(R-squared), Adjusted R-Squared 이번 포스팅에서는 회귀 모델 성능 평가 두번째인 결정계수(R-squared)에 대해 알아보도록 하겠습니다. R-squared의 경우 통계학적으로 추정한 선형 모형이 주어진 자료에 적합도를 재는 척도입니다. 그래서 많은 영역에서 기본적으로 확인 하는 지표이기도 합니다. 결정계수(R-Squared, Coefficient of Determination) 회귀 모델에서 독립변수(x)가 종속변수(y)를 얼마만큼 설명해 주는지 가리키는 지표로 설명력이라고 불리기도 합니다. 사용하고 있는 x 변수의 품질를 나타냅니다. 높을수록 독립변수(x)가 종속변수(y)를 많이 설명한다는 의미입니다. 예를 들어, 0.3이라면 독립변수가 종속변수의 30%를 설명한다고 생각하면 됩니다. 표현되는 값의 범위는 0~1사이이며, 일반적으로.. 2023. 10. 19.
회귀 모델 성능 평가 - Propensity, MAE, MSE, RMSE, MAPE 이전 포스팅에서 모델 성능 평가를 위한 전체적인 개요를 설명했다면 이번 포스팅에서는 회귀 모델에 대한 성능 평가 방법에 대해 알아보겠습니다. 성능 평가는 모델에 대한 평가로 좋은 결과가 나올 때까지 반복해서 작업을 수행합니다. 모델에 대한 평가할 수 있는 지표라고 할 수 있습니다. 경향(Propensity) Propensity는 성향, 트렌드를 뜻하는 용어입니다. 출력변수가 범주값일 때 클래스 소속이 될 확률로 나타낼 수 있습니다. 예를 들어 컷오프(cut-off = 0.5)를 정의하는 방법으로 평가가 가능합니다. 경향(Propensity)은 사용 목적에 따라 아래와 같이 다릅니다. 분류 : 컷오프 점수를 이용해 클래스 소속도 예측이 가능합니다. 랭킹 : 관심있는 클래스에 속할 가능성이 가장 큰 집단 추.. 2023. 10. 18.
[머신러닝] 모델 성능 평가 및 지표-훈련,검증,테스트 데이터, 교차 검증(Cross-Validation) 이번 포스팅에서는 모델의 성능 평가에 대해 알아보도록 하겠습니다. 여러 가지 성능지표가 있다 보니, 어떤 경우에 무슨 지표를 사용해야 하는지 헷갈리기도 합니다. 성능 평가 지표들의 원리를 이해한다면 내가 생성한 모델에 정확한 성능을 알기 위해서 적합한 성능 평가 방법을 적용할 수 있을 것입니다.    모델 성능 평가 란?모델 성능 평가하는 방법은 실제값과 예측값을 비교하여 두 값의 차이(오차)가 얼마나 되는지 구하는 방식입니다. 예를 들어, 실제값 – 예측값 = 0 이면, 오차가 없는 것으로 모델이 100% 정확하다고 볼 수 있겠습니다. 하지만 정확도가 100%라는 것은 현실적으로 힘듭니다. 그래서 어느 정도까지 오차를 허용할지 결정이 필요합니다. 모델 평가 목적모델을 평가하는 첫 번째 목적은 모델의 과.. 2023. 10. 18.
클러스터링 최적 군집 수 - 엘보우 vs 실루엣 기법 이번 포스팅은 클러스터링 알고리즘의 마지막 내용으로 최적 군집 수를 결정하는 방법에 대해 알아보겠습니다. 그중에서도 대표적으로 사용하는 엘로우 기법과 실루엣 기법에 대해서 확인해 보도록 하겠습니다. 최적 군집 수 지금까지 배웠던 다양한 군집(clustering)에서 최적의 군집 수를 구하는 것인데요. 성능 평가지표를 이용하여 최적의 군집수 선택하는 방법이 있습니다. 엘보우 포인트(Elbow point)에서 최적 군집수가 결정되는 경우가 일반적이죠.엘보우 포인트가 어디냐고요? 그래프가 완만한 경사를 이루는 지점을 말합니다. 여기서 군집수를 평가하는 알고리즘이 필요한데요. 평가지표로 SSE (sum of squared error), 실루엣(Silhouette) 등이 있습니다. 정확히 말해 SSE는 엘보우 기.. 2023. 10. 16.
클러스터링 - DBSCAN 장단점, 동작원리, eps 이번 포스팅에서는 밀도기반 클러스터링인 DBSCAN에 대해 살펴보도록 하겠습니다. K-means와 더불어 많이 사용하는 클러스트링 알고리즘입니다. DBSCANDBSCAN은 Density-Based Spatial Clustering of Applications with Noise 줄임말입니다. 영문 이름에서 알 수 있듯이 밀도 기반 클러스터링이라는 것이 특징입니다. 밀도 기반의 클러스터링은 데이터의 점이 세밀하게 몰려 있는 밀도가 높은 부분을 클러스터링 하는 방식입니다. 아이디어군집에 포함된 데이터는 밀도가 높을 것이다.군집에 포함되지 않은 데이터는 밀도가 낮을 것이다.(노이즈는 주변 밀도가 낮다)개념 및 용어 정리E(epsilon, eps) : 군집 반지름N(MinPts) : 군집내 최소 포인트 개수Co.. 2023. 10. 14.
클러스터링 - K-means 동작 원리, 장단점, 문제점 이번 포스팅에서는 클러스터링 중에 가장 유명한 K-means 클러스터링에 대해 설명해 보겠습니다. K-means 알고리즘은 비지도 학습 모델 중의 하나입니다. 클러스터란 비슷한 특성을 가진 데이터끼리 묶어주는 것을 말합니다.   『 '데이널'의 컨텐츠에 포함된 정보는? 』 K-means Clustering 특징K-means는 대표적인 분리형 군집화 알고리즘입니다. 각 군집은 하나의 중심(centroid)을 가지고 있습니다. 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 생성합니다. 사전에 군집의 수(K)가 정해져야 알고리즘을 실행할 수 있습니다.  1. 동작 원리서전에 정해진 갯수인, K개의 군집을 임의로 생성생성된 중심(centoroid)을 기준으로 모든 관측.. 2023. 10. 13.