데이터 분석75 [머신러닝] 로지스틱 회귀 - 승산(Odds)과 활성화 함수 이전 포스팅에서는 로지스틱 회귀의 특징에 대해 살펴 보았습니다. 이번 포스팅에서는 로지스틱 회귀의 계산 방식을 유도해 보게습니다. 알아야 될 개념인 승산(Odds)에 대해 알아보면서 로지스틱 함수까지 유도되는 것을 확인 할 수 이습니다. 로지스틱 회귀 알고리즘이 딥러닝(deep learning)에서는 활성화 함수로 주로 활용됩니다. 그 부분에 대해서도 자세히 살펴 보겠습니다. Odds(아드, 오즈) 란 Odds는 사람에 따라 아드, 오즈로 부릅니다. 승산은 성공확률 P를 정의할때, 실패(0)에 대한 성공(1)의 비율을 의미합니다. 그래서 범위는 0 < odds < ∞ 입니다. 수식은 간단하게 Odds=𝑃(1−𝑃) 로 정의할 수 있습니다. 𝑝=1 → O𝑑𝑑𝑠 = ∞ 𝑝=0 → O.. 2023. 9. 13. [머신러닝] 로지스틱 회귀(Logistic Regression) - 선형 vs 비선형 이번 글에서는 선형 회귀 만큼이나 중요한 로지스틱 회귀에 대해 알아보도록 하겠습니다. 로지스틱 회귀는 선형 회귀에 가장 큰 차이점은 비선형 알고리즘이라는 것 입니다. 우리는 여기서 선형과 비선형의 차이가 무엇인지도 살펴 보도록 하겠습니다. 로지스틱 회귀는 기계 학습, 의료, 금융, 마케팅 등 다양한 분야에서 이진 분류 문제를 해결하는 데 많이 사용되는 강력한 통계 기법입니다. 로지스틱 회귀 분석의 원리를 배우고, 작동 방식을 설명하도록 하겠습니다. 『 '데이널'의 컨텐츠에 포함된 정보는? 』 Logistic Regression의 특징은?로지스틱 회귀는 이진 결과의 확률을 예측하는 데 사용하는 알고리즘 입니다. 예를 들어, 질병 발생여부와 같이 발병(1), 정상(0) 사이에 중간 값이 없는 예측을 합니다.. 2023. 9. 12. [머신러닝] 선형 회귀 가정과 다중공선성 진단 및 해결 방법 선형 회귀는 종속 변수(대상)와 하나 이상의 독립 변수(특성) 간의 관계를 모델링하기 위해 널리 사용되는 통계 방법입니다. 그러나 모델이 유효하고 결과를 신뢰할 수 있는지 확인하기 위해 몇 가지 중요한 가정에 의존합니다. 주요 선형 회귀 가정에 대해 살펴보면서, 그 중에 다중공선성에 대해서 자세히 알아보도록 하겠습니다. 선형 회귀 가정이란 이전 포스팅에서 선형 회귀에 대해 다루습니다. 그런데 모든 데이터에 선형 회귀를 적용할 수 있을까요? 그렇지 않습니다. 만약 그렇다면 다른 알고리즘이 나오지 않았을 것입니다. 선형 회귀를 사용하기 위한 알고리즘 만의 가정이 존재합니다. 다시 한번 이야기하지만 회귀 분석의 목적은 설명변수 x와 타겟 변수 y의 관계를 선형식으로 나타내는 것입니다. 현실적으로 변수 간의 관.. 2023. 9. 11. [머신러닝] 선형 회귀 - 옵티마이저와 학습률(Learning Rate) 이번 포스팅에서는 옵티마이저와 학습률에 대해 다루려고 합니다. 사실 옵티마이저와 학습률은 선형 회귀 알고르즘에만 해당 되는 것은 아닙니다. 모든 알고리즘에 해당 되는 개념입니다. 가장 기본이 되는 이론이라 처음부터 알고 가는 것이 좋습니다. 최적화 알고리즘(Optimizer) 선형 회귀를 포함한 수많은 머신 러닝, 딥 러닝의 학습은 결국 비용 함수를 최소화하는 매개 변수인 w와 b를 찾기 위한 작업을 수행해야 합니다. 이때 사용되는 알고리즘을 옵티마이저(Optimizer) 또는 최적화 알고리즘이라 합니다. 이 옵티마이저를 통해 가장 적합한 w와 b를 찾아내는 과정을 머신 러닝에서 훈련(training) 또는 학습(learning)이라 합니다. 가장 기본적인 옵티마이저 알고리즘인 ‘경사하강법(Gradien.. 2023. 9. 10. [머신러닝] 선형 회귀(Linear Regression) 와 비용함수 머신 러닝 알고리즘 중에 가장 기본이 되는 모델이 선형 회귀(Linear Regression) 입니다. '왜 선형 회귀가 가장 기본이 됐을까요?' 저도 처음에 이런 생각을 했었는데요. 이유는 우리가 사는 세상에서 발생하는 일들의 상관관계가 선형으로 많은 부분 설명이 되기 때문입니다. 그러면 모델의 특징과 종류들에 대해 알아 보도록 하겠습니다. <!-- 디스플레이_고정형_30.. 2023. 9. 9. [머신러닝] 과적합(Overfitting) 해소 방법 - 정규화 이번 포스팅에서는 과적합을 해소하는 방법 중에 정규화에 대해 알아보도록 하겠습니다. 정규화는 제약 조건을 늘려서 모델을 일반화하기 때문에 규제화(Regularization) 라고 부르기도 합니다. 일반적으로 모델의 가중치(weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상을 방지합니다. 즉, 과하게 최적화되는 것을 막는 방법이라고 생각할 수 있습니다. 대표적인 정규화 방법은 라쏘(Lasso)와 릿지(Ridge)가 있습니다. 라쏘(Lasso) 라쏘는 선형 모형에서 쓰이는 MSE 손실함수 = 1n∑(yi−yi)2 를 사용합니다. 실제 값(𝑦𝑖)과 예측 값(𝑦e)의 차이가 오차이고, 이 값을 제곱해서 평균 낸 것입니.. 2023. 9. 8. [머신러닝] 과적합(Overfitting) 해소 방법 - 모델 단순화 이번 포스팅에서는 과적합을 해소시키는 방법을 좀 더 상세히 알아보도록 하겠습니다. 먼저 더 많은 데이터를 확보하는 방법과 모델의 복잡도를 제어하는 방법에 대해 다루겠습니다. 데이터 증대(Augmentation) 새로운 데이터를 더 구하는 방법이 있겠지만 현실에서는 만만치 않습니다. 그래서 원본 데이터를 이용하여 데이터를 확장하는 방법을 사용합니다. 이런 방법을 데이터 증대라고 하고 이미지 분류(CNN)에서 특히 많이 사용하며 효과도 좋습니다. 만약 동물 사진을 분류하는 모델이라고 한다면, 원래 이미지 뿐만 아니라 그 사진들을 회전시키거나 약간 찌그러뜨린 수정본들도 함께 학습 시키게 되면 실제 많은 데이터를 확보하는 것 같은 효과가 나타납니다. 이 방법은 훈련 데이터에서만 사용하는 것이며, 테스트 데이터에.. 2023. 9. 7. [머신러닝] 과대적합 vs 과소적합(overfitting, underfitting) 데이터 분석을 하다 보면 한가지 문제에 봉착하게 됩니다. 바로 과적합에 대한 문제입니다. 이번 포스팅에서는 과대적합과 과소적합에 대해서 알아보도록 하겠습니다. Underfitting(과소적합) 먼저 생각해 볼 부분이 왜 Underfitting은 발생하는 걸까요? 대체적으로 Underfitting(과소적합)은 모델이 너무 단순하기 때문에 생깁니다. 우리가 분석하고자 하는 데이터의 내재된 구조를 제대로 학습하지 못할 때 발생하게 됩니다. Underfitting을 알 수 있는 방법은 학습 데이터 오류율이 테스트 데이터 오류율 비슷하게 나오지만 오류율이 여전히 큰 경우는 Underfitting을 의심해 봐야 합니다. 그렇다면 어떻게 Underfitting 해소할 수 있을까요? 모델이 데이터를 담아내기에 충분치 .. 2023. 9. 6. [머신러닝] 데이터 전처리 - 변수 결합 지금까지는 내부에 있는 데이터를 이용하여 데이터를 전처리 했다면 이번에는 외부 데이터까지 연결하는 작업입니다. 데이터의 속성은 예측을 위해 더 많은 정보가 있을 수록 유리합니다. 그렇기 때문에 공공 데이터 포털과 같은 외부 데이터와의 결합도 분석가는 고려해야 합니다. 1. Mashup의 필요성 수집한 원자료 이외 외부 데이터와 연결해서 분석하여 더 넓은 관점에서 Insight를 찾아는 방법입니다. 예를 들어, 공공데이터 포털에서 제공 다양한 행정, 날씨 등의 데이터들이 있습니다. 다양한 아이디어를 통해 외부 데이터와 결합했을 때 더 좋은 알고리즘 및 서비스를 만들 수 있습니다. 분석가가 예측하려는 Y(타겟) 변수와 연관이 있어 영향력이 있을 것으로 판단되는 데이터를 결합하는 방법입니다. 단, 외부 데이터.. 2023. 9. 5. 이전 1 ··· 5 6 7 8 9 다음