로그변환1 데이터 스케일링(Scaling), 왜 해야 할까요? 머신러닝 모델 성능의 비밀 이전 글에서 '머신러닝에서 input 데이터로 숫자 형태를 넣어야 한다'는 "변수 속성 통일"에 대해 다뤘습니다. 속성을 숫자 형태(type)으로 통일해야 한다는 개념이었죠. 이번에는 알고리즘이 예측에 편향이 생기지 않기 위해 스케일링을 해야 합니다. 이 작업은 입력되는 숫자값의 범위 및 분포를 다른 변수들과 일치시켜주는 작업입니다. 스케일링을 하는 이유그렇다면 왜 스케일링을 하는 걸까요? 이유는 입력되는 변수에 대해 기계는 어떤 의미인지를 알 수 없다는 것입니다. 예를 들어, 100이라는 값이 들어왔다면 100점 만점의 100이면 높은 것이고, 500점 만점의 100이면 낮인 것인지 우리는 알지만 기계는 모릅니다. 그래서 서로 크기의 편차가 크게되면 상대적으로 큰 변수의 영향을 더 받아 잘못된 예.. 2024. 10. 10. 이전 1 다음