본문 바로가기
IT 탐구생활

AWS ML 꼭 나오는 시험문제 유형 5~6

by 데이널 2024. 8. 29.

이전 글에서 AWS ML 문제 유형 3~4에 대해 살펴보았는데요. 이글에서는 알고리즘에 관련된 문제 패턴을 알아보도록 하겠습니다. 시험에서는 알고리즘(모델링) 문제가 비중 30%로 가장 많이 나옵니다. 
 

AWS ML 시험 유형 - 과대적합
AWS ML 시험 유형 - 과대적합

클릭하시면 해당 글로 이동합니다.
AWS ML 자격증 팁 AWS ML 1 단계) 자격증 후기, 30일 만에 합격하는 벙법
AWS ML 2 단계) 시험 할인 받고 접수하는 방법 및 공부 팁 
AWS ML 3 단계) 시험 정보 및 꼭 알아야 할 사이트
AWS ML 4 단계) 꼭 나오는 시험 문제 유형 1~2
AWS ML 5 단계) 꼭 나오는 시험 문제 유형 3~4
AWS ML 6 단계) 꼭 나오는 시험 문제 유형 5~6
AWS ML 7 단계) 꼭 나오는 시험 문제 유형 7~8

 

유형 5, 과적합 문제

알고리즘을 구현하다 보면 가장 빈번하게 발생하는 과대적합 문제가 꼭 출제됩니다. 분석을 하다 보면 직면하는 일이라 실제로도 분석가가 알아야 되는 상식이기도 합니다. 

문제

An insurance company is developing a new device for vehicles that uses a camera to observe drivers’ behavior and alert them when they appear distracted. The company created approximately 10,000 training images in a controlled environment that a Machine Learning Specialist will use to train and evaluate machine learning models.

During the model evaluation, the Specialist notices that the training error rate diminishes faster as the number of epochs increases and the model is not accurately inferring on the unseen test images.

Which of the following should be used to resolve this issue? (Choose two.)

A. Make the neural network architecture complex.

B. Use gradient checking in the model

C. Add gradient to the model.

D. Perform data augmentation on the training data.

E. Add L2 regularization to the model.

 

한 보험 회사는 카메라를 사용하여 운전자의 행동을 관찰하고 주의가 산만해 보일 때 경고하는 새로운 차량용 장치를 개발하고 있습니다. 이 회사는 기계 학습 전문가가 기계 학습 모델을 학습하고 평가하는 데 사용할 통제된 환경에서 약 10,000개의 학습 이미지를 만들었습니다.
모델 평가 중에 전문가는 epoch 수가 증가함에 따라 training 오류율이 더 빨리 감소하고 모델이 보지 않은 테스트 이미지를 정확하게 추론하지 못한다는 것을 알아차렸습니다.
이 문제를 해결하려면 다음 중 어떤 것을 사용해야 합니까? (2개를 선택하세요.)

A. 신경망 아키텍처를 복잡하게 만듭니다.
B. 모델에서 그라디언트 검사를 사용합니다.
C. 모델에 그라디언트를 추가합니다.
D. 훈련 데이터에 대한 데이터 증대를 수행합니다.
E. 모델에 L2 정규화를 추가합니다

 


정답해설

정답은 D, E 입니다.   
딥러닝에서 배치사이즈(batch size), 에포크(epoch), 반복(iteration)이 중요합니다. 이 부분에 대한 개념 설명은 딥러닝 학습 글을 참고하시기 바랍니다. epoch는 신경망 통과 횟수(학습 횟수), 배치 사이즈는 Input으로 넣는 데이터 사이즈입니다.

 

반복은 한번 학습 시키는데 epoch 수 증가에 따라 오류율이 더 빨리 감소하니까 과적합 의심해야 합니다. 테스트 이미지를 정확히 추론 못한다는 것은 훈련 데이터에 너무 과적합 되었다는 말이죠.

 

과적합을 해결하는 방법은 훈련 데이터 더 증가시키거나, 가중치 정규화(Weight Regularization)를 하는 것인데요. 그 방법에는 L1, L2 정규화가 있습니다. 신경망을 더 복잡하게 하는 것은 과적합을 만듭니다. 오히려 단순화해야 합니다. 그리디언트(gradient)는 모델을 최적화하는 방법이지 과적합을 방지하지는 않습니다.  


과적합을 방지하는 5가지 기술

  1. 모델 단순화(Simplifying the model) : Layer는 늘리고, depth는 줄임
  2. 조기 중단(Early stopping) : 과적합이 되기 전에 중단, 훈련율을 낮추는 방법 
  3. 데이터 증대 사용(Use data argumentation) : 훈련 데이터를 더 증대하는 방법 
  4. 정규화 사용(Use regularization) : 피처의 특이성을 순화해 주는 효과
  5. 배치 정규화 사용(Batch reqularization) :  각 계층 입력을 정규화하여 훈련 안정성과 속도를 향상
  6. 드롭아웃 사용(Use Dropouts) : 복잡도를 줄여서 일반화 하는 방법

 

유형 6, 머신러닝 알고리즘 비교 문제

머신러닝 알고리즘은 회귀, 분류, 군집 등 다양한 모델들이 있습니다. 각각의 모델의 특성을 구별하고 특징을 알고 있는지를 확인하는 문제 유형입니다. 

문제

도시는 대기 오염의 결과를 해결하기 위해 대기 질을 모니터링하기를 원합니다. 기계 학습 전문가는 도시의 향후 2일 동안 오염 물질로 인한 공기 품질을 예측해야 합니다. 프로토타입이기 때문에 작년의 일일 데이터만 사용할 수 있습니다.
Amazon SageMaker에서 최상의 결과를 제공할 가능성이 가장 높은 모델은 무엇입니까?
 
A. 전체 연도의 단일 시계열 데이터에 Amazon SageMaker RCF(Random Cut Forest)를 사용합니다.

B. predictor_type이 regressor인 전체 연도의 단일 시계열 데이터에서 Amazon SageMaker Linear Learner 알고리즘을 사용합니다.

C. predictor_type이 classifier인 전체 연도의 단일 시계열 데이터에서 Amazon SageMaker Linear Learner 알고리즘을 사용합니다.

D. predictor_type이 regressor인 전체 연도의 단일 시계열 데이터에서 Amazon SageMaker k-Nearest-Neighbors(kNN) 알고리즘을 사용합니다.

 


정답해설

정답은 B 입니다. 밑줄 그은 것처럼 2일 동안의 공기 품질 예측(regression) 문제입니다. 그래서 predictor_type도 regressor를 선택하고 회귀 모델인 Linear를 사용한 B가 맞습니다. 다른 보기가 정답이 아닌 이유는 아래와 같습니다. 

  • A : RCF 이상치 탐지 모델 → 데이터셋에 포함되어 있는 이상치들을 탐지하는 비지도 학습 알고리즘이므로  x
  • B : predictor_type of regressor → Linear(regression 모델), o
  • C : predictor_type of classifier  → Linear(regression 모델), predictor_type을 잘못 선택해서 x
  • D : predictor_type of regressor → kNN(classification모델), kNN은 분류모델이라 x

 

AWS ML 꼭 나오는 시험문제 유형 7~8

 

AWS ML 꼭 나오는 시험문제 유형 7~8

『 이 컨텐츠 포함된 정보는? 』 AWS ML 시험문제 유형 마지막 글인데요. 마지막으로 분석 환경 및 아키텍처 관련 문제와 데이터 전처리에 대한 문제들이 비슷한 방식으로 출제됩니다. 출제 의도

bommbom.tistory.com