『 '데이널'의 컨텐츠에 포함된 정보는? 』
AWS ML 시험문제 유형 마지막 글인데요. 이전 AWS ML 시험 유형 글을 보려면 링크를 참고하시가 바랍니다. 이번 글에서는 분석 환경 및 아키텍처 관련 문제와 데이터 전처리에 대한 것들이 비슷한 방식으로 출제되고 있는데요. 출제 의도는 데이터 분석에 적합한 아키텍처인지, 또 데이터 전처리는 어떻게 할 것인지를 묻는 문제입니다.
유형 7, 분석전용 인스턴스 문제
EC2 인스턴스를 상황별로 어떻게 사용할지에 대한 문제가 출제되는데요. 특히 데이터 사이언티스트가 분석 작업을 하기 위해서 필요한 EC2 장비를 묻는 문제가 출제됩니다.
문제
A machine learning specialist is running an Amazon SageMaker endpoint using the built-in object detection algorithm endpoint on a P3 instance for real-time predictions in a company’s production application. When evaluating the model’s resource utilization, the specialist notices that the model is using only a fraction of the GPU. Which architecture changes would ensure that provisioned resources are being utilized effectively? A. Redeploy the model as a batch transform job on an M5 instance. B. Redeploy the model on an M5 instance. Attach Amazon Elastic Inference to the instance. C. Redeploy the model on a P3dn instance. D. Deploy the model onto an Amazon Elastic Container Service (Amazon ECS) cluster using a P3 instance. |
머신러닝 전문가는 회사의 프로덕션 애플리케이션에서 실시간 예측을 위해 P3 인스턴스에서 내장 객체 감지 알고리즘 엔드포인트를 사용하여 Amazon SageMaker 엔드포인트를 실행하고 있습니다. 모델의 리소스 사용률을 평가할 때 전문가는 모델이 GPU의 일부만 사용하고 있음을 확인합니다.
프로비저닝 된 리소스가 효과적으로 활용되도록 하는 아키텍처 변경 사항은 무엇입니까?
A. M5 인스턴스에서 일괄 변환 작업으로 모델을 재배포합니다.
B. M5 인스턴스에 모델을 재배포합니다. Amazon Elastic Inference를 인스턴스에 연결합니다.
C. P3dn 인스턴스에 모델을 재배포합니다.
D. P3 인스턴스를 사용하여 Amazon Elastic Container Service(Amazon ECS) 클러스터에 모델을 배포합니다.
정답해설
정답은 B입니다. 현재 리소스를 너무 과하게 사용하고 있습니다. GPU 일부만 사용한다고 하니 GPU 인스턴스인 P3사용보다 CPU 인스턴스로 변경이 필요합니다. 그리고 Amazon Elastic Inference를 이용해 탄력적으로 리소스를 사용하면 더 효과적입니다.
우선 알아야 할 사항은 아래 두 가지입니다.
- GPU 인스턴스 타입은 어떤 것인가?
- Amazon Elastic Inference는 무엇인가?
EC2 중 GPU 인스턴스 유형은 G3, P3, P2입니다. G3는 GPU의 G를 딴 것이라 쉽게 외우는데, P3, P2는 유추하기 어려워 시험 출제는 P3, P2로 나옵니다. 보기에 나오는 M2는 CPU 전용 범용 인스턴스입니다.
Amazon Elastic Inference(EI)는 딥 러닝(DL) 추론 워크로드를 가속화하기 위해 Amazon EC2 CPU 인스턴스에 연결할 수 있는 리소스입니다. Amazon EI 액셀러레이터는 다양한 크기로 제공되며 Amazon EC2 인스턴스에서 실행되는 애플리케이션에 지능형 기능을 구축하는 비용 효율적인 방법입니다. (출처 https://aws.amazon.com/machine-learning/elastic-inference/)
참고로 Amazon EC2 P3 인스턴스는 기계 학습 및 HPC 애플리케이션을 위한 최대 100 Gbps의 네트워킹 처리량과 최대 8개의 NVIDIA® V100 Tensor Core GPU를 통해 클라우드에서 고성능 컴퓨팅을 제공합니다. 실제 사용해 보니, CPU 인스턴스보다 GPU인스턴스가 수배 이상 비용이 많이 나갑니다.
유형 8, 데이터 전처리 문제
데이터를 어떻게 전처리하는 것이 옳은지에 대한 문제가 반드시 나오는데요. 문제의 방향성은 데이터를 삭제하거나 버리기보다는 최대한 활용해야 합니다. 또 분석을 위한 최적의 데이터를 만드는 방법을 찾는 문제입니다.
문제
A machine learning engineer is preparing a data frame for a supervised learning task with the Amazon SageMaker Linear Learner algorithm. The ML engineer notices the target label classes are highly imbalanced and multiple feature columns contain missing values. The proportion of missing values across the entire data frame is less than 5%. What should the ML engineer do to minimize bias due to missing values? A) Replace each missing value by the mean or median across non-missing values in same row. B) Delete observations that contain missing values because these represent less than 5% of the data. C) Replace each missing value by the mean or median across non-missing values in the same column. D) For each feature, approximate the missing values using supervised learning based on other features |
한 Machine Learning 엔지니어가 Amazon SageMaker Linear Learner 알고리즘을 사용하여 지도 학습 작업을 위한 데이터 프레임을 준비하려고 합니다. 이 ML 엔지니어는 대상 레이블 클래스가 매우 불균형하고 여러 특성 열에 누락된 값이 있다는 것을 알았습니다. 전체 데이터 프레임에서 누락된 값의 비율은 5% 미만입니다.
누락된 값으로 인한 편향을 최소화하려면 이 ML 엔지니어는 무엇을 수행해야 합니까?
A. 각 누락된 값을 동일한 행(row)에 있는 누락되지 않은 값의 평균값 또는 중간 값으로 바꾼다.
B. 누락된 값이 포함된 관측치는 데이터의 5% 미만을 나타내므로 삭제한다.
C. 각 누락된 값을 동일한 열(column)에 있는 누락되지 않은 값의 평균 값 또는 중간 값으로 바꾼다.
D. 각 특성에 대해 다른 특성을 기반으로 지도 학습을 사용하여 누락된 값의 근사치를 계산한다.
정답풀이
정답은 D입니다. 5% 미만이건 이상이건 상관없이 지도학습을 이용하는 방법이 더 정확도가 높습니다. 실제 분석할 때 데이터의 비율이 적으면 삭제하기도 하는데요. AWS ML 시험에서는 데이터 삭제는 거의 답이 아닙니다.
지도 학습을 사용하여 다른 특성의 값을 기반으로 누락된 값을 예측 가능합니다. 지도 학습 방식에 따라 성능이 서로 다를 수 있지만 A와 C에 보기와 같이 평균 또는 중간 값과 성능이 동일하거나 더 나은 근사치를 구할 수 있습니다.
누락된 값의 대치법에 적용되는 지도 학습은 활발한 연구 분야인데요. 그 만큼 누락된 정보를 잘 대치헤서 좋은 결과를 내기 위해서죠. AWS ML 문제를 풀 때 주의할 점은 보기 중에 최선의 답을 선택해야 합니다. 다른 것들도 답이 될수는 있는지만 최선은 결과를 위한 답은 아닐 수 있으니까요.
데이터 분석가 추천: AWS ML 자격증, 꼭 알아야 할 사이트
'IT 탐구생활' 카테고리의 다른 글
분석 팀장이 말하는 비전공자의 데이터 분석가 취업, 이것만 알면 끝! (7) | 2024.09.09 |
---|---|
[데이터 분석가 추천] AWS ML 자격증, 꼭 알아야 할 사이트 (2) | 2024.09.05 |
AWS ML 꼭 나오는 시험문제 유형 5~6 (0) | 2024.08.29 |
AWS ML 꼭 나오는 시험문제 유형 3~4 (0) | 2024.08.26 |
AWS ML 꼭 나오는 시험문제 유형 1~2 (0) | 2024.08.22 |