본문 바로가기
IT 탐구생활

AWS ML 꼭 나오는 시험문제 유형 1~2

by 데이널 2024. 8. 22.

이전에 AWS ML 시험 합격 전략이란 글을 올린 적이 있습니다. 시험 공부를 하다보니 나오는 유형의 문제만 계속 나오는 것 같았는데요. 그래서 문제 유형을 정리해 보았습니다. 문제를 하나하나 확인해 보면 어떤 패턴이 존재하는데요. 그 패턴을 알고 나면, 훨씬 문제에 정답에 도달하는 것이 수월하더라고요. 

 

AWS ML 문제 유형
AWS ML 문제 유형

 

클릭하시면 해당 글로 이동합니다.
AWS ML 자격증 팁 AWS ML 1 단계) 자격증 후기, 30일 만에 합격하는 벙법
AWS ML 2 단계) 시험 할인 받고 접수하는 방법 및 공부 팁 
AWS ML 3 단계) 시험 정보 및 꼭 알아야 할 사이트
AWS ML 4 단계) 꼭 나오는 시험 문제 유형 1~2
AWS ML 5 단계) 꼭 나오는 시험 문제 유형 3~4
AWS ML 6 단계) 꼭 나오는 시험 문제 유형 5~6
AWS ML 7 단계) 꼭 나오는 시험 문제 유형 7~8

 

유형 1. 무조건 나오는 Cunfusion matrix

무조건 나오는 유형이기 때문에 제일 먼저 소개합니다. 혼용행렬(Confusion Matrix) 문제인데요. 시험보러 들어갈 때 종이와 연필을 주는 이유도 이 문제 때문입니다. 이 문제 유형의 경우 혼용행렬에 대한 계산을 할 수 있으면 정답을 찾을 수 있는 문제입니다. 

 

대신 혼용행렬 계산이 좀 헷갈리는 측면이 있어서 제대로 이해하셔야 좋습니다. 시험 전날 꼭 한번더 개념을 확인하고 진행하는 것을 추천합니다. 그리고 데이터 분석 업무를 하다보면 성능 평가 때문에 항상 사용하는 개념이기 때문에 확실히 해 두시는 것을 권장합니다.  

상황

한 데이터 과학자가 서로 다른 이진 분류 모델을 평가하려고 합니다. 비즈니스 관점에서, 거짓 긍정(FP) 결과는 거짓 부정(FN) 결과보다 5배 더 많은 비용이 듭니다. 이 모델은 다음 기준에 따라 평가해야 합니다.


1) 재현율이 80% 이상이어야 함 

2) 거짓 긍정(FP) 비율이 10% 미만이어야 함

3) 비즈니스 비용을 최소화해야 함

 

문제

이 데이터 과학자는 이진 분류 모델을 만든 후 해당하는 혼동 행렬을 생성합니다.이 요구 사항에 맞는 모델을 나타내는 혼동 행렬은 무엇입니까?

A. TN = 91, FP = 9 FN = 22, TP = 78 → 재현율 78% x
B. TN = 99, FP = 1 FN = 21, TP = 79 → 재현율 79% x
C. TN = 96, FP = 4 FN = 10, TP = 90 → 재현율 90%, FP비율 4%
D. TN = 98, FP = 2 FN = 18, TP = 82 → 재현율 82%, FP비율 2%  ← 적을수록 비용이 적음


정답해설

1번 조건이 재현율의 계산은 Recall = TP/(TP+FN) 입니다. 재현율이 80%이상이라고 했으니, 재현율은 모두 계산해야 합니다. 보기 A, B는 재현율이 80%가 안되서 탈락이네요. 

 

2번 조건인 FP 비율이 10%미만이어야 합니다. 거짓긍정 비율 계산은 FPR = FP/(FP + TN)입니다. C, D 모두 10% 미만이라 조건에 부합합니다. 그렇다면 다음 조건까지 봐야 겠네요.  

 

3번 조건은 비즈니스 비용을 최소화해야 한다고 했습니다. 이 부분은 네모 박스 안에 상황에 힌트가 있습니다. FP가 FN결과보다 5배가 많은 비용이 든다고 되어 있습니다. 비용계산 식을 5 * FP + FN 만들 수 있습니다. 아래 계산 결과를 보면 D가 28로 비용이 더 적게 듭니다. 

  • C의 비용계산 = 5 * 4 + 10 = 30
  • D의 비용계산 = 5 * 2 + 18 = 28

 

참고로 정확도, 재현율, 정밀도 계산식은 아래와 같습니다. Confusion Matrix를 쉽게 이해하시려면 아래 글을 참고하시기 바랍니다. 

  • 정확도(accuracy) = (TP + TN)/(TP + TN + FP + FN)
  • 재현율(recall) = TP/(TP + FN)
  • 정밀도(precision) = TP/(TP + FP)

Confusion Matrix(정확도,정밀도,재현율,F1-score,민감도,특이도,ROC,AUC)

 

분류 모델 성능 평가 - Confusion Matrix(정확도,정밀도,재현율,F1-score,민감도,특이도,ROC,AUC)

이번 포스팅에서는 분류 모델에 대한 대표적인 성능 평가 지표인 confusion matrix에 대해 살펴보도록 하겠습니다. 이 지표는 혼동행렬이라고도 하는데, 정확도 정밀도, 재현율, 민감도, 특이도 등

bommbom.tistory.com

 

유형 2. 비용 효율적인 방법을 묻는 문제

데이터 분석 작업을 할 때 어떤 기능이나 솔루션을 사용해야 가장 효율적으로 수행할 수 있을지에 대한 문제입니다. 분석가가 최소의 노력으로 가능한 방법을 찾는 것입니다. AWS 자체 서비스를 활용하여 처리할 수 있으면 가장 best입니다. 만약 없을 경우에 구현하면 됩니다. 

문제

한 직원이 회사의 소셜 미디어 피드에서 오디오가 포함된 비디오 클립을 발견했습니다. 영상에 사용된 언어는 스페인어 입니다. 영어는 직원의 모국어이며 스페인어를 이해하지 못합니다. 직원이 감성 분석을 하려고 합니다. 작업을 수행하는 데 가장 효율적인 서비스 조합은 무엇입니까?

A. Amazon Transcribe, Amazon Comprehend 및 Amazon SageMaker seq2seq
B. Amazon Transcribe, Amazon Translate 및 Amazon SageMaker BlazingText
C. Amazon Transcribe, Amazon Translate 및 Amazon Comprehend
D. Amazon Transcribe, Amazon Translate 및 Amazon SageMaker Neural Topic Model(NTM) 

 


정답해설

위 문제에 나온 직원이 해야 하는 작업을 3가지로 정리해 보겠습니다. 그리고 해당하는 기능을 가진 솔루션을 정리해 보겠습니다.  

  1. 오디오가 포함된 비디오를 번역을 위해서는 텍스트 변환 → Transcribe
  2. 영상이 스페인어로 되어 있으니 영어로 번역 → Translate
  3. 마지막으로 감성 분석을 수행 → Comprehend

정답은 C입니다. A, B, D가 정답이 아닌 이유는 아래와 같습니다. 

  • A. Amazon Translate 대신 SageMaker seq2seq를 사용하는 것입니다. seq2seq은 번역이 가능한 모델입니다. 하지만 솔루션으로 Amazon으로 만든 것 보다는 비효율적입니다. 
  • B.SageMaker BlazingText는 텍스트 분류기로 감정 분석이 가능합니다. 하지만 역시 이미 제품화 되어 있는 Comprehend에 비해 비효율적입니다.
  • D. Neural Topic Model(NTM)은 감성 분석이 아니라 주제 토픽 모델링에 적합합니다. 그래서 잘못된 조합입니다. 

 

AWS ML 꼭 나오는 시험문제 유형 3~4

 

AWS ML 꼭 나오는 시험문제 유형 3~4

이전 글에서 AML ML 문제 유형 1~2에 대해 살펴보았는데요. 이글에서는 추가적으로 3개의 문제 패턴을 더 살펴보도록 하겠습니다. 문제의 정답을 외우기보다는 어떤 방식으로 문제가 출제되는지

bommbom.tistory.com