데이널 『데이터 ∙ 분석 ∙ 지식소통』::AWS ML 꼭 나오는 시험문제 유형 1~2

이전에 AWS ML 시험 합격 전략이란 글을 올린 적이 있습니다. 시험 공부를 하다보니 나오는 유형의 문제만 계속 나오는 것 같았는데요. 그래서 문제 유형을 정리해 보았습니다. 문제를 하나하나 확인해 보면 어떤 패턴이 존재하는데요. 그 패턴을 알고 나면, 훨씬 문제에 정답에 도달하는 것이 수월하더라고요.

클릭하시면 해당 글로 이동합니다.
AWS ML 자격증 팁	AWS ML 1 단계) 자격증 후기, 30일 만에 합격하는 벙법
	AWS ML 2 단계) 시험 할인 받고 접수하는 방법 및 공부 팁
	AWS ML 3 단계) 시험 정보 및 꼭 알아야 할 사이트
	AWS ML 4 단계) 꼭 나오는 시험 문제 유형 1~2
	AWS ML 5 단계) 꼭 나오는 시험 문제 유형 3~4
	AWS ML 6 단계) 꼭 나오는 시험 문제 유형 5~6
	AWS ML 7 단계) 꼭 나오는 시험 문제 유형 7~8

유형 1. 무조건 나오는 Cunfusion matrix

무조건 나오는 유형이기 때문에 제일 먼저 소개합니다. 혼용행렬(Confusion Matrix) 문제인데요. 시험보러 들어갈 때 종이와 연필을 주는 이유도 이 문제 때문입니다. 이 문제 유형의 경우 혼용행렬에 대한 계산을 할 수 있으면 정답을 찾을 수 있는 문제입니다.

대신 혼용행렬 계산이 좀 헷갈리는 측면이 있어서 제대로 이해하셔야 좋습니다. 시험 전날 꼭 한번더 개념을 확인하고 진행하는 것을 추천합니다. 그리고 데이터 분석 업무를 하다보면 성능 평가 때문에 항상 사용하는 개념이기 때문에 확실히 해 두시는 것을 권장합니다.

상황

한 데이터 과학자가 서로 다른 이진 분류 모델을 평가하려고 합니다. 비즈니스 관점에서, 거짓 긍정(FP) 결과는 거짓 부정(FN) 결과보다 5배 더 많은 비용이 듭니다. 이 모델은 다음 기준에 따라 평가해야 합니다.

1) 재현율이 80% 이상이어야 함

2) 거짓 긍정(FP) 비율이 10% 미만이어야 함

3) 비즈니스 비용을 최소화해야 함

문제

이 데이터 과학자는 이진 분류 모델을 만든 후 해당하는 혼동 행렬을 생성합니다.이 요구 사항에 맞는 모델을 나타내는 혼동 행렬은 무엇입니까?

A. TN = 91, FP = 9 FN = 22, TP = 78 → 재현율 78% x
B. TN = 99, FP = 1 FN = 21, TP = 79 → 재현율 79% x
C. TN = 96, FP = 4 FN = 10, TP = 90 → 재현율 90%, FP비율 4%
D. TN = 98, FP = 2 FN = 18, TP = 82 → 재현율 82%, FP비율 2% ← 적을수록 비용이 적음

정답해설

1번 조건이 재현율의 계산은 Recall = TP/(TP+FN) 입니다. 재현율이 80%이상이라고 했으니, 재현율은 모두 계산해야 합니다. 보기 A, B는 재현율이 80%가 안되서 탈락이네요.

2번 조건인 FP 비율이 10%미만이어야 합니다. 거짓긍정 비율 계산은 FPR = FP/(FP + TN)입니다. C, D 모두 10% 미만이라 조건에 부합합니다. 그렇다면 다음 조건까지 봐야 겠네요.

3번 조건은 비즈니스 비용을 최소화해야 한다고 했습니다. 이 부분은 네모 박스 안에 상황에 힌트가 있습니다. FP가 FN결과보다 5배가 많은 비용이 든다고 되어 있습니다. 비용계산 식을 5 * FP + FN 만들 수 있습니다. 아래 계산 결과를 보면 D가 28로 비용이 더 적게 듭니다.

C의 비용계산 = 5 * 4 + 10 = 30
D의 비용계산 = 5 * 2 + 18 = 28

참고로 정확도, 재현율, 정밀도 계산식은 아래와 같습니다. Confusion Matrix를 쉽게 이해하시려면 아래 글을 참고하시기 바랍니다.

정확도(accuracy) = (TP + TN)/(TP + TN + FP + FN)
재현율(recall) = TP/(TP + FN)
정밀도(precision) = TP/(TP + FP)

Confusion Matrix(정확도,정밀도,재현율,F1-score,민감도,특이도,ROC,AUC)

분류 모델 성능 평가 - Confusion Matrix(정확도,정밀도,재현율,F1-score,민감도,특이도,ROC,AUC)

이번 포스팅에서는 분류 모델에 대한 대표적인 성능 평가 지표인 confusion matrix에 대해 살펴보도록 하겠습니다. 이 지표는 혼동행렬이라고도 하는데, 정확도 정밀도, 재현율, 민감도, 특이도 등

bommbom.tistory.com

유형 2. 비용 효율적인 방법을 묻는 문제

데이터 분석 작업을 할 때 어떤 기능이나 솔루션을 사용해야 가장 효율적으로 수행할 수 있을지에 대한 문제입니다. 분석가가 최소의 노력으로 가능한 방법을 찾는 것입니다. AWS 자체 서비스를 활용하여 처리할 수 있으면 가장 best입니다. 만약 없을 경우에 구현하면 됩니다.

문제

한 직원이 회사의 소셜 미디어 피드에서 오디오가 포함된 비디오 클립을 발견했습니다. 영상에 사용된 언어는 스페인어 입니다. 영어는 직원의 모국어이며 스페인어를 이해하지 못합니다. 직원이 감성 분석을 하려고 합니다. 작업을 수행하는 데 가장 효율적인 서비스 조합은 무엇입니까?

A. Amazon Transcribe, Amazon Comprehend 및 Amazon SageMaker seq2seq
B. Amazon Transcribe, Amazon Translate 및 Amazon SageMaker BlazingText
C. Amazon Transcribe, Amazon Translate 및 Amazon Comprehend
D. Amazon Transcribe, Amazon Translate 및 Amazon SageMaker Neural Topic Model(NTM)

정답해설

위 문제에 나온 직원이 해야 하는 작업을 3가지로 정리해 보겠습니다. 그리고 해당하는 기능을 가진 솔루션을 정리해 보겠습니다.

오디오가 포함된 비디오를 번역을 위해서는 텍스트 변환 → Transcribe
영상이 스페인어로 되어 있으니 영어로 번역 → Translate
마지막으로 감성 분석을 수행 → Comprehend

정답은 C입니다. A, B, D가 정답이 아닌 이유는 아래와 같습니다.

A. Amazon Translate 대신 SageMaker seq2seq를 사용하는 것입니다. seq2seq은 번역이 가능한 모델입니다. 하지만 솔루션으로 Amazon으로 만든 것 보다는 비효율적입니다.
B.SageMaker BlazingText는 텍스트 분류기로 감정 분석이 가능합니다. 하지만 역시 이미 제품화 되어 있는 Comprehend에 비해 비효율적입니다.
D. Neural Topic Model(NTM)은 감성 분석이 아니라 주제 토픽 모델링에 적합합니다. 그래서 잘못된 조합입니다.

AWS ML 꼭 나오는 시험문제 유형 3~4

AWS ML 꼭 나오는 시험문제 유형 3~4

이전 글에서 AML ML 문제 유형 1~2에 대해 살펴보았는데요. 이글에서는 추가적으로 3개의 문제 패턴을 더 살펴보도록 하겠습니다. 문제의 정답을 외우기보다는 어떤 방식으로 문제가 출제되는지

bommbom.tistory.com

저작자표시 비영리 변경금지

'IT 탐구생활' 카테고리의 다른 글

AWS ML 꼭 나오는 시험문제 유형 5~6 (0)	2024.08.29
AWS ML 꼭 나오는 시험문제 유형 3~4 (0)	2024.08.26
AWS ML 시험 정보, 할인 받고 접수하는 법과 공부 팁 (1)	2024.07.23
AWS ML 자격증 후기, 30일 만에 합격하는 방법 (0)	2024.07.22
데이터 분석가 추천 자격증 3가지, 현실적 조언 (0)	2024.05.22