이전에 AWS ML 시험 합격 전략이란 글을 올린 적이 있습니다. 시험 공부를 하다보니 나오는 유형의 문제만 계속 나오는 것 같았는데요. 그래서 문제 유형을 정리해 보았습니다. 문제를 하나하나 확인해 보면 어떤 패턴이 존재하는데요. 그 패턴을 알고 나면, 훨씬 문제에 정답에 도달하는 것이 수월하더라고요.
유형 1. 무조건 나오는 Cunfusion matrix
무조건 나오는 유형이기 때문에 제일 먼저 소개합니다. 혼용행렬(Confusion Matrix) 문제인데요. 시험보러 들어갈 때 종이와 연필을 주는 이유도 이 문제 때문입니다. 이 문제 유형의 경우 혼용행렬에 대한 계산을 할 수 있으면 정답을 찾을 수 있는 문제입니다.
대신 혼용행렬 계산이 좀 헷갈리는 측면이 있어서 제대로 이해하셔야 좋습니다. 시험 전날 꼭 한번더 개념을 확인하고 진행하는 것을 추천합니다. 그리고 데이터 분석 업무를 하다보면 성능 평가 때문에 항상 사용하는 개념이기 때문에 확실히 해 두시는 것을 권장합니다.
상황
한 데이터 과학자가 서로 다른 이진 분류 모델을 평가하려고 합니다. 비즈니스 관점에서, 거짓 긍정(FP) 결과는 거짓 부정(FN) 결과보다 5배 더 많은 비용이 듭니다. 이 모델은 다음 기준에 따라 평가해야 합니다. 1) 재현율이 80% 이상이어야 함 2) 거짓 긍정(FP) 비율이 10% 미만이어야 함 3) 비즈니스 비용을 최소화해야 함 |
문제
이 데이터 과학자는 이진 분류 모델을 만든 후 해당하는 혼동 행렬을 생성합니다.이 요구 사항에 맞는 모델을 나타내는 혼동 행렬은 무엇입니까?
A. TN = 91, FP = 9 FN = 22, TP = 78 → 재현율 78% x
B. TN = 99, FP = 1 FN = 21, TP = 79 → 재현율 79% x
C. TN = 96, FP = 4 FN = 10, TP = 90 → 재현율 90%, FP비율 4%
D. TN = 98, FP = 2 FN = 18, TP = 82 → 재현율 82%, FP비율 2% ← 적을수록 비용이 적음
정답해설
1번 조건이 재현율의 계산은 Recall = TP/(TP+FN) 입니다. 재현율이 80%이상이라고 했으니, 재현율은 모두 계산해야 합니다. 보기 A, B는 재현율이 80%가 안되서 탈락이네요.
2번 조건인 FP 비율이 10%미만이어야 합니다. 거짓긍정 비율 계산은 FPR = FP/(FP + TN)입니다. C, D 모두 10% 미만이라 조건에 부합합니다. 그렇다면 다음 조건까지 봐야 겠네요.
3번 조건은 비즈니스 비용을 최소화해야 한다고 했습니다. 이 부분은 네모 박스 안에 상황에 힌트가 있습니다. FP가 FN결과보다 5배가 많은 비용이 든다고 되어 있습니다. 비용계산 식을 5 * FP + FN 만들 수 있습니다. 아래 계산 결과를 보면 D가 28로 비용이 더 적게 듭니다.
- C의 비용계산 = 5 * 4 + 10 = 30
- D의 비용계산 = 5 * 2 + 18 = 28
참고로 정확도, 재현율, 정밀도 계산식은 아래와 같습니다. Confusion Matrix를 쉽게 이해하시려면 아래 글을 참고하시기 바랍니다.
- 정확도(accuracy) = (TP + TN)/(TP + TN + FP + FN)
- 재현율(recall) = TP/(TP + FN)
- 정밀도(precision) = TP/(TP + FP)
Confusion Matrix(정확도,정밀도,재현율,F1-score,민감도,특이도,ROC,AUC)
유형 2. 비용 효율적인 방법을 묻는 문제
데이터 분석 작업을 할 때 어떤 기능이나 솔루션을 사용해야 가장 효율적으로 수행할 수 있을지에 대한 문제입니다. 분석가가 최소의 노력으로 가능한 방법을 찾는 것입니다. AWS 자체 서비스를 활용하여 처리할 수 있으면 가장 best입니다. 만약 없을 경우에 구현하면 됩니다.
문제
한 직원이 회사의 소셜 미디어 피드에서 오디오가 포함된 비디오 클립을 발견했습니다. 영상에 사용된 언어는 스페인어 입니다. 영어는 직원의 모국어이며 스페인어를 이해하지 못합니다. 직원이 감성 분석을 하려고 합니다. 작업을 수행하는 데 가장 효율적인 서비스 조합은 무엇입니까?
A. Amazon Transcribe, Amazon Comprehend 및 Amazon SageMaker seq2seq
B. Amazon Transcribe, Amazon Translate 및 Amazon SageMaker BlazingText
C. Amazon Transcribe, Amazon Translate 및 Amazon Comprehend
D. Amazon Transcribe, Amazon Translate 및 Amazon SageMaker Neural Topic Model(NTM)
정답해설
위 문제에 나온 직원이 해야 하는 작업을 3가지로 정리해 보겠습니다. 그리고 해당하는 기능을 가진 솔루션을 정리해 보겠습니다.
- 오디오가 포함된 비디오를 번역을 위해서는 텍스트 변환 → Transcribe
- 영상이 스페인어로 되어 있으니 영어로 번역 → Translate
- 마지막으로 감성 분석을 수행 → Comprehend
정답은 C입니다. A, B, D가 정답이 아닌 이유는 아래와 같습니다.
- A. Amazon Translate 대신 SageMaker seq2seq를 사용하는 것입니다. seq2seq은 번역이 가능한 모델입니다. 하지만 솔루션으로 Amazon으로 만든 것 보다는 비효율적입니다.
- B.SageMaker BlazingText는 텍스트 분류기로 감정 분석이 가능합니다. 하지만 역시 이미 제품화 되어 있는 Comprehend에 비해 비효율적입니다.
- D. Neural Topic Model(NTM)은 감성 분석이 아니라 주제 토픽 모델링에 적합합니다. 그래서 잘못된 조합입니다.
'IT 탐구생활' 카테고리의 다른 글
AWS ML 꼭 나오는 시험문제 유형 5~6 (0) | 2024.08.29 |
---|---|
AWS ML 꼭 나오는 시험문제 유형 3~4 (0) | 2024.08.26 |
AWS ML 시험 정보, 할인 받고 접수하는 법과 공부 팁 (1) | 2024.07.23 |
AWS ML 자격증 후기, 30일 만에 합격하는 방법 (0) | 2024.07.22 |
데이터 분석가 추천 자격증 3가지, 현실적 조언 (0) | 2024.05.22 |