『 이 컨텐츠에 포함된 정보는? 』
이전 글에서 AML ML 문제 유형 1~2에 대해 살펴보았는데요. 이글에서는 추가적으로 2개의 문제 패턴을 더 살펴보도록 하겠습니다. 문제의 정답을 외우기보다는 어떤 방식으로 문제가 출제되는지 감을 잡는다면 시험에 더 도움이 될 것이라고 생각합니다.
유형 3, AWS 솔루션 특징에 대한 문제
유형 2와 마찬가지로 Amazon Web Service에서 인증하는 시험이기 때문에 AWS 솔루션에 대한 문제는 꼭 나옵니다. 단순히 솔루션에 대한 기능뿐만 아니라, 서비스들이 어떤 조합이 가장 적합한지(비용 효율적인지) 대한 문제가 자주 출제됩니다.
문제
한 제조 회사가 Amazon S3 버킷에 정형 데이터와 비정형 데이터를 저장했습니다. 기계 학습 전문가가 SQL을 사용하여 이 데이터에 대한 쿼리를 실행하려고 합니다. 이 데이터를 쿼리할 수 있는 최소한의 노력이 필요한 솔루션은 무엇입니까? A. AWS Data Pipeline을 사용하여 데이터를 변환하고 Amazon RDS를 사용하여 쿼리 실행 B. AWS Batch를 사용하여 데이터에서 ETL을 실행하고 Amazon Aurora를 사용하여 쿼리 실행 C. AWS Lambda를 사용하여 데이터를 변환하고 Amazon Kinesis Data Analytics를 사용하여 쿼리 실행 D. AWS Glue를 사용하여 데이터를 카탈로그화하고 Amazon Athena를 사용하여 쿼리 실행 |
정답해설
내용을 두가지로 요약해 보면 아래와 같습니다.
- Amazon S3의 정형, 비정형 데이터 존재 → AWS Glue
- S3 데이터를 SQL 쿼리 실행 → Amazon Athena
정답은 D입니다. AWS Glue를 사용하여 정형 & 비정형 데이터에 대한 메타정보를 관리할 수 있습니다. 그리고 Amazon Athena 서비스를 이용해 S3의 데이터에 대해 SQL을 사용할 수 있습니다. A~C가 정답이 아닌 이유를 살펴볼까요?
- A: Data Pipeline은 Glue가 나오기 전 ETL작업을 위한 서비스이고, Amazon RDS는 관계형 데이터베이스(rdbms) 서비스입니다. 이 조합은 S3에 직접 쿼리 하는 구성은 아닙니다.
- B: AWS Batch는 배치작업 저장 및 실행하는 서비스이고, Aurora는 역시 관계형 데이터베이스(rdbms)서비스 입니다. 역시 S3에 맞지 않습니다.
- C: Lambda는 다양한 작업이 가능하나 개발 및 테스트 해야하는 노력 필요합니다. Amazon Kinesis Data Analytics는 단순한 쿼리 수행에 적합하지 않습니다.
문제
하나의 서비스에 대해 묻는 문제도 아래와 같이 출제됩니다. 그래서 솔루션에 대해 기능과 활용에 대해서는 대략적으로 이해하는 것이 좋습니다.
기계 학습 전문가는 탐색 및 분석을 위해 스트리밍 데이터를 수집하고 Apache Parquet 파일에 저장할 수 있어야 합니다. 다음 중 이 데이터를 올바른 형식으로 수집하고 저장하는 서비스는 무엇입니까? A. AWS DMS B. Amazon Kinesis Data Streams C. Amazon Kinesis Data Firehose (데이터를 캡쳐를 저장하여 S3 및 Redshift, 분석도구에 load) D. Amazon Kinesis Data Analytics (표준 SQL 질의로 실시간 데이터 분석) |
정답해설
정리하면 아래 두 가지 기능을 가진 서비를 찾으면 됩니다.
- 스트리밍 데이터 수집 → Amazon Kinesis Data Streams & Firehose
- Parquet 파일로 저장 → Amazon Kinesis Data Firehose
정답은 C 입니다. 문제의 요점은 데이터 스트림이 아닌 Kinesis Data Firehose에서 수행되는 Parquet 형식으로 데이터를 변환하는 저장하는 기능입니다.
- A: DMS는 데이터 마이그레이션 서비스로 주로 데이터 이행에서 사용되는 서비스입니다.
- B: Amazon Kinesis Data Streams도 스트리밍 처리가 가능합니다. C와 차이점은 데이터를 저장하지 않고 버퍼처럼 동작해서 실시간 처리합니다.
- C: Amazon Kinesis Data Firehose는 데이터를 캡쳐를 저장하여 S3 및 Redshift, 또는 분석도구에 Load 할 수 있습니다. 그래서 정답입니다.
- D: Amazon Kinesis Data Analytics는 표준 SQL 질의로 실시간 데이터 분석하는 서비스 입니다.
유형 4, 시각화 해석 문제
데이터 분석을 통해 나온 Output인 그래프를 해석할 수 있는 역량을 평가하는 문제입니다. 여러 시각화 그래프가 등장하면 문제가 정해져 있어서 쉽게 득점으로 얻을 수 있는 문제 유형입니다.
문제
표시된 그래프는 시계열 테스트를 위한 예측 모델에서 가져온 것입니다.
그래프만 고려할 때 머신 러닝 전문가는 모델의 동작에 대해 어떤 결론을 내려야 할까요?
A. 모델은 추세와 계절성을 모두 잘 예측합니다.
B. 모델은 계절성을 잘 예측하지만 추세는 예측하지 못합니다.
C. 모델은 추세를 잘 예측하지만 계절성은 예측하지 못합니다.
D. 모형은 추세나 계절성을 잘 예측하지 못한다.
정답해설
정답은 A 입니다. 일반적으로 시계열(Series) 모델은 수준(level), 추세(trend), 계절성(seasonality), 그리고 노이즈(noise)라고 불리는 비체계적 구성 요소를 포함합니다. 이러한 구성 요소는 다음과 같이 정의됩니다.
- 수준 : Series의 평균 값입니다.
- 추세 : Series에서 증가하거나 감소하는 값입니다.
- 계절성 : Series에서 반복되는 단기 주기입니다.
- 노이즈 : Series의 무작위적 변화입니다.
위 그래프를 해석해 보면 계속 증가하는 추세입니다. 그리고 반복되는 단기 주기가 있습니다. 그래서 추세와 계절성 모두 있습니다.
'IT 탐구생활' 카테고리의 다른 글
AWS ML 꼭 나오는 시험문제 유형 7~8 (1) | 2024.09.02 |
---|---|
AWS ML 꼭 나오는 시험문제 유형 5~6 (0) | 2024.08.29 |
AWS ML 꼭 나오는 시험문제 유형 1~2 (0) | 2024.08.22 |
AWS ML 시험 정보, 할인 받고 접수하는 법과 공부 팁 (1) | 2024.07.23 |
AWS ML 자격증 후기, 30일 만에 합격하는 방법 (0) | 2024.07.22 |