이번 포스팅에서는 데이터 웨어하우스(DW)에서 어떻게 데이터를 처리하는지를 알아보도록 하겠습니다. Legacy 등 원시 데이터를 DW에서 활용할 수 있는 데이터로 변환하는 몇 가지 단계가 있습니다. 이 프로세스의 네 가지 중요한 단계가 있습니다. 바로 Staging, ODS, Data Warehouse, Data Mart 입니다. 각 단계에 대해 살펴보도록 하겠습니다.
Staging
원본 데이터를 아무런 변화 없이 그대로 넣어두는 저장공간을 말합니다. 이유는 소스 시스템과 DW 사이에 일관성있게 인터페이스 되었는지 확인하기 용이하게 때문입니다.
- 다양한 외부 데이터를 보관하기 위한 영역
- 아무런 변화없이 그대로 로딩하는 공간
- 임시로 데이터를 보관하기 때문에 배치로 수집된 1일 데이터만 존재
- 원본 데이터와 데이터(테이블) 구조가 동일함(1:1)
ODS
Staging의 데이터를 클렌징하는 등의 작업을 통해 정합성을 보장하는 변환작업을 통해 ODS에 적재하게 됩니다. Staging에 들어온 데이터에 대해 ODS로 변환합니다. DW로 저장하기 전단계로 분석에 용이한 상태는 아닙니다.
- 여기서부터는 데이터 정합성 보장하는 형태로 변환하여 적재
- 여기까지는 원본 데이터와 데이터(테이블) 구조가 동일하며, 저장일시 등 시스템 컬럼만 추가하여 관리
- 원본 데이터의 이력관리
DW(Data Warehouse)
DW는 데이터의 창고와 같은 역할을 합니다. 데이터를 주제별로 통합하거나 분리해서 관리합니다.
- 분석하기 쉽게 데이터 보관(통합 및 분리)
- 최소한의 조인으로 데이터를 획득 가능한 구조로 설계
- 오라클의 Exadata, HP의 버티카(Vertica), IBM의 네티자(Netezza), EMC의 그린플럼(GreenPlum) 등이 있음
DM(Data Mart)
마트는 Data Mart라고도 합니다. DW의 데이터를 이용하여 분석의 편의성을 높이려고 만드는 공간입니다. 데이터를 주제별 업무별 요약하여 구성합니다.
- 사용자가 알기 쉽게 주제별, 업부별 요약
- 다양한 예측과 분석 데이터
마무리
저번 포스팅에는 왜 데이터웨어하우스가 생겨 났는지에 대해 배웠습니다. 이번에는 데이터웨어하우스의 데이터 처리 단계가 일반적으로 STG → ODS → DW → DM 순서로 진행된다는 것을 알았습니다. 원시 데이터를 각 단계마다 ETL이라는 처리 방식으로 정제하고 변환해서 분석에 맞는 형태로 관리한다고 생각하면 됩니다.
'데이터베이스' 카테고리의 다른 글
데이터 마트(Data Mart) 특징 및 ETL (0) | 2023.12.14 |
---|---|
데이터웨어하우스(DW) 특징 (0) | 2023.12.13 |
데이터웨어하우스(DW)는 왜 필요했나? (0) | 2023.12.11 |
순환관계의 전개 - SYS_CONNECT_BY_PATH (1) | 2023.12.08 |
순환관계의 개념 - 계층 쿼리 connected by prior 구문 (1) | 2023.12.07 |