본문 바로가기
데이터베이스

데이터웨어하우스(DW) 어떻게 처리 할까? - STG, ODS, DW, Mart

by 데이널 2023. 12. 12.

이번 포스팅에서는 데이터 웨어하우스(DW)에서 어떻게 데이터를 처리하는지를 알아보도록 하겠습니다. Legacy 등 원시 데이터를 DW에서 활용할 수 있는 데이터로 변환하는 몇 가지 단계가 있습니다. 이 프로세스의 네 가지 중요한 단계가 있습니다. 바로 Staging, ODS, Data Warehouse, Data Mart 입니다. 각 단계에 대해 살펴보도록 하겠습니다. 

 

 

Staging

원본 데이터를 아무런 변화 없이 그대로 넣어두는 저장공간을 말합니다. 이유는 소스 시스템과 DW 사이에 일관성있게 인터페이스 되었는지 확인하기 용이하게 때문입니다.  

  • 다양한 외부 데이터를 보관하기 위한 영역
  • 아무런 변화없이 그대로 로딩하는 공간
  • 임시로 데이터를 보관하기 때문에 배치로 수집된 1일 데이터만 존재
  • 원본 데이터와 데이터(테이블) 구조가 동일함(1:1)

 

DW 데이터 처리 단계
DW 데이터 처리 단계

ODS

Staging의 데이터를 클렌징하는 등의 작업을 통해 정합성을 보장하는 변환작업을 통해 ODS에 적재하게 됩니다. Staging에 들어온 데이터에 대해 ODS로 변환합니다. DW로 저장하기 전단계로 분석에 용이한 상태는 아닙니다. 

  • 여기서부터는 데이터 정합성 보장하는 형태로 변환하여 적재
  • 여기까지는 원본 데이터와 데이터(테이블) 구조가 동일하며, 저장일시 등 시스템 컬럼만 추가하여 관리
  • 원본 데이터의 이력관리

 

DW(Data Warehouse)

DW는 데이터의 창고와 같은 역할을 합니다. 데이터를 주제별로 통합하거나 분리해서 관리합니다. 

  • 분석하기 쉽게 데이터 보관(통합 및 분리)
  • 최소한의 조인으로 데이터를 획득 가능한 구조로 설계
  • 오라클의 Exadata, HP의 버티카(Vertica), IBM의 네티자(Netezza), EMC의 그린플럼(GreenPlum) 등이 있음

 

 

DM(Data Mart)

마트는 Data Mart라고도 합니다. DW의 데이터를 이용하여 분석의 편의성을 높이려고 만드는 공간입니다. 데이터를 주제별 업무별 요약하여 구성합니다. 

  • 사용자가 알기 쉽게 주제별, 업부별 요약
  • 다양한 예측과 분석 데이터

마무리

저번 포스팅에는 왜 데이터웨어하우스가 생겨 났는지에 대해 배웠습니다. 이번에는 데이터웨어하우스의 데이터 처리 단계가 일반적으로 STG ODS DW DM 순서로 진행된다는 것을 알았습니다. 원시 데이터를 각 단계마다 ETL이라는 처리 방식으로 정제하고 변환해서 분석에 맞는 형태로 관리한다고 생각하면 됩니다.