본문 바로가기
데이터베이스

데이터웨어하우스(DW)는 왜 필요했나?

by Data Lib 2023. 12. 11.

이번 포스팅에서는 데이터웨어하우스에 대해 알아보도록 하겠습니다. Data Warehouse, 즉 DW는 막연한 경험이나 불완전한 데이터에 의존하지 말고 정확한 사실에 근거하자는 생각에서 태어났습니다. 합리적인 의사 결정을 도와주는 지원 시스템이라고 생각할 수 있죠.

 

 

클라우드 시대가 오면서  Amazon Redshift, Databricks와 같은 솔루션들도 나오기 시작했습니다. 그리고 이와 유사한 Data Lake라는 개념도 나오기 시작했죠. 그러면 데이터웨어하우스의 개념과 특징에 대해 알아보도록 하겠습니다. 

 

데이터웨어하우즈(DW) 란

DW는 업무 시스템(기간계)에서 수집된 데이터를 일관성 있게 통합된 형태로 적재하여 관리하는 역할을 합니다. 수집된 데이터를 근거한 신속하고 합리적인 의사결정을 지원하는 정보시스템입니다. 데이터웨어하우스의 구조는 Data Source, 데이터웨어하우스(DW)계층, User Access 계층으로 구성됩니다. 각 계층의 ETL처리가 필요하며 메타데이터 기반으로 설계를 진행합니다. 

용어정리

  • 기간계 : Legacy, 고객을 대응하는 업무 시스템을 말함
  • 정보계 : Data Warehouse
  • Staging : 임시 데이터 공간으로 ODS에 적용하기 전에 확인하는 서버
  • ODS(Operational Data Store) : 소스 데이터의 복제영역 또는 이력 데이터 관리

Data Warehouse 아키텍처
Data Warehouse 아키텍처

 

기간계와 데이터웨어하우스의 비교

 

1. 사용자 관점

사용자 관점에서는 기간계는 업무 프로세스를 지원하기 위해 신속한 응답시간이 중요하지만, 데이터웨어하우스는 의사결정을 지원해야 하기 때문에 일정한 응답시간에만 결과가 나오면 된다는 차이점이 있다.  

기간계 데이터웨어하우스
업무 프로세스 지원
의사결정 지원
정형 보고서
정형 및 비정형 보고서
정형 질의의 반복적 사용
비정형 질의의 단발 수행
신속한 의사결정
포괄적인 의사결정
신속한 응답시간 중요
일정 응답시간 허용
-주문번호 접수, 보험 계약 등 업무처리
-특정 계좌의의 대출 잔액은?
-특정 사고번호의 보험금은?
-기여도가 높은 고객유형은?
-비가 오는 날에 잘 팔리는 립스틱 색깔은?
-연령대/직업별 선호 상품군은?

 

2. 시스템 및 프로세스 관점

시스템 및 프로세스 관점에서는 기간계는 잠시라도 멈추면 안되어 rdbms로 구성하고, 데이터웨어하우스는 가용성 보장이 기간계보다는 낮으며 분석중심의 특화된 dbms를 이용합니다. 

기간계 데이터웨어하우스
가용성을 보장해야 함
가용성 보장이 기간계에 비해 낮음
동시 사용자가 많음(입력/수정/삭제)
동시 사용자가 적음(분석 위주)
RDBMS
분석중심의 특화된 DBMS(Amazon Redshift )
 - 업무 시스템이기 때문에 장애발생 시 많은 비용 발생
 - 장애 복구에 대한 2중화, 아카이빙 중요
 - 분석 시스템이기 때문에 장애발생 시 재 수집
 - 재수집 가능, 2중화 보다는 분산시스템, 아카이빙 없음

 

3. 데이터 관점

데이터 관점에서는 기간계는 현재 데이터가 중심이기 때문에 정규화 모델링을 통해 중복을 최소화 한다면, 데이터웨어하우스는 현재 및 과거 데이터가 중요하며 다차원 모델링을 진행합니다. 

기간계 데이터웨어하우스
현재 데이터 중심
현재 및 과거 데이터(10년 이상 데이터까지)
정규화 모델링, 중복 최소
다차원적 모델링, 중복허용
지속적인 갱신
간헐적/계획된 갱신
상세데이터
Summary, 통계 데이터
단일 메인 업무에 대한 데이터
주제중심적 N개 업무영역을 넘나드는 데이터

 

데이터웨어하우스가 필요한 이유

데이터 웨어하우스는 조직이 다양한 소스의 대용량 데이터를 저장, 통합 및 관리할 수 있도록 하는 중앙 저장소입니다. 이는 BI, Mart 등 의사결정 프로세스에서 중요한 역할을 합니다.데이터 웨어하우스는 기존 업무데이터 데이터의 잠재력을 최대한 활용하기 위해 필요합니다.  데이터를 통해 더 나은 의사 결정을 내리고 데이터 활용 위해 비즈니스에서 필수적 요소입니다.