본문 바로가기
데이터베이스

데이터 마트(Data Mart) 설계 - 다차원 모델링, OLAP

by 데이널 2023. 12. 15.

이번 포스팅에서는 데이터 마트에서 데이터 구조 설계는 어떻게 하는 것인지 알아보도록 하겠습니다. 일반적인 업무 시스템하고는 모델링 기법이 다릅니다. 분석에 최적화되게 설계한다고 할 수 있습니다. 이번 글에서는 최적의 성능, 유연성 및 사용 편의성을 보장하기 위한 데이터 마트 설계에 대한 주요 고려 사항과 모범 사례를 살펴보겠습니다.

 

 

Dimension (테이블) 설계

  • 사용자가  분석하고자 하는 차원
  • 차원은 비즈니스 관점에서 데이터를 분류하거나 분석하는 데 사용되는 속성이나 범주임
  • 예를 들어, "시간" 차원은 "년", "월", "일"과 같은 시간 관련 속성을 포함할 수 있음. 그 외에도 고객등급, 지역과 같은 범주가 될 수도 있음
  • Dimension 간의 Hierarchy(계층) 존재
  • 일반적으로 Fact Table에 비해 데이터 량이 적음
  • 모든 Dimension table이 항상 적은 것은 아니며 고객 Dimension과 같이 Large Dimension도 존재함

 

Fact 테이블

  • 측정값은 실제 비즈니스 이벤트의 수량이나 성과를 나타내는 수치 데이터
  • 예를 들어, "매출액" 또는 "주문량"과 같은 지표가 측정값이 될 수 있음. ex) 고객건수, 매출액, 이익률, 차감액 등
  • 비즈니스적으로 분석가치를 지닌 수치 값인 Measure와 Dimension 테이블의 key 값으로 구성
  • 합산 가능한 수치 값
  • 집계 데이터 (min, max, sum, avg 등)를  포함할 수 있음
  • 시간의 흐름에 따라 변하는 데이터를 포함할 수 있음. 예) 유효계약금액, 평잔, 환율 등
  • 최하 레벨의 집합을 갖는 Base Fact 와 Base Fact 또는 Base Fact 간의 조인 결과를 Summary 한 Summary Fact로 구성 

다차원 모델링

데이터웨어하우스와 마트에서는 다차원 모델링이라는 기번을 사용합니다. 앞에서 설명한 Dimension(차원), Fact(측정값)으로 구조를 설계하는 방식을 말합니다. 

 

다차원 모델링
다차원 모델링

 

모델링 기법

  • 스타 스키마(Star Schema) : 스타 스키마는 중앙의 큰 테이블(사실 테이블)을 둘러싼 다수의 작은 차원 테이블로 이루어진 구조입니다. 이는 쿼리 성능을 향상시키고 사용자의 질문에 빠르게 응답할 수 있도록 합니다.
  • 스노우플레이크 스키마(Snowflake Schema) : 스노우플레이크 스키마는 스타 스키마와 유사하지만 차원 테이블이 정규화되어 있어 데이터 중복을 최소화합니다.

 

다차원 모델링은 비즈니스 인텔리전스 및 데이터 분석을 위해 효과적으로 활용됩니다. 사용자들이 데이터를 직관적이고 유연하게 이해할 수 있도록 돕습니다. 이 모델링은 비즈니스 요구 사항에 따라 차원을 추가하거나 수정하여 쉽게 확장할 수 있는 설계 방식입니다.

 

OLAP(On-Line Analytical Processing)

OLAP은 다차원 데이터 모델을 사용하여 비즈니스 데이터를 분석하는 기술입니다. 사용자는 다차원 큐브를 사용하여 데이터를 쉽게 탐색하고 필요한 정보를 추출할 수 있습니다. 최선의 의사결정을 위해서  ‘최종 사용자가 다차원 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용할 수 있는 툴로 제공합니다. 예를 들어, 제품으로는 파워 BI 등이 있습니다. 

 

OLAP
OLAP

1.다차원 저장 관리

  • 다차원 데이터가 물리적으로 저장되고 관리되는 계층
  • RDBMS, MDDBMS가 사용

2.다차원 프로세싱

  • 전용OLAP 엔진에 의해 수행
  • 다차원 프로세싱 방법에 따라 OLAP 제품 구분
  • ROLAP, MOLAP, DOLAP, HOLAP

3.사용자 인터페이스(GUI 화면)

  • 사용자가 질의를 구성, 결과 표시
  • 정형보고서나, Ad-hoc 질의를 수행하여  결과  확인