마짱짱의 지식창고
Data Warehouse 와 Data Mart 본문
DataMart 란?
DataMart는 특정 비즈니스 영역에서 사용할 수 있도록 예약된 데이터 웨어하우스의 한 부문이다. 그것은 전체 데이터 집합을 기업의 재무 부서 또는 마케팅 부서와 관련된 데이터와 같이 관리 가능하고 관련성이 있는 것을 세분화하여 저장한다.
현대 기업들은 매일 방대한 양의 데이터를 수집한다. 데이터 볼륨을 고려할 때 전체 데이터셋에 대해 쿼리를 실행하는 것은 시간이 많이 걸릴 수 있다. 일반적으로 최종 사용자는 관련 데이터를 가져오기 위해 복잡한 쿼리를 작성해야 분석할 수 있다. 데이터 마트는 데이터를 비즈니스 역할로 세분화함으로써 관련 정보에 대한 훨씬 더 빠른 접근을 가능하게 한다. 또한, 데이터 통찰력을 가져오는 프로세스를 가속화한다.
DataWarehouse 란?
DataWarehouse는 비즈니스 전체 데이터셋을 포함하는 중앙 데이터 저장소 입니다. 데이터 웨어하우스 내의 데이터에 대한 통제된 액세스는 데이터 개인 정보 보호법을 준수하기 위해 중요하다. 또한 앞에서 언급한 바와 같이 전체 데이터 웨어하우스에 대해 쿼리를 실행하는 것은 최종 사용자에게 복잡할 수 있다.
데이터마트는 최종 사용자가 쉽게 조회할 수 있도록 비즈니스 기능에 따라 데이터를 분리한다. 기존 데이터 웨어하우스에서 데이터 분리가 발생할 수 있다. 각기 다른 비즈니스 기능이 자체 데이터 마트를 만들 가능성도 있다. 이들 데이터 마트를 통폐합해 데이터 웨어하우스를 형성할 수 있다.
3가지 데이터 마트 유형
데이터 마트에는 종속, 독립, 하이브리드 세 종류가 있다. 이들은 데이터 웨어하우스 및 시스템 생성에 사용되는 데이터 원본과의 관계에 따라 분류된다.
1.종속 데이터 마트
종속 데이터 마트는 기존 기업 데이터 웨어하우스에서 생성된다. 모든 비즈니스 데이터를 하나의 중앙 위치에 저장하는 것으로 시작한 다음 분석을 위해 필요할 때 데이터의 명확하게 정의된 부분을 추출하는 것이 하향식 접근방식이다.
데이터 웨어하우스를 형성하기 위해 특정 데이터 집합을 웨어하우스에서 취합(클러스터로 구성)하여 재구성한 후 쿼리할 수 있는 데이터 마트에 로드한다. 데이터 웨어하우스의 논리적 보기 또는 물리적 하위 집합일 수 있음:
- 논리적 보기 – 데이터 웨어하우스와 분리되어 있지만 물리적으로 분리되지 않은 가상 테이블/뷰
- 물리적 서브셋 – 데이터 웨어하우스와 물리적으로 분리된 데이터베이스인 데이터 추출
데이터 웨어하우스의 세부 데이터(대상 집합에서 가장 낮은 데이터 수준)는 생성되는 모든 종속 데이터 마트에 대한 단일 참조 지점 역할을 한다.
2. 독립 데이터 마트
독립 데이터 마트는 데이터 웨어하우스를 사용하지 않고 만들어진 독립형 시스템으로, 하나의 주제 영역이나 업무 기능에 초점을 맞춘다. 내부 또는 외부 데이터 소스(또는 둘 다)에서 데이터를 추출하여 처리한 후 비즈니스 분석에 필요할 때까지 저장되는 데이터 마트 저장소에 로드한다.
독립 데이터 마트는 설계와 개발이 어렵지 않다. 이들은 단기 목표를 달성하는 데 이롭지만, 비즈니스 요구가 확대되고 복잡해지면서 관리하기가 번거로워질 수 있다.
3. 하이브리드 데이터 마트
하이브리드 데이터 마트는 기존 데이터 웨어하우스와 기타 운영 소스 시스템의 데이터를 결합한다. 하향식 접근법의 속도와 최종 사용자의 초점을 상향식 방법의 엔터프라이즈급 통합의 혜택과 통합한다.
데이터 마트와 데이터 웨어하우스 비교
데이터 마트와 데이터 웨어하우스 간의 주요 차이점은 아래 표에 요약되어 있다.
데이터 웨어하우스 | 데이터마트 |
데이터 웨어하우스는 수많은 주제 영역의 데이터를 저장한다. | 데이터 마트에는 인사, 재무, 마케팅 등 부서와 관련된 자료가 실려 있다. |
기업의 중앙 데이터 저장소 역할을 한다. | 그것은 데이터 웨어하우스의 논리적인 하위섹션으로, 데이터는 특정 부서 애플리케이션을 위한 저렴한 서버에 저장된다. |
데이터 웨어하우스는 별, 눈송이, 은하 또는 사실 별자리 스키마를 사용하여 설계된다. 그러나 스타 스키마는 가장 널리 사용되는 스키마다. | 데이터 마트는 테이블을 디자인하기 위해 스타 스키마를 사용한다. |
데이터 웨어하우스는 보통 100GB 이상의 대용량 데이터를 포함하고 있기 때문에 설계와 사용이 까다롭다. | 데이터 마트는 크기가 작기 때문에(100GB 미만) 상대적으로 설계와 이용이 쉽다. |
데이터 웨어하우스는 기업의 의사결정 과정을 지원하기 위해 설계된다. 그러므로, 중앙집중식 시스템과 그것의 자율성에 대한 전사적인 이해를 제공한다. | 데이터 마트는 특정 사용자 그룹 또는 기업 부서를 위해 설계된다. 따라서 부서별 해석과 분산형 데이터 스토리지를 제공한다. |
데이터 웨어하우스는 세부 정보를 정규화 또는 정규화 형식으로 저장한다. | 한 데이터 마트는 매우 변별력이 높은 데이터를 요약된 형태로 보유하고 있다. |
데이터 웨어하우스는 큰 치수를 가지며 고장 위험을 초래할 수 있는 많은 출처의 데이터를 통합한다. | 데이터 마트는 크기가 작고 적은 소스에서 데이터를 통합하여 고장 위험이 적다. |
데이터 웨어하우스는 데이터가 더 긴 기간 동안 존재하는 주체 지향적이고 시간 변종이다. | 데이터 마트는 기업과 관련된 특정 영역을 대상으로 하며, 더 짧은 기간 동안 데이터를 보관한다. |
www.trustradius.com/compare-products/google-bigquery-vs-google-cloud-sql BigQuery, Cloud SQL 비교
www.astera.com/type/blog/data-mart-vs-data-warehouse/ DataWarehouse vs Data Mart
'Cloud > GCP' 카테고리의 다른 글
[GCP] 윈도우에서 gcloud 설치 & 자동완성 설치 & kubectl 자동완성설치 (0) | 2021.05.20 |
---|---|
[GCP]Professional Cloud Security Engineer(PCSE) 내용정리 (0) | 2021.05.12 |
[GCP] Load Balancing & Auto Scaling (0) | 2021.04.12 |
[GCP] Cloud IAM (0) | 2021.04.07 |
[GCP ] Storage Class(Standard, Nearline, Coldline, Archive) (2) | 2021.04.07 |