취미가 좋다

데이터웨어하우스 vs 데이터레이크 vs 데이터카탈로그 본문

Data Engineer

데이터웨어하우스 vs 데이터레이크 vs 데이터카탈로그

benlee73 2021. 8. 30. 13:40

데이터 웨어하우스 (Data Warehouse)

일반적인 데이터는 그냥 막 쌓인다.

데이터 웨어하우스는 그 데이터를 보기 좋게 변형하고, 특정 기준에 맞게 잘 정렬해 놓은 데이터 베이스이다.

 

데이터 웨어하우스가 없을 때의 예를 들어보자.

데이터를 생성하는 곳 100, 분석하는 곳 100 일 때, 10,000개의 인터페이스가 생성된다.

인터페이스의 수가 많아지면 데이터를 추출하고 가공하여 전송하는 노력이 증가한다.

 

이를 해결하기 위해 중간에 데이터 저장소를 두고 업무시스템의 데이터를 이곳에 쌓았다가, 분석 시스템에서 가져가도록 한다. 200개의 인터페이스만 필요하여 효율성이 증가하였다. 이 데이터 저장소가 데이터 웨어하우스이다.

 

즉, 데이터를 생성하여 데이터 웨어하우스에 정리해서 저장하고, 분석하려고 할 때 가져가도록한다.

 

롤업 vs 드릴다운

롤업 : 요약된 형태. 상위 개념 계층, 차원 축소

드릴다운 : 구체, 상세, 분석. 하위 개념 계층, 차원 추가


데이터 레이크 (Data Lake)

빅데이터는 90%는 비구조적 데이터 형태를 지닌다.

이 데이터는 데이터 형태를 알 수 없기 때문에, 데이터 웨어하우스에 저장하지 못한다.

또한 사이즈가 커서 데이터 웨어하우스에 담기에는 비용이 많이 든다.

 

대규모 데이터를 보관할 수 있는 데이터 저장장치의 가격이 떨어지고, 대규모 데이터를 빠르게 처리할 기술도 등장하여 비구조적 데이터를 관리할 수 있는 여건이 생겼다.

그렇게 비구조적 데이터를 관리하는 대규모 데이터 저장 장소로 사용하는 것이 데이터 레이크이다.

데이터 웨어하우스는 데이터를 가공(사전 처리)하여 저장한다면, 데이터 레이크는 일단 저장하고 필요할 때 가공한다.

데이터를 쌓기만 하고 활용하기 어렵다.

 


데이터 카탈로그 (Data Catalog)

조직 내 모든 데이터 자산(DW, DL...)에 대한 상세한 정보를 관리한다.

데이터 사용자가 적합한 데이터를 쉽고 빠르게 찾을 수 있도록 돕는다.

 

3가지 메타 데이터를 가진다.

  • 기술 메타 : 데이터가 컴퓨터에서 어떻게 관리되는지
  • 프로세스 메타 : 데이터 자산을 누가 언제 어떻게 생성하고 업데이트했는지
  • 비즈니스 메타 : 데이터의 비즈니스 가치와 활용 분야, 개인정보 보호 적용 여부

 

 


https://youtu.be/XJEqvxvmWxo

 

'Data Engineer' 카테고리의 다른 글

Prometheus & Grafana 정리  (0) 2021.07.27
Kibana 키바나 정리  (0) 2021.07.27
Comments