취미가 좋다

[ 데이터 인프라 ] 데이터 소스 본문

Data Engineer/데이터 인프라

[ 데이터 인프라 ] 데이터 소스

benlee73 2021. 8. 23. 15:26

데이터가 생성되고 저장되는 곳

 

회사에서 발생하는 데이터를 저장하는 공간 + 저장 뿐 아니라 데이터를 다른 곳에 보낼 수 있음

1. OLTP Database via CDC

OLTP Database

은행 계좌에서 이체할 때, 돈이 나가고 들어가는 두 과정을 모두 처리해야한다. 그걸 묶어서 한번에 처리해주는 데이터베이스. 수많은 트랜잭션이 빠른 속도로, 정규화된 데이터로 처리된다.

데이터 업데이트가 주로 일어난다.

 

vs OLAP

데이터 분석, 데이터 웨어하우스에서 처리하는 것과 비슷하다. 데이터가 많고, 정규화되어 있지 않다. 복잡한 분석쿼리를 날린다.

CDC (Change Data Capture)

OLTP에서 일어나는 데이터 업데이트 내용을 가져다가, 다른 DB로 복사하는 기술이다.

OLTP DB는 트랜잭션을 기록하기만 하고, CDC는 그 내용 중 변경된 부분을 가져다가 다른 DB(분석 DB)로 보내준다. 

2. Applications / ERP

중요한 데이터들이 ERP에서 만들어진다.

ERP (전사적 자원 관리 Enterprise Resource Planning)

회사의 재무, 프로젝트 관리, 조달, 위험 관리 등 회사에서 일어나는 모든 자원들이 ERP에서 일어난다.

회사에서 일어나는 모든 일들이라 중요한 데이터 소스이다.

 

각 부서의 정보를 실시간 공유하도록 하여, 회사의 업무 처리를 빠르고 정확하고 원활하도록 하는 시스템(프로그램)

 

대표적으로 Netsuite가 있는데 Oracle이 인수했다.

SAP도 ERP 소프트웨어를 만드는 거대한 회사이다.

CRM

고객과 관련된 모든 행동(판매, 마케팅 등)을 해주면서, 다양한 데이터를 생성한다.

대표적으로 Salesforce가 있다.

 

3. Event Collectors

위 Applications / ERP가 비지니스 측면에서 생성되는 데이터라면, 이는 사용자가 만들어내는 모든 데이터를 모은다.

 

예를 들어, 사용자가 어떤 페이지를 보고, 무엇을 입력했는지에 대한 이벤트들이 저장된다. 즉, 이벤트를 생성하고 수집한다.

 

google analytics, facebook 픽셀, segment, amplitude 등이 있다. 

 

Applications / ERP 는 회사 내부의 데이터, Event Collectors는 사용자 데이터를 수집해서 내부에 저장하고 외부에 보낸다.

 

아래와 같이 이벤트들을 잘 수집해주는 여러 툴이 있다.

Segment

위에서 사용되는 많은 것들이 서로 데이터를 주고받아야 할 때가 있다. segment들이 없으면 각각 서로 데이터를 전송해야한다.

segment가 있으면 각 source(모바일, 웹 등에서 보는 이벤트)들을 segment를 거쳐서, 다양한 분석 제품으로 보내준다.  즉, 이벤트를 수집하고 보내야할 곳들로 보내준다.

 

새로운 분석도구를 쉽게 추가할 수 있고, google analytics, facebook 픽셀 모두 따로 코딩할 필요 없이, 한번에 쉽고 간편하게 하나의 API로 사용할 수 있다.

snowplow / Rudderstack

Segment와 같은 역할을 한다. 여러 데이터 소스(모바일, 서버, 웹에서 발생하는 데이터)가 snowplow / Rudderstack을 거쳐서 원하는 data warehouse 나 목적지로 보내진다.

기능은 더 적지만, 오픈소스로 되어 있어서 가격 부담 없이 사용할 수 있다.

 

4. Logs

서버의 로그(아파치 웹서버 로그), 우리가 운영하는 모든 서버들의 로그. 

ex) 로드 밸런스 데이터, CDN access 로그, 웹서버 access 로그

 

5. 3rd Praty APIs

stripe(온라인 결제 서비스)와 같이 외부 서비스를 꼭 써야할 것들 (PG사)

 

6. File and Object Storage

회사 내 어플리케이션이 저장하는 파일, 문서 등

 


참고

https://youtube.com/playlist?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2 

 

최신 데이터 인프라 이해하기

 

www.youtube.com

 

 

Comments