목록Data Engineer (36)
취미가 좋다
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/k6Ovs/btrcZtXHacu/bwWxmXIAAagTTCpiThVZE0/img.png)
Connectors 소스에서 발생한 데이터를 연결하여, Data Warehouse / Data Lake로 전달하는 기능을 수행한다. 1. Fivetran 아래의 데이터들을 정규화하고, SQL Transform 해서 Analysis Ready Schemas(분석 가능한 스키마)로 변환해주는 역할을 수행한다. Applications : salesforce와 같은 CRM, ERP 도구들 Database : 사내 데이터 Events : Event Collector로 모은 여러 이벤트들 Files : S3와 같은 각종 문서 파일들 Functions : 람다와 같은 클라우드 함수들 데이터 웨어하우스(Amazon Redshift, Snowflake, Databrics, Google BigQuery, Panoply)을..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bg0pgf/btrcVkzpeyi/9ZdE6WAGkdiTTVfB11JFY0/img.png)
데이터가 생성되고 저장되는 곳 회사에서 발생하는 데이터를 저장하는 공간 + 저장 뿐 아니라 데이터를 다른 곳에 보낼 수 있음 1. OLTP Database via CDC OLTP Database 은행 계좌에서 이체할 때, 돈이 나가고 들어가는 두 과정을 모두 처리해야한다. 그걸 묶어서 한번에 처리해주는 데이터베이스. 수많은 트랜잭션이 빠른 속도로, 정규화된 데이터로 처리된다. 데이터 업데이트가 주로 일어난다. vs OLAP 데이터 분석, 데이터 웨어하우스에서 처리하는 것과 비슷하다. 데이터가 많고, 정규화되어 있지 않다. 복잡한 분석쿼리를 날린다. CDC (Change Data Capture) OLTP에서 일어나는 데이터 업데이트 내용을 가져다가, 다른 DB로 복사하는 기술이다. OLTP DB는 트랜잭션..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/2FYi3/btrcSs44Vyl/MxA9qXF73IIsnnlHw86rtk/img.jpg)
회사와 서비스 내에 데이터를 발생시키고 저장하고 추출하고 보여주기 위해서는, 즉, 데이터가 흐르도록 하기 위해서는 데이터 인프라가 필요하다. 그 목적으로는 비즈니스 리더들의 의사결정을 도와주고, 서비스/제품을 데이터의 도움으로 향상되도록 하는 것에 있다. 데이터 엔지니어란? : 데이터를 분석하고, 활용할 수 있는 플랫폼을 구축하고, 운영하는 일을 하는 사람 : 빅데이터를 처리할 수 있는 인프라 & 아키텍처를 만드는 사람 요구 기술 프로그래밍, 수학, 빅데이터, 다양한 데이터베이스 지식, ETL 및 BI 도구들에 대한 지식 주 사용 언어 Python, SQL, 쉘스크립트 데이터 인프라의 목적 - 비즈니스 리더들의 의사결정을 도와주기 - 서비스/제품을 데이터의 도움을 받아 향상시키기 데이터 인프라 기초 - ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/yVDU6/btrazuxWNw5/TsCiXAkBZm9sfZW6AYXQK1/img.png)
Prometheus 프로메테우스는 대상 시스템으로부터 각종 모니터링 지표를 수집하여 저장하고 검색할 수 있는 시스템이다. 프로메테우스 특징 그라파나를 통한 시각화 지원 많은 시스템을 모니터링할 수 있는 다양한 플러그인을 가지고 있다. 쿠버네티스의 메인 모니터링 시스템으로 많이 사용된다. 프로메테우스가 주기적으로 exporter(모니터링 대상 시스템)로부터 pulling 방식으로 메트릭을 읽어서 수집한다. Grafana 그라파나는 프로메테우스를 비롯한 여러 데이터들을 시각화해주는 모니터링 툴이다. Kibana(키바나)와의 차이 키바나는 주로 로그 메시지 분석에 사용된다. 그라파나는 시스템 관점(cpu, 메모리, 디스크)의 메트릭 지표를 시각화하는데 특화되어 있다. 키바나는 elasticsearch에 묶여 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/nDAqn/btrax65ihyO/DJZ4dYzphK06gHkDh3Ktw1/img.png)
키바나는 로그를 직접 보고 분석할 때 사용한다. ELK stack 로그를 수집하고 분석하여 시각화까지 해주는 솔루션이다. Logstash 오픈소스 서버측 데이터 처리 파이프 라인으로, 다양한 데이터를 동시에 수집하고 변환하여 stash 보관소로 보낸다. Elasticsearch 분산형 RESTful 검색 및 분석 엔진. 데이터를 중심부에 저장하여 예상되는 항목을 검색하고 예상치 못한 항목을 밝혀낸다. Kibana 데이터를 시각적으로 탐색하고 실시간으로 분석한다. 키바나의 특징 로그를 원하는 조건에 맞게 검색하면서 찾는 방식으로, 이전 검색 기록이 남는 다는 것이 특징이자 장점이다. Elasticsearch 와 동일한 버전이어야 돌아가므로, 상위 버전의 kibana 를 사용할 수 없다. 키바나 구성요소 M..
https://github.com/triton-inference-server/server/blob/main/docs/model_management.md Model Management triton 은 inference protocols and API (HTTP/REST and GRPC 프로토콜, C API) 의 부분으로 model management APIs를 제공한다. triton은 3개의 model control 모드 중 하나로 동작한다. (NONE, EXPLICIT, POLL) The model control mode determines how changes to the model repository are handled by Triton and which of these protocols and A..