목록Data Engineer (36)
취미가 좋다
https://github.com/triton-inference-server/client Triton Client Libraries and Examples triton 과의 통신을 간편하게 하기 위해, 여러 클라이언트 라이브러리와 그 라이브러리를 사용하는 예시를 제공한다. C++ / python APIs 는 triton과 통신하기 쉽다. HTTP/REST or GRPC 요청 모두 가능하고, 아래의 것들을 수행할 수 있다. inferencing, status and health, statistics and metrics, model repository management, etc. example model repository 에서 여러 예시를 사용해볼 수 있다. Getting the Client Libra..
https://github.com/triton-inference-server/server/blob/main/docs/model_repository.md Model Repository triton inference server는 서버가 지정한 model repository 에서 하나 혹은 그 이상의 모델을 제공한다. Repository Layout repository 는 triton을 시작할 때, --model-repository option으로 지정된다. $ tritonserver --model-repository= 이 repository는 무조건 아래와 같이 layout을 따라야 한다. / / [config.pbtxt] [ ...] / / ... / [config.pbtxt] [ ...] / / .....
Quickstart trtion inference server는 빌드 가능한 소스 코드로 사용할 수 있지만, 가장 쉽게 설치하고 실행하는 방법은 NGC(Nvidia Gpu Cloud)에 이미 빌드된 도커 이미지를 사용하는 것이다. Install Triton Docker Image 가장 먼저 도커를 설치해야 한다. 만약 inference 할 때, gpu를 사용할 것이라면 NIVIDIA Container Toolkit 도 설치해야 한다. 그리고 아래의 코드로 이미지를 가져온다. $ docker pull nvcr.io/nvidia/tritonserver:-py3 는 가져오고 싶은 triton의 버전을 의미한다. Create A Model Repository triton으로 서빙하고자 하는 모델을 가져와서, m..
https://github.com/triton-inference-server/server/blob/main/docs/inference_protocols.md Inference Protocols and APIs clients 는 HTTP/REST or GRPC 프로토콜 이나 C API 를 사용하여 triton과 통신할 수 있다. HTTP/REST and GRPC Protocols triton은 KFServing 프로젝트에서 제안한 standard inference protocos 를 기반으로, HTTP/REST 와 GRPC endpoints 를 모두 제공한다. To fully enable all capabilities Triton also implements a number HTTP/REST and GRP..
https://github.com/triton-inference-server/server/blob/main/docs/build.md Building Triton 이 글은 어떻게 triton 서버를 빌드하는 지 설명한다. build.py 를 사용하여 ubuntu 20.04, Jetpack 4.x, Windows 10 위에서 빌드할 수 있다. Building for Unbuntu 20.04 Building with Docker triton을 빌드하는 가장 쉬운 방법은 도커를 사용하는 방법이다. 빌드 결과로 나오는 도커 이미지는 tritonserver 라는 이름을 갖는다. 이 이미지는 /opt/tritonserver/bin 에 있는 tritonserver 실행파일과, /opt/tritonserver/lib 에..
triton model analyzer는 performance analyzer를 사용하여 모델에 요청을 보내는 툴이다. model analyzer는 batching 과 instance configureation 에 따라, 모델이 요구하는 gpu 메모리를 특화하는데 유용하다. gpu 메모리 사용 정보를 가지고 있으면, gpu 메모리가 좀 남았을 때, multiple 모델을 같은 gpu에 어떻게 올릴 것인지 더 잘 결정할 수 있다. The Triton Model Analyzer is a tool that uses Performance Analyzer to send requests to your model while measuring GPU memory and compute utilization. The Mo..