취미가 좋다

[ Server ] Model Analyzer 본문

Data Engineer/triton inference server

[ Server ] Model Analyzer

benlee73 2021. 6. 28. 10:36

triton model analyzer는 performance analyzer를 사용하여 모델에 요청을 보내는 툴이다.

 

model analyzer는 batching 과 instance configureation 에 따라, 모델이 요구하는 gpu 메모리를 특화하는데 유용하다.

 

gpu 메모리 사용 정보를 가지고 있으면, gpu 메모리가 좀 남았을 때, multiple 모델을 같은 gpu에 어떻게 올릴 것인지 더 잘 결정할 수 있다.

 

 

 

 

The Triton Model Analyzer is a tool that uses Performance Analyzer to send requests to your model while measuring GPU memory and compute utilization. The Model Analyzer is specifically useful for characterizing the GPU memory requirements for your model under different batching and model instance configurations. Once you have this GPU memory usage information you can more intelligently decide on how to combine multiple models on the same GPU while remaining within the memory capacity of the GPU.

For more information see the Model Analyzer repository and the detailed explanation provided in Maximizing Deep Learning Inference Performance with NVIDIA Model Analyzer.

'Data Engineer > triton inference server' 카테고리의 다른 글

[ Server ] Inference protocols  (0) 2021.06.28
[ Server ] build  (0) 2021.06.28
Triton Inference Server Backend  (0) 2021.06.24
[ Server ] Trace  (0) 2021.06.24
[ Server ] Performance Analyzer  (0) 2021.06.24
Comments