### Triton Inference Server là gì?
---


<style>img{max-width: 100%;height: auto;}</style>

<img src='https://storage.googleapis.com/mle-courses-prod/users/61b892008e09970029e4aff3/private-files/e1abde00-a923-11ed-9f99-bf7da3ec0d2a-ai-for-dev-diagram-triton.svg' width=1000>

Nguồn ảnh: [tại đây](https://developer.nvidia.com/nvidia-triton-inference-server) 

Mô hình Triton Inference Server là một framwork để triển khai các mô hình deep learning trên sản phẩm thực tế phát triển bởi NVIDIA. Triton cho phép triển khai dưới nhiều dạng kiến trúc khác nhau từ 
tập trung (centralized) cho đến multi-node. Ngoài ra nó còn cung cấp công cụ quản trị quá trình deployment của chúng ta.

Một số điểm đáng chú ý của Triton:

- 1. Khả năng inference song song mạnh mẽ.
  - **Trường hợp 1: 2 request đến 2 model khác nhau**

  <img src="https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/_images/multi_model_exec.png" />

  - **Trường hợp 2: Nhiều request đến một mô hình**, Triton sẽ giúp chúng ta đặt request vào hàng đợi để giảm tải cho GPU/CPU.

  <img src="https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/_images/multi_model_serial_exec.png" />

  Triton hỗ trợ [dynamic batching](https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/user_guide/model_configuration.html#dynamic-batcher) - tức là cho phép nhóm các request từ người dùng để thực hiện dự đoán theo batch. Lợi ích của việc này đó là cải thiện băng thông.

- 2. Các định dạng mô hình thư viện hỗ trợ bao gồm TensorFlow, PyTorch, Caffe thậm chí là ONNX. Giao thức sử dụng để inference là Restful API, gRPC.

- 3. Một trong những điểm mạnh lớn nhất của Triton là khả năng làm việc với nhiều mô hình với nhiều phiên bản khác nhau, cho phép deploy và quản lý dễ dàng trên môi trường production. 

Team ProtonX đang đưa Triton vào sản phẩm của mình và trình bày tại lớp học [Lớp học MLEs 02 - Xây dựng hệ thống học máy lớn.
](https://protonx.io/courses/635a68c5fd9acb001a858aca) Bạn hãy đón xem nhé.