List of topics

Giới thiệu học máy/học sâu

Mô hình hồi quy tuyến tính

Khai giảng

MLOps

Pytorch + Tensorflow + HuggingFace

MongoDB + Crawl dữ liệu

CPUs

GPUs

TPUs - Số thực dấu phẩy động

Học máy chính xác thấp

Chắt lọc tri thức + TensorRT

Docker + Cloud

Triton Inference Server - Phần 1

Triton Inference Server - Phần 2

Machine Learning CI/CD

Project - Thực hành chắt lọc tri thức

Đào tạo phân tán

Deploy mô hình trên Jetson Nano

Dự án cuối khóa

Học máy chính xác thấp

Lượng tử hóa mô hình
ONNX

1. Slide

1.1. Quantization - v2.pdf

1.2. ONNX.pdf

1.3. Các bài báo quan trọng

Click to view more

1.4. Ánh xạ lượng tử (Quantization Mapping) và chứng minh công thức

Click to view more

1.5. Chi tiết hóa công thức lượng tử trên ma trận

Click to view more

1.6. Chi tiết code các loại quantization với Pytorch

Click to view more

1.7. Lượng tử hóa với Tensorflow Lite

Click to view more

2. Code

2.1. Export ONNX

2.2. Quantization Demo

2.3. ONNX Quantization

ONNX Quantization: https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html

2.4. Hugging Face Export ONNX

Hugging Face Export ONNX

https://github.com/microsoft/onnxruntime-inference-examples/blob/main/mobile/examples/question_answering/android/prepare_model.py

3. Quizz

3.1. [MLEs] Lượng tử theo cấu trúc dữ liệu nào cho tốc độ model nhanh nhất?

Click to view more

3.2. [MLEs] Lượng tử nào chạy trên GPU?

Click to view more

4. Video

4.1. Video

Click to view more

1. Slide

1.1. Quantization - v2.pdf

1.2. ONNX.pdf

1.3. Các bài báo quan trọng

1.4. Ánh xạ lượng tử (Quantization Mapping) và chứng minh công thức

1.5. Chi tiết hóa công thức lượng tử trên ma trận

1.6. Chi tiết code các loại quantization với Pytorch

1.7. Lượng tử hóa với Tensorflow Lite

2. Code

2.1. Export ONNX

2.2. Quantization Demo

2.3. ONNX Quantization

2.4. Hugging Face Export ONNX

3. Quizz

3.1. [MLEs] Lượng tử theo cấu trúc dữ liệu nào cho tốc độ model nhanh nhất?

3.2. [MLEs] Lượng tử nào chạy trên GPU?

4. Video

4.1. Video