Lớp học mang đến một hành trình từ căn bản đến chuyên sâu trong việc xây dựng và ứng dụng các mô hình ngôn ngữ lớn (LLMs). Bắt đầu với nền tảng học máy và học sâu, khóa học sẽ giúp bạn khám phá các thư viện và công cụ tiên tiến như Pytorch và HuggingFace. Bạn sẽ hiểu rõ hơn về mô hình hóa dữ liệu chuỗi, từ phân loại văn bản, đánh nhãn token đến nhận diện thực thể có tên. Học viên sẽ được đào tạo về kỹ thuật Transformer, từ cơ chế Attention cho đến kiến trúc của Encoder và Decoder. Ngoài ra, khóa học còn cung cấp kiến thức về việc tinh chỉnh đa nhiệm cho các bài toán từ hỏi đáp, sinh mã, tóm tắt cho đến dịch máy. Bạn sẽ được tìm hiểu về kỹ thuật debug, tối ưu hóa, và các phương pháp hiện đại trong quá trình đào tạo và triển khai mô hình trên nhiều GPUs. Kết thúc lớp học, học viên sẽ được định hướng về xu hướng phát triển của LLMs và cách các mô hình này trở thành nền tảng trong việc giải quyết các bài toán phức tạp đa ngôn ngữ và reasoning.<img src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/2fc76350-cde0-11f0-85f8-2f3279a643b2-Ta__ng_mie__n_phi__lo__p_N8N__2_.png" width="770" height="782" isdraggable="true" style="max-width: 100%; height: auto;">Danh sách các chủ đề trong lớp học:<ol><li>Tổng quan xây dựng mô hình ngôn ngữ lớn</li><li>Ôn tập học máy + học sâu</li><li>Các thư viện đào tạo mô hình AI</li><li>Mô hình hóa đào tạo chuỗi (Sequence Modeling)</li><li>Ôn tập Transformer</li><li>Finetune LLMs cho đa nhiệm bài toán - LLMs Multitasks FineTuning</li><li>Debug mô hình ngôn ngữ</li><li>Chuẩn bị dữ liệu cho mô hình ngôn ngữ</li><li>Họ model GPT</li><li>Các kỹ thuật training hiện đại: DPO/RLHF</li><li>Họ model LLAMA</li><li>Họ model Qwen</li><li>Họ model GPT-OSS</li><li>Họ model Deep Seek</li><li>Ứng dụng mô hình ngôn ngữ trong các model Vision Language Model</li><li>Multimodal và các model nổi tiếng</li><li>Agents và các bài toán liên quan</li></ol>Hình thức học:<ul><li>Qua Zoom chiều thứ bảy mỗi tuần</li></ul>Câu chuyện truyền cảm hứng về xây dựng sản phẩm NLP:Từ tháng 7/2025 Team ProtonX phát triển thư viện ProtonX với mong muốn đem lại những mô hình AI cũng như các kỹ thuật xây dựng Chatbot tốt nhất trên Tiếng Việt.<table style="min-width: 25px;"><colgroup><col style="min-width: 25px;"></colgroup><tbody><tr><th colspan="1" rowspan="1">Mô hình biểu diễn văn bản<a target="_blank" rel="noopener noreferrer nofollow" href="https://protonx.co/embeddings_models.html">Link</a></th></tr><tr><td colspan="1" rowspan="1"><img src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/fca66ab0-ada1-11f0-b3a8-8b4c3df23059-clipboard-image-2025-10-20T10-46-05-293Z.png" width="613" height="800" isdraggable="true" style="max-width: 100%; height: auto;"></td></tr><tr><th colspan="1" rowspan="1">Mô hình sửa Tiếng Việt<a target="_blank" rel="noopener noreferrer nofollow" href="https://protonx.co/text_correction_models.html">Link</a></th></tr><tr><td colspan="1" rowspan="1"><img src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/156b5bf0-ada2-11f0-8a4e-05530d2ba273-clipboard-image-2025-10-20T10-46-46-913Z.png" width="600" height="786" isdraggable="true" style="max-width: 100%; height: auto;"></td></tr><tr><td colspan="1" rowspan="1">Hệ thống đánh giá Chatbot<a target="_blank" rel="noopener noreferrer nofollow" href="https://protonx.co/eval_framework.html">Link</a></td></tr><tr><td colspan="1" rowspan="1"><img src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/3cfbaf80-ada2-11f0-8a4e-05530d2ba273-clipboard-image-2025-10-20T10-47-53-347Z.png" width="613" height="686" isdraggable="true" style="max-width: 100%; height: auto;"></td></tr></tbody></table>Thông tin giảng viên. <a target="_blank" rel="noopener noreferrer nofollow" href="https://docs.google.com/document/d/1i5RpnrZUdrcuUtTCE4DR4JLF1pKF_hyoDrY_l8mr6JA/edit?usp=sharing">Xem chi tiết</a>

Xử lý ngôn ngữ tự nhiên nâng cao - Mô hình ngôn ngữ lớn 02

ProtonX

<ul><li>Giá khuyến mãi cho người đăng ký sớm: 2 000 000 VND</li><li>Xem video chất lượng cao bao gồm video chuẩn bị cho lớp học Zoom và video ghi lại sau khi lớp Zoom kết thúc</li><li>Trao đổi trực tuyến với giảng viên mọi lúc mọi nơi</li><li>Thời lượng 12 tháng có nghĩa là gì?<ul><li>Học viên vẫn có thể trao đổi với giảng viên thông qua Zalo, Slack trong suốt thời gian này</li><li>Học viên vẫn có thể xem lại các video bài giảng trong suốt thời gian này</li><li>Học viên vẫn có thể làm các bài tập và nộp bài cũng như trao đổi với giảng viên</li></ul></li></ul>

Gói học cho người bận rộn<ol><li>Xem video chất lượng cao bao gồm video chuẩn bị cho lớp học Zoom và video ghi lại sau khi lớp Zoom kết thúc - Trao đổi trực tuyến với giảng viên mọi lúc mọi nơi</li></ol>

Essential - Gói xem video

<ul><li>Giới thiệu mô hình ngôn ngữ</li><li>Các cấp ứng dụng mô hình ngôn ngữ</li><li>Thực hành xây dựng mô hình ngôn ngữ trên Truyện Kiều</li><li>Thực hành xây dựng mô hình ngôn ngữ sinh code</li></ul>

Tổng quan xây dựng mô hình ngôn ngữ lớn + Xây dựng LLMs đầu tiên

<ul><li>Chi tiết tách token</li><li>Thư viện HuggingFace</li></ul>

Ôn tập Tokenizer + Thực hành HuggingFace

Ôn tập học máy + học sâu và chi tiết mô hình ngôn ngữ

<ul><li>Lý do cần Transformer</li><li>Cơ chế Attention</li><li>Transformer Encoder</li><li>Transformer Decoder</li></ul>

Ôn tập Transformer

[Xem thêm] Mô hình Bert

<ul><li>Giới thiệu chi tiết họ GPT model</li><li>Các bài toán<ul><li>Bài toán hỏi đáp (Question Answering - QA)</li><li>Bài toán sinh code (Code Generation)</li><li>Bài toán tóm tắt (Summarization)</li><li>Bài toán truy xuất thông tin (Information Retrieval)</li><li>Bài toán máy dịch (Translation)</li></ul></li></ul>

Họ model GPT - Fintune LLMs cho đa nhiệm bài toán

<ul><li>Các học viên đăng ký thuyết trình về cách pretrained và finetune mô hình của mình</li><li>Giảng viên nhận xét từng bạn</li><li>Giảng viên tổng kết cách làm tốt nhất</li></ul>

Demo Day Pretrained + Finetune LLMs

<ul><li>Kỹ thuật RLHF</li><li>Kỹ thuật DPO</li></ul>

Kỹ thuật training ưu tiên - RLHF

<ul><li>Nâng cấp DPO từ RLHF</li><li>Thực hành lập trình DPO</li></ul>

Kỹ thuật training ưu tiên - DPO

Chuẩn bị dữ liệu pre-trained cho mô hình ngôn ngữ

Mixture of Experts (MoE)

Họ Model GPT OSS

<ul><li>Parameter-Efficient Fine-Tuning - PEFT</li><li>LORA</li><li>Lượng tử hóa mô hình</li><li>Chắt lọc tri thức mô hình</li><li>Tỉa tham số</li><li>Thực hành thư viện Unsolth</li></ul>

Đánh giá chất lượng mô hình + Các kỹ thuật finetune tham số tối ưu - PEFT

<ul><li>Nâng cấp của LLAMA 3.1 trên Transformer Decoder cơ bản</li><li>Rotary Positional Embedding</li><li>Hướng dẫn đào tạo song song model</li></ul>

Họ model LLAMA

<ul><li>Giải thích chi tiết tất cả các phiên bản của DeepSeek</li><li>Mixture of Experts của DeepSeek</li><li>Multi-Head Latent Attention</li></ul>

Họ mô hình DeepSeek

Họ mô hình Qwen + Kimi

<ul><li>Chi tiết các mô hình Multimodal hiện tại và cách thiết kế chúng<ul><li>Mô hình CLIP</li><li>Mô hình VIT</li><li>LLAMA3.2 Vision Model</li></ul></li></ul>

#	Topic
1	Tổng quan xây dựng mô hình ngôn ngữ lớn + Xây dựng LLMs đầu tiên Giới thiệu mô hình ngôn ngữ Các cấp ứng dụng mô hình ngôn ngữ Thực hành xây dựng mô hình ngôn ngữ trên Truyện Kiều Thực hành xây dựng mô hình ngôn ngữ sinh code
2	Ôn tập Tokenizer + Thực hành HuggingFace Chi tiết tách token Thư viện HuggingFace
3	Ôn tập học máy + học sâu và chi tiết mô hình ngôn ngữ Ôn tập khái niệm học máy Mô hình ngôn ngữ
4	Ôn tập Transformer Lý do cần Transformer Cơ chế Attention Transformer Encoder Transformer Decoder
5	[Xem thêm] Mô hình Bert Chi tiết mô hình Bert Ứng dụng mô hình Bert vào các bài toán khác nhau
6	Họ model GPT - Fintune LLMs cho đa nhiệm bài toán Giới thiệu chi tiết họ GPT model Các bài toán Bài toán hỏi đáp (Question Answering - QA) Bài toán sinh code (Code Generation) Bài toán tóm tắt (Summarization) Bài toán truy xuất thông tin (Information Retrieval) Bài toán máy dịch (Translation)
7	Demo Day Pretrained + Finetune LLMs Các học viên đăng ký thuyết trình về cách pretrained và finetune mô hình của mình Giảng viên nhận xét từng bạn Giảng viên tổng kết cách làm tốt nhất
8	Kỹ thuật training ưu tiên - RLHF Kỹ thuật RLHF Kỹ thuật DPO
9	Kỹ thuật training ưu tiên - DPO Nâng cấp DPO từ RLHF Thực hành lập trình DPO
10	Chuẩn bị dữ liệu pre-trained cho mô hình ngôn ngữ Cách bố trí dữ liệu hiểu quả Các công cụ tối ưu bố trí dữ liệu
11	Mixture of Experts (MoE) Mixture of Experts (MoE)
12	Họ Model GPT OSS No content
13	Đánh giá chất lượng mô hình + Các kỹ thuật finetune tham số tối ưu - PEFT Parameter-Efficient Fine-Tuning - PEFT LORA Lượng tử hóa mô hình Chắt lọc tri thức mô hình Tỉa tham số Thực hành thư viện Unsolth
14	Họ model LLAMA Nâng cấp của LLAMA 3.1 trên Transformer Decoder cơ bản Rotary Positional Embedding Hướng dẫn đào tạo song song model
15	Họ mô hình DeepSeek Giải thích chi tiết tất cả các phiên bản của DeepSeek Mixture of Experts của DeepSeek Multi-Head Latent Attention
16	Họ mô hình Qwen + Kimi Qwen 2.5 Qwen 3
17	Multimodal Chi tiết các mô hình Multimodal hiện tại và cách thiết kế chúng Mô hình CLIP Mô hình VIT LLAMA3.2 Vision Model
18	Dự án cuối khóa Dự án cuối khóa