List of topics

Tổng quan xây dựng mô hình ngôn ngữ lớn + Xây dựng LLMs đầu tiên

Ôn tập Tokenizer + Thực hành HuggingFace

Ôn tập học máy + học sâu và chi tiết mô hình ngôn ngữ

Ôn tập Transformer

[Xem thêm] Mô hình Bert

Demo Day Pretrained + Finetune LLMs

Họ model GPT - Fintune LLMs cho đa nhiệm bài toán

Chuẩn bị dữ liệu pre-trained cho mô hình ngôn ngữ

Kỹ thuật training ưu tiên - RLHF

Kỹ thuật training ưu tiên - DPO

Họ model LLAMA

Đánh giá chất lượng mô hình + Các kỹ thuật finetune tham số tối ưu - PEFT + Chữa bài tập

Chữa bài tập + Chuyên lượng tử hóa mô hình + Định dạng cho mô hình ngôn ngữ

Họ Model GPT OSS

Học model Kimi

Mô hình hóa đào tạo chuỗi tới chuỗi (Text - to - text models)

Họ mô hình DeepSeek

Multimodal

Dự án cuối khóa - 3 buổi

Agents và các bài toán liên quan

[Nâng cao] Mô hình Hope - Attention 2.0

Ôn tập Tokenizer + Thực hành HuggingFace

1. Nội dung

Thực hành Tokenizer:

Giới thiệu chi tiết các kỹ thuật tách Tokens
Sử dụng Huggingface tách tokens
- Trainining tokenizer từ đầu cho Tiếng Việt: https://colab.research.google.com/drive/1KGLoZfzip6yizZNOkmqHrH3uIT3YBOT5?usp=sharing

1. Nội dung

1.1. Slide tách Token

1.2. Nền tảng Tokenizer với HuggingFace

1.3. Thực hành thư viện HuggingFace

2. Video

2.1. [LLMs 01] Zoom 3-1-2025