List of topics
Tổng quan xây dựng mô hình ngôn ngữ lớn + Xây dựng LLMs đầu tiên
Ôn tập Tokenizer + Thực hành HuggingFace
Ôn tập học máy + học sâu và chi tiết mô hình ngôn ngữ
Ôn tập Transformer
[Xem thêm] Mô hình Bert
[Zoom 07-02-2025] Demo Day Pretrained + Finetune LLMs
[Zoom 07-02-2025] Họ model GPT - Fintune LLMs cho đa nhiệm bài toán
[Zoom 14-02-2025] Chuẩn bị dữ liệu pre-trained cho mô hình ngôn ngữ
[Zoom 21-02-2025] Kỹ thuật training ưu tiên - RLHF
[Zoom 28-02-2025] Kỹ thuật training ưu tiên - DPO
[Zoom 07-03-2025] Đánh giá chất lượng mô hình + Các kỹ thuật finetune tham số tối ưu - PEFT + Chữa bài tập
[Zoom 14-3-2025] Chữa bài tập + Chuyên lượng tử hóa mô hình + Định dạng cho mô hình ngôn ngữ
[Zoom 21 + 28-03-2025] Họ model LLAMA
[Zoom 04-04-2025] Mô hình hóa đào tạo chuỗi tới chuỗi (Text - to - text models)
[Zoom 11/18-04-2025] Họ mô hình DeepSeek
[Zoom 25-04-2025] Multimodal
Dự án cuối khóa - 3 buổi
Agents và các bài toán liên quan
Các kỹ thuật Deployment mô hình ngôn ngữ
Ôn tập Tokenizer + Thực hành HuggingFace
Chi tiết tách token
Thư viện HuggingFace
1. Nội dung
1.1. Slide tách Token
1.2. Nền tảng Tokenizer với HuggingFace
1.3. Thực hành thư viện HuggingFace
Giới thiệu chi tiết các kỹ thuật tách Tokens
Sử dụng Huggingface tách tokens
Trainining tokenizer từ đầu cho Tiếng Việt: https://colab.research.google.com/drive/1KGLoZfzip6yizZNOkmqHrH3uIT3YBOT5?usp=sharing
Thực hành đào tạo một mô hình ngôn ngữ GPT đa nhiệm: https://colab.research.google.com/drive/1g8ChyBAlzmC-zyh3GaEakS5YXHLLb4jm?usp=sharing
Bài báo GPT-1: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
2. Video
2.1. [LLMs 01] Zoom 3-1-2025
1. Nội dung
1.1. Slide tách Token
1.2. Nền tảng Tokenizer với HuggingFace
1.3. Thực hành thư viện HuggingFace
2. Video
2.1. [LLMs 01] Zoom 3-1-2025