List of topics

Biểu thức chính quy - Regular Expressions

Chi tiết các thuật toán tách từ

Chuẩn hóa văn bản

[Bổ trợ] Học máy là gì

[Bổ trợ] Đại số tuyến tính

Ôn tập Toán + học máy, học sâu và các khái niệm liên quan

[Bổ trợ] Các thuật toán Training

Vector Semantics và Embeddings

SkipGram, Glove, FastText và Softmax đa tầng

Mô hình ngôn ngữ

RNN và LSTM

Chữa bài tập + Ôn tập lập trình mô hình

Bài toán dịch máy

Mô hình Transfomer (3 buổi)

Mô hình Bert và ứng dụng

Thực hành Bert và ứng dụng với bài toán NER và POS Tag

GPT + Đào tạo phân tán

Bài toán truy xuất thông tin - Information Retrieval

Vector Database and RAG

Transformer nâng cao

Dự án cuối khóa - 2 tuần

Đọc thêm - Model hỏi đáp (QA)

Paper Reading - LLAMA 3.1

Mô hình Transfomer (3 buổi)

Transformer Encoder
- Positional encoding
- Cơ chế Attention
- Multiheaded Attention
Transformer Decoder
Lập trình mô hình Transformer từ đầu

1. Transformer Encoder

1.1. Transformer-Encoder.pdf

1.2. Code Thực hành Encoder

Click to view more

1.3. Đọc thêm về Broadcasting

Đường dẫn: https://drive.google.com/file/d/10lb2F4RMcEg0RFSQcDKVWnRGLQHFz9pv/view?usp=sharing

Luật:

Hai tensor có thể broadcast được nếu đuôi của 2 tensor (tính từ đuôi đến đầu) khớp nhau (Hoặc thiếu chiều hoặc chiều bằng 1).
- Ví dụ tensor chiều (3, 4, 2) có thể cộng được tensor chiều (2,)
- Ví dụ tensor chiều (3, 4, 2) có thể cộng được tensor chiều (1, 1, 2)
- Ví dụ tensor chiều (3, 4, 2) có thể cộng được tensor chiều (1, 2)
- Ví dụ tensor chiều (3, 4, 2) không thể cộng được tensor chiều (2, 2)
- Ví dụ tensor chiều (3, 4, 2) có thể cộng được tensor chiều (3, 1, 2)
- Ví dụ tensor chiều (3, 4, 2) không thể cộng được tensor chiều (3, 2, 2)
- Ví dụ tensor chiều (3, 4, 2) không thể cộng được tensor chiều (2, 1, 2)
Chú ý, trong trường hợp khác chiều ví dụ (3, 4, 2) và (2,)
- Tensor có shape ít hơn (2, ) sẽ cố gắng thêm chiều bên trái để khớp với đầu vào
  - Từ (2, ) thành (4, 2)
  - Từ (4, 2) thành (3, 4, 2)
- Sau đó mới tiến hành cộng
Trường hợp tensor chiều (3, 4, 2) không cộng được tensor chiều (2, 2)
- Tensor chiều (2, 2) cố gắng thêm chiều vào đầu để khớp (3, 4, 2) nhưng không có cách nào.

Sách chi tiết: Python for Data Analysis - Wes McKinney.

Cách boardcast:

1.4. Transformer Encoder

1.5. Video trên lớp

1.6. Tài liệu đọc thêm

Tài liệu đọc thêm: https://jalammar.github.io/illustrated-transformer/

2. Transformer Decoder

2.1. Transformer-Decoder.pdf

2.2. Transformer Decoder

2.3. Beam Search

2.4. Code thực hành Transformer Decoder

Xây dựng GPT-2 trên tiếng Việt:

https://colab.research.google.com/drive/1HL2xPfzAhmANZLPDeTeL1jpQVUOGucPv?usp=sharing

3. Thực hành HuggingFace

3.1. Cách load dữ liệu

Các cách load dữ liệu văn bản với HuggingFace

Load từ HuggingFace Hub
Load từ CSV
Load từ Txt file
Load từ SQL Database
Load dữ liệu từ Arrow File

Chi tiết notebook được đăng tải tại đây: https://colab.research.google.com/drive/1-SnvvwPjyjQlJ0Ua-Qx3QXluIXDZJ52r?usp=sharing

3.2. Cách xử lý dữ liệu

Click to view more

4. Video NLP 01

4.1. [NLP 01] Zoom - Video trên lớp

Video Transformer Decoder trên lớp và cách sử dụng HuggingFace.

5. Video NLP 02

5.1. [NLP 02] Zoom 22-8-2023

5.2. [NLP 02] Zoom 28-8-2023

5.3. [NLP 02] Zoom 4-9-2024

6. Video NLP 03

6.1. [Zoom NLP 03] 29-10-2024 - Buổi 1 - Cơ chế Attention

6.2. [Zoom NLP 03] 2-11-2024 - Buổi 2 - Multiheaded Attention

6.3. [Zoom NLP 03] 5-11-2024 - Buổi 3 - Thực hành Transformer Encoder

6.4. [Zoom NLP 03] 09-11-2024 - Buổi 4 - Transformer Decoder và thực hành