Nền tảng xử lý ngôn ngữ tự nhiên 03

Slide

Code thực hành

Kiến trúc Bert

[Zoom NLP 01] Video 24-4-2024

[Zoom NLP 02] Zoom 4-9-2024

[Zoom NLP 03] Zoom 12-11-2024

[Zoom NLP 03] Zoom 16-11-2024

Video

<ul><li>Mô hình Bert và ứng dụng</li><li>Bert nguyên bản</li><li>Các phiên bản Bert nâng cấp: Roberta, PhoBert</li></ul>

Mô hình Bert và ứng dụng

<ul><li>Luyện tập thuần thục viết Regular Expressions<ul><li>Các toán tử thông thường</li><li>Các toán tử nâng cao</li></ul></li><li>Thực hiện tiền xử lý trên văn bản tiếng Việt</li></ul>

Biểu thức chính quy - Regular Expressions

<ul><li>Thuật toán BPE</li><li>Thuật toán WordPiece</li><li>Sử dụng thư viện SentencePiece</li><li>Sử dụng thư viện Spacy</li><li>Sử dụng thư viện Underthesea cho Tiếng Việt</li></ul>

Chi tiết các thuật toán tách từ

Các quy trình của chuẩn hóa văn bản<ul><li>Tách văn bản thành nhiều câu (Segmenting sentence)</li><li>Tách (phân đoạn) từ - Tokenizing (segmenting) words</li><li>Chuẩn hóa từ</li></ul>

Chuẩn hóa văn bản

<ul><li>Giới thiệu về học máy</li><li>Làm gì khi ít dữ liệu</li></ul>

[Bổ trợ] Học máy là gì

<ul><li>Công thức toán cơ bản</li><li>Sigma</li><li>Ký hiệu tổng</li><li>Vector cơ bản và ứng dụng</li><li>Ma trận cơ bản và ứng dụng</li><li>Tensor</li><li>Sách Toán tham khảo</li></ul>

[Bổ trợ] Đại số tuyến tính

Ôn tập Toán + học máy, học sâu và các khái niệm liên quan

<ul><li>Tối ưu lồi</li><li>Vấn đề của SGD</li><li>SGD với quán tính</li><li>AdaGrad</li><li>AdaDelta và RMSProp</li></ul>

[Bổ trợ] Các thuật toán Training

Lập trình theo TODO, 10 điểm/TODO.

Bài tập thực hành đào tạo mô hình và sử dụng Embedding

<ul><li>Biểu diễn từ dưới dạng vector Semantics</li><li>Cách cách biểu diễn từ khác nhau</li><li>Độ do cosine</li></ul>

Vector Semantics và Embeddings

<ul><li>Softmax đa tầng</li><li>Skip Gram và Glove</li><li>Thư viện FastText</li></ul>

SkipGram, Glove, FastText và Softmax đa tầng

<ul><li>Mô hình ngôn ngữ n-grams</li><li>Mạng RNN</li><li>Mô hình ngôn ngữ mạng nơ ron</li></ul>

Mô hình ngôn ngữ

<ul><li>Mạng nơ ron hồi quy RNN</li><li>LSTM</li><li>GRU</li><li>Bidirectional RNN</li><li>Deep RNN</li></ul>

RNN và LSTM

Chữa bài tập + Ôn tập lập trình mô hình

<ul><li>Bài toán dịch máy</li><li>Mô hình Seq2Seq</li><li>Vấn đề BottleNeck của Seq2Seq</li><li>Mô hình Seq2Seq và cơ chế Attention</li><li>BLEU Score</li><li>Thuật toán Greedy/Beam Search</li></ul>

Bài toán dịch máy

<ul><li>Transformer Encoder<ul><li>Positional encoding</li><li>Cơ chế Attention</li><li>Multiheaded Attention</li></ul></li><li>Transformer Decoder</li><li>Lập trình mô hình Transformer từ đầu</li></ul>

Mô hình Transfomer (3 buổi)

<ul><li>Bài toán NER + Pos Tagging</li><li>Ứng dụng Bert để xử lý hai bài toán này</li></ul>

Thực hành Bert và ứng dụng với bài toán NER và POS Tag

<ul><li>Đọc các nghiên cứu của GPT-1, GPT-2, GPT-3 và GPT 3.5</li><li>Đào tạo mô hình phân tán song song dữ liệu và song song mô hình</li></ul>

GPT + Đào tạo phân tán

<ul><li>Thuật toán tìm kiếm theo từ khóa TF-IDF và BM25</li><li>Thuật toán tìm kiếm theo Vector</li><li>Thư viện FAISS để tìm kiếm vector nhanh chóng<ul><li>Các thuật toán quan trọng của FAISS</li></ul></li></ul>

Bài toán truy xuất thông tin - Information Retrieval

Vector Database and RAG<ul><li>Điểm qua Vector Database</li><li>Chi tiết về RAG</li><li>Thiết kế một RAG Pipeline</li></ul>

Vector Database and RAG

Các cách đào tạo mô hình Transformer trên văn bản dài<ul><li>Cách 1: Positional Encoding tốt hơn. Thay vì dùng encoding vị trí như paper gốc Transformer, 2 cái tên có thể thay thế là ALiBi và ROPE. Một cách encode vị trí có thể scale theo context của câu.</li><li>Cách 2: Bạn không cần phải tính toán attention scores giữa tất cả các tokens. Một số tokens quan trọng hơn các tokens khác, vì vậy có thể sử dụng Sparse Attention. Điều này sẽ tăng tốc cả quá trình training và inference.</li><li>Cách 3: Flash Attention triển khai hiệu quả attention layer cho GPU. Nó sử dụng tiling và tránh việc tạo ra các ma trận trung gian lớn (n, n) không phù hợp với GPU SRAM. Điều này sẽ tăng tốc cả quá trình training và inference.</li><li>Multi-Query attention thay vì Multi-Head attention. Bạn chia sẻ weights giữa tất cả các heads khi nhân tuyến tính K và V. Nó sẽ tăng tốc đáng kể quá trình inference.</li><li>Conditional computation tránh việc sử dụng tất cả các model parameters lên tất cả các tokens từ input sequence. CoLT5 chỉ áp dụng các tính toán nặng nề lên những tokens quan trọng nhất và xử lý phần còn lại của các tokens với một phiên bản nhẹ hơn của các layers. Điều này sẽ tăng tốc cả quá trình training và inference.</li></ul>

Mô hình Bert và ứng dụng

1. Kiến trúc Bert

1.1. Slide

1.2. Code thực hành

2. Video

2.1. [Zoom NLP 01] Video 24-4-2024

2.2. [Zoom NLP 02] Zoom 4-9-2024

2.3. [Zoom NLP 03] Zoom 12-11-2024

2.4. [Zoom NLP 03] Zoom 16-11-2024