1 | Biểu thức chính quy - Regular Expressions |
---|
2 | Chi tiết các thuật toán tách từ |
---|
3 | Các quy trình của chuẩn hóa văn bản |
---|
4 | [Bổ trợ học máy] Mô hình hồi quy tuyến tính Giới thiệu bài toán Grab Quá trình xây dựng một mô hình Mô hình hồi quy tuyến tính Thuật toán Gradient Descent Lập trình hồi quy tuyến tính một biến
|
---|
5 | [Bổ trợ học máy] Các thuật toán Training Tối ưu lồi Vấn đề của SGD SGD với quán tính AdaGrad AdaDelta và RMSProp
|
---|
6 | Vector Semantics và Embeddings |
---|
7 | SkipGram, Glove và FastText Skip Gram và Glove Thư viện FastText
|
---|
8 | Mô hình ngôn ngữ n-grams Mô hình ngôn ngữ mạng nơ ron Giới thiệu mô hình ngôn ngữ nổi tiếng gần đây: GPT1, GPT2, GPT3, GPT 3.5, LLAMA1, LLAMA 2 Mô hình ngôn ngữ Mistral
|
---|
9 | Mạng nơ ron hồi quy RNN LSTM GRU Bidirectional RNN Deep RNN
|
---|
10 | Bài toán dịch máy Mô hình Seq2Seq Vấn đề BottleNeck của Seq2Seq Mô hình Seq2Seq và cơ chế Attention BLEU Score Thuật toán Greedy/Beam Search
|
---|
11 | |
---|
12 | |
---|
13 | Thực hành Bert và ứng dụng với bài toán NER và POS Tag |
---|
14 | |
---|
15 | Bài toán truy xuất thông tin - Information Retrieval |
---|
16 | |
---|
17 | Các cách đào tạo mô hình Transformer trên văn bản dài Cách 1: Positional Encoding tốt hơn. Thay vì dùng encoding vị trí như paper gốc Transformer, 2 cái tên có thể thay thế là ALiBi và ROPE. Một cách encode vị trí có thể scale theo context của câu. Cách 2: Bạn không cần phải tính toán attention scores giữa tất cả các tokens. Một số tokens quan trọng hơn các tokens khác, vì vậy có thể sử dụng Sparse Attention. Điều này sẽ tăng tốc cả quá trình training và inference. Cách 3: Flash Attention triển khai hiệu quả attention layer cho GPU. Nó sử dụng tiling và tránh việc tạo ra các ma trận trung gian lớn (n, n) không phù hợp với GPU SRAM. Điều này sẽ tăng tốc cả quá trình training và inference. Multi-Query attention thay vì Multi-Head attention. Bạn chia sẻ weights giữa tất cả các heads khi nhân tuyến tính K và V. Nó sẽ tăng tốc đáng kể quá trình inference. Conditional computation tránh việc sử dụng tất cả các model parameters lên tất cả các tokens từ input sequence. CoLT5 chỉ áp dụng các tính toán nặng nề lên những tokens quan trọng nhất và xử lý phần còn lại của các tokens với một phiên bản nhẹ hơn của các layers. Điều này sẽ tăng tốc cả quá trình training và inference.
|
---|
18 | |
---|
19 | |
---|