#Topic
1

Biểu thức chính quy - Regular Expressions

  • Luyện tập thuần thục viết Regular Expressions

    • Các toán tử thông thường

    • Các toán tử nâng cao

  • Thực hiện tiền xử lý trên văn bản tiếng Việt

2

[31-1-2024] Chi tiết các thuật toán tách từ

  • Thuật toán BPE

  • Thuật toán WordPiece

  • Sử dụng thư viện SentencePiece

  • Sử dụng thư viện Spacy

  • Sử dụng thư viện Underthesea cho Tiếng Việt

3

Chuẩn hóa văn bản

Các quy trình của chuẩn hóa văn bản

  • Tách văn bản thành nhiều câu (Segmenting sentence)

  • Tách (phân đoạn) từ - Tokenizing (segmenting) words

  • Chuẩn hóa từ

4

Vector Semantics và Embeddings

  • Biểu diễn từ dưới dạng vector Semantics

  • Cách cách biểu diễn từ khác nhau

  • Độ do cosine

5

SkipGram, Glove và FastText

  • Skip Gram và Glove

  • Thư viện FastText

6

Mô hình ngôn ngữ

  • Mô hình ngôn ngữ n-grams

  • Mô hình ngôn ngữ mạng nơ ron

  • Giới thiệu mô hình ngôn ngữ nổi tiếng gần đây: GPT1, GPT2, GPT3, GPT 3.5, LLAMA1, LLAMA 2

  • Mô hình ngôn ngữ Mistral

7

RNN và LSTM

  • Mạng nơ ron hồi quy RNN

  • LSTM

  • GRU

  • Bidirectional RNN

  • Deep RNN

8

Bài toán dịch máy

  • Bài toán dịch máy

  • Mô hình Seq2Seq

  • Vấn đề BottleNeck của Seq2Seq

  • Mô hình Seq2Seq và cơ chế Attention

  • BLEU Score

  • Thuật toán Greedy/Beam Search

9

Mô hình Transfomer

  • Transformer Encoder

    • Positional encoding

    • Cơ chế Attention

    • Multiheaded Attention

  • Transformer Decoder

  • Lập trình mô hình Transformer từ đầu

10

Mô hình Bert và ứng dụng

  • Mô hình Bert và ứng dụng

  • Bert nguyên bản

  • Các phiên bản Bert nâng cấp: Roberta, PhoBert

11

Thực hành Bert và ứng dụng với bài toán NER và POS Tag

  • Bài toán NER + Pos Tagging

  • Ứng dụng Bert để xử lý hai bài toán này

12

GPT và ứng dụng

  • GPT và các biến thể

  • Finetune GPT trên tiếng Việt

  • Đào tạo mô hình song song trên nhiều máy

13

Bài toán tìm kiếm và hỏi đáp - Question Answering

  • Truy xuất thông tin - Information Retrieval

  • Thuật toán TF-IDF - BM25

  • Truy vấn vector nhanh chóng với thư viện Faiss

  • Xây dựng mô hình DPR (Dense Passage Retrieval) cho bài toán tìm kiếm

  • Kết hợp các thuật toán khác nhau để hoàn thiện máy tìm kiếm

14

Vector Database and RAG

Vector Database and RAG

  • Điểm qua Vector Database

  • Chi tiết về RAG

  • Thiết kế một RAG Pipeline

15

Prompt Engineering

  • Instruction Finetuning

  • Cách viết prompt hiệu quả

  • Chain-of-Thought

  • Zero-Shot, One-Shot và Few-shots

16

Semantic Cache

Sử dụng kỹ thuật cache ngữ nghĩa ( Semantic Cache ) để tối ưu tốc độ truy vấn

17

Nâng cao - Mô hình Wave2Vec cho bài toán nhận diện giọng nói

  • Mô hình Wave2Vec

  • Thuật toán decode CTC

  • Cách thu thập dữ liệu và đánh nhãn

  • Đào tạo mô hình trên Tiếng Việt

18

Dự án cuối khóa

  • Giới thiệu dự án

  • Code