List of topics
Tổng quan xây dựng mô hình ngôn ngữ lớn + Xây dựng LLMs đầu tiên
Ôn tập Tokenizer + Thực hành HuggingFace
Ôn tập học máy + học sâu và chi tiết mô hình ngôn ngữ
Ôn tập Transformer
[Xem thêm] Mô hình Bert
Họ model GPT - Fintune LLMs cho đa nhiệm bài toán
Demo Day Pretrained + Finetune LLMs
Kỹ thuật training ưu tiên - RLHF
Kỹ thuật training ưu tiên - DPO
Chuẩn bị dữ liệu pre-trained cho mô hình ngôn ngữ
Mixture of Experts (MoE)
Họ Model GPT OSS
Đánh giá chất lượng mô hình + Các kỹ thuật finetune tham số tối ưu - PEFT
Họ model LLAMA
Họ mô hình DeepSeek
Họ mô hình Qwen + Kimi
Multimodal
Ứng dụng mô hình ngôn ngữ trong mô hìn Vision Language Model

Multimodal

  • Chi tiết các mô hình Multimodal hiện tại và cách thiết kế chúng

    • Mô hình CLIP

    • Mô hình VIT

    • LLAMA3.2 Vision Model

2. VIT Foundation

2.1. VIT Model

2.2. Slide

3. Flamingo

3.1. Flamingo

4. Đọc nghiên cứu MultiModal

4.1. Các nghiên cứu cần đọc

4 loại kiến trúc MultiModals phổ biến:

Type

Name

Description

Type-A

SCDF

Standard Cross-attention based Deep Fusion

Type-B

CLDF

Custom Layer based Deep Fusion

Type-C

NTEF

Non-Tokenized Early Fusion

Type-D

TEF

Tokenized Early Fusion

Flamingo: https://slds-lmu.github.io/seminar_multimodal_dl/c02-00-multimodal.html#flamingo

The Evolution of Multimodal Model Architectures: https://arxiv.org/pdf/2405.17927

5. Video

5.1. [Zoom 25-04-2025] CLIP + VIT

5.2. [Zoom 09-05-2025] Flamingo

1. Mô hình CLIP
1.1. CLIP model
1.2. Thực hành
2. VIT Foundation
2.1. VIT Model
2.2. Slide
3. Flamingo
3.1. Flamingo
4. Đọc nghiên cứu MultiModal
4.1. Các nghiên cứu cần đọc
5. Video
5.1. [Zoom 25-04-2025] CLIP + VIT
5.2. [Zoom 09-05-2025] Flamingo