List of topics

Tổng quan xây dựng mô hình ngôn ngữ lớn + Xây dựng LLMs đầu tiên

Ôn tập Tokenizer + Thực hành HuggingFace

Ôn tập học máy + học sâu và chi tiết mô hình ngôn ngữ

Ôn tập Transformer

[Xem thêm] Mô hình Bert

Demo Day Pretrained + Finetune LLMs

Họ model GPT - Fintune LLMs cho đa nhiệm bài toán

Chuẩn bị dữ liệu pre-trained cho mô hình ngôn ngữ

Kỹ thuật training ưu tiên - RLHF

Kỹ thuật training ưu tiên - DPO

Đánh giá chất lượng mô hình + Các kỹ thuật finetune tham số tối ưu - PEFT + Chữa bài tập

Chữa bài tập + Chuyên lượng tử hóa mô hình + Định dạng cho mô hình ngôn ngữ

Họ model LLAMA

Họ Model GPT OSS

Học model Kimi

Mô hình hóa đào tạo chuỗi tới chuỗi (Text - to - text models)

Họ mô hình DeepSeek

Multimodal

Dự án cuối khóa - 3 buổi

Agents và các bài toán liên quan

[Nâng cao] Mô hình Hope - Attention 2.0

Họ Model GPT OSS

No content

1. Đánh giá chung hai mô hình

1.1. Kiến trúc model OSS

So sánh chi tiết GPT OSS 20B và GPT OSS 120B

1. Kích thước & quy mô mô hình

GPT OSS 20B: có 24 layers, tổng tham số khoảng 20 tỷ.
GPT OSS 120B: có 36 layers, quy mô lớn hơn nhiều với tổng tham số 120 tỷ.

Điều này có nghĩa là mô hình 120B có khả năng biểu đạt ngữ nghĩa và học các mẫu ngôn ngữ phức tạp tốt hơn, nhưng yêu cầu tài nguyên tính toán lớn hơn.

2. Kiến trúc chính

Các thành phần giống nhau

Token Embeddings + BPE tokenizer để biến đổi văn bản thành chuỗi vector.
Grouped Query Attention (GQA): tối ưu hóa attention bằng cách giảm số lượng key/value head trong khi vẫn duy trì số lượng query head.
RoPE (Rotary Position Embedding): dùng để mã hóa thông tin vị trí thay cho positional encoding cổ điển.
RMSNorm (Root Mean Square Normalization): thay cho LayerNorm, ổn định huấn luyện với chi phí thấp hơn.
Mixture of Experts (MoE): chỉ kích hoạt một phần nhỏ các experts cho mỗi token → giảm chi phí tính toán so với dense FFN.
Linear projection ở cuối mỗi block.

⚡️ Khác biệt chính

GPT OSS 20B:
- MoE có 22 experts (chỉ 4 experts/token được kích hoạt).
- Số layer ít hơn (24).
- Tương đối nhẹ, phù hợp cho inference tiết kiệm tài nguyên.
GPT OSS 120B:
- MoE có 184 experts (cũng 4 experts/token được kích hoạt).
- Nhiều layer hơn (36).
- Mức độ đa dạng hóa experts cao hơn → khả năng tổng quát tốt hơn.

3. Thông số kỹ thuật

Thuộc tính	GPT OSS 20B	GPT OSS 120B
Hidden size	2880	2880
Attention Heads	64	64
Key/Value heads	8	8
Active experts/token	4	4
Số experts MoE	22	184
Số layers	24	36
Context length (YARN)	131,072	131,072
Vocab size	201,088	201,088

4. Hiệu năng & ứng dụng

GPT OSS 20B
- Nhẹ hơn, dễ deploy hơn trên GPU phổ thông hoặc cluster nhỏ.
- Phù hợp cho inference tốc độ cao, chi phí thấp.
- Tốt cho fine-tuning trong phạm vi hẹp.
GPT OSS 120B
- Dùng trong các tác vụ cần reasoning phức tạp, kiến thức tổng quát rộng.
- Yêu cầu hạ tầng GPU/TPU mạnh (multi-node, multi-GPU).
- Khó fine-tune, chủ yếu dùng inference hoặc LoRA/adapter-based tuning.

5. Điểm nhấn kỹ thuật

Cả hai mô hình đều sử dụng Grouped Query Attention + MoE → cân bằng giữa hiệu năng và chi phí.
MoE mở rộng trong 120B giúp tăng tính đa dạng, còn 20B thì tập trung vào tính hiệu quả.
Context length khổng lồ (131K tokens) → rất mạnh cho các ứng dụng RAG, summarization, phân tích văn bản dài.

Tóm lại:

GPT OSS 20B là bản nhẹ, phù hợp cho ứng dụng sản phẩm cần tốc độ và tiết kiệm chi phí.
GPT OSS 120B là bản nặng, phục vụ nghiên cứu hoặc ứng dụng cao cấp đòi hỏi reasoning phức tạp và chất lượng đầu ra cao hơn.

1. Đánh giá chung hai mô hình

1.1. Kiến trúc model OSS

2. GPT OSS 20B

3. GPT OSS 120B