List of topics
Tổng quan xây dựng mô hình ngôn ngữ lớn + Xây dựng LLMs đầu tiên
Ôn tập Tokenizer + Thực hành HuggingFace
Ôn tập học máy + học sâu và chi tiết mô hình ngôn ngữ
Ôn tập Transformer
[Xem thêm] Mô hình Bert
Demo Day Pretrained + Finetune LLMs
Họ model GPT - Fintune LLMs cho đa nhiệm bài toán
Chuẩn bị dữ liệu pre-trained cho mô hình ngôn ngữ
Kỹ thuật training ưu tiên - RLHF
Kỹ thuật training ưu tiên - DPO
Đánh giá chất lượng mô hình + Các kỹ thuật finetune tham số tối ưu - PEFT + Chữa bài tập
Chữa bài tập + Chuyên lượng tử hóa mô hình + Định dạng cho mô hình ngôn ngữ
Họ model LLAMA
Họ Model GPT OSS
Học model Kimi
Mô hình hóa đào tạo chuỗi tới chuỗi (Text - to - text models)
Họ mô hình DeepSeek
Multimodal
Dự án cuối khóa - 3 buổi
Agents và các bài toán liên quan
Các kỹ thuật Deployment mô hình ngôn ngữ

Họ Model GPT OSS

No content

1. Đánh giá chung hai mô hình

1.1. Kiến trúc model OSS

So sánh chi tiết GPT OSS 20B và GPT OSS 120B

1. Kích thước & quy mô mô hình

  • GPT OSS 20B: có 24 layers, tổng tham số khoảng 20 tỷ.

  • GPT OSS 120B: có 36 layers, quy mô lớn hơn nhiều với tổng tham số 120 tỷ.

Điều này có nghĩa là mô hình 120B có khả năng biểu đạt ngữ nghĩa và học các mẫu ngôn ngữ phức tạp tốt hơn, nhưng yêu cầu tài nguyên tính toán lớn hơn.


2. Kiến trúc chính

Các thành phần giống nhau

  • Token Embeddings + BPE tokenizer để biến đổi văn bản thành chuỗi vector.

  • Grouped Query Attention (GQA): tối ưu hóa attention bằng cách giảm số lượng key/value head trong khi vẫn duy trì số lượng query head.

  • RoPE (Rotary Position Embedding): dùng để mã hóa thông tin vị trí thay cho positional encoding cổ điển.

  • RMSNorm (Root Mean Square Normalization): thay cho LayerNorm, ổn định huấn luyện với chi phí thấp hơn.

  • Mixture of Experts (MoE): chỉ kích hoạt một phần nhỏ các experts cho mỗi token → giảm chi phí tính toán so với dense FFN.

  • Linear projection ở cuối mỗi block.

⚡️ Khác biệt chính

  • GPT OSS 20B:

    • MoE có 22 experts (chỉ 4 experts/token được kích hoạt).

    • Số layer ít hơn (24).

    • Tương đối nhẹ, phù hợp cho inference tiết kiệm tài nguyên.

  • GPT OSS 120B:

    • MoE có 184 experts (cũng 4 experts/token được kích hoạt).

    • Nhiều layer hơn (36).

    • Mức độ đa dạng hóa experts cao hơn → khả năng tổng quát tốt hơn.


3. Thông số kỹ thuật

Thuộc tính

GPT OSS 20B

GPT OSS 120B

Hidden size

2880

2880

Attention Heads

64

64

Key/Value heads

8

8

Active experts/token

4

4

Số experts MoE

22

184

Số layers

24

36

Context length (YARN)

131,072

131,072

Vocab size

201,088

201,088


4. Hiệu năng & ứng dụng

  • GPT OSS 20B

    • Nhẹ hơn, dễ deploy hơn trên GPU phổ thông hoặc cluster nhỏ.

    • Phù hợp cho inference tốc độ cao, chi phí thấp.

    • Tốt cho fine-tuning trong phạm vi hẹp.

  • GPT OSS 120B

    • Dùng trong các tác vụ cần reasoning phức tạp, kiến thức tổng quát rộng.

    • Yêu cầu hạ tầng GPU/TPU mạnh (multi-node, multi-GPU).

    • Khó fine-tune, chủ yếu dùng inference hoặc LoRA/adapter-based tuning.


5. Điểm nhấn kỹ thuật

  • Cả hai mô hình đều sử dụng Grouped Query Attention + MoE → cân bằng giữa hiệu năng và chi phí.

  • MoE mở rộng trong 120B giúp tăng tính đa dạng, còn 20B thì tập trung vào tính hiệu quả.

  • Context length khổng lồ (131K tokens) → rất mạnh cho các ứng dụng RAG, summarization, phân tích văn bản dài.


Tóm lại:

  • GPT OSS 20B là bản nhẹ, phù hợp cho ứng dụng sản phẩm cần tốc độ và tiết kiệm chi phí.

  • GPT OSS 120B là bản nặng, phục vụ nghiên cứu hoặc ứng dụng cao cấp đòi hỏi reasoning phức tạp và chất lượng đầu ra cao hơn.

1. Đánh giá chung hai mô hình
1.1. Kiến trúc model OSS
2. GPT OSS 20B
3. GPT OSS 120B