Họ Model GPT OSS
1. Đánh giá chung hai mô hình
1.1. Kiến trúc model OSS
So sánh chi tiết GPT OSS 20B và GPT OSS 120B
1. Kích thước & quy mô mô hình
GPT OSS 20B: có 24 layers, tổng tham số khoảng 20 tỷ.
GPT OSS 120B: có 36 layers, quy mô lớn hơn nhiều với tổng tham số 120 tỷ.
Điều này có nghĩa là mô hình 120B có khả năng biểu đạt ngữ nghĩa và học các mẫu ngôn ngữ phức tạp tốt hơn, nhưng yêu cầu tài nguyên tính toán lớn hơn.
2. Kiến trúc chính
Các thành phần giống nhau
Token Embeddings + BPE tokenizer để biến đổi văn bản thành chuỗi vector.
Grouped Query Attention (GQA): tối ưu hóa attention bằng cách giảm số lượng key/value head trong khi vẫn duy trì số lượng query head.
RoPE (Rotary Position Embedding): dùng để mã hóa thông tin vị trí thay cho positional encoding cổ điển.
RMSNorm (Root Mean Square Normalization): thay cho LayerNorm, ổn định huấn luyện với chi phí thấp hơn.
Mixture of Experts (MoE): chỉ kích hoạt một phần nhỏ các experts cho mỗi token → giảm chi phí tính toán so với dense FFN.
Linear projection ở cuối mỗi block.
⚡️ Khác biệt chính
GPT OSS 20B:
MoE có 22 experts (chỉ 4 experts/token được kích hoạt).
Số layer ít hơn (24).
Tương đối nhẹ, phù hợp cho inference tiết kiệm tài nguyên.
GPT OSS 120B:
MoE có 184 experts (cũng 4 experts/token được kích hoạt).
Nhiều layer hơn (36).
Mức độ đa dạng hóa experts cao hơn → khả năng tổng quát tốt hơn.
3. Thông số kỹ thuật
Thuộc tính | GPT OSS 20B | GPT OSS 120B |
---|---|---|
Hidden size | 2880 | 2880 |
Attention Heads | 64 | 64 |
Key/Value heads | 8 | 8 |
Active experts/token | 4 | 4 |
Số experts MoE | 22 | 184 |
Số layers | 24 | 36 |
Context length (YARN) | 131,072 | 131,072 |
Vocab size | 201,088 | 201,088 |
4. Hiệu năng & ứng dụng
GPT OSS 20B
Nhẹ hơn, dễ deploy hơn trên GPU phổ thông hoặc cluster nhỏ.
Phù hợp cho inference tốc độ cao, chi phí thấp.
Tốt cho fine-tuning trong phạm vi hẹp.
GPT OSS 120B
Dùng trong các tác vụ cần reasoning phức tạp, kiến thức tổng quát rộng.
Yêu cầu hạ tầng GPU/TPU mạnh (multi-node, multi-GPU).
Khó fine-tune, chủ yếu dùng inference hoặc LoRA/adapter-based tuning.
5. Điểm nhấn kỹ thuật
Cả hai mô hình đều sử dụng Grouped Query Attention + MoE → cân bằng giữa hiệu năng và chi phí.
MoE mở rộng trong 120B giúp tăng tính đa dạng, còn 20B thì tập trung vào tính hiệu quả.
Context length khổng lồ (131K tokens) → rất mạnh cho các ứng dụng RAG, summarization, phân tích văn bản dài.
Tóm lại:
GPT OSS 20B là bản nhẹ, phù hợp cho ứng dụng sản phẩm cần tốc độ và tiết kiệm chi phí.
GPT OSS 120B là bản nặng, phục vụ nghiên cứu hoặc ứng dụng cao cấp đòi hỏi reasoning phức tạp và chất lượng đầu ra cao hơn.