Avatar
Ba
Khám phá các ý tưởng của LLAMA 3.1 450 tỉ tham số

Khám phá các ý tưởng của LLAMA 3.1 450 tỉ tham số

Một số note quan trọng sau 25 trang đầu tiên như sau:


LLAMA 3 vẫn dùng kiến trúc Transformer Decoder.


Đội ngũ FaceBook có train một số adapter cho ảnh, âm thanh để học multimodal nhưng trong lần này thì chưa ra mắt.




Scaling laws là chủ đề chúng ta sẽ học được nhiều khi training model tức là mình dự đoán sẽ cần bao nhiêu tokens hay compute để train cho đến một mục tiêu hiệu năng nào đó. Dựa vào luật này thì team FB quyết định dùng 4.8 × 10^25 FLOPs để train trên 16.55 tỉ tokens

Hạ tầng đào tạo: 16 ngàn H100 GPUs, lưu trữ 240 PB, 7500 SSDs, băng thông 2TB/s






Song song để train phân tán bao gồm song song Tensor, song song pipeline, song song ngữ cảnh và rõ ràng cần song song data.



78% vấn đề train lỗi là đến từ phần cứng.




Training: cosine learning rate với tốc độ học lớn nhất là 8 x 10^-5, warm up với 8000 bước. Batch size lúc đầu là 4 triệu tokens và chuỗi dài 4096 sau đó gấp đôi lên sau khi đã train được 225 triệu tokens và tiếp tục gấp đôi. Họ tìm ra cách này rất ổn định.



Tăng cường dữ liệu: Họ sample dữ liệu Toán để tăng hiệu năng.

Training trên Context dài: Đến đoạn cuối họ mới bắt đầu train trên ngữ cảnh (context) dài là 128K tokens. Họ lý giải lúc đầu không làm như vậy vì chi phí train Attention sẽ rất lớn - hàm mũ.


 


Với model 405B, thì có 6 giai đoạn thì giai đoạn cuối cùng mới train ở trên context 128K

Model có fintune lại dựa vào DPO - Direct Preference Optimization: Your Language Model is Secretly a Reward Model thay vì reinforcement learning from human feedback - RLHF phức tạp như GPT 3.5.