
Khóa học CV nâng cao - Vision Language Model
KHÓA HỌC CHUYÊN SÂU: VISION LANGUAGE MODEL (VLM)
Vision Language Model đang trở thành nền tảng cho thế hệ AI mới, nơi mô hình không chỉ hiểu văn bản mà còn có khả năng nhìn, đọc và suy luận trên hình ảnh, tài liệu, biểu đồ và giao diện người dùng.
Trong khóa học này, bạn sẽ được tìm hiểu:
Kiến trúc của các VLM hiện đại (GPT-4o, Gemini, Qwen-VL, InternVL, Llama Vision...)
Cơ chế kết hợp giữa Vision Encoder và Large Language Model
OCR, Document Understanding và Multimodal RAG
Fine-tuning và huấn luyện VLM cho bài toán doanh nghiệp
Xây dựng AI Agent có khả năng hiểu hình ảnh và tài liệu
Triển khai VLM On-Premise và tối ưu chi phí hạ tầng
Khóa học tập trung vào thực hành và các bài toán thực tế như:
OCR & Document AI
Phân tích biểu đồ và dashboard
Xử lý hồ sơ ngân hàng, bảo hiểm
Tự động hóa quy trình doanh nghiệp
Multimodal AI Agent
Dành cho:
AI Engineer
NLP Engineer
Data Scientist
Backend Developer muốn chuyển sang AI
Sinh viên và người yêu thích AI ứng dụng
Từ nền tảng đến triển khai thực tế, đây là lộ trình giúp bạn hiểu sâu và xây dựng các hệ thống Vision AI hiện đại cho doanh nghiệp.
Giảng viên: Bá Ngọc - Founder @ ProtonX