Avatar

Khóa học CV nâng cao - Vision Language Model

Share

KHÓA HỌC CHUYÊN SÂU: VISION LANGUAGE MODEL (VLM)

Vision Language Model đang trở thành nền tảng cho thế hệ AI mới, nơi mô hình không chỉ hiểu văn bản mà còn có khả năng nhìn, đọc và suy luận trên hình ảnh, tài liệu, biểu đồ và giao diện người dùng.

Trong khóa học này, bạn sẽ được tìm hiểu:

  • Kiến trúc của các VLM hiện đại (GPT-4o, Gemini, Qwen-VL, InternVL, Llama Vision...)

  • Cơ chế kết hợp giữa Vision Encoder và Large Language Model

  • OCR, Document Understanding và Multimodal RAG

  • Fine-tuning và huấn luyện VLM cho bài toán doanh nghiệp

  • Xây dựng AI Agent có khả năng hiểu hình ảnh và tài liệu

  • Triển khai VLM On-Premise và tối ưu chi phí hạ tầng

Khóa học tập trung vào thực hành và các bài toán thực tế như:

  • OCR & Document AI

  • Phân tích biểu đồ và dashboard

  • Xử lý hồ sơ ngân hàng, bảo hiểm

  • Tự động hóa quy trình doanh nghiệp

  • Multimodal AI Agent

Dành cho:

  • AI Engineer

  • NLP Engineer

  • Data Scientist

  • Backend Developer muốn chuyển sang AI

  • Sinh viên và người yêu thích AI ứng dụng

Từ nền tảng đến triển khai thực tế, đây là lộ trình giúp bạn hiểu sâu và xây dựng các hệ thống Vision AI hiện đại cho doanh nghiệp.

Giảng viên: Bá Ngọc - Founder @ ProtonX