List of topics
Giới thiệu Vision Language Model
Kiến trúc của Modern VLM
Nền tảng OCR
Mô hình OCR bằng Transformer
Document OCR
OCR thế hệ mới với VLM
OCR tập trung vào văn bản Tiếng Việt
OCR trong hệ thống Chatbot
Dự án cuối khóa - Xây dựng OCR mã nguồn mở cho Tiếng Việt

Giới thiệu Vision Language Model

Mục tiêu

Hiểu VLM là gì và tại sao OCR đang chuyển dịch sang VLM.

Nội dung

  • Evolution:

    • Computer Vision

    • OCR

    • Multimodal AI

    • VLM

  • Vision Encoder

  • Language Model

  • Multimodal Alignment

  • Contrastive Learning

Mô hình

  • CLIP

  • BLIP-2

Lab

  • Image Retrieval

  • Zero-shot Classification