List of topics
Giới thiệu về lớp học
[Live] Sử dụng API liên quan tới văn bản
[Live] Lập trình giao diện chatbot nhanh chóng
[Live] RAG và xây dựng hệ thống Chatbot hiện đại
[Bổ trợ] Docker + Cloud
[Bổ trợ thêm] MongoDB + Crawl dữ liệu
[Live] Lập trình RAG với các Vector Search khác nhau
Xây dựng RAG với ChromaDB
Xây dựng RAG với Qdrant
Xây dựng RAG với Supabase
Xây dựng Vector Database với OpenAI Assistant File Search
[Bài tập giữa khóa] Xây dựng Chatbot bán hoa
[Live] RAG Nâng cao - Semantic Router + Reflection + Hyde Search
Chunking và các vấn đề liên quan
[Live] Học Langchain và xây dựng Chatbot dựa vào Langchain
[Live] Lập trình ứng dụng với LangGraph + LangGraph Studio
RAG có bổ sung ReRank
RAG Keywords Search + ReRank
[Live] Graph RAG - Rag trên đồ thị
Hybrid RAG
Agentic RAG
Multimodal RAG
Đánh giá chất lượng hệ thống RAG
Thực hành đào tạo mô hình riêng của bạn
[Nâng cao] Xử lý dữ liệu bảng
Workshop thực hành mô hình Kimi, GPT OSS 20B/120B

[Nâng cao] Xử lý dữ liệu bảng

No content

1. Tổng quan xử lý dữ liệu bảng

1.1. Các công cụ chuyển pdf/ảnh về văn bản

📋 Bảng xếp hạng công cụ trích xuất dữ liệu từ pdf

Công cụ

Category

OCR

Language Support

Best Use Case

End-to-End Structured Output

License Type

Landing AI OCR

OCR

✅ Vietnamese supported

Rapid deployment for document table extraction

✅ Full

Commercial / No-code

Mistral AI OCR

OCR + Table

✅ Vietnamese supported

Table OCR + layout understanding for RAG

✅ Full

Commercial (API)

PaddleOCR

OCR

✅ Vietnamese supported

Multilingual OCR for scanned tables

Open Source

Docling

OCR + Table

✅ Vietnamese supported

OCR + simple table detection

✅ Full

Open Source

Unstructured (Open Source Version)

Document Preprocessing

⚠️ Basic Vietnamese support

Preparing documents for RAG

⚠️ Partial

Open Source

PDFPlumber

Table Extraction (Text-based)

⚠️ Basic Vietnamese support

Extracting tables from native text-based PDFs

⚠️ Partial

Open Source

2. Thực hành lập trình Landing AI

2.1. Kết quả Landing AI Agentic Document Extraction

Văn bản trước Document Extraction:

Nội dung được Extraction:

Nhận xét:

  • Điểm mạnh

    • Nhận diện tương đối tốt trên Tiếng Việt, không bị thiếu dấu

  • Điểm yếu

    • Xuất hiện sự ảo giác khi sinh thêm văn bản ở các cột

      • Ví dụ cột số 6 là Số vốn tạm ứng theo chế độ chưa thu hồi của các năm trước nộp điều chỉnh giảm trong năm quyết toán. Tuy nhiên kết quả lại là Trong đó chính quyền trong năm quyết toán

2.2. Thực hành Trích xuất văn bản từ Landing AI

3. Xử lý dữ liệu với PaddleOCR

3.1. Kết quả PaddleOCR trên Tiếng Việt

Văn bản trước OCR:

Văn bản sau khi OCR:

Nhận xét:

Điểm mạnh:

  • Nhận diện tốt các khu vực có văn bản

Điểm yếu:

  • OCR còn sai rất nhiều trên Tiếng Việt

4. Thực hành Mistral AI

4.1. Kết quả của Mistral AI

Văn bản trước OCR:

Kết quả:

| Số TT | Nội dung | Mã dự án | Loại kể vốn đã giải ngân từ khôi công đến bồi nắm ngăn sách trước năm quyết toán | Số vốn tạm ứng theo chế độ chưa thu hồi của các năm trước nộp điều chỉnh giảm trong năm quyết toán | Thanh toán khối lượng hoàn thành trong năm quyết toán | Kế hoạch và giải ngân vốn kể hoạch của năm trước được kéo dài thời gian thực hiện và giải ngân sang năm quyết toán | Kế hoạch và giải ngân vốn kể hoạch năm quyết toán | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) ..

Nhận xét:

Điểm mạnh:

  • Mistral AI làm tốt trên một số tài liệu ngắn

Điểm yếu

  • Nhưng khi gặp tài liệu phức tạp mô hình xuất hiện việc sinh văn bản lặp lại

5. Xử lý dữ liệu với Docling

5.1. Kết quả của Docling

Văn bản trước OCR:

Kết quả:

| | do | |

|----|------|----------|

| o | | cong 8en |

ngày nm diu)

Nhận xét: Rất kém trên Tiếng Việt

6. Xử lý dữ liệu với Unstructured IO

6.1. Kết quả của Unstructured IO

'Sao Y; Sé Van héa - Thé thao, tp Ha N6i1 6/12/2023 08:45:48 ao'

7. Trích xuất văn bản với LLMs

7.1. Dùng LLAMA trích xuất văn bản từ pdf/ảnh

7.2. Sử dụng Vision Language Model để trích xuất nội dung bảng

Sử dụng Vision Language Model để trích xuất dòng và cột

Các model tiềm năng

  • Qwen/Qwen2-VL-72B-Instruct

  • Vintern-1B-v3.5

Notebook chi tiết: https://colab.research.google.com/drive/1ur8bxAObI6iEBLA4dc6HXAyWlW3cxGHn?usp=sharing

1. Tổng quan xử lý dữ liệu bảng
1.1. Các công cụ chuyển pdf/ảnh về văn bản
2. Thực hành lập trình Landing AI
2.1. Kết quả Landing AI Agentic Document Extraction
2.2. Thực hành Trích xuất văn bản từ Landing AI
3. Xử lý dữ liệu với PaddleOCR
3.1. Kết quả PaddleOCR trên Tiếng Việt
3.2. Thực hành OCR với PaddleOCR
4. Thực hành Mistral AI
4.1. Kết quả của Mistral AI
4.2. Thực hành Mistral AI
5. Xử lý dữ liệu với Docling
5.1. Kết quả của Docling
5.2. Thực hành Docling
6. Xử lý dữ liệu với Unstructured IO
6.1. Kết quả của Unstructured IO
6.2. Thực hành Unstructured IO
7. Trích xuất văn bản với LLMs
7.1. Dùng LLAMA trích xuất văn bản từ pdf/ảnh
7.2. Sử dụng Vision Language Model để trích xuất nội dung bảng