[Nâng cao] Xử lý dữ liệu bảng
1. Tổng quan xử lý dữ liệu bảng
1.1. Các công cụ chuyển pdf/ảnh về văn bản
📋 Bảng xếp hạng công cụ trích xuất dữ liệu từ pdf
Công cụ | Category | OCR | Language Support | Best Use Case | End-to-End Structured Output | License Type |
---|---|---|---|---|---|---|
Landing AI OCR | OCR | ✅ | ✅ Vietnamese supported | Rapid deployment for document table extraction | ✅ Full | Commercial / No-code |
Mistral AI OCR | OCR + Table | ✅ | ✅ Vietnamese supported | Table OCR + layout understanding for RAG | ✅ Full | Commercial (API) |
PaddleOCR | OCR | ✅ | ✅ Vietnamese supported | Multilingual OCR for scanned tables | ❌ | Open Source |
Docling | OCR + Table | ✅ | ✅ Vietnamese supported | OCR + simple table detection | ✅ Full | Open Source |
Unstructured (Open Source Version) | Document Preprocessing | ✅ | ⚠️ Basic Vietnamese support | Preparing documents for RAG | ⚠️ Partial | Open Source |
PDFPlumber | Table Extraction (Text-based) | ❌ | ⚠️ Basic Vietnamese support | Extracting tables from native text-based PDFs | ⚠️ Partial | Open Source |
2. Thực hành lập trình Landing AI
2.1. Kết quả Landing AI Agentic Document Extraction
Văn bản trước Document Extraction:
Nội dung được Extraction:
Nhận xét:
Điểm mạnh
Nhận diện tương đối tốt trên Tiếng Việt, không bị thiếu dấu
Điểm yếu
Xuất hiện sự ảo giác khi sinh thêm văn bản ở các cột
Ví dụ cột số 6 là Số vốn tạm ứng theo chế độ chưa thu hồi của các năm trước nộp điều chỉnh giảm trong năm quyết toán. Tuy nhiên kết quả lại là Trong đó chính quyền trong năm quyết toán
2.2. Thực hành Trích xuất văn bản từ Landing AI
Lấy API Key: https://docs.landing.ai/ade/agentic-api-key
Thực hành Landing AI: https://colab.research.google.com/drive/1AmdPkSwoiHOiiuNhwq_bRzx4lFkc8iiz?usp=sharing
3. Xử lý dữ liệu với PaddleOCR
3.1. Kết quả PaddleOCR trên Tiếng Việt
Văn bản trước OCR:
Văn bản sau khi OCR:
Nhận xét:
Điểm mạnh:
Nhận diện tốt các khu vực có văn bản
Điểm yếu:
OCR còn sai rất nhiều trên Tiếng Việt
3.2. Thực hành OCR với PaddleOCR
4. Thực hành Mistral AI
4.1. Kết quả của Mistral AI
Văn bản trước OCR:
Kết quả:
| Số TT | Nội dung | Mã dự án | Loại kể vốn đã giải ngân từ khôi công đến bồi nắm ngăn sách trước năm quyết toán | Số vốn tạm ứng theo chế độ chưa thu hồi của các năm trước nộp điều chỉnh giảm trong năm quyết toán | Thanh toán khối lượng hoàn thành trong năm quyết toán | Kế hoạch và giải ngân vốn kể hoạch của năm trước được kéo dài thời gian thực hiện và giải ngân sang năm quyết toán | Kế hoạch và giải ngân vốn kể hoạch năm quyết toán | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) | Tổng số vốn kể hoạch toàn khối lượng hoàn thành được tạm ứng năm qua năm quyết toán (nếu có) ..
Nhận xét:
Điểm mạnh:
Mistral AI làm tốt trên một số tài liệu ngắn
Điểm yếu
Nhưng khi gặp tài liệu phức tạp mô hình xuất hiện việc sinh văn bản lặp lại
4.2. Thực hành Mistral AI
5. Xử lý dữ liệu với Docling
5.1. Kết quả của Docling
Văn bản trước OCR:
Kết quả:
| | do | |
|----|------|----------|
| o | | cong 8en |
ngày nm diu)
Nhận xét: Rất kém trên Tiếng Việt
5.2. Thực hành Docling
6. Xử lý dữ liệu với Unstructured IO
6.1. Kết quả của Unstructured IO
'Sao Y; Sé Van héa - Thé thao, tp Ha N6i1 6/12/2023 08:45:48 ao'
6.2. Thực hành Unstructured IO
7. Trích xuất văn bản với LLMs
7.1. Dùng LLAMA trích xuất văn bản từ pdf/ảnh
7.2. Sử dụng Vision Language Model để trích xuất nội dung bảng
Sử dụng Vision Language Model để trích xuất dòng và cột
Các model tiềm năng
Qwen/Qwen2-VL-72B-Instruct
Vintern-1B-v3.5
Notebook chi tiết: https://colab.research.google.com/drive/1ur8bxAObI6iEBLA4dc6HXAyWlW3cxGHn?usp=sharing