RAG có bổ sung ReRank
Kiến trúc trong hình: RAG + ReRank và sự khác biệt với RAG thường
Cụ thể các bước:
1. Documents → Chunks
Tương tự RAG thường: Tài liệu được cắt thành nhiều đoạn nhỏ (chunks).
2. Chunks → Embedding → Vector DB
Dùng embedding model để chuyển văn bản thành vector, lưu vào vector database.
3. Query → Embedding → Vector Search
Truy vấn từ người dùng được chuyển thành vector và tìm các chunk phù hợp nhất (ban đầu).
4. Ranking Model (ReRank) - Sự khác việt
Thay vì dùng top-k chunk luôn, một ranking model (ví dụ: BGE Reranker, Cohere Rerank, hoặc Cross-Encoder) sẽ đánh giá lại các chunk theo độ liên quan sâu hơn.
Kết quả sau rerank thường chính xác hơn vì xét đến mối quan hệ giữa ngữ nghĩa query và nội dung chunk chặt chẽ hơn.
5. System Prompt = Query + Top Context
Những chunk đã được rerank và chọn lọc kỹ được đưa vào prompt LLM cùng với hệ thống hướng dẫn.
6. LLM sinh ra câu trả lời
Dựa vào prompt bao gồm query và context đã được rerank, LLM tạo ra câu trả lời.