Lớp học chuyên lập trình Chatbot

Giới thiệu về RAG sử dụng ReRank + so sánh với RAG Thường

Tại sao phải sử dụng ReRank

Ví dụ về ReRank

Giới thiệu về RAG + Rerank

Lập trình Module Rerank

Thực hành lập trình

Một số model re rank

Tài liệu

Kiến trúc trong hình: RAG + ReRank và sự khác biệt với RAG thườngCụ thể các bước:1. Documents → ChunksTương tự RAG thường: Tài liệu được cắt thành nhiều đoạn nhỏ (chunks).2. Chunks → Embedding → Vector DBDùng embedding model để chuyển văn bản thành vector, lưu vào vector database.3. Query → Embedding → Vector SearchTruy vấn từ người dùng được chuyển thành vector và tìm các chunk phù hợp nhất (ban đầu).4. Ranking Model (ReRank) - Sự khác việtThay vì dùng top-k chunk luôn, một ranking model (ví dụ: BGE Reranker, Cohere Rerank, hoặc Cross-Encoder) sẽ đánh giá lại các chunk theo độ liên quan sâu hơn.Kết quả sau rerank thường chính xác hơn vì xét đến mối quan hệ giữa ngữ nghĩa query và nội dung chunk chặt chẽ hơn.5. System Prompt = Query + Top ContextNhững chunk đã được rerank và chọn lọc kỹ được đưa vào prompt LLM cùng với hệ thống hướng dẫn.6. LLM sinh ra câu trả lờiDựa vào prompt bao gồm query và context đã được rerank, LLM tạo ra câu trả lời.<img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/3e23c600-4d11-11f0-b9a7-27614c6adac9-Screen_Shot_2025_06_19_at_20.25.03.png" width="1030" height="831" isdraggable="true">

RAG có bổ sung ReRank

Giới thiệu về lớp học

Chi tiết về RestFul APISử dụng thành thục các API của ChatGPT<ul><li>GPT 3.5 Turbo</li><li>GPT-4 and GPT-4 Turbo</li><li>GPT-4o</li></ul>Sử dụng thành thục các API AI của Google<ul><li>API Gemini</li></ul>API các mô hình Open Source<ul><li>API LLAMA thông qua Together AI</li></ul>

[Live] Sử dụng API liên quan tới văn bản

4 TODO = 40 điểm<a target="_blank" rel="noopener noreferrer nofollow" href="https://docs.google.com/presentation/d/1lYXAraE_O5bvDZkLd7PQgRUXmqjo7Fh-RcNfhdpRRqY/edit?usp=sharing">https://docs.google.com/presentation/d/1lYXAraE_O5bvDZkLd7PQgRUXmqjo7Fh-RcNfhdpRRqY/edit?usp=sharing</a>

Bài tập 2 - Lập trình LLMs Playground

<ul><li>Lập trình giao diện chatbot nhanh chóng</li><li>Giới thiệu thư viện Streamlit</li></ul>

[Live] Lập trình giao diện chatbot nhanh chóng

<ul><li>Chi tiết kỹ thuật RAG cơ bản<ul><li>Giới thiệu Vector Database</li><li>Các khái niệm trong RAG<ul><li>Khái niệm Embeddings</li><li>Các chỉ số đo lường như Cosine Similarity, Dot Product hay L2 Distance</li></ul></li><li>Quy trình của RAG</li></ul></li></ul><img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/2f330cf0-4a96-11f0-8421-6d5c81eb521d-Screen_Shot_2025_06_16_at_16.41.56.png" width="947" height="916" isdraggable="true">

[Live] RAG và xây dựng hệ thống Chatbot hiện đại

<ul><li>Các kỹ thuật Prompt</li><li>Các chỉ số cài đặt</li><li>Giới thiệu Agent và React Agent</li></ul>

[Live] Các kỹ thuật Prompt và tổng quan Agent

<ul><li>Docker là gì?</li><li>Phân biệt image và container</li><li>Cài đặt Docker</li><li>Xây dựng Docker Image và chạy docker Container</li><li>Docker container</li></ul>

[Bổ trợ] Docker + Cloud

<ul><li>Hướng dẫn Crawl dữ liệu từ trang Web bất kỳ</li><li>Hướng dẫn sử dụng MongoDB</li></ul>

[Bổ trợ thêm] MongoDB + Crawl dữ liệu

Lập trình RAG từ đầu trên các cơ sở dữ liệu vector khác nhau

[Live] Lập trình RAG với các Vector Search khác nhau

<ul><li>ChromaDB</li><li>Qdrant</li><li>MongoDB</li><li>Supabase</li></ul>

Xây dựng RAG với ChromaDB

<ul><li>Cài đặt Qdrant Local</li><li>Cài đặt Qdrant trên Production</li><li>Xây dựng Vector search trên Qdrant</li></ul>

Xây dựng RAG với Qdrant

<ul><li>Cài đặt cơ sở dữ liệu Supabase</li><li>Viết SQL để xây dựng vector search</li></ul>

Xây dựng RAG với Supabase

<ul><li>Tạo Vector Store với OpenAI</li><li>Xây dựng RAG với OpenAI Assistants</li><li>Xây dựng RAG với Google File Search</li></ul>

Xây dựng Vector Database với OpenAI Assistant File Search và Google File Search

Áp dụng các kiến thức đã học để xây dựng Chatbot

[Bài tập giữa khóa] Xây dựng Chatbot bán hoa

<ul><li>Semantic Router</li><li>Reflection</li><li>Hyde Search</li></ul>

[Live] RAG Nâng cao - Semantic Router + Reflection + Hyde Search

<ul><li>Các loại chunking phổ biến<ul><li>Character Splitting</li><li>Recursive Character Text Splitting</li><li>Semantic Splitting</li><li>LLMs Chunking</li><li>Agentic Chunking</li></ul></li></ul>

Chunking và các vấn đề liên quan

<ul><li>Thực hành Langchain</li><li>Xây dựng hệ thống RAG hoàn toàn Open Source</li><li>Các công cụ xây dựng:<ul><li>Ollama để chạy mô hình</li><li>Langchain để xây quy trình truy xuất thông tin</li></ul></li></ul>

[Live] Học Langchain và xây dựng Chatbot dựa vào Langchain

<ul><li>Sử dụng LangGraph xây dựng flow đơn giản</li><li>Hiển thị quá trình với LangGraph Studio</li></ul>

[Live] Lập trình ứng dụng với LangGraph + LangGraph Studio

<img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/2aa65a30-555d-11f0-84e4-0f8a7a754383-Screen_Shot_2025_06_30_at_09.51.41.png" width="1782" height="1492" isdraggable="true">Áp dụng RAG ở các hệ thống lớn đang có sẵn mà chưa cần Vector Search ngay thì chúng ta có thể áp dụng kiến trúc Keyword Search + Rerank.Flow sẽ như sau1. User Input (Query)Người dùng nhập một query (truy vấn) vào hệ thống từ giao diện.2. Keyword SearchQuery được gửi đến Keyword Search engine (ví dụ: Elasticsearch hoặc BM25).Module này thực hiện tìm kiếm theo từ khóa trong Database (cơ sở dữ liệu) để lấy các kết quả liên quan ban đầu.3. Document Retrieval from DatabaseKeyword Search truy xuất một tập các tài liệu ứng viên từ Database.Đây là các kết quả ban đầu, chưa được sắp xếp hoàn hảo theo mức độ liên quan.4. Re-Ranking ModelCác tài liệu được đưa qua một Ranking Model (ví dụ: Cross-Encoder).Mô hình này sử dụng cả query và từng tài liệu để tính lại điểm số và xếp hạng lại dựa trên mức độ phù hợp.5. Prompt ConstructionCác tài liệu xếp hạng cao nhất (top-k) được kết hợp với:- System Prompt- Query- Context (các tài liệu đã truy xuất)Tất cả được cấu trúc lại thành một prompt đưa vào cho Language Model.6. Language Model GenerationPrompt được đưa vào Language Model (ví dụ: GPT).Mô hình tạo ra một response (phản hồi) bằng ngôn ngữ tự nhiên dựa trên query và context.7. Final ResponseResponse cuối cùng được gửi trả về người dùng trong giao diện.

RAG Keywords Search + ReRank

<ul><li>Xây dựng đồ thị tri thức Knowledge graph từ văn bản</li><li>Thực hành RAG sử dụng Cypher Query trên Neo4j</li><li>Xây dựng Embeddings sử dụng Graph Convolution Network</li><li>Các trending về RAG trên đồ thị</li></ul><img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/61cfe610-4a96-11f0-8421-6d5c81eb521d-Screen_Shot_2025_06_16_at_16.43.19.png" width="968" height="802" isdraggable="true">

[Live] Graph RAG - Rag trên đồ thị

Hybrid RAG kết hợp giữa<ul><li>RAG cơ bản</li><li>RAG trên đồ thị</li></ul><img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/c17d2780-4a96-11f0-8421-6d5c81eb521d-Screen_Shot_2025_06_16_at_16.45.07.png" width="906" height="741" isdraggable="true">

Hybrid RAG

<ul><li>Agents là gì?</li><li>LLM Agents</li><li>Đọc nghiên cứu ReAct</li><li>Kỹ thuật Prompt Engineering</li><li>Quy trình Agentic RAG</li></ul><img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/16018f80-4a9c-11f0-b566-71145f379df3-Screen_Shot_2025_06_16_at_17.24.15.png" width="1020" height="825" isdraggable="true">

Agentic RAG

Multimodal RAG cho phép chuyển ảnh + văn bản thành vector. Từ đó ta có thể xây dựng search vector database.<img src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/448ec7d0-686c-11f0-8077-59248e41cdf6-Screen_Shot_2025_07_24_at_15.57.41.png" width="1980" height="1118" isdraggable="true" style="max-width: 100%; height: auto;">

Multimodal RAG

<h2>Các bước đánh giá hệ thống RAG</h2><hr><img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/b905f980-57e1-11f0-84e4-0f8a7a754383-Screenshot_2025_07_03_144533.png" width="1336" height="747" isdraggable="true"><ol><li>Hệ thống retrieval có truy xuất đúng các documents chứa thông tin cần thiết để trả lời query hay không?</li><li>Mô hình rerank có sắp xếp đúng mức độ ưu tiên của các tài liệu liên quan nhất, để đưa bằng chứng tốt nhất lên đầu cho mô hình ngôn ngữ sử dụng không?</li><li>Dựa trên các documents đã được truy xuất, language model có tạo ra response đúng và đủ để trả lời query hay không?</li></ol><h2>Các chỉ số đánh giá RAG</h2><hr>RAG Evaluation Metrics – Tổng hợp toàn diện các chỉ số đánh giá hệ thống RAG(Chia theo: Đánh giá bằng LLM vs Đánh giá tự động)Trong hệ thống RAG (Retrieval-Augmented Generation), việc đánh giá không chỉ dừng lại ở câu trả lời, mà còn phải kiểm tra cả chất lượng truy xuất thông tin. Biểu đồ này tóm tắt các nhóm chỉ số đánh giá phổ biến nhất hiện nay:1. LLM-Judged Metrics (Dùng LLM để chấm điểm)Đánh giá độ phù hợp và tính đúng đắn của câu trả lời:Context Relevance / Precision / Recall / Entities Recall: Truy xuất có đúng tài liệu không?Response Relevancy: Câu trả lời có liên quan tới câu hỏi?Groundedness: Câu trả lời có dựa đúng vào tài liệu?Noise Sensitivity: Câu trả lời có bị nhiễu khi tài liệu không liên quan?2. Automatic Metrics (Tự động, không cần LLM)2.1 Semantic (dựa trên vector embeddings):Precision / RecallSimilarity giữa câu hỏi và tài liệu2.2 Rule-based (dựa trên matching rules):BLEU, ROUGE: Đo mức độ trùng khớp n-gram với câu trả lời mẫuExact Match, String Presence: So sánh từ khoá, trùng chuỗiHit@K, Recall@K: Truy xuất đúng tài liệu nằm trong Top-KnDCG@K, MRR, MAP: Đánh giá thứ tự sắp xếp tài liệuGhi chú thêm:LLM Answer: Đánh giá chất lượng câu trả lời cuối cùng của mô hìnhRetrieval: Đánh giá giai đoạn truy xuất tài liệuRerank: Đánh giá khả năng xếp hạng lại các tài liệu đã truy xuất<img style="max-width: 100%; height: auto;" src="https://storage.googleapis.com/mle-courses-prod/users/61b6fa1ba83a7e37c8309756/private-files/f1e01460-5706-11f0-84e4-0f8a7a754383-Screen_Shot_2025_07_02_at_12.31.07.png" width="2140" height="1602" isdraggable="true">Các công cụ đánh giá<ul><li>Ragas</li><li>Google Cloud</li></ul>

Đánh giá chất lượng hệ thống RAG

<ul><li>Tự đào tạo mô hình GPT</li><li>Tự đào tạo mô hình LLAMA</li></ul>

Thực hành đào tạo mô hình riêng của bạn

[Nâng cao] Xử lý dữ liệu bảng

<ul><li>Sử dụng GPT OSS để xây dựng Agent</li><li>Đánh giá chất lượng hệ thống RAG + Agent</li></ul>

RAG có bổ sung ReRank

1. Giới thiệu về RAG + Rerank

1.1. Giới thiệu về RAG sử dụng ReRank + so sánh với RAG Thường

1.2. Tại sao phải sử dụng ReRank

1.3. Ví dụ về ReRank

2. Thực hành lập trình

2.1. Lập trình Module Rerank

3. Tài liệu

3.1. Một số model re rank