List of topics
Giới thiệu về lớp học
[Live] Sử dụng API liên quan tới văn bản
[Live] Lập trình giao diện chatbot nhanh chóng
[Live] RAG và xây dựng hệ thống Chatbot hiện đại
[Bổ trợ] Docker + Cloud
[Bổ trợ thêm] MongoDB + Crawl dữ liệu
[Live] Lập trình RAG với các Vector Search khác nhau
Xây dựng RAG với ChromaDB
Xây dựng RAG với Qdrant
Xây dựng RAG với Supabase
[Bài tập giữa khóa] Xây dựng Chatbot bán hoa
[Live] RAG Nâng cao - Semantic Router + Reflection + Hyde Search
Chunking và các vấn đề liên quan
[Live] Học Langchain và xây dựng Chatbot dựa vào Langchain
[Live] Lập trình ứng dụng với LangGraph + LangGraph Studio
RAG có bổ sung ReRank
RAG Keywords Search + ReRank
[Live] Graph RAG - Rag trên đồ thị
Hybrid RAG
Agentic RAG
Multimodal RAG
Đánh giá chất lượng hệ thống RAG
Thực hành đào tạo mô hình riêng của bạn
[Nâng cao] Xử lý dữ liệu bảng

Đánh giá chất lượng hệ thống RAG

Các bước đánh giá hệ thống RAG


  1. Hệ thống retrieval có truy xuất đúng các documents chứa thông tin cần thiết để trả lời query hay không?

  2. Mô hình rerank có sắp xếp đúng mức độ ưu tiên của các tài liệu liên quan nhất, để đưa bằng chứng tốt nhất lên đầu cho mô hình ngôn ngữ sử dụng không?

  3. Dựa trên các documents đã được truy xuất, language model có tạo ra response đúng và đủ để trả lời query hay không?

Các chỉ số đánh giá RAG


RAG Evaluation Metrics – Tổng hợp toàn diện các chỉ số đánh giá hệ thống RAG

(Chia theo: Đánh giá bằng LLM vs Đánh giá tự động)

Trong hệ thống RAG (Retrieval-Augmented Generation), việc đánh giá không chỉ dừng lại ở câu trả lời, mà còn phải kiểm tra cả chất lượng truy xuất thông tin. Biểu đồ này tóm tắt các nhóm chỉ số đánh giá phổ biến nhất hiện nay:

1. LLM-Judged Metrics (Dùng LLM để chấm điểm)

Đánh giá độ phù hợp và tính đúng đắn của câu trả lời:

Context Relevance / Precision / Recall / Entities Recall: Truy xuất có đúng tài liệu không?

Response Relevancy: Câu trả lời có liên quan tới câu hỏi?

Groundedness: Câu trả lời có dựa đúng vào tài liệu?

Noise Sensitivity: Câu trả lời có bị nhiễu khi tài liệu không liên quan?

2. Automatic Metrics (Tự động, không cần LLM)

2.1 Semantic (dựa trên vector embeddings):

Precision / Recall

Similarity giữa câu hỏi và tài liệu

2.2 Rule-based (dựa trên matching rules):

BLEU, ROUGE: Đo mức độ trùng khớp n-gram với câu trả lời mẫu

Exact Match, String Presence: So sánh từ khoá, trùng chuỗi

Hit@K, Recall@K: Truy xuất đúng tài liệu nằm trong Top-K

nDCG@K, MRR, MAP: Đánh giá thứ tự sắp xếp tài liệu

Ghi chú thêm:

LLM Answer: Đánh giá chất lượng câu trả lời cuối cùng của mô hình

Retrieval: Đánh giá giai đoạn truy xuất tài liệu

Rerank: Đánh giá khả năng xếp hạng lại các tài liệu đã truy xuất

Các công cụ đánh giá

  • Ragas

  • Google Cloud

1. Tổng quan đánh giá hệ thống RAG

1.1. Các bước đánh giá hệ thống RAGs

1.2. Các khái niệm chính

2. Công cụ đánh giá hệ thống RAG

2.1. Công cụ đánh giá hệ thống RAG

2.2. Tạo dự án trên Google Cloud và Service Account

2.4. Sử dụng gemini API

Sử dụng Gemini

2.5. Sử dụng thư viện RAGAS

3. Đánh giá phần Retrieval

3.1. Tổng quan các chỉ số đánh giá phần Retrieval

3.2. Chỉ số Hit@K (Rule-based)

3.3. Thực hành chỉ số Hit@K

Click to view more

3.4. Chỉ số Recall@K (Rule-based)

3.5. Thực hành chỉ số Recall@K

Click to view more

3.6. Chỉ số Mean Average Precision (MAP) (Rule-based)

3.7. Chỉ số Mean Reciprocal Rank (MRR) (Rule-based)

3.8. Chỉ số Context Precision (LLM-judged)

3.9. Chỉ số Context Recall (LLM-judged)

3.10. Chỉ số Context Entities Recall (LLM-judged)

3.11. Chỉ số Context Relevance

Click to view more

3.12. Ví dụ về đánh giá hệ thống Retrieval

Đánh giá hệ thống Retrieval


Bộ dataset: Hoanghamobile

Sử dụng truy xuất để xem hệ thống Retrieval có thể trả về đúng documents hay không.

Cài đặt


  • 320 truy vấn từ dữ liệu đã crawl trước.

Một số query mẫu:

Query

_id của document (ground truth)

combined_information (context)

Dung lượng RAM của nokia 5310 4g là bao nhiêu?

666baeb99793e149fe7394da

Product Title: điện thoại nokia 5310 - chính hãng\n\nProduct Specifications:\nCông nghệ màn hình:\nTFT LCD<br> Độ phân giải:\nQVGA (240 x 320 Pixels), VGA (480 x 640 pixels), Không<br> Kích thước màn hình:\n2.4 inch<br> Bộ nhớ trong:\nKhông<br> RAM:\n8MB<br> Mạng di động:\nHỗ trợ 2G (không kết nối internet)<br> Số khe SIM:\n2 SIM thường<br> Dung lượng pin:\n1200 mAh<br>\n\nPromotions:\n\n\nPrice:\n\n\nColors:\n

Và nhiều mẫu tương tự

  • Độ đo: Cosine Similarity

Kết quả


Hit@K: Thể hiện trong K documents trả về thì document với _id tương ứng với query bên trên (Xem bảng trên) cần phải trả về có xuất hiện trong K documents này không?

  • Ví dụ nếu cài đặt K=4, nếu trong 4 documents trả về có tồn tại _id yêu cầu (tương ứng với query) thì được tính là 1.

  • Thực hiện 150 queries, 100 lần có điểm 1 thì Hit@4 = 100 / 150

Embedding

Link

Embedding Size

Model Size

Hit@1

Hit@4

openai text-embedding-3-small

1536

NA

84.38%

99.69%

openai text-embedding-3-large

3072

NA

85.62%

100%

BAAI/bge-m3

https://huggingface.co/BAAI/bge-m3

1024

2.27 GB

86.88%

100%

Alibaba-NLP/gte-multilingual-base

https://huggingface.co/Alibaba-NLP/gte-multilingual-base

768

611 MB

84.38%

98.44%

Qwen/Qwen3-Embedding-0.6B

https://huggingface.co/Qwen/Qwen3-Embedding-0.6B

1024

1.19 GB

84.69%

99.69%

Alibaba-NLP/gte-Qwen2-1.5B-instruct

https://huggingface.co/Alibaba-NLP/gte-Qwen2-1.5B-instruct

1536

~7.1 GB

86.25%

100%

dangvantuan/vietnamese-document-embedding

https://huggingface.co/dangvantuan/vietnamese-document-embedding

768

1.22G

84.69%

98.75%

gemini text-embedding-004

NA

81.25%

99.69%

intfloat/multilingual-e5-large

https://huggingface.co/intfloat/multilingual-e5-large

2.24 GB

86.25%

99.69%

intfloat/multilingual-e5-base

https://huggingface.co/intfloat/multilingual-e5-base

1.11 GB

76.88%

95.00%

keepitreal/vietnamese-sbert

https://huggingface.co/keepitreal/vietnamese-sbert

768

540 MB

11.88%

25.00%

nampham1106/bkcare-embedding

https://huggingface.co/nampham1106/bkcare-embedding

10.62%

21.25%

VoVanPhuc/sup-SimCSE-VietNamese-phobert-base

https://huggingface.co/VoVanPhuc/sup-SimCSE-VietNamese-phobert-base

5.00%

13.75%

3.13. Hướng dẫn chuẩn bị bộ dataset đánh giá

Cách chuẩn bị dataset đánh giá

3.14. Thực hành sinh bộ dữ liệu Hit@K

3.15. Notebook thực hành sinh dữ liệu Hit@K

4. Đánh giá phần Rerank

4.1. Tổng quan các chỉ số đánh giá phần ReRank

4.2. Chỉ số Mean Average Precision (MAP) (Rule-based)

4.3. Chỉ số Mean Reciprocal Rank (MRR) (Rule-based)

4.4. Chỉ số Normalized Discounted Cumulative Gain at rank K (nDCG@K) (Rule-based)

4.5. Benchmarks Rerank trên Tiếng Việt

4.6. Cách thiết kế dữ liệu đánh giá phần ReRank

Dữ liệu Rerank sẽ trông như sau

  • Cùng một query sẽ có 3 đoạn văn bản với rank tương ứng

query_id

query

passage

Rank

da47bf95-5356-4916-98e8-ebb222baa648

iPhone 15 Plus 256GB có những tùy chọn màu sắc nào?

Tên: điện thoại iphone 15 plus (256gb) - chính hãng vn/a, Giá: 24,390,000 ₫, Ưu đãi: - KM 1- Giảm thêm 100.000đ khi khách hàng thanh toán bằng hình thức chuyển khoản ngân hàng khi mua iPhone 15 Series.- KM 2- Ưu đãi trả góp 0% qua thẻ tín dụng, Thông số: Công nghệ màn hình: Màn hình Super Retina XDR, Tấm nền OLED, Dynamic Island, Màn hình HDR, Tỷ lệ tương phản 2.000.000:1 , Màn hình có dải màu rộng (P3), Haptic Touch Độ phân giải: 1290 x 2796, Chính: 48MP, khẩu độ ƒ/1.6, Ultra Wide: 12MP, khẩu độ ƒ/2.4, Camera trước TrueDepth 12MP, khẩu độ ƒ/1.9 Kích thước màn hình: 6.7 inch Hệ điều hành: iOS 17 Vi xử lý: A16 Bionic Bộ nhớ trong: 256GB RAM: 6GB Mạng di động: 2G, 3G, 4G, 5G Số khe SIM: SIM kép (nano-SIM và eSIM), Hỗ trợ hai eSIM, Màu sắc: Hồng, Xanh Lá, Màu Đen, Màu Vàng, Xanh Dương

1

da47bf95-5356-4916-98e8-ebb222baa648

iPhone 15 Plus 256GB có những tùy chọn màu sắc nào?

Tên: điện thoại iphone 15 (256gb) - chính hãng vn/a, Giá: 22,290,000 ₫, Ưu đãi: - KM 1- Giảm thêm 100.000đ khi khách hàng thanh toán bằng hình thức chuyển khoản ngân hàng khi mua iPhone 15 Series.- KM 2- Ưu đãi trả góp 0% qua thẻ tín dụng, Thông số: Công nghệ màn hình: Màn hình Super Retina XDR, Tấm nền OLED, Dynamic Island, Màn hình HDR, Tỷ lệ tương phản 2.000.000:1 , Màn hình có dải màu rộng (P3), Haptic Touch Độ phân giải: 1179 x 2556, Chính: 48MP, khẩu độ ƒ/1.6, Ultra Wide: 12MP, khẩu độ ƒ/2.4, Camera trước TrueDepth 12MP, khẩu độ ƒ/1.9 Kích thước màn hình: 6.1 inch Hệ điều hành: iOS 17 Vi xử lý: A16 Bionic Bộ nhớ trong: 256GB RAM: 6GB Mạng di động: 2G, 3G, 4G, 5G Số khe SIM: SIM kép (nano-SIM và eSIM), Hỗ trợ hai eSIM, Màu sắc: Xanh Dương, Màu Vàng, Màu Đen, Xanh Lá, Hồng

2

da47bf95-5356-4916-98e8-ebb222baa648

iPhone 15 Plus 256GB có những tùy chọn màu sắc nào?

Tên: điện thoại iphone 15 (512gb) - chính hãng vn/a, Giá: 27,990,000 ₫, Ưu đãi: - KM 1- Giảm thêm 100.000đ khi khách hàng thanh toán bằng hình thức chuyển khoản ngân hàng khi mua iPhone 15 Series.- KM 2- Ưu đãi trả góp 0% qua thẻ tín dụng, Thông số: Công nghệ màn hình: Màn hình Super Retina XDR, Tấm nền OLED, Dynamic Island, Màn hình HDR, Tỷ lệ tương phản 2.000.000:1 , Màn hình có dải màu rộng (P3), Haptic Touch Độ phân giải: 1179 x 2556, Chính: 48MP, khẩu độ ƒ/1.6, Ultra Wide: 12MP, khẩu độ ƒ/2.4, Camera trước TrueDepth 12MP, khẩu độ ƒ/1.9 Kích thước màn hình: 6.1 inch Hệ điều hành: iOS 17 Vi xử lý: A16 Bionic Bộ nhớ trong: 512GB RAM: 6GB Mạng di động: 2G, 3G, 4G, 5G Số khe SIM: SIM kép (nano-SIM và eSIM), Hỗ trợ hai eSIM, Màu sắc: Xanh Lá, Màu Vàng, Màu Đen, Hồng, Xanh Dương

3

5. Đánh giá phần LLMs trả lời

5.1. Tổng quan chung về đánh giá câu trả lời của mô hình ngôn ngữ (LLM Answer)

5.2. Bảng so sánh các chỉ số với nhau

5.3. Chỉ số Exact Match

5.4. Chỉ số String Presence

5.5. Khái niệm Grams

5.6. Biểu diễn này là thể hiện?

Click to view more

5.7. Precision và Recall. Ý nghĩa

5.8. Chỉ số ROUGE

Kinh nghiệm đánh giá câu trả lời của RAG chatbot: kết hợp Rule-based và LLMs để hiệu quả hơn

Khi đánh giá câu trả lời của hệ thống RAG chatbot, một kinh nghiệm thực tế là nên bắt đầu với các chỉ số Rule-based trước, ví dụ như BLEU hay ROUGE. Những chỉ số này giúp kiểm tra xem câu trả lời của mô hình có giống với câu trả lời gốc về mặt từ ngữ (surface overlap) hay không.

👉 Nếu như BLEU hoặc ROUGE trả về điểm thấp, điều đó thường cho thấy rằng mô hình đã dùng các từ ngữ khác biệt đáng kể so với câu trả lời chuẩn. Khi đó, ta chuyển sang đánh giá bằng LLM để phân tích kỹ hơn về mặt ngữ nghĩa (semantic correctness), ví dụ như dùng các chỉ số như Groundedness, Answer Accuracy, hay Context Relevance.


Ví dụ về cách hoạt động của ROUGE-L:

ROUGE-L là một chỉ số thuộc nhóm Rule-based, được dùng nhiều trong đánh giá chatbot hoặc tóm tắt văn bản.

Các bước đơn giản để tính ROUGE-L:

  1. Xác định câu trả lời chuẩn (reference) và câu trả lời của mô hình (LLM answer).

  2. Tìm ra chuỗi con dài nhất có thứ tự giống nhau giữa hai câu này — gọi là LCS (Longest Common Subsequence).

  3. Tính độ dài của LCS chia cho độ dài câu chuẩn → ra chỉ số ROUGE-L Recall.

Ví dụ:

  • Câu chuẩn: "Albert Einstein was born in 1879." (6 từ)

  • Câu mô hình: "Einstein was born in the year 1879." (7 từ)

  • Chuỗi LCS: "Einstein was born in 1879" (5 từ)

  • ROUGE-L Recall = 5 / 6 ≈ 0.83


Kết luận:

  • Rule-based như ROUGE rất hữu ích để phát hiện nhanh khi câu trả lời bị lệch về từ ngữ.

  • Sau đó, nếu cần kiểm tra tính đúng đắn về ngữ nghĩa, mới dùng đến LLMs để đánh giá sâu hơn.

  • Sự kết hợp này giúp đánh giá hệ thống RAG một cách toàn diện và tiết kiệm chi phí.

5.9. Chỉ số ROUGE-L

5.10. Chỉ số BLEU

Sử dụng chỉ số BLEU để đo mức độ giống nhau về mặt từ ngữ

Sau khi đã dùng ROUGE-L để đánh giá mức độ trùng khớp theo chuỗi từ có thứ tự, thì một chỉ số Rule-based khác rất phổ biếnBLEU (Bilingual Evaluation Understudy). BLEU đặc biệt hữu ích trong việc đo độ giống nhau của các n-gram giữa câu trả lời của mô hình và câu trả lời chuẩn.


Cách hoạt động của BLEU-2:

BLEU tính điểm dựa trên 3 thành phần:

  1. Unigram precision (1-gram) – tỉ lệ các từ đơn giống nhau

  2. Bigram precision (2-gram) – tỉ lệ các cặp từ liên tiếp giống nhau

  3. Brevity Penalty (BP) – phạt nếu mô hình trả lời quá ngắn


Ví dụ minh họa:

  • Câu hỏi: "When was Einstein born?"

  • Câu trả lời chuẩn: "Albert Einstein was born in 1879." (6 từ)

  • Câu trả lời mô hình: "Einstein was born in the year 1879." (7 từ)

🔹 Unigram precision = 5 từ trùng / 7 từ trong câu mô hình = 5/7
🔹 Bigram precision = 3 cặp trùng / 6 cặp trong câu mô hình = 3/6
🔹 Brevity Penalty = 1 vì câu trả lời không ngắn hơn câu chuẩn

👉 BLEU-2 = √(5/7 × 3/6) × BP = √(15/42) × 1 ≈ 0.59


Ý nghĩa:

  • BLEU phản ánh mức độ giống nhau về mặt từ vựng, đặc biệt là trật tự từ trong câu.

  • Nếu điểm BLEU thấp → có thể mô hình dùng cách diễn đạt rất khác, cần chuyển sang đánh giá ngữ nghĩa bằng LLM.


Tổng kết:

  • BLEU là công cụ nhanh gọn để kiểm tra sự trùng khớp bề mặt (surface-level) giữa các câu trả lời.

  • Khi BLEU thấp, đừng vội đánh giá mô hình kém → có thể nó dùng từ khác nhưng vẫn đúng ý. Lúc này hãy kết hợp với các chỉ số LLM để hiểu rõ hơn.

  • BLEU phù hợp nhất cho các nhiệm vụ dịch máy, chatbot trả lời ngắn, hoặc tóm tắt câu.


Bạn muốn mình viết phần tiếp theo về Exact Match, METEOR hoặc LLM-based metrics như Groundedness không?

5.11. Chỉ số Groundedness (LLM Answer - Hallucination Detection)

5.12. Thực hành Groundedness

5.13. Chỉ số Response Relevancy (LLM Answer - Measures relevance)

Một metric thú vị để đánh giá độ liên quan của phản hồi của LLM.

Cách nó hoạt động:

  • Mô hình LLM tạo ra một câu trả lời (ví dụ: "Thomas Edison is the inventor of the light bulb.").

  • Từ câu trả lời đó, ta thực hiện reverse-engineering để suy ra một vài câu hỏi có thể là người dùng đã hỏi.

  • Mỗi câu hỏi được suy ngược lại này sẽ được so sánh với user prompt ban đầu (ví dụ: "Who is known for developing the first commercially successful light bulb?").

  • Tính toán cosine similarity giữa prompt và từng câu hỏi.

  • Điểm cuối cùng là trung bình các cosine similarity → trở thành điểm Response Relevancy.

Tại sao điều này quan trọng:

Giúp định lượng mức độ phù hợp giữa những gì người dùng hỏi và những gì mô hình trả về.

  • High score = câu trả lời đúng trọng tâm, có liên quan.

  • Low score = câu trả lời bị hallucinate, thiếu thông tin hoặc chung chung.

5.14. Điểm Response Relevancy càng cào thì?

Click to view more

5.15. Thực hành lập trình Response Relevancy

5.16. Chỉ số Noise Sensitivity (LLM Answer - Robustness to Hallucination)

Noise Sensitivity – Đo lường độ nhạy cảm với nhiễu trong LLM

Khi một hệ thống Retrieval-Augmented Generation (RAG) truy xuất thông tin từ các văn bản liên quan hoặc không liên quan, liệu mô hình ngôn ngữ có đưa ra câu trả lời sai lệch do "nhiễu" không?

Đó chính là mục tiêu mà Noise Sensitivity hướng đến.

Trong hình minh họa này, mình phân tích một ví dụ đơn giản:

Câu hỏi: Nguyên nhân nào dẫn đến sự sụp đổ của Đế chế La Mã?

Câu trả lời từ LLM: Đế chế La Mã sụp đổ do tham nhũng chính trị, khủng hoảng kinh tế, thất bại quân sự và xung đột tôn giáo trên diện rộng.

Tuy nhiên, ta cần đánh giá kỹ từng mệnh đề thực tế (atomic claim) trong câu trả lời. Mỗi mệnh đề được đối chiếu với các ngữ cảnh đã truy xuất để xác định:

- Có được hỗ trợ bởi ngữ cảnh không?

- Có phù hợp với dữ kiện thực tế (ground truth) không?

Các mệnh đề được trích ra từ câu trả lời của LLM:

1. Tham nhũng chính trị góp phần vào sự sụp đổ → Được ngữ cảnh hỗ trợ

2. Khủng hoảng kinh tế góp phần vào sự sụp đổ → Được hỗ trợ

3. Thất bại quân sự bởi các bộ tộc man rợ → Được hỗ trợ

4. Xung đột tôn giáo dẫn đến sự sụp đổ → Không được hỗ trợ, vì tài liệu cho biết đây không phải nguyên nhân chính

Tổng cộng 4 mệnh đề, trong đó 1 mệnh đề sai → Noise Sensitivity = 1/4 = 0.25

Ý nghĩa: Noise Sensitivity càng thấp → mô hình càng "miễn nhiễm với nhiễu", không dễ bị dẫn dắt bởi thông tin ngoài lề hoặc sai lệch.

Đây là một trong các chỉ số quan trọng để đánh giá chất lượng mô hình RAG, đặc biệt khi hệ thống phải xử lý nhiều nguồn tài liệu có mức độ liên quan khác nhau.

5.17. Sử dụng thư viện RAGAS đánh giá LLMs nhanh chóng

Xây dựng bộ dataset đánh giá câu trả lời của mô hình ngôn ngữ


Bộ dữ liệu sử dụng để đánh giá sẽ như sau:

_id

question

answer

reference_str

666baeb49793e149fe7393b4

Dung lượng RAM của nokia 3210 4g là bao nhiêu?

Dung lượng RAM của nokia 3210 4g là 64MB.

Reference id 3074e17e-b090-4de0-b86e-8fd96870fc02: Product Title: nokia 3210 4g - chính hãng\n\nProduct Specifications:\nCông nghệ màn hình:\nIPS<br> Kích thước màn hình:\n2.4 inch<br> Độ phân giải:\n2MP<br> Hệ điều hành:\nS30+<br> Bộ nhớ trong:\n128MB3<br>...

Và còn nhiễu dữ liệu tương tự

Các cột cần phải có

  • question: Câu hỏi

  • answer: Câu hỏi kỳ vọng

  • reference_str: Ngữ cảnh cung cấp

Tiến hành đánh giá


Dựa vào các cột thông tin trên chúng ta sẽ sử dụng thư viện RAGAS để đánh giá qua các chỉ số:

Metric

Evaluates

Based On

Score Range

Good For

Giải thích

aspect_critic

Coverage of important aspects

LLM judgment

0 to 1

QA & summarization quality

Đây là chỉ số đo lường mức độ độc hại, gây tổn thương hoặc mang tính xúc phạm trong câu trả lời được tạo ra. Một câu trả lời có thể bị xem là "malicious" nếu nó chứa thông tin bạo lực, ngôn từ kích động, phân biệt đối xử, xúc phạm cá nhân, hoặc gây hại về mặt tinh thần cho người dùng.

Giá trị càng gần 0 thì nội dung càng an toàn và phù hợp để sử dụng.

context_precision

Is answer grounded in context

Context match

0 to 1

Hallucination detection

Chỉ số này đo lường xem các thông tin trong câu trả lời có xuất hiện trong đoạn văn bản đã truy xuất hay không (retrieved context).

  • Đây là cách đánh giá mức độ “mật thiết” của câu trả lời với tài liệu đầu vào.

  • Nếu một câu trả lời sử dụng kiến thức bên ngoài tài liệu (gọi là "hallucination"), thì chỉ số này sẽ thấp.

faithfulness

Factual correctness to context

LLM judgment

0 to 1

Trustworthy answers

Đây là chỉ số đánh giá mức độ chính xác về mặt thông tin của câu trả lời so với nội dung trong tài liệu truy xuất.

  • Không giống context_precision chỉ xem thông tin có hiện diện hay không, faithfulness kiểm tra tính đúng sai của các tuyên bố trong câu trả lời.

  • Một câu trả lời có thể trích dẫn tài liệu, nhưng vẫn diễn giải sai – đó là thiếu faithfulness.

rouge_score

Lexical similarity to references

N-gram match

0 to 1

Paraphrasing/summarization eval

Chỉ số ROUGE (Recall-Oriented Understudy for Gisting Evaluation) đo mức độ giống nhau về mặt từ vựng giữa câu trả lời được tạo và câu trả lời chuẩn (reference).

  • Đây là một cách đánh giá mức độ "khớp" từ ngữ – không đánh giá ý nghĩa sâu xa hay tính chính xác.

rubrics_score

Multi-dimension LLM evaluation

LLM judgment

0 to 1

Custom answer quality rubrics

Chỉ số này đo lường mức độ hữu ích tổng thể của câu trả lời đối với người dùng, thường được đánh giá bằng mô hình ngôn ngữ lớn (LLM) theo thang điểm từ 1 đến 5.

  • Một câu trả lời hữu ích cần trả lời đúng trọng tâm, dễ hiểu, đầy đủ và hỗ trợ người dùng đưa ra quyết định.

Kết quả

Model

Link

Size

maliciousness

context_precision

faithfulness

rouge_score(mode=fmeasure)

helpfulness (1 to 5)

SEA-LION v3.5

https://huggingface.co/aisingapore/Llama-SEA-LION-v3.5-8B-R

~16.05 GB

Not good

Not good

Not good

Not good

Not good

Qwen3-4B

https://huggingface.co/Qwen/Qwen3-4B

~8.05 GB

0.0094

0.9969

0.9548

0.8302

4.6750

LLAMA 3.2 3B

https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct

~6.43 GB

0.0406

0.9969

0.9541

0.7756

4.7900

Biểu đồ

1. Tổng quan đánh giá hệ thống RAG
1.1. Các bước đánh giá hệ thống RAGs
1.2. Các khái niệm chính
2. Công cụ đánh giá hệ thống RAG
2.1. Công cụ đánh giá hệ thống RAG
2.2. Tạo dự án trên Google Cloud và Service Account
2.3. Mở Vertex API
2.4. Sử dụng gemini API
2.5. Sử dụng thư viện RAGAS
3. Đánh giá phần Retrieval
3.1. Tổng quan các chỉ số đánh giá phần Retrieval
3.2. Chỉ số Hit@K (Rule-based)
3.3. Thực hành chỉ số Hit@K
3.4. Chỉ số Recall@K (Rule-based)
3.5. Thực hành chỉ số Recall@K
3.6. Chỉ số Mean Average Precision (MAP) (Rule-based)
3.7. Chỉ số Mean Reciprocal Rank (MRR) (Rule-based)
3.8. Chỉ số Context Precision (LLM-judged)
3.9. Chỉ số Context Recall (LLM-judged)
3.10. Chỉ số Context Entities Recall (LLM-judged)
3.11. Chỉ số Context Relevance
3.12. Ví dụ về đánh giá hệ thống Retrieval
3.13. Hướng dẫn chuẩn bị bộ dataset đánh giá
3.14. Thực hành sinh bộ dữ liệu Hit@K
3.15. Notebook thực hành sinh dữ liệu Hit@K
4. Đánh giá phần Rerank
4.1. Tổng quan các chỉ số đánh giá phần ReRank
4.2. Chỉ số Mean Average Precision (MAP) (Rule-based)
4.3. Chỉ số Mean Reciprocal Rank (MRR) (Rule-based)
4.4. Chỉ số Normalized Discounted Cumulative Gain at rank K (nDCG@K) (Rule-based)
4.5. Benchmarks Rerank trên Tiếng Việt
4.6. Cách thiết kế dữ liệu đánh giá phần ReRank
5. Đánh giá phần LLMs trả lời
5.1. Tổng quan chung về đánh giá câu trả lời của mô hình ngôn ngữ (LLM Answer)
5.2. Bảng so sánh các chỉ số với nhau
5.3. Chỉ số Exact Match
5.4. Chỉ số String Presence
5.5. Khái niệm Grams
5.6. Biểu diễn này là thể hiện?
5.7. Precision và Recall. Ý nghĩa
5.8. Chỉ số ROUGE
5.9. Chỉ số ROUGE-L
5.10. Chỉ số BLEU
5.11. Chỉ số Groundedness (LLM Answer - Hallucination Detection)
5.12. Thực hành Groundedness
5.13. Chỉ số Response Relevancy (LLM Answer - Measures relevance)
5.14. Điểm Response Relevancy càng cào thì?
5.15. Thực hành lập trình Response Relevancy
5.16. Chỉ số Noise Sensitivity (LLM Answer - Robustness to Hallucination)
5.17. Sử dụng thư viện RAGAS đánh giá LLMs nhanh chóng