Thực hành Langchain + LLAMA Index + Học sâu về Chunking
Thực hành Langchain + LLAMA Index
Xây dựng hệ thống RAG hoàn toàn Open Source
Các công cụ xây dựng:
Ollama để chạy mô hình
Langchain để xây quy trình truy xuất thông tin
Học sâu về Chunking hiệu quả
Đo lường hệ thống retrieval
1. Tài liệu
1.1. Thực hành LangChain
Giải thích Syntax của LangChain:
https://colab.research.google.com/drive/1URNvoCEFA9eAX3kokYrZ32DpVPfPL4LE?usp=sharing
Chatbot lưu Sessions của người dùng:
Code back end: https://colab.research.google.com/drive/1XIZikuY3KtZzfnDG3wEcBBIHJhhdKgU-?usp=sharing.
Code Front End: https://github.com/bangoc123/protonx-ai-app-UI/blob/main/src/app/%5Blocale%5D/ai/chat/lang-chain-chat/client.tsx
RAG thuần local không sử dụng API ngoài:
https://colab.research.google.com/drive/1yL8M_IMR091xk_OZAPj19XPEsTUBsPCn?usp=sharing
LangChain + RAG + Crawl Tiếng Việt chuẩn hơn
https://colab.research.google.com/drive/1VGWsGXXw0V6gRl6s3Nm3tiBDA9wM0-VZ?usp=sharing
1.2. Chuyên sâu về Chunking
Chunking với RAG: https://colab.research.google.com/drive/1zSuyh42haB6St2g8jByAScsg7dpoUvjf?usp=sharing
Các loại Splitter của LangChain: https://colab.research.google.com/drive/1oBC35J3gyaBNCIdP8hl5PWZ_d_rv-tQ1?usp=sharing
Sematic Chunking và Agentic Chunking: https://colab.research.google.com/drive/1mEwNfMC8_-J7Qd7KV7k6Zj3p8BzE7rK-
Late Chunking: https://jina.ai/news/late-chunking-in-long-context-embedding-models/
Benchmark Chunking