Ba
Notebook Hướng dẫn Clean dữ liệu Tiếng Việt chuẩn hơn
Notebook Hướng dẫn Clean dữ liệu Tiếng Việt chuẩn hơn
LangChain có WebBaseLoader để crawl một trang web bất kỳ tuy nhiên thì WebBaseLoader sẽ lọc hết các thẻ HTML và chỉ còn văn bản bên trong làm mất đi chất lượng của văn bản như xuống dòng, đầu mục, vv
Team Nâng cấp WebBaseLoader với một class mới và hướng dẫn mọi người clean data bằng BeautifulSoup để cho ra kết quả cuối cùng tốt hơn nhiều.
Chi tiết notebook tại đây: https://colab.research.google.com/drive/1VGWsGXXw0V6gRl6s3Nm3tiBDA9wM0-VZ?usp=sharing