List of topics
Giới thiệu về Crawl Dữ Liệu trên Internet
Cài đặt các thư viện cần thiết
Kiến Thức HTTP và Web
Các Phương Pháp Crawl Dữ Liệu
Sử dụng Python cho Crawl Dữ Liệu
Thu Thập Dữ Liệu với BeautifulSoup
Crawl Dữ Liệu Tự Động với Requests
Crawl dữ liệu bằng thư viện Scrapy
Quản Lý và Lưu Trữ Dữ Liệu Crawl Được
Làm Việc với Trang Web Động bằng Selenium
Vượt qua Chống Bot và Captcha
Crawl Dữ Liệu ở Quy Mô Lớn
Phân Tích và Xử Lý Dữ Liệu Sau Khi Crawl
Ứng dụng Thực Tế & Dự Án Cuối Khoá
Đạo Đức và Pháp Lý trong Crawl Dữ Liệu
Nâng Cao
Xử lý Dữ Liệu Không Có Cấu Trúc và Data Mining Cơ Bản
Tối Ưu, Bảo Trì và Quản Lý Code Crawl

Kiến Thức HTTP và Web

Tìm hiểu về giao thức HTTP, cách thức hoạt động của các trang web, các loại mã phản hồi và ảnh hưởng đến việc thu thập dữ liệu.

1. HTTP và cách hoạt động của các trang web

1.1. [Video] Giới thiệu về HTTP + Kiến trúc Client Server

  • HTTP là gì?

  • Cách trình duyệt tải một trang web

  • Các thành phần của một HTTP Request

  • Các thành phần của một HTTP Response

1. HTTP và cách hoạt động của các trang web
1.1. [Video] Giới thiệu về HTTP + Kiến trúc Client Server