#Topic
1

Giới thiệu về Crawl Dữ Liệu trên Internet

Giải thích các khái niệm cơ bản về crawl dữ liệu, vai trò và ứng dụng thực tế trong các lĩnh vực khác nhau.

2

Cài đặt các thư viện cần thiết

Cài đặt các thư viện cần thiết

3

Kiến Thức HTTP và Web

Tìm hiểu về giao thức HTTP, cách thức hoạt động của các trang web, các loại mã phản hồi và ảnh hưởng đến việc thu thập dữ liệu.

4

Các Phương Pháp Crawl Dữ Liệu

So sánh giữa Scraping, Crawling và API; nhận biết các trường hợp ứng dụng phù hợp.

5

Sử dụng Python cho Crawl Dữ Liệu

Hướng dẫn cài đặt môi trường, giới thiệu cú pháp cơ bản và thao tác với các thư viện liên quan.

6

Thu Thập Dữ Liệu với BeautifulSoup

Thực hành phân tích, trích xuất dữ liệu HTML với BeautifulSoup, tìm kiếm và xử lý các thẻ HTML.

7

Crawl Dữ Liệu Tự Động với Requests

Sử dụng thư viện Requests để gửi yêu cầu HTTP, lấy dữ liệu và xử lý phản hồi từ web tĩnh.

8

Crawl dữ liệu bằng thư viện Scrapy

No content
9

Quản Lý và Lưu Trữ Dữ Liệu Crawl Được

Hướng dẫn lưu trữ dữ liệu vào các định dạng như CSV, JSON, Excel hoặc cơ sở dữ liệu; quản lý và tổ chức dữ liệu hiệu quả.

10

Làm Việc với Trang Web Động bằng Selenium

Khai thác Selenium để tự động hóa trình duyệt, thu thập dữ liệu từ các trang web có nội dung động hoặc cần thao tác tương tác.

11

Vượt qua Chống Bot và Captcha

Các kỹ thuật phát hiện và vượt qua các biện pháp chống bot như Captcha, User-agent rotation, Proxy...

12

Crawl Dữ Liệu ở Quy Mô Lớn

Kỹ thuật tối ưu hóa hiệu suất crawl, kiểm soát tốc độ và quản lý các quy trình crawl quy mô lớn.

13

Phân Tích và Xử Lý Dữ Liệu Sau Khi Crawl

Hướng dẫn làm sạch, phân loại, và trích xuất thông tin giá trị từ dữ liệu thô.

14

Ứng dụng Thực Tế & Dự Án Cuối Khoá

Xây dựng một dự án crawl dữ liệu thực tế, áp dụng toàn bộ kiến thức đã học vào giải quyết một bài toán ứng dụng cụ thể.

15

Đạo Đức và Pháp Lý trong Crawl Dữ Liệu

Tìm hiểu về quy định pháp lý, quyền riêng tư và các nguyên tắc đạo đức khi thu thập thông tin trên mạng.

16

Nâng Cao

Crawl API và Xử Lý JSON/XML: Hướng dẫn truy cập và crawl dữ liệu từ API, xử lý dữ liệu dưới định dạng JSON và XML.

17

Xử lý Dữ Liệu Không Có Cấu Trúc và Data Mining Cơ Bản

Phương pháp khai thác thông tin từ các nguồn dữ liệu phi cấu trúc, giới thiệu cơ bản về data mining sau bước crawl.

18

Tối Ưu, Bảo Trì và Quản Lý Code Crawl

Hướng dẫn lập trình sạch, bảo trì code và các kỹ thuật debug, log hiệu quả trong quá trình xây dựng hệ thống crawl dữ liệu.