Nhảy tới nội dung

Python Web Scraping - Thu thập mọi dữ liệu từ Internet

Mục tiêu khóa học

"Giới thiệu"

Khóa học Python Web Scraping được thiết kế chuyên biệt nhằm trang bị cho bạn kỹ năng thu thập dữ liệu từ Internet để có thể phân tích và ra quyết định trong công việc, cuộc sống, và nghiên cứu khoa học một cách toàn diện. Bạn sẽ được hướng dẫn từng bước, từ cơ bản đến nâng cao, để làm chủ các công cụ và phương pháp web scraping bằng Python.

Kết quả học tập kỳ vọng

Sau khi hoàn thành khóa học, bạn sẽ đạt được những kết quả đáng mong đợi sau:

  • Làm chủ toàn diện web scraping với Python: Bạn sẽ có thể tự tin trong việc thu thập và xử lý dữ liệu từ bất kỳ nguồn trực tuyến nào, biến nó thành một kỹ năng mạnh mẽ phục vụ cho công việc và nghiên cứu của bạn.
  • Thành thạo bộ công cụ Python chuyên nghiệp: Bạn sẽ trở thành chuyên gia trong việc sử dụng và kết hợp linh hoạt các thư viện Python và công cụ hỗ trợ toàn diện, giúp bạn thu thập mọi loại dữ liệu trực tuyến cần thiết, từ các trang web tĩnh đến những trang web động phức tạp.
  • Phát triển tư duy lập trình sáng tạo và hiệu quả: Bạn sẽ học cách vượt qua các rào cản trong quá trình thu thập dữ liệu bằng cách tư duy linh hoạt, tập trung vào tính đơn giản và hiệu quả.
  • Tự động hóa quy trình công việc của bạn: Bạn sẽ biết cách thiết kế và triển khai các quy trình tự động hóa hiệu quả, giúp tối ưu hóa thời gian và công sức trong việc thu thập và xử lý dữ liệu.
  • Xây dựng dự án thực tế và tạo giá trị ngay lập tức: Bạn sẽ không chỉ học lý thuyết mà còn thực hành qua các dự án mẫu đa dạng, giúp bạn ứng dụng kiến thức vào các nhu cầu cụ thể trong tài chính, marketing, nghiên cứu khoa học, và ra quyết định cá nhân, mang lại giá trị ngay từ những ngày đầu tiên.

Tại sao cần học web scraping?

"Tầm quan trọng"

Trong thời đại số hóa hiện nay, dữ liệu được ví như "dầu mỏ" của nền kinh tế. Sự bùng nổ về dữ liệu đòi hỏi bạn phải biết cách sử dụng chúng một cách thông minh trong quá trình ra quyết định, từ cấp độ cá nhân cho đến quy mô doanh nghiệp.

Tại sao bạn nên quan tâm?

  • Khóa học này được dành riêng cho người Việt, với nội dung được địa phương hóa để phù hợp với nhu cầu dữ liệu đa dạng, không chỉ tập trung vào thu thập dữ liệu mạng xã hội như các khóa học giảng dạy bằng tiếng Anh. Ngoài ra, hiện tại không có lựa chọn khoá học chuyên biệt về chủ đề Web Scraping từ các nền tảng đào tạo công khai tại Việt Nam.
  • Thực tiễn và ứng dụng cao: Bạn sẽ không thể tìm thấy một khóa học nào có tính thực tế cao và đáp ứng đúng nhu cầu đặc thù của người Việt như khóa học này.

Khóa học này giải quyết vấn đề gì?

  • Chuyên sâu về thu thập dữ liệu: Khóa học này không chỉ dừng lại ở lý thuyết mà đi sâu vào các ứng dụng thực tiễn, giúp bạn nắm vững kỹ năng thu thập dữ liệu và tự động hoá quy trình.
  • Tiếp nối khóa học Python cho phân tích dữ liệu: Khóa học này là sự tiếp nối tự nhiên từ các khóa học trước đây về Phân tích dữ liệu và tạo bot chứng khoán, giúp bạn nâng cao kỹ năng sử dụng Python để phát triển ứng dụng thực tế.

Hình thức đào tạo

  • Khai giảng: Từ 31/8/2024
  • Thời gian đào tạo: ~10 giờ video + tài liệu
  • Nền tảng giảng dạy: Online qua nền tảng khoá học Learn Anything tại đây
  • Thực hành: Sử dụng nền tảng Google Colab tương tác cho giáo trình & thực hành
  • Hình thức đào tạo: tự học + hỗ trợ trực tiếp qua Messenger/Telegram và nhóm học viên.
  • Học phí & đăng ký: trao đổi trực tiếp

Khung nội dung chương trình

Anh chị và các bạn có thể click vào từng mục để mở rộng nội dung đào tạo chi tiết.

Tổng quan về Web Scraping
  • Giới thiệu khoá học
  • Giới thiệu tổng quan về Web Scraping (xem miễn phí)
    • Web Scraping là gì
    • Tính hợp pháp của Web Scraping
    • Phạm trù đạo đức của Web Scraping
    • Mục đích Web Scraping
    • Đối tượng mục tiêu của Web Scraping
    • Tổng quan các công cụ phổ biến trong Web Scraping
Python căn bản

Phần nội dung giúp cung cấp các kiến thức căn bản và có hệ thống về Python cho học viên dù chưa có kinh nghiệm lập trình và kiến thức Python vẫn có thể bắt đầu. Đây là nội dung tiêu chuẩn trong các khoá học của LEarn Anything x Vnstock.

  • Python căn bản
  • Pandas căn bản: đọc và ghi các loại dữ liệu với Pandas
Kiến thức nền tảng về Web Scraping
  • HTML & CSS căn bản trong Web Scraping
  • Giới thiệu giao thức HTTP và APIs
Sử dụng bộ công cụ Python toàn diện cho Web Scraping
  • Sử dụng công cụ cho nhà phát triển web - DevTools
  • Lập trình dự án Python với AI: ChatGPT, Google Gemini, Github Copilot, Amazon Q
  • Sử dụng Postman
  • Sử dụng thư viện requests trong Python
  • Sử dụng BeautifulSoup toàn tập
  • Sử dụng wget toàn tập
  • Sử dụng Selenium toàn tập
  • Sử dụng Scrapy toàn tập
  • OCR: Chuyển đổi hình ảnh sang văn bản
  • Whisper: chuyển đổi âm thanh/video thành văn bản
  • Hiểu và lựa chọn công cụ phù hợp cho dự án
Thiết lập & lưu trữ cơ sở dữ liệu nâng cao
  • Thiết lập cơ sở dữ liệu nhanh chóng với AI
  • Parquet & Huggingface Dataset: Cơ sở dữ liệu chất lượng cho thời đại AI
  • RESTFUL API: Tạo API truy xuất dữ liệu
Đóng gói & phân phối thư viện Python
  • Tạo chương trình crawler hoàn chỉnh
  • Tạo thư viện crawler trong Python với ChatGPT
Bài tập thực hành & dự án thực tế
  • Truy xuất dữ liệu báo online
  • Truy xuất dữ liệu thị trường & đầu tư
  • Truy xuất dữ liệu podcast, video
  • Truy xuất thông tin mạng xã hội
  • Truy xuất và xử lý dữ liệu Youtube
  • Thu thập dữ liệu từ quy luật url đích
  • Truy xuất thông tin công cụ marketing, máy tìm kiếm
  • Truy xuất & phân tích dữ liệu nền tảng đào tạo trực tuyến
  • Truy xuất & phân tích thông tin tuyển dụng & việc làm
  • Đang cập nhật thêm...

Ai nên tham gia khóa học này?

  • Chuyên viên phân tích dữ liệu (Data Analyst): Thu thập dữ liệu để phục vụ cho các phân tích sâu hơn.
  • Nhà nghiên cứu (Researcher): Tìm kiếm và phân tích dữ liệu để hỗ trợ nghiên cứu khoa học.
  • Nhà tiếp thị (Marketer): Khai thác dữ liệu để phát triển chiến lược marketing hiệu quả.
  • Nhà đầu tư (Investor): Sử dụng dữ liệu để phân tích và đưa ra quyết định đầu tư.
  • Người làm MMO: Tìm kiếm dữ liệu để phát triển các chiến lược kiếm tiền trực tuyến.
  • Cá nhân: Ra quyết định trong công việc và cuộc sống thuộc bất kỳ lĩnh vực nào.

Yêu cầu đầu vào

success

Khoá học không yêu cầu bạn phải có kinh nghiệm lập trình từ trước mới có thể học nhưng sẽ phát huy tối đa lợi ích nếu bạn đã có kinh nghiệm về xử lý dữ liệu và lập trình 1 ngôn ngữ bất kỳ từ trước, kể cả là tự động hoá VBA trong Excel. Việc này sẽ bổ trợ cho bạn về tư duy linh hoạt trong xử lý tình huống và thiết kế luồng công việc tự động.

  • Bạn cần có kiến thức nền tảng về xử lý dữ liệu để có thể tự thực hiện việc phân tích sau khi bạn đã thực hiện web scraping thành công. Khoá học chỉ tập trung vào việc đào tạo cách truy xuất và lưu trữ dữ liệu bạn cần.

Giới thiệu giảng viên

Thịnh Vũ

Thịnh Vũ

Thịnh là một người đam mê công nghệ, phân tích dữ liệu, và chuyển đổi số, với hơn 10 năm kinh nghiệm trong nhiều lĩnh vực ứng dụng Digital Marketing và dữ liệu. Thịnh đã làm việc tại các vị trí quản lý như Growth Manager (Self-service) tại Katalon, Head of Digital Marketing tại Luxstay, và Digital Marketing Manager tại MoneyTap (nay là Freo Money), nơi anh đã tích lũy được kinh nghiệm quý giá tại các công ty hàng đầu trong nước và quốc tế.

Trong hành trình của mình, Thịnh đã phát triển và ra mắt thư viện Python Vnstock, một công cụ mạnh mẽ cung cấp dữ liệu chứng khoán Việt Nam, với hơn 200.000 lượt tải về và đạt 20.000 lượt tải về mỗi tháng trong năm 2024. Vnstock hiện là thư viện phổ biến nhất tại Việt Nam cho việc tải dữ liệu chứng khoán trong Python, được cộng đồng đầu tư và chuyên gia đánh giá cao.

Không chỉ dừng lại ở việc phát triển bộ công cụ, Thịnh còn tổ chức 7 khóa đào tạo phân tích dữ liệu với Python và tự động hóa luồng dữ liệu, với nội dung chuyên biệt về ứng dụng Python cho xử lý và phân tích dữ liệu chứng khoán. Anh đã đào tạo gần 100 học viên, giúp họ nắm vững Python và áp dụng hiệu quả trong việc tạo bot chứng khoán và phân tích dữ liệu.

Phương pháp giảng dạy bài bản, dễ hiểu

Thịnh nổi bật với phong cách giảng dạy bài bản, tổ chức kiến thức có hệ thống, giúp học viên dễ dàng tiếp cận và vận dụng vào thực tế, ngay cả khi họ không có nền tảng lập trình. Anh luôn khuyến khích sự sáng tạo, giúp học viên tiếp cận và giải quyết vấn đề một cách linh hoạt, không bị giới hạn bởi khuôn khổ. Bên cạnh đó, Thịnh chú trọng vào tính thực tiễn, chia sẻ kiến thức thông qua kinh nghiệm cá nhân và thực tiễn công việc, tạo ra sự kết nối gần gũi với học viên.

Hành trình khởi nguồn đam mê

Vào năm 2021, khi đại dịch Covid-19 ảnh hưởng toàn cầu, Thịnh cùng nhiều nhà đầu tư F0 khác bắt đầu tham gia thị trường chứng khoán. Nhận ra tiềm năng của việc ứng dụng kỹ năng phân tích dữ liệu vào đầu tư, anh đã phát triển một bộ mã nguồn nhỏ để sử dụng cá nhân. Từ đó, anh quyết định chia sẻ bộ công cụ này với cộng đồng, giúp những nhà đầu tư khác có thể tiếp cận và phân tích chứng khoán một cách hiệu quả hơn. Vnstock đã chính thức được chia sẻ với cộng đồng vào tháng 2/2022, và nhanh chóng trở thành công cụ hữu ích cho hàng ngàn người dùng.

Năm 2023 là một năm đánh dấu nhiều cột mốc quan trọng cho Vnstock, khi thư viện này không chỉ phát triển mạnh mẽ về cộng đồng người dùng mà còn mở rộng hệ thống tài liệu hỗ trợ, giúp những nhà đầu tư dễ dàng sử dụng Python - một ngôn ngữ tưởng chừng phức tạp với người dùng phổ thông, chỉ với vài cú nhấp chuột. Đây cũng chính là lý do nhiều học viên quyết định tham gia khóa học Python do Thịnh tổ chức, với niềm tin rằng họ sẽ học được cách phân tích dữ liệu đầu tư hiệu quả, có hệ thống, và tiết kiệm thời gian so với việc sử dụng công cụ truyền thống như Excel.

Hiện tại, Thịnh cũng chia sẻ kiến thức về công nghệ, Python, kỹ năng sử dụng AI và các tips phát triển bản thân trên kênh Youtube LEarn Anything, với hơn 1500 lượt theo dõi và hàng ngàn lượt truy cập website hàng tháng.

Hãy đồng hành cùng tôi

Khi học cùng Thịnh, học viên sẽ được trải nghiệm một lộ trình học bám sát thực tế, xuất phát từ kinh nghiệm tự học hiệu quả và đã được kiểm chứng qua thực tế. Không chỉ cung cấp kiến thức, Thịnh còn giúp học viên phát triển tư duy lập trình và kỹ năng phân tích để tạo nên những giải pháp bền vững. Với kinh nghiệm đa dạng và tư duy linh hoạt, Thịnh sẽ mang đến những buổi học tràn đầy cảm hứng, giúp học viên không chỉ hiểu sâu mà còn yêu thích việc học và ứng dụng Python trong công việc và cuộc sống.