Xây dựng tool crawler tự động với Node.js hoặc Python

Bạn muốn xây dựng một tool crawler tự động? Dưới đây là các bước chi tiết để triển khai một công cụ như vậy bằng Node.js (vì bạn đang dùng Puppeteer và Node.js) hoặc Python. Bạn có thể chọn ngôn ngữ phù hợp với nhu cầu của mình. Tôi sẽ hướng dẫn cả hai.

1. Yêu cầu cơ bản

Ngôn ngữ lập trình: Node.js (với Puppeteer) hoặc Python (với BeautifulSoup và Selenium).
Thư viện/công cụ hỗ trợ:
- Node.js: Puppeteer (hoặc Playwright).
- Python: BeautifulSoup, Scrapy, hoặc Selenium (khi cần xử lý JavaScript).
Dockerized Solution (tùy chọn): Để triển khai tool dễ dàng hơn trên mọi môi trường.

2. Tool crawler tự động với Puppeteer (Node.js)

Puppeteer là một thư viện mạnh mẽ để điều khiển Chrome/Chromium cho các tác vụ tự động. Dưới đây là ví dụ cơ bản:

Cài đặt Puppeteer

Tạo một dự án Node.js:

mkdir auto-crawler && cd auto-crawler
npm init -y
npm install puppeteer

2. Code mẫu: Crawler tự động File: crawler.js

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch({ headless: true }); // Chạy trình duyệt ở chế độ headless
    const page = await browser.newPage();

    // URL bạn muốn crawl
    const url = 'https://example.com';
    await page.goto(url, { waitUntil: 'domcontentloaded' });

    // Lấy thông tin cần thiết từ trang
    const data = await page.evaluate(() => {
        const title = document.querySelector('title')?.innerText || 'No title';
        const description = document.querySelector('meta[name="description"]')?.content || 'No description';
        const links = Array.from(document.querySelectorAll('a')).map(a => a.href);
        return { title, description, links };
    });

    console.log('Data crawled:', data);

    await browser.close();
})();

3. Chạy tool: node crawler.js

3. Tool crawler tự động với Python (BeautifulSoup & Requests)

Nếu bạn thích Python, BeautifulSoup rất phù hợp để crawl dữ liệu từ các trang web không cần JavaScript.

Cài đặt thư viện

Tạo môi trường ảo và cài đặt thư viện:

python -m venv env
source env/bin/activate  # Trên Linux/Mac
env\Scripts\activate     # Trên Windows

pip install requests beautifulsoup4

2. Code mẫu: Crawler cơ bản File: crawler.py

import requests
from bs4 import BeautifulSoup

# URL bạn muốn crawl
url = "https://example.com"

response = requests.get(url)
if response.status_code == 200:
    soup = BeautifulSoup(response.content, "html.parser")

    # Lấy tiêu đề trang
    title = soup.title.string if soup.title else "No title"

    # Lấy mô tả meta
    description = soup.find("meta", {"name": "description"})
    description = description["content"] if description else "No description"

    # Lấy tất cả các đường link
    links = [a["href"] for a in soup.find_all("a", href=True)]

    print("Title:", title)
    print("Description:", description)
    print("Links:", links)
else:
    print(f"Failed to fetch {url} (status code: {response.status_code})")

3. Chạy tool: python crawler.py

4. Tích hợp Docker

Để chạy crawler này dễ dàng hơn trên mọi môi trường, bạn có thể tạo một Dockerfile.

Dockerfile (Node.js)

FROM node:16
WORKDIR /app
COPY package*.json ./
RUN npm install
COPY . .
CMD ["node", "crawler.js"]

Dockerfile (Python)

FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
CMD ["python", "crawler.py"]

Build và chạy Docker container

Build Docker image: docker build -t auto-crawler .
Chạy container: docker run --rm auto-crawler

5. Lưu ý

Đối với website phức tạp (chạy nhiều JavaScript), bạn cần sử dụng Puppeteer hoặc Selenium.
Chống bot: Một số website có cơ chế chặn bot. Hãy sử dụng User-Agent giả lập hoặc proxy nếu cần.
Lưu dữ liệu: Bạn có thể ghi kết quả vào file CSV, database, hoặc API endpoint.

Bạn muốn triển khai tool theo hướng nào? Nếu cần, tôi có thể giúp bạn xây dựng chi tiết hơn!

On 20/01/2025 By admin

Bài phổ biến

Ngôn ngữ lập trình số 1 trên thế giới là ngôn ngữ lập trình nào?

Đối với những ai đang bắt đầu hoặc muốn thăng tiến trong sự nghiệp phát triển phần mềm, việc đứng đầu lớp về kiến thức là quan trọng. Bạn cần biết những ngôn ngữ nào đang phổ biến, hữu ích và đang phát triển trên thị trường. Sau đó, bạn có thể chuẩn bị tinh thần để học.

Sơ đồ tư duy là gì – Bật mí cách vẽ sơ đồ tư duy Tony Buzan

Sơ đồ tư duy nổi tiếng là phương pháp ghi nhớ sáng tạo và hiệu quả trên toàn thế giới. Mời bạn cùng blog tìm hiểu về sơ đồ tư duy và cách vẽ sơ đồ tư duy đơn giản nhé.

Chia sẻ những cách kiếm tiền online ngay tại nhà

Các công việc trực tuyến thường không đòi hỏi vốn, linh hoạt về thời gian làm việc, và mang lại cơ hội kiếm thu nhập bổ sung trong thời gian rảnh rỗi. Để giúp độc giả hiểu rõ hơn, dưới đây là một số chia sẻ cụ thể về những phương thức phổ biến nhất để kiếm tiền online tại nhà.

Tấn công từ chối dịch vụ bằng UDP flood và cách phòng chống

Tấn công từ chối dịch vụ DDoS (Distributed Denial of Service) ngày càng trở nên phổ biến và đe dọa đối với các chuyên gia quản trị mạng. Các phương pháp thực hiện tấn công này có thể rất đơn giản, từ việc sử dụng máy tính cá nhân cho đến việc tận dụng các công cụ tấn công trực tuyến với chi phí thấp. Một số tấn công lớn được thực hiện thông qua hệ thống botnet, một mạng lưới máy tính bị chiếm đóng bởi phần mềm độc hại.

Vì sao nên cho trẻ học lập trình từ sớm?

Với thời buổi hiện đại như hiện nay, lập trình không còn là một ngành nghề dành riêng cho người lớn, mà nó đang dần trở thành một bộ môn năng khiếu được quý phụ huynh cho con em mình theo học.

Latest Post

Xây dựng tool crawler tự động với Node.js hoặc Python

1. Yêu cầu cơ bản

2. Tool crawler tự động với Puppeteer (Node.js)

Cài đặt Puppeteer

3. Tool crawler tự động với Python (BeautifulSoup & Requests)

Cài đặt thư viện

4. Tích hợp Docker

Dockerfile (Node.js)

Dockerfile (Python)

Build và chạy Docker container

5. Lưu ý

Để lại một bình luận Hủy

Latest Post

1. Yêu cầu cơ bản

2. Tool crawler tự động với Puppeteer (Node.js)

Cài đặt Puppeteer

3. Tool crawler tự động với Python (BeautifulSoup & Requests)

Cài đặt thư viện

4. Tích hợp Docker

Dockerfile (Node.js)

Dockerfile (Python)

Build và chạy Docker container

5. Lưu ý

Để lại một bình luận Hủy

Related Post

AI Nhẹ Hơn & “Ngon” Hơn: So Sánh Các Lựa Chọn Thay Thế PyTorch và Diffusers

Hướng Dẫn Tối Ưu Diffusers Với PyTorch: Giảm Tải GPU, Tăng Tốc Độ Sinh Ảnh AI

Hướng Dẫn Chi Tiết A-Z: Tạo Video Từ Văn Bản (Text-to-Video) Với Diffusers Của Hugging Face