定义

爬虫是一种自动化程序，通过模拟浏览器行为或直接访问网站的接口，从网页中提取有用信息的程序

作用

用于从大量网页中收集数据，例如商品价格、股票行情、新闻、社交媒体信息等等

流程

了解目标网站：在开始爬取之前，需要对目标网站进行了解，包括目标网站的 URL 结构、HTML/CSS/JavaScript 的代码结构等等。
发送 HTTP 请求：Python 爬虫使用 requests 库向目标网站发送 HTTP 请求，获取网页的 HTML 源码。
解析 HTML：使用 Beautiful Soup 或 lxml 等库对 HTML 源码进行解析，提取需要的信息，例如标题、摘要、正文、图片链接等等。
存储数据：将爬取到的数据存储到数据库、文件或者内存中，方便后续的分析和使用。
定期更新：定期更新爬取的数据，保证数据的及时性和准确性。

范例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


from bs4 import BeautifulSoup
import requests

# 发送 HTTP 请求
url = 'http://www.example.com'
response = requests.get(url)

# 解析 HTML 内容
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.string

# 输出页面标题
print(title)

常用工具

BeautifulSoup

参数

类

css选择器

定义

用于选择 HTML 或 XML 文档中某个或某些元素的模式

防反爬虫

降低爬虫程序的访问频率，避免短时间内对网站的过多访问。
通过设置 User-Agent、Referer、Cookie 等 HTTP 头部信息，模拟浏览器的访问行为，避免被识别为爬虫程序。
使用代理 IP，避免单一 IP 大量访问同一个网站而被封禁。
避免同时进行大量并发访问，采用异步请求或者分布式爬虫等技术来分散访问压力。
遵守网站的 robots.txt 规则，避免访问被禁止的页面和内容。
添加延时和随机性

1
2
3


# 随机生成一个 1-3 秒的延时
delay = random.uniform(1, 3)
time.sleep(delay)

使用验证码识别库

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


import requests
import pytesseract
from PIL import Image

response = requests.get(url)

# 将验证码图片保存到本地
with open('captcha.jpg', 'wb') as f:
    f.write(response.content)

# 使用 pytesseract 对验证码图片进行识别
image = Image.open('captcha.jpg')
captcha = pytesseract.image_to_string(image)

定义

作用

流程

范例

常用工具

BeautifulSoup

参数

类

css选择器

定义

分类

防反爬虫