Python web crawler(2)网页同步加载的请求格式(Xpath方式)

Magiclala的博客 / 2024-01-22 / 原文

网页同步加载的特点:

所见即所得:浏览器渲染后的展示字段,和“响应”页面中的“数据内容”、包括右键“查看源码”中完全一致。

import requests
from lxml import etree

# 异步加载数据的接口
url = ''
headers = {
    'User-Agent': '****************************',
    'Cookie': '********************************',
    'Referer': '*******************************',
}
response = requests.get(url, headers=headers)
# 获取返回数据  默认解码
data = response.content.decode()
# 把data数据进行xpath处理
tree = etree.HTML(data)

# 根据实际需求循环拿取所需要的数据
tr_list = tree.xpath('//table[@border="1"]/tbody/tr')
for tr in tr_list:
    td = tr.xpath('./td/text()')
    print(td)