Python web crawler(2)网页同步加载的请求格式(Xpath方式)
网页同步加载的特点:
所见即所得:浏览器渲染后的展示字段,和“响应”页面中的“数据内容”、包括右键“查看源码”中完全一致。


import requests
from lxml import etree
# 异步加载数据的接口
url = ''
headers = {
'User-Agent': '****************************',
'Cookie': '********************************',
'Referer': '*******************************',
}
response = requests.get(url, headers=headers)
# 获取返回数据 默认解码
data = response.content.decode()
# 把data数据进行xpath处理
tree = etree.HTML(data)
# 根据实际需求循环拿取所需要的数据
tr_list = tree.xpath('//table[@border="1"]/tbody/tr')
for tr in tr_list:
td = tr.xpath('./td/text()')
print(td)