python爬虫学习小记——request模块

Curitaos / 2023-08-04 / 原文

要学习爬虫我们首先要了解requests这个模块

Python requests 模块

Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。

requests 模块比 urllib 模块更简洁。

使用 requests 发送 HTTP 请求需要先导入 requests 模块:

import requests

导入之后我们的python就可以网页发送请求并获取响应了,下面是常用请求方法示例:

 1 import requests
 2 url=""
 3 headers={
 4 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
 5 } #可以指定我们在发送请求时所需要的request头
 6 params={
 7     "key1":"value1",
 8     "key2":"value2"
 9 }#可在相关的请求方法后添加的查询参数
10 data={
11     "key1":"value1",
12     "key2":"value2"
13 }#请求体
14 # respond=requests.get(url=url,headers=headers);#可以使用params指定参数或者将参数写入url中再在url中放置变量
15 # respond=requests.get(url,headers=headers,params=params);
16 # respond=requests.post(url,headers=headers,data=data)#在发送post请求时通过data发送相关的参数

返回的request对象包含了各种响应的信息,该对象包含了具体的响应信息,如状态码、响应头、响应内容等:

1 print(response.status_code)  # 获取响应状态码
2 print(response.headers)  # 获取响应头
3 print(response.content)  # 获取HTTP响应内容的 二进制(bytes) 形式
4.print(respond.text)#http响应内容的 字符串(str) 形式,请求url对应的页面内容
 

一般来说文本用.text转换,图片视频等用.content转换

如果解析出现乱码可以使用该方法进行编码转换detail_name.encode('iso-8859-1').decode('GBK')