Scrapy框架爬取HTTP/2网站
scrapy本身是自带支持HTTP2的爬取:
https://docs.scrapy.org/en/latest/topics/settings.html?highlight=H2DownloadHandler#download-handlers-base
需要把这个包安装一下
# 本身scrapy就是基于Twisted的,http2是一个拓展包
Twisted[http2] >=17.9.0
然后在settings.py中打开下载处理器
DOWNLOAD_HANDLERS = {
"https": "scrapy.core.downloader.handlers.http2.H2DownloadHandler",
}
另外可以使用其他支持HTTP2的模块来利用中间件加载并返回数据,如:httpx,curl_ciff