python基础爬虫

lksjfd / 2024-02-02 / 原文

python基础爬虫

基于beautifulSoup的爬虫：

一：先导包：

import requests
from bs4 import BeautifulSoup

二：伪装：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0'}

user-agent在浏览器按f12 -> 网络 -> 消息头

三：获取爬取页面对象、设置编码格式（以防万一）、获取beautifulSoup对象：

response = requests.get("", headers=headers)
    response.encoding = 'utf-8'
    html=BeautifulSoup(response.text,"html.parser")

解析器写第一种就行

四：查看需爬取网页源码确定查找内容：

all_results=html.findAll("标签名",attrs={'关键字':'关键字名'})

如：

五：遍历查找结果并只输出标签内文本：

    for title in all_results:
        for title in all_results:
            title1 = title.get_text()
            print(title1)

示例：

随机挑选一位幸运儿

完整代码：

结果：

python基础爬虫更多相关文章

今日报告-66

设置Windows10暂停更新3000天

AQS公平锁的流程

AMD锐龙7 7800X3D网游专项测试：竟比i9-13900KS强了15%

常用总线技术基本参数对比

探索图像数据中的隐藏信息：语义实体识别和关系抽取的奇妙之旅

设置Chrome浏览器自动升级

JavaScript – 小技巧 Tips

postgresql在插入数据后怎么获取自增id

EF Core 的基本使用

error: failed to push some refs to 'https://github.com/*******/********.github.io.git'

欧拉降幂

编程语言能力对比

基于机器视觉的小车轨迹控制软件界面展示

随机推荐

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整

BFS(Breath First Search 广度优先搜索)

Visual Studio Code（VSCode）中设置中文界面

python基础爬虫

python基础爬虫

基于beautifulSoup的爬虫：

一：先导包：

二：伪装：

三：获取爬取页面对象、设置编码格式（以防万一）、获取beautifulSoup对象：

四：查看需爬取网页源码确定查找内容：

五：遍历查找结果并只输出标签内文本：

示例：

python基础爬虫更多相关文章

随机推荐

热门话题