BeautifulSoup 使用多条件查询

野生非著名程序员 / 2023-08-08 / 原文

最近开始学习python的爬虫，开始的时候单纯的用requests.get(url)取得源代码后，用正则表达后来取得相关的数据，效率不高，接触到BeautifulSoup，发现确实方便.

正好遇到一个问题，需要取的数据在两个div中，是两个class名,最开始的时候是取得两次来得到数据，就想精简一下，弄成两个值的或的关系，发现例子比较多的是不同标签的属性可以是与的关系，在网上找了一圈没有发现自己想要的结果

仔细的看下了BeautifulSoup的文档，发现在例子里面有讲: 同时用多种CSS选择器查询元素的例子:

soup. select ( "#link1,#link2" )
# [Elsie,
#  Lacie]

但这个默认的id的这个属性，没有讲其它属性，不知道其它的属性是否也可以，于是自己试了下发现可以，以下三种写法都可以

soup. select ( "div.class_first_name,div.class_two_name" )
或
soup. select ( "div[class~=class_first_name], div[class~=class_two_name]" )
或
soup. select ( "div[class=class_first_name], div[class=class_two_name]" )

自己也走了些弯路，例子里面有#号，不知道写这些的时候是否也需要#,倒子里面写的直接是id的属性，没有写标签，也不知道带指定的标签是否可行,仔细的看文档，有讲通过CSS的类名查找

soup. select ( ".sister" )
# [Elsie,
#  Lacie,
#  Tillie]

soup. select ( "[class~=sister]" )
# [Elsie,
#  Lacie,
#  Tillie]

于是结合这几个例子，自己结合一步步的试，先试出不指定标签时获取两个class的与的关系，然后再加上指定标签的，达到了自己的目的

现在新的问题又来了，我想取的两个值都出现在div第一次出现的时候，这个倒是可以用limit的值来控制

如果值是这样的

Elsie
Elsie
Elsie
Elsie

我们可以用如下语句来获取想得到的值

soup. select ( "div[class=class_first_name], div[class=class_two_name]" , limit=2)

但如果是这样的

Elsie
Elsie
Elsie
Elsie

如上的命令则会取两个first的值 ,limit只能控制总数，不能达到每个div取第一次出现的时候的值,不知道有什么办法能改成自己想要的这种结果。

BeautifulSoup 使用多条件查询更多相关文章

ansible ping远程主机debian11报错

RK3568开发板Openwrt文件系统构建

浅析Dockerhub API：如何优雅地从dockerhub偷rootfs镜像

C# 通过注册表、API两种方式获取显示器的分辨率尺寸

Java-中文官方教程-2022-版-二-

JavaTutorialNetwork-中文系列教程-一-

随机推荐

划水

命令拼接技巧

Fiddler抓包Android7以内版本

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

BeautifulSoup 使用多条件查询

BeautifulSoup 使用多条件查询更多相关文章

随机推荐

热门话题