Python爬虫scrapy框架教程

q-q56731526 / 2023-05-05 / 原文

Scrapy是一个Python爬虫框架,用于提取网站上的数据。 以下是使用Scrapy构建爬虫的基本步骤:

安装Scrapy:在终端中运行pip install scrapy

创建一个新项目:在终端中运行scrapy startproject projectname

创建一个爬虫:在项目文件夹中运行scrapy genspider spidername http://website.com

编写爬虫:在项目文件夹中找到爬虫文件并编写代码来提取数据

运行爬虫:在终端中运行scrapy crawl spidername

Scrapy还提供了其他功能,如爬虫管道、中间件和设置,用于更高级的爬取和数据处理。希望这个教程能帮到你。

以下是一个简单的使用Scrapy框架编写的爬虫代码,可以爬取指定网站的文章标题和链接:

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = ["Example Domain"]

    def parse(self, response):
        for article in response.css('article'):
            yield {
                'title': article.css('h2 a::text').get(),
                'link': article.css('h2 a::attr(href)').get()
            }

        next_page = response.css('a.next::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

在这个例子中,我们定义了一个叫做MySpider的爬虫,它的start_urls属性被设置为http://example.com,表示我们要爬取这个网站。在parse方法中,我们使用CSS选择器来获取每篇文章的标题和链接,然后使用yield关键字返回这些结果。最后,我们使用response.follow()方法来跟踪下一页的链接并递归调用parse方法,直到爬取完所有的文章。