Python爬虫scrapy框架教程

q-q56731526 / 2023-05-05 / 原文

Scrapy是一个Python爬虫框架，用于提取网站上的数据。以下是使用Scrapy构建爬虫的基本步骤：

安装Scrapy：在终端中运行pip install scrapy

创建一个新项目：在终端中运行scrapy startproject projectname

创建一个爬虫：在项目文件夹中运行scrapy genspider spidername http://website.com

编写爬虫：在项目文件夹中找到爬虫文件并编写代码来提取数据

运行爬虫：在终端中运行scrapy crawl spidername

Scrapy还提供了其他功能，如爬虫管道、中间件和设置，用于更高级的爬取和数据处理。希望这个教程能帮到你。

以下是一个简单的使用Scrapy框架编写的爬虫代码，可以爬取指定网站的文章标题和链接：

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = ["Example Domain"]

    def parse(self, response):
        for article in response.css('article'):
            yield {
                'title': article.css('h2 a::text').get(),
                'link': article.css('h2 a::attr(href)').get()
            }

        next_page = response.css('a.next::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

在这个例子中，我们定义了一个叫做MySpider的爬虫，它的start_urls属性被设置为http://example.com，表示我们要爬取这个网站。在parse方法中，我们使用CSS选择器来获取每篇文章的标题和链接，然后使用yield关键字返回这些结果。最后，我们使用response.follow()方法来跟踪下一页的链接并递归调用parse方法，直到爬取完所有的文章。