爬虫框架Scrapy总结笔记 - 问答 - 幽门梗阻幽门梗阻 - Powered by BBS!NT

我的中心

幽门梗阻 » 常识 » 常识 » 爬虫框架Scrapy总结笔记

返回列表

发新话题

回复该主题

查看: 22\|回复: 0	爬虫框架Scrapy总结笔记 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别乞丐生日帖子-178 积分-1957 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2021-03-16 01:46 \|只看楼主前言由于工作需要，学习一下爬虫框架，在网上看了别人的笔记和教学视频，想总结一下便于以后复习用，然后和大家分享一下。我的总结大概分为四步： Scrapy的整体架构使用Scrapy框架的一个完整流程 Scrapy框架的安装使用Scrapy实现爬虫 scrapy的整体架构 spiders：自己写的爬虫，发送一个请求，那个请求的数据该怎么解析，都是在这里边完成。 scheduler：如果有重复url，这个调度器可以完成，相当于里边有个队列，来一个url生成一个request，放到队列中，如果再爬就从队列中去取，已经实现。 downloader：下载器，可以从互联网上下载下来，已经实现。 itempipelines：管道，用来去存储爬取的数据，该如何存储、存储到哪里还是由开发者写。 scrapyengine：负责数据和信号在不同模块之间的传递，已经实现。 Downloadermiddlewares：可以自定义下载，设置代理，设置请求头等，根据需要实现。 spidermiddlewaresspider：可以自定义requests请求和response过滤，根据需要实现。使用Scrapy框架的一个完整流程 1、先从spiders发送一个请求，请求不会马上发送出去2、发送给scheduler调度器，调度器把url生成一个request对象，存储到队列当中3、engine引擎不断从调度器中取请求，拿到这个请求4、将请求发送给Downloader下载器，下载器把数据下载下来，把数据返回给引擎5、数据返回给spiders，进行一系列分析，提取出想要的数据，再把数据发送给引擎6、引擎把数据发送给pipelines在引擎和scheduler、引擎和Downloader之间可以使用中间件，可以在发送过程中间做一些操作。关于中间件的详解后台回复scrapy中间件，可以获取。 Scrapy框架的安装这里是在Windows下的安装：需要安装4个依赖库分别是 lxml（这个最重要），使用pip命令安装 pip3installlxml若没有报错，则安装成功，如果报错提示缺少libxml2库，可以使用wheel文件进行安装libxml2libxml2
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题