幽门梗阻

注册

 

发新话题 回复该主题

爬虫框架Scrapy总结笔记 [复制链接]

1#

前言

由于工作需要,学习一下爬虫框架,在网上看了别人的笔记和教学视频,想总结一下便于以后复习用,然后和大家分享一下。我的总结大概分为四步:

Scrapy的整体架构

使用Scrapy框架的一个完整流程

Scrapy框架的安装

使用Scrapy实现爬虫

scrapy的整体架构

spiders:自己写的爬虫,发送一个请求,那个请求的数据该怎么解析,都是在这里边完成。

scheduler:如果有重复url,这个调度器可以完成,相当于里边有个队列,来一个url生成一个request,放到队列中,如果再爬就从队列中去取,已经实现。

downloader:下载器,可以从互联网上下载下来,已经实现。

itempipelines:管道,用来去存储爬取的数据,该如何存储、存储到哪里还是由开发者写。

scrapyengine:负责数据和信号在不同模块之间的传递,已经实现。

Downloadermiddlewares:可以自定义下载,设置代理,设置请求头等,根据需要实现。

spidermiddlewaresspider:可以自定义requests请求和response过滤,根据需要实现。

使用Scrapy框架的一个完整流程

1、先从spiders发送一个请求,请求不会马上发送出去2、发送给scheduler调度器,调度器把url生成一个request对象,存储到队列当中3、engine引擎不断从调度器中取请求,拿到这个请求4、将请求发送给Downloader下载器,下载器把数据下载下来,把数据返回给引擎5、数据返回给spiders,进行一系列分析,提取出想要的数据,再把数据发送给引擎6、引擎把数据发送给pipelines在引擎和scheduler、引擎和Downloader之间可以使用中间件,可以在发送过程中间做一些操作。关于中间件的详解后台回复scrapy中间件,可以获取。

Scrapy框架的安装

这里是在Windows下的安装:需要安装4个依赖库分别是

lxml(这个最重要),使用pip命令安装

pip3installlxml若没有报错,则安装成功,如果报错提示缺少libxml2库,可以使用wheel文件进行安装libxml2libxml2
分享 转发
TOP
发新话题 回复该主题