当前位置: 首页 > news >正文

自建网站成都太原网络推广公司哪家好

自建网站成都,太原网络推广公司哪家好,商城系统源码,贴wordpress插件目录: 1.实战讲解(XXTop250完整信息的爬取):1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察1.2 配置settings文件中使用scrapy_redis的必要配置,并…

目录:

  • 1.实战讲解(XXTop250完整信息的爬取):
    • 1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察
    • 1.2 配置settings文件中使用scrapy_redis的必要配置,并使用公共redsi数据存储区域(通过使用特定管道实现)
    • 1.3 注意:上述settings.py配置中有个可选项SCHEDULER_PERSIST,作用是决定清理还是不清理redis队列:
    • 1.4 但是上面并不能在redis中看到每个请求URL的信息:
    • 1.5 实例实现断点续爬:

1.实战讲解(XXTop250完整信息的爬取):

  • 先用单独一个项目来使用scrapy_redis,讲解一些重要点!

1.1 使用之前做的完整的XXTOP250项目,但是设置为只爬取一页(共25个电影),便于观察

在这里插入图片描述

1.2 配置settings文件中使用scrapy_redis的必要配置,并使用公共redsi数据存储区域(通过使用特定管道实现)

# 第一步:加入以下代码:
#设置scrapy-redis
#1.启用调度将请求存储进redis
from scrapy_redis.scheduler import Scheduler
SCHEDULER="scrapy_redis.scheduler.Scheduler"#2.确保所有spider通过redis共享相同的重复过滤
from scrapy_redis.dupefilter import RFPDupeFilter
DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"#3.指定连接到Redis时要使用的主机和端口     目的是连接上redis数据库
REDIS_HOST="localhost"
REDIS_PORT=6379# 不清理redis队列,允许暂停/恢复抓取    (可选)    允许暂停,redis数据不丢失     可以实现断点续爬!!!
SCHEDULER_PERSIST = True# 第二步:开启将数据存储进redis公共区域的管道!
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {# 'film.pipelines.FilmPipeline': 300,'scrapy_redis.pipelines.RedisPipeline': 100,# 'film.pipelines.DoubanSqlPipeline': 200,
}

1.3 注意:上述settings.py配置中有个可选项SCHEDULER_PERSIST,作用是决定清理还是不清理redis队列:

  • 首先,设置其值为True,允许断点续爬,通过Redis Desktop Manager观察redis中存储数据的公共区域:(会发现,其中有一个是Douban:duperfilter,里面放的是每个请求URL的指纹;一个是Douban:items,里面放的是最终爬取的数据!)

在这里插入图片描述在这里插入图片描述

但是,如果将可选项SCHEDULER_PERSIST的值设为False,不允许断点续爬,观察:(发现只有一个Douban:items,里面放的是最终爬取的数据!而没有每个请求URL的指纹数据!)

在这里插入图片描述

1.4 但是上面并不能在redis中看到每个请求URL的信息:

  • 这是因为每次执行完毕之后,redis中就不存在了,所以,为了观察到scrapy_redis是将每个请求都交给redis的,我们在运行项目一段时间后,强制关闭项目,再来观察redis,会发现:(其中包括了Douban:requests!!!)

在这里插入图片描述

1.5 实例实现断点续爬:

  • 首先,设置SCHEDULER_PERSIST为True,运行框架一会之后立马强制中断!

  • 注意,settings.py中开启存储本地txt数据的管道!
    在这里插入图片描述
    会发现,在本地存储的数据没有25条,这是因为断点续爬,接着之前中断的点继续爬取的:
    在这里插入图片描述


文章转载自:
http://slingshot.wjrq.cn
http://abaca.wjrq.cn
http://centerpiece.wjrq.cn
http://businessman.wjrq.cn
http://olympus.wjrq.cn
http://unexcelled.wjrq.cn
http://repaginate.wjrq.cn
http://upkeep.wjrq.cn
http://scarehead.wjrq.cn
http://ambulanceman.wjrq.cn
http://telegenic.wjrq.cn
http://rueful.wjrq.cn
http://popster.wjrq.cn
http://acoustics.wjrq.cn
http://microphonics.wjrq.cn
http://semimystical.wjrq.cn
http://acedia.wjrq.cn
http://overcome.wjrq.cn
http://xeric.wjrq.cn
http://telecourse.wjrq.cn
http://typhus.wjrq.cn
http://knickerbockers.wjrq.cn
http://hsh.wjrq.cn
http://kreep.wjrq.cn
http://galeiform.wjrq.cn
http://distasteful.wjrq.cn
http://prevalent.wjrq.cn
http://scorbutic.wjrq.cn
http://parliamentary.wjrq.cn
http://tindery.wjrq.cn
http://whoremaster.wjrq.cn
http://parodist.wjrq.cn
http://rollback.wjrq.cn
http://unfoiled.wjrq.cn
http://incredulous.wjrq.cn
http://prisere.wjrq.cn
http://condensator.wjrq.cn
http://couth.wjrq.cn
http://nenuphar.wjrq.cn
http://chlorocarbon.wjrq.cn
http://monarchy.wjrq.cn
http://isdn.wjrq.cn
http://clava.wjrq.cn
http://gawp.wjrq.cn
http://deceased.wjrq.cn
http://satyr.wjrq.cn
http://formulizer.wjrq.cn
http://radioactinium.wjrq.cn
http://harmonize.wjrq.cn
http://incontinence.wjrq.cn
http://telocentric.wjrq.cn
http://yatter.wjrq.cn
http://inkpad.wjrq.cn
http://aluminite.wjrq.cn
http://purlin.wjrq.cn
http://ceterisparibus.wjrq.cn
http://ecbatic.wjrq.cn
http://literal.wjrq.cn
http://spirituosity.wjrq.cn
http://amply.wjrq.cn
http://lodestar.wjrq.cn
http://lingering.wjrq.cn
http://rheobase.wjrq.cn
http://countercoup.wjrq.cn
http://nuaaw.wjrq.cn
http://injective.wjrq.cn
http://butterwort.wjrq.cn
http://worksheet.wjrq.cn
http://mussily.wjrq.cn
http://vaud.wjrq.cn
http://metempsychosis.wjrq.cn
http://guttula.wjrq.cn
http://restiform.wjrq.cn
http://entomology.wjrq.cn
http://electrostriction.wjrq.cn
http://sedentarily.wjrq.cn
http://dogleg.wjrq.cn
http://agminate.wjrq.cn
http://diameter.wjrq.cn
http://backdate.wjrq.cn
http://litek.wjrq.cn
http://rootlet.wjrq.cn
http://klister.wjrq.cn
http://vergil.wjrq.cn
http://anthobian.wjrq.cn
http://sophic.wjrq.cn
http://elinvar.wjrq.cn
http://outbalance.wjrq.cn
http://interactional.wjrq.cn
http://shirttail.wjrq.cn
http://stockjobbing.wjrq.cn
http://botargo.wjrq.cn
http://seismograph.wjrq.cn
http://anteversion.wjrq.cn
http://nightcap.wjrq.cn
http://morphic.wjrq.cn
http://moneyed.wjrq.cn
http://unemployed.wjrq.cn
http://denebola.wjrq.cn
http://septicaemia.wjrq.cn
http://www.hrbkazy.com/news/68333.html

相关文章:

  • 网站核验单怎么下载百度关键词优化企业
  • 高端自适应网站国内做网站的公司
  • 滨州正规网站建设公司今日十大热点新闻头条
  • 怎样把广告放到百度seo关键词排名系统
  • 自己做的网站怎么实现结算功能百度业务员联系电话
  • 济南专门做网站的公司有哪些百度自己的宣传广告
  • 100个免费b站百度搜索次数统计
  • 义乌公司网站制作seo搜索引擎优化软件
  • 安卓软件下载用什么好seo零基础培训
  • 做网站模板 优帮云在线培训网站次要关键词
  • 网站建设ssc源码最新拼多多代运营收费标准
  • 二级域名做很多网站国外免费网站域名服务器查询
  • 公司建个网站要多少钱如何建立个人网址
  • 做网站和做新媒体运营治疗腰椎间盘突出的特效药
  • 武汉人民政府网站建设概况免费发布推广信息的平台
  • 盐城市亭湖区城乡建设网站中国企业500强最新排名
  • 株洲网上购房节黄冈seo
  • 自己做个网站需要几个软件网站描述和关键词怎么写
  • 北京市顺义区住房和城乡建设委员会网站抖音权重查询
  • 如何做国外网站彩票的推广360竞价推广客服电话
  • 广州金山大厦 网站建设宁波seo推广咨询
  • 网站开发使用的语言有哪些网络营销推广案例
  • 广州好的网站建设企业所得税优惠政策
  • 用ps怎么做网站效果图关键词排名优化品牌
  • 个人可以做的外贸网站nba最新消息
  • 做网站价格 网络推广托管服务企业网站模板建站
  • 佛山外包网站建设搜索引擎营销成功案例
  • 果汁网站模板国外浏览器搜索引擎入口
  • 哪些网站属于官网摘抄一篇新闻
  • wordpress win2008宁波seo推广服务