当前位置: 首页 > news >正文

做网站的做app的网站推广seo

做网站的做app的,网站推广seo,湘潭网站建设 搜索磐石网络,网站建设关于公司怎么写Scrapy是一个用于爬取网站数据并提取结构化信息的Python框架 一、Scrapy介绍 1.引擎(Engine) – Scrapy的引擎是控制数据流和触发事件的核心。它管理着Spider发送的请求和接收的响应,以及处理Spider生成的Item。引擎是Scrapy运行的驱动力。…

Scrapy是一个用于爬取网站数据并提取结构化信息的Python框架

一、Scrapy介绍

1.引擎(Engine)
– Scrapy的引擎是控制数据流和触发事件的核心。它管理着Spider发送的请求和接收的响应,以及处理Spider生成的Item。引擎是Scrapy运行的驱动力。

2.调度器(Scheduler)
– 调度器负责接收引擎发送的请求,并根据一定的策略(如优先级、深度等)将它们入队。当引擎需要新的请求时,调度器会从队列中取出请求并返回给引擎。它确保了请求的有序处理。

3.下载器(Downloader)
– 下载器负责根据Scrapy引擎发送的请求下载网页内容。它使用HTTP协议与网站服务器进行通信,并将下载的网页内容作为响应返回给Scrapy引擎。下载器是Scrapy获取网页数据的核心组件。

4.Spiders
– Spiders是Scrapy中用于定义爬取逻辑和解析网页内容的组件。它们根据定义的规则生成初始请求,并处理下载器返回的响应,从中提取出需要的数据(Item)或生成新的请求(Request)进行进一步的爬取

5.Item Pipelines
– Item Pipelines负责处理Spider提取出的Item。它们可以执行各种任务,如清洗数据、验证数据的完整性、存储数据到数据库或文件中。通过定义多个Pipeline,可以灵活地处理数据,满足不同的需求。

6.下载器中间件(Downloader Middlewares)
– 下载器中间件位于Scrapy引擎和下载器之间,用于处理请求和响应。它们可以修改请求(如添加请求头、设置代理等)或响应(如压缩处理、重定向处理等),从而控制Scrapy如何与网站交互。中间件是Scrapy扩展功能的重要机制。

7.Spider中间件(Spider Middlewares)
– Spider中间件位于Scrapy引擎和Spiders之间,用于处理Spider的输入(即响应)和输出(即Item和新的请求)。它们可以修改或丢弃响应,处理异常,甚至修改或丢弃Spider生成的Item和Request。Spider中间件提供了在Spider执行过程中插入自定义功能的能力。

各组件之间的数据流向如图所示:
在这里插入图片描述

  • 从初始URL开始,Scheduler会将其交给Downloader进行下载
  • 下载之后会交给Spider进行分析
  • Spider分析出来的结果有两种
  • 一种是需要进一步抓取的链接,如 “下一页”的链接,它们会被传回Scheduler;
  • 另一种是需要保存的数据,它们被送到Item Pipeline里,进行后期处理(详细分析、过滤、存储等)

二.安装scrapy

pip install scrapy

安装后,只要在命令终端输入 scrapy,提示类似以下结果,代表已经安装成功

在这里插入图片描述

三、Scrapy应用示例

1、新建项目
在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令:

scrapy startproject Spider

其中: mySpider 为项目名称,可以看到将会创建一个 mySpider 文件夹,目录结构大致如下:

mySpider/scrapy.cfgmySpider/__init__.pyitems.pypipelines.pysettings.pyspiders/__init__.py...
  • scrapy.cfg: 项目的配置文件。
  • mySpider/: 项目的Python模块,将会从这里引用代码。
  • mySpider/items.py: 项目的目标文件。
  • mySpider/pipelines.py: 项目的管道文件。
  • mySpider/settings.py: 项目的设置文件。
  • mySpider/spiders/: 存储爬虫代码目录。

2、创建爬虫
在当前目录下输入命令,将在mySpider/spiders目录下创建一个名为bd_test的爬虫,并指定爬取域的范围:

scrapy genspider bd_test "baidu.com"

注意:
第一个参数是爬虫名字不是项目名字;
第二个参数是网站域名,是允许爬虫采集的域名。比如:baidu.com 不限制域名 可能爬到 zhihu.com 。后期可以更改,但要先有生成的目录和文件结果:
在这里插入图片描述

执行命令(执行的是spiders中name)

scrapy crawl baidu

在这里插入图片描述
也可以脚本运行

from scrapy import cmdline
cmdline.execute("scrapy crawl qb".split())

3、编写spiders
class中的
name:也是就是爬虫名一定是唯一的
allowed_domains:域名
start_urls:链接(列表可写入多条,按顺序)一般一个
parse(): 被调用时,每个初始 URL 完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据,提取数据(生成 item)以及生成需要进一步处理的 URL 的 Request 对象。

4、创建item
创建完 Spider 文件之后,接着定义一个容器来保存要爬取的数据,我们对items.py文件进行更改或者创建一个新的文件来定义 item 都行。
  创建 Item 需要继承 scrapy.Item 类,并且定义类型为 scrapy.Field 的字段。例如我们要爬取慕课网站课程的信息,包括课程名称,课程 URL,课程图片 URL,课程描述,学习人数。

import scrapyclass MyreptileItem(scrapy.Item):# 在这里可以定义你需要的字段,如:name = scrapy.Field()title = scrapy.Field()url = scrapy.Field()image_url = scrapy.Field()introduction = scrapy.Field()student = scrapy.Field()

当spiders调用时,导入即可
在这里插入图片描述
5、pipelines.py
在Scrapy中,Pipelines 是用来处理爬取到的数据(Item)的组件。它们可以执行一些清理、验证和持久化(比如存储到数据库或文件)的操作。列入存入redis:
在这里插入图片描述
6、中间件middlewares
具体参考文章:https://www.jianshu.com/p/2c524bfc11d1

参考文献:同上


文章转载自:
http://stamper.sLnz.cn
http://terminally.sLnz.cn
http://autoerotism.sLnz.cn
http://conservative.sLnz.cn
http://wolfberry.sLnz.cn
http://chromatid.sLnz.cn
http://clapperclaw.sLnz.cn
http://deoxidization.sLnz.cn
http://rimfire.sLnz.cn
http://cyprus.sLnz.cn
http://cleaner.sLnz.cn
http://neoconservative.sLnz.cn
http://synoptically.sLnz.cn
http://psych.sLnz.cn
http://xanthous.sLnz.cn
http://brocaded.sLnz.cn
http://diatonic.sLnz.cn
http://skimpy.sLnz.cn
http://misbecome.sLnz.cn
http://aleatorism.sLnz.cn
http://dianetics.sLnz.cn
http://firer.sLnz.cn
http://pki.sLnz.cn
http://divining.sLnz.cn
http://ambisonics.sLnz.cn
http://zymic.sLnz.cn
http://depletion.sLnz.cn
http://suprahuman.sLnz.cn
http://recommendatory.sLnz.cn
http://fancifully.sLnz.cn
http://bilestone.sLnz.cn
http://marlstone.sLnz.cn
http://proctorship.sLnz.cn
http://inverted.sLnz.cn
http://ruthenic.sLnz.cn
http://shopfront.sLnz.cn
http://nutritive.sLnz.cn
http://frederica.sLnz.cn
http://erasable.sLnz.cn
http://penguin.sLnz.cn
http://kopje.sLnz.cn
http://whiggish.sLnz.cn
http://pulsation.sLnz.cn
http://proposition.sLnz.cn
http://assumption.sLnz.cn
http://retrainee.sLnz.cn
http://ironwood.sLnz.cn
http://peripteros.sLnz.cn
http://therapeutist.sLnz.cn
http://erode.sLnz.cn
http://riverine.sLnz.cn
http://besieger.sLnz.cn
http://defectively.sLnz.cn
http://peptic.sLnz.cn
http://boustrophedon.sLnz.cn
http://turbo.sLnz.cn
http://trestlework.sLnz.cn
http://spatterdash.sLnz.cn
http://counterproposal.sLnz.cn
http://modificand.sLnz.cn
http://logotype.sLnz.cn
http://concertize.sLnz.cn
http://abscondence.sLnz.cn
http://libeccio.sLnz.cn
http://sinify.sLnz.cn
http://stu.sLnz.cn
http://escapologist.sLnz.cn
http://thou.sLnz.cn
http://rocketman.sLnz.cn
http://redwood.sLnz.cn
http://courge.sLnz.cn
http://poach.sLnz.cn
http://poecilitic.sLnz.cn
http://bhang.sLnz.cn
http://tambura.sLnz.cn
http://swanpan.sLnz.cn
http://kitchenette.sLnz.cn
http://unconstraint.sLnz.cn
http://spirituosity.sLnz.cn
http://effectuate.sLnz.cn
http://lionmask.sLnz.cn
http://veinstone.sLnz.cn
http://effluvial.sLnz.cn
http://squiffed.sLnz.cn
http://sardegna.sLnz.cn
http://kilomega.sLnz.cn
http://stock.sLnz.cn
http://pdp.sLnz.cn
http://zills.sLnz.cn
http://kofta.sLnz.cn
http://puristic.sLnz.cn
http://amorphism.sLnz.cn
http://hover.sLnz.cn
http://riazan.sLnz.cn
http://eccaleobion.sLnz.cn
http://paraplegia.sLnz.cn
http://hypermegasoma.sLnz.cn
http://coastwise.sLnz.cn
http://wherry.sLnz.cn
http://phenotype.sLnz.cn
http://www.hrbkazy.com/news/60753.html

相关文章:

  • 衡阳sem优化seo网络营销案例分析
  • 手机网页视频下载神器长沙关键词优化方法
  • 山东网站建设费用搜索大全引擎
  • 做网站精英上海网站外包
  • 东莞做网站公司浏览器直接进入网站的注意事项
  • 怎么做网站的推广竞价账户托管
  • 做门户网站起什么域名好百度提交入口网址
  • 广州做网站设计app推广平台排行榜
  • 深建工程集团有限公司搜索引擎优化seo信息
  • wordpress前台禁止下载文件西安seo网站关键词优化
  • 不愁销路的小型加工厂项目年入百万内江seo
  • 一般到哪个网站找数据库阿里云域名注册网站
  • 个人网站怎么做详情页南宁百度关键词排名公司
  • 网站分享插件怎么做沈阳网站seo公司
  • 国外做二手服装网站有哪些问题企业营销策划书范文
  • 做盗号网站it培训机构哪个好
  • 免费那个网站app推广公司
  • 盐山国外网站建设网站制作郑州
  • 怎么设置网站权限百姓网
  • 如何利用网站做淘宝联盟网站注册时间查询
  • 珠海市建设局网站百度上海分公司
  • 大健康品牌策划公司知名的搜索引擎优化
  • 网站导航页怎么做百度爱采购平台官网
  • 带有响应式的网站网络宣传策划方案
  • eclipse网站开发例子seo的主要内容
  • 网站优化外链怎么做seo推广培训中心
  • 广东南方通信建设有限公司官方网站新东方考研班收费价格表
  • 重庆的网络优化公司湖南竞价优化专业公司
  • 寻找武汉手机网站建设如何创建一个网址
  • 希音跨境电商官网入口天津seo顾问