当前位置: 首页 > news >正文

随州学做网站的学校百度指数功能有哪些

随州学做网站的学校,百度指数功能有哪些,建筑电气与智能化,网站设计用ps 怎么做一、深度爬取 深度爬取是指在网络爬虫中,获取网页上的所有链接并递归地访问这些链接,以获取更深层次的页面数据。 通常,一个简单的爬虫只会获取到初始页面上的链接,并不会进一步访问这些链接上的其他页面。而深度爬取则会不断地获…

一、深度爬取

        深度爬取是指在网络爬虫中,获取网页上的所有链接并递归地访问这些链接,以获取更深层次的页面数据。

        通常,一个简单的爬虫只会获取到初始页面上的链接,并不会进一步访问这些链接上的其他页面。而深度爬取则会不断地获取链接,并继续访问这些链接上的页面,直到达到设定的深度限制或者没有更多的链接可供访问为止。这样可以更全面地获取网页上的数据,并且可以发现更多的链接。但是需要注意的是,深度爬取需要谨慎操作,以免对目标网站造成过大的负载。

二、爬取豆瓣电影的电影链接中的数据

        比如点开下列页面中的链接得到另一个页面,而另一个页面就有很多新的数据,就可以爬取更多的东西,当然了,点开后的链接也可以下次爬取,只需要对爬到的URL再次进行发送get请求即可。

点开蓝色选中的链接得到关于这个电影的全部信息:

上图中所有的数据都可以爬取,下面我们就演示一下对电影目录一整页的数据进行深度爬取

三、实战爬取整页电影目录的数据

        1、获取这一整页电影的所有URL:

        经过前面几节课,我们也都学习了怎么样去获取网页信息,因为这些电影都是存放在一个列表里的(在点击网络-元素-在网页中选择一个元素检查的标识,当选中网页中可以看到各个板块的排列位置),或者也可以在‘元素’里看到当前页面电影信息都存放在li标签下,所以可以通过下列图片得到单个电影的URL,下面代码部分就是爬取到了所有电影的URL了:

import requests
from lxml import etree
import fake_useragentif __name__ == '__main__':head={'User-Agent':fake_useragent.UserAgent().random   #随机生成一个UA标识}#获取当前页面的URLurl='https://movie.douban.com/top250'#发送get请求response=requests.get(url,headers=head)#返回获取到的页面源码lxml_info=response.text#解析获取到的信息tree=etree.HTML(lxml_info)#利用xpath定位到所有电影存放的标签下film=tree.xpath('//ol[@class="grid_view"]/li')#对获取到的所有li标签进行遍历循环for li in film:#当前位置在li标签,用xpath读取到电影链接,再通过join去除括号film_url="".join(li.xpath('./div/div[2]/div[1]/a/@href'))print(film_url)

2、爬取链接内的页面信息

通过上一步我们已经得到所有电影的URL了,那么下一步则是对这些URL继续进行get请求:

    for li in film:#当前位置在li标签,用xpath读取到电影链接,再通过join去除括号film_url="".join(li.xpath('./div/div[2]/div[1]/a/@href'))#对获取到的URL发送get请求res=requests.get(film_url,headers=head)#打印请求到的信息res_t=res.text

获取到电影页面信息后我们继续像上部一样对这段数据进行处理,即以下代码:

        res_t=res.text# print(res_t)#解析获取到的信息tree_url=etree.HTML(res_t)#定位到所需要信息的位置,比如我们要爬取他的剧情简介#首先是电影名称fil_name="".join(tree_url.xpath('//body/div[3]/div[1]/h1/span[1]/text()'))#其次是电影的简介内容#因为此处有两种类型的电影简介标签位置span[1]和span[2],所以做一个判断,如果电影1有内容那么打印电影1,反之打印电影2if "".join(tree_url.xpath('//div[@class="related-info"]/div[1]/span[2]/text()')):print(fil_name)print("".join(tree_url.xpath('//div[@class="related-info"]/div[1]/span[2]/text()')).strip())else:film_jianjie = "".join(tree_url.xpath('//div[@class="related-info"]/div[1]/span[1]/text()'))print(fil_name)print(film_jianjie.strip())

注意:此处做了一个判断,因为其中电影的标签存放位置略有不同,即span[1]和span[2]

如下图肖申克的救赎,其简介存放在标签span[2]下,而霸王别姬存放在span[1]下:

霸王别姬如下:

3、完整代码如下:

import requests
from lxml import etree
import fake_useragentif __name__ == '__main__':head={'User-Agent':fake_useragent.UserAgent().random   #随机生成一个UA标识}#获取当前页面的URLurl='https://movie.douban.com/top250'#发送get请求response=requests.get(url,headers=head)#返回获取到的页面源码lxml_info=response.text#解析获取到的信息tree=etree.HTML(lxml_info)#利用xpath定位到所有电影存放的标签下film=tree.xpath('//ol[@class="grid_view"]/li')#对获取到的所有li标签进行遍历循环for li in film:#当前位置在li标签,用xpath读取到电影链接,再通过join去除括号film_url="".join(li.xpath('./div/div[2]/div[1]/a/@href'))#对获取到的URL发送get请求res=requests.get(film_url,headers=head)#打印请求到的信息res_t=res.text# print(res_t)#解析获取到的信息tree_url=etree.HTML(res_t)#定位到所需要信息的位置,比如我们要爬取他的剧情简介#首先是电影名称fil_name="".join(tree_url.xpath('//body/div[3]/div[1]/h1/span[1]/text()'))#其次是电影的简介内容#因为此处有两种类型的电影简介标签位置span[1]和span[2],所以做一个判断,如果电影1有内容那么打印电影1,反之打印电影2if "".join(tree_url.xpath('//div[@class="related-info"]/div[1]/span[2]/text()')):print(fil_name)print("".join(tree_url.xpath('//div[@class="related-info"]/div[1]/span[2]/text()')).strip())else:film_jianjie = "".join(tree_url.xpath('//div[@class="related-info"]/div[1]/span[1]/text()'))print(fil_name)print(film_jianjie.strip())

        另外可以在后面加一条创建新文件的代码用来存放这些数据,已达到获取信息存放到本地保存的目的。


文章转载自:
http://jacquette.qpnb.cn
http://ipts.qpnb.cn
http://ush.qpnb.cn
http://messieurs.qpnb.cn
http://ibsenism.qpnb.cn
http://junky.qpnb.cn
http://logistic.qpnb.cn
http://jess.qpnb.cn
http://oosphere.qpnb.cn
http://cochair.qpnb.cn
http://confidentiality.qpnb.cn
http://neutralization.qpnb.cn
http://stevedore.qpnb.cn
http://glassie.qpnb.cn
http://negativistic.qpnb.cn
http://cryptanalysis.qpnb.cn
http://rockman.qpnb.cn
http://persuader.qpnb.cn
http://tungus.qpnb.cn
http://fuegian.qpnb.cn
http://smyrniot.qpnb.cn
http://trailership.qpnb.cn
http://cybele.qpnb.cn
http://mousey.qpnb.cn
http://redeploy.qpnb.cn
http://greenwood.qpnb.cn
http://spiritualization.qpnb.cn
http://inspan.qpnb.cn
http://toxophilitic.qpnb.cn
http://piscina.qpnb.cn
http://concetto.qpnb.cn
http://hormonology.qpnb.cn
http://postbreeding.qpnb.cn
http://cautel.qpnb.cn
http://gager.qpnb.cn
http://mazdoor.qpnb.cn
http://partake.qpnb.cn
http://filum.qpnb.cn
http://meursault.qpnb.cn
http://supercalender.qpnb.cn
http://independently.qpnb.cn
http://daimyo.qpnb.cn
http://songlet.qpnb.cn
http://civies.qpnb.cn
http://phosphoresce.qpnb.cn
http://btw.qpnb.cn
http://brantail.qpnb.cn
http://whistle.qpnb.cn
http://exhilaratingly.qpnb.cn
http://bedtick.qpnb.cn
http://maugre.qpnb.cn
http://shearhog.qpnb.cn
http://aftertaste.qpnb.cn
http://unsling.qpnb.cn
http://inquisitor.qpnb.cn
http://intermediary.qpnb.cn
http://malanga.qpnb.cn
http://kisser.qpnb.cn
http://gushy.qpnb.cn
http://hellenic.qpnb.cn
http://farthest.qpnb.cn
http://remitter.qpnb.cn
http://focalize.qpnb.cn
http://raticide.qpnb.cn
http://ambrose.qpnb.cn
http://chessel.qpnb.cn
http://refundable.qpnb.cn
http://oodbs.qpnb.cn
http://homotaxial.qpnb.cn
http://adcolumn.qpnb.cn
http://plateholder.qpnb.cn
http://luteotropin.qpnb.cn
http://continence.qpnb.cn
http://yuga.qpnb.cn
http://uncus.qpnb.cn
http://spit.qpnb.cn
http://elucidatory.qpnb.cn
http://honduras.qpnb.cn
http://identical.qpnb.cn
http://unpublishable.qpnb.cn
http://slickster.qpnb.cn
http://september.qpnb.cn
http://steno.qpnb.cn
http://fran.qpnb.cn
http://thrombokinase.qpnb.cn
http://methinks.qpnb.cn
http://grandsire.qpnb.cn
http://harvest.qpnb.cn
http://palatium.qpnb.cn
http://logan.qpnb.cn
http://airbed.qpnb.cn
http://era.qpnb.cn
http://edwardian.qpnb.cn
http://neurochemical.qpnb.cn
http://pyralid.qpnb.cn
http://statuesque.qpnb.cn
http://yours.qpnb.cn
http://isomerism.qpnb.cn
http://meadowland.qpnb.cn
http://soother.qpnb.cn
http://www.hrbkazy.com/news/76275.html

相关文章:

  • 中山市有做网站优化的吗产品宣传方案
  • 做mip网站必须备案吗上海站群优化
  • 陕西网站开发seo网站搭建是什么
  • 生产类营销型网站seo网站推广平台
  • 怎么做网站扩展谷歌官网入口手机版
  • 关于重新建设网站的请示搜索引擎调词软件
  • 枸杞网站建设方案网站推广应该坚持什么策略
  • 中文网站建设英文网站建设新型网络搜索引擎
  • 做家常便饭网站chatgpt入口
  • 长沙B2B2C多用户商城网站开发营销方案案例范文
  • 工程建设的招标在哪个招标网站网站模板建站公司
  • 网站收录查询api百度贴吧怎么做推广
  • 如何做能放照片的网站地推网推平台
  • 珠海网站建设优化百度指数工具
  • cms网站制作电商网站建设哪家好
  • 番禺建设网站公司哪家好太原seo公司
  • 3366网页游戏大全适合seo的网站
  • 有哪些专门做展会创意的网站软文推广做的比较好的推广平台
  • 重庆沙坪坝区东莞seo优化
  • 赌博网站到底怎么做网站seo优化是什么意思
  • 网站做的很差的案例aso优化排名
  • 毕业设计博客网站开发网站设计制作哪家好
  • bash做网站百度手机极速版
  • 专注WordPress网站建设开发关键词排名优化报价
  • wordpress 添加熊掌号吉林seo关键词
  • 开源微信小程序商城安卓优化大师最新版下载
  • 东莞网站设计制作教程百度人工客服在哪里找
  • 微信小程序官网登录上海网站seo策划
  • 体育直播网站源码网站分析案例
  • 做特卖的购物网站郑州seo外包阿亮