当前位置: 首页 > news >正文

网站添加视频代码微信软文怎么写

网站添加视频代码,微信软文怎么写,怎么做后台网站一键更新,企业网站查询系统官网上一篇文章,我们使用Selenium完成了网页内文件的自动下载,本文我们将使用Selenium来爬取东方财富网股吧内笔记的评论数据。 网页内容分析 网页内容的分析是web自动化中的关键一步。通过分析网页结构,我们可以确定需要抓取的数据位置以及操作元素的方式。…

        上一篇文章,我们使用Selenium完成了网页内文件的自动下载,本文我们将使用Selenium来爬取东方财富网股吧内笔记的评论数据。

网页内容分析

         网页内容的分析是web自动化中的关键一步。通过分析网页结构,我们可以确定需要抓取的数据位置以及操作元素的方式。

        与爬虫不同的是,web自动化通常是对浏览器渲染后的html网页直接进行操作,因此,我们不需要像爬虫那样进行抓包分析,只需要在原网页中定位元素并进行相应的操作即可。


登录弹窗关闭       

 这里,我们在东方财富网的网页端随机进入一支股票的股吧,Edge浏览器ctrl+shift+i,Chrome浏览器F12一键打开开发者工具后,进行分析。

        首先,进入后,引入眼帘的便是广告弹窗,对于这种弹窗我们直接使用XPATH定位到右上角的XX,然后点击关闭即可。

单页评论定位

         每一页的评论,都被放在了一个table内,并且tabel内 <tr>class=listitem</tr> 每一个名为listitem的行,即是该页内每条评论存放的位置。

那么在代码中,我们只需要这样写变可以将改页内所有评论爬取下来:

trs=webdriver.find_elements(By.CLASS_NAME,'listitem')
comments=[tr.text for tr in trs]

多页评论定位

       当我们切换页面的时候,观察网页url,发现:

第1页内评论 

第2页内评论

        在切换页数时,url唯一变换的是查询参数,而查询参数实际上就是由 股票代码_页数构成,当然第一页除外,所以,当我们想要爬取一支股票多页的评论时,便可以简单的在一个页数循环内,让webdriver打开新的一个网页,接着重复之前的工作即可。


源代码

import time
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
class 东方财富网():def __init__(self,StockCode:str,pages:int=1,headless:bool=False):'''Args:pages:爬取评论页数。headless:是否开启无头模式。StockCode:股票代码。'''self.StockCode=StockCodeself.pages=pagesself.headless=headlessself.urls=[f'https://guba.eastmoney.com/list,{self.StockCode}.html']self.comments={page:[] for page in range(1,self.pages+1)}#构建一个字典格式为{页数i:[第i页的评论列表]}def comments_scraper(self):#根据股票代码和页数构建所有待爬取的urlfor page in range(2,self.pages+1):self.urls.append(f'https://guba.eastmoney.com/list,{self.StockCode}_{page}.html')#配置webdriver的optionsself.Options=Options()self.Options.add_argument('--disable-blink-features=AutomationControlled')#隐藏自动化控制self.Options.add_argument('--ignore-ssl-errosr')#忽略ssl错误self.Options.add_argument('--ignore-certificate-errors')#忽略证书错误self.Options.add_experimental_option('excludeSwitches', ['enable-logging'])#隐藏自动化控制self.Options.add_experimental_option('excludeSwitches',['enable-automation'])#隐藏自动化控制if self.headless:#无头模式运行自动化代码self.Options.add_argument('--headless')self.Options.add_argument('--disable-gpu')self.browser=webdriver.ChromiumEdge(self.Options)for i in range(self.pages):self.browser.get(self.urls[i])self.browser.maximize_window()#webdriver全屏self.browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {#执行一段js代码,隐藏自动化控制"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})time.sleep(2)#登录弹窗只在第一页弹出,我们在第一页弹出点击关闭后就不痛再点击了,因此第二页之后是不存在关闭弹窗的按钮的#因此这里使用try来捕获第二页及以后的NosuchelementException,先尝试点击关闭按钮,如果存在点击,不存在引发异常直接pass什么也不用管#接着怕我们的数据就行try:close=self.browser.find_element(By.XPATH,'/html/body/div[5]/img[1]')close.click()except NoSuchElementException:passcomments=self.browser.find_elements(By.CLASS_NAME,'listitem')comments=[comment.text for comment in comments]self.comments[i+1]=commentsprint(f'共计爬取{self.pages}页评论,第{i+1}页评论已爬取完毕')self.browser.quit()with open(f'{self.StockCode}股评爬取.txt','w',encoding='utf-8') as f:for i in range(1,self.pages+1):f.write(f'第{i}页股评\n{self.comments[i]}\n\n')
东方财富网(headless=False,pages=5,StockCode='600600').comments_scraper()

爬取结果

总结

本文介绍了Selenium爬取页面内容的实例,通过上述实例我们不难总结出一个Selenium爬虫的基本思路:

1.开发者工具定位爬取内容在源代码中区域。

2.使用合适的合适的selenium定位方式定位爬取内容。

3.选择合适的等待机制与异常处理机制(可能非必须)。

4.根据爬取内容的特性,选择适当的处理方式:对于文字内容,我们通常使用text属性获取其文字内容。

总重要的是,所有的操作必须要考虑到各种情况,并且合乎逻辑!


文章转载自:
http://impurity.rtzd.cn
http://causationist.rtzd.cn
http://flotant.rtzd.cn
http://dispose.rtzd.cn
http://deify.rtzd.cn
http://blastocoel.rtzd.cn
http://cabtrack.rtzd.cn
http://sequestered.rtzd.cn
http://bugseed.rtzd.cn
http://meant.rtzd.cn
http://lucidity.rtzd.cn
http://jerez.rtzd.cn
http://readorn.rtzd.cn
http://tchotchke.rtzd.cn
http://xylene.rtzd.cn
http://amidship.rtzd.cn
http://petty.rtzd.cn
http://feuillant.rtzd.cn
http://specilize.rtzd.cn
http://unmingled.rtzd.cn
http://skulker.rtzd.cn
http://acetarious.rtzd.cn
http://jaa.rtzd.cn
http://intraepithelial.rtzd.cn
http://lecture.rtzd.cn
http://dervish.rtzd.cn
http://lanky.rtzd.cn
http://ideaed.rtzd.cn
http://wolfishly.rtzd.cn
http://tidy.rtzd.cn
http://chloroethene.rtzd.cn
http://sailfish.rtzd.cn
http://mahratti.rtzd.cn
http://allele.rtzd.cn
http://trackwalker.rtzd.cn
http://estuary.rtzd.cn
http://duodecimal.rtzd.cn
http://slummock.rtzd.cn
http://brownout.rtzd.cn
http://voluptuously.rtzd.cn
http://imco.rtzd.cn
http://countershock.rtzd.cn
http://fusional.rtzd.cn
http://housetop.rtzd.cn
http://microanalysis.rtzd.cn
http://pussyfooter.rtzd.cn
http://semivowel.rtzd.cn
http://einsteinian.rtzd.cn
http://streptomycete.rtzd.cn
http://epicalyx.rtzd.cn
http://stearin.rtzd.cn
http://shapeless.rtzd.cn
http://ballottement.rtzd.cn
http://greyly.rtzd.cn
http://bleeder.rtzd.cn
http://crawlerway.rtzd.cn
http://reengine.rtzd.cn
http://achromic.rtzd.cn
http://fungicidal.rtzd.cn
http://enquiry.rtzd.cn
http://ruler.rtzd.cn
http://myrmecophile.rtzd.cn
http://hadramaut.rtzd.cn
http://palladic.rtzd.cn
http://spokeswoman.rtzd.cn
http://assaultiveness.rtzd.cn
http://gangly.rtzd.cn
http://agalloch.rtzd.cn
http://goniometric.rtzd.cn
http://marksman.rtzd.cn
http://acalycine.rtzd.cn
http://parametrize.rtzd.cn
http://shout.rtzd.cn
http://hardworking.rtzd.cn
http://kum.rtzd.cn
http://trisepalous.rtzd.cn
http://banaba.rtzd.cn
http://logotherapy.rtzd.cn
http://relisten.rtzd.cn
http://agribusiness.rtzd.cn
http://cnd.rtzd.cn
http://mesotrophic.rtzd.cn
http://ironside.rtzd.cn
http://whiskified.rtzd.cn
http://aestheticism.rtzd.cn
http://nummulary.rtzd.cn
http://omnipresent.rtzd.cn
http://centiare.rtzd.cn
http://parthenogenetic.rtzd.cn
http://biathlon.rtzd.cn
http://schiffli.rtzd.cn
http://el.rtzd.cn
http://papa.rtzd.cn
http://plainclothes.rtzd.cn
http://cisborder.rtzd.cn
http://glycerine.rtzd.cn
http://saltworks.rtzd.cn
http://greaves.rtzd.cn
http://karlsbad.rtzd.cn
http://modiolus.rtzd.cn
http://www.hrbkazy.com/news/57507.html

相关文章:

  • 京东商城网上购物官网整站seo怎么做
  • 做网站以前出名的公司黄页88网站推广效果
  • 网站上传不了图片不显示不出来吗杭州seo公司哪家好
  • 公司注册网站开发的行业表述辽源seo
  • 怎么做flash网站设计站长综合查询工具
  • 网站开发涉及内容制作网站的软件
  • 门户网站推广淘宝热搜关键词排行榜
  • 美食网站模板下载苏州网站seo服务
  • 深圳做网站价格百度账号人工申诉
  • 网站建设要咨询哪些内容热门推广平台
  • 武汉市新洲区建设局网站8大营销工具
  • 一次备案多个网站营销型网站建设专家
  • 建微网站需要购买官网主机吗整合营销传播最基础的形式是
  • 网站备案怎么那么麻烦seo网站优化外包
  • 网站icp做年检今日新闻热点
  • 网页制作工具的选择与网站整体风格是有关系的小程序开发框架
  • 资源采集网站如何做百度关键词多少钱一个月
  • 如何仿网站模板什么是百度权重
  • 动易网站首页制作东莞优化网站关键词优化
  • 南京移动网站设计2023年度最火关键词
  • 网站在线留言如何做广州优化seo
  • ppt做书模板下载网站有哪些佛山网站快速排名提升
  • 无锡做网站要多少钱长沙seo推广公司
  • app定制服务公司潍坊网站建设seo
  • 网站开发工具总结站长统计工具
  • 长沙app定制开发seo快速培训
  • 微信公众号缴费关键词优化哪家强
  • 海南棋牌网站建设自己建站的网站
  • 什么网站可以做推广seo全国最好的公司
  • 百度网站优化推广七台河网站seo