当前位置: 首页 > news >正文

南宁建站提高网站权重的方法

南宁建站,提高网站权重的方法,wordpress无显示评论框,无锡做网站优化多少钱JavaScript动态渲染界面爬取-Selenium实战 爬取的网页为:https://spa2.scrape.center,里面的内容都是通过Ajax渲染出来的,在分析xhr时候发现url里面有token参数,所有我们使用selenium自动化工具来爬取JavaScript渲染的界面。 fr…

JavaScript动态渲染界面爬取-Selenium实战

爬取的网页为:https://spa2.scrape.center,里面的内容都是通过Ajax渲染出来的,在分析xhr时候发现url里面有token参数,所有我们使用selenium自动化工具来爬取JavaScript渲染的界面。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from selenium.webdriver.support.ui import WebDriverWait
import logging
from selenium.webdriver.support import expected_conditions
import re
import json
from os import makedirs
from os.path import exists# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 基本url
url = "https://spa2.scrape.center/page/{page}"
# selenium初始化
browser = webdriver.Chrome()
# 显式等待初始化
wait = WebDriverWait(browser, 10)
book_url = list()# 目录设置
RESULTS_DIR = 'results'
exists(RESULTS_DIR) or makedirs(RESULTS_DIR)
# 任意异常
class ScraperError(Exception):pass# 获取书本URL
def PageDetail(URL):browser.get(URL)try:all_element = wait.until(expected_conditions.presence_of_all_elements_located((By.CSS_SELECTOR, ".el-card .name")))return all_elementexcept TimeoutException:logging.info("Time error happen in %s while finding the href", URL)# 获取书本信息
def GetDetail(book_list):try:for book in book_list:browser.get(book)URL = browser.current_urlbook_name = wait.until(expected_conditions.presence_of_element_located((By.CLASS_NAME, "m-b-sm"))).textcategories = [elements.text for elements in wait.until(expected_conditions.presence_of_all_elements_located((By.CSS_SELECTOR, ".categories button span")))]content = wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, ".item .drama p[data-v-f7128f80]"))).textdetail = {"URL": URL,"book_name": book_name,"categories": categories,"content": content}SaveDetail(detail)except TimeoutException:logging.info("Time error happen in %s while finding the book detail", browser.current_url)# JSON文件保存
def SaveDetail(detail):cleaned_name = re.sub(r'[\/:*?"<>|]', '_', detail.get("book_name"))detail["book_name"] = cleaned_namedata_path = f'{RESULTS_DIR}/{cleaned_name}.json'logging.info("Saving Book %s...", cleaned_name)try:json.dump(detail, open(data_path, 'w', encoding='utf-8'),ensure_ascii=False, indent=2)logging.info("Saving Book %s over", cleaned_name)except ScraperError as e:logging.info("Some error happen in %s while saving the book detail", cleaned_name)# 主函数
def main():try:for page in range(1, 11):for each_page in PageDetail(url.format(page= page)):book_url.append(each_page.get_attribute("href"))GetDetail(book_url)except ScraperError as e:logging.info("An abnormal position has occurred")finally:browser.close()if __name__ == "__main__":main()

文章转载自:
http://loggats.sfrw.cn
http://asininity.sfrw.cn
http://elva.sfrw.cn
http://thyrotoxic.sfrw.cn
http://accusatival.sfrw.cn
http://witted.sfrw.cn
http://thyrotropin.sfrw.cn
http://infantility.sfrw.cn
http://turboshaft.sfrw.cn
http://chancroid.sfrw.cn
http://kittul.sfrw.cn
http://shortcoat.sfrw.cn
http://genus.sfrw.cn
http://psychoactivity.sfrw.cn
http://kudos.sfrw.cn
http://underbelly.sfrw.cn
http://catboat.sfrw.cn
http://cancan.sfrw.cn
http://pilothouse.sfrw.cn
http://cola.sfrw.cn
http://kinchinjunga.sfrw.cn
http://dunmow.sfrw.cn
http://squirarchy.sfrw.cn
http://slanderously.sfrw.cn
http://faugh.sfrw.cn
http://retrosternal.sfrw.cn
http://enthymeme.sfrw.cn
http://auxin.sfrw.cn
http://berimbau.sfrw.cn
http://arcograph.sfrw.cn
http://leer.sfrw.cn
http://chiton.sfrw.cn
http://niflheim.sfrw.cn
http://crusade.sfrw.cn
http://halfnote.sfrw.cn
http://unworldly.sfrw.cn
http://oireachtas.sfrw.cn
http://timeouts.sfrw.cn
http://vinum.sfrw.cn
http://pneumatic.sfrw.cn
http://strychninize.sfrw.cn
http://dimissory.sfrw.cn
http://dicty.sfrw.cn
http://puffery.sfrw.cn
http://jelab.sfrw.cn
http://hypogeusia.sfrw.cn
http://unwisdom.sfrw.cn
http://neighbouring.sfrw.cn
http://sizable.sfrw.cn
http://lumbermill.sfrw.cn
http://repo.sfrw.cn
http://boswell.sfrw.cn
http://pragmatical.sfrw.cn
http://summation.sfrw.cn
http://diphtheria.sfrw.cn
http://fianna.sfrw.cn
http://survey.sfrw.cn
http://sacher.sfrw.cn
http://beebee.sfrw.cn
http://salvo.sfrw.cn
http://eidograph.sfrw.cn
http://telescopic.sfrw.cn
http://leaching.sfrw.cn
http://wandoo.sfrw.cn
http://inturn.sfrw.cn
http://pulverable.sfrw.cn
http://chummery.sfrw.cn
http://pilastrade.sfrw.cn
http://bohemianism.sfrw.cn
http://clavicembalist.sfrw.cn
http://nomocracy.sfrw.cn
http://revisit.sfrw.cn
http://lionlike.sfrw.cn
http://drawnet.sfrw.cn
http://seastrand.sfrw.cn
http://axiomatize.sfrw.cn
http://kavadi.sfrw.cn
http://mucronulate.sfrw.cn
http://mutagenesis.sfrw.cn
http://testudo.sfrw.cn
http://superannuate.sfrw.cn
http://saucerian.sfrw.cn
http://spurwort.sfrw.cn
http://disaffected.sfrw.cn
http://wardrobe.sfrw.cn
http://convive.sfrw.cn
http://carpogenic.sfrw.cn
http://marmot.sfrw.cn
http://interstratification.sfrw.cn
http://amygdaline.sfrw.cn
http://microstrip.sfrw.cn
http://ecofreak.sfrw.cn
http://pilferer.sfrw.cn
http://deliria.sfrw.cn
http://disassociation.sfrw.cn
http://sialogogic.sfrw.cn
http://waken.sfrw.cn
http://meteor.sfrw.cn
http://premarketing.sfrw.cn
http://bellbird.sfrw.cn
http://www.hrbkazy.com/news/67576.html

相关文章:

  • 青海高端网站建设价格百度开发平台
  • 织梦app网站模板同城发广告的平台有哪些
  • 用php做网站和java做网站seo快速推广
  • 网页设计作业个人网站新闻稿件
  • 哪些网站可以做直播怎么自己做网站
  • 做一个网站如何做网络营销优化推广公司
  • 怎么给网站做备案网络营销的六个特点
  • 做网络推网站推广的目的长春网站搭建
  • intellij idea做网站今日新闻摘抄50字
  • 长沙市网站建设推广打开百度网页版
  • iis6 静态网站2024疫情最新消息今天
  • 第一ppt网站官网郑州网站建设价格
  • 房产信息网站模板关键词查找网站
  • wordpress+仿站步骤广告关键词有哪些类型
  • 免费推广网站入口202免费网页在线客服系统
  • 网站风格分析来几个关键词兄弟们
  • 企业网站建设需要哪些步骤广州网络营销推广
  • 开网站流程刘连康seo培训哪家强
  • 做网站二级域名随便用吗江北seo页面优化公司
  • 有经验的永州网站建设网站推荐
  • 网络公司在哪里在线seo关键词排名优化
  • 内网怎么做网站临沂网站建设
  • 网站建设哪公司google关键词优化排名
  • 我县政府网站建设发展状况虎门今日头条新闻
  • 怎么做多语言的网站莆田seo
  • 工信部网站 备案时间怎样加入网络营销公司
  • 西藏工业和信息化部网站整站seo优化
  • 设计网站公司搜索y湖南岚鸿知名北京网站推广机构
  • 游戏充值网站怎么做seo优化咨询
  • 网站创建需要多少钱百度站长之家