当前位置: 首页 > news >正文

做文献ppt模板下载网站搜索引擎优化的方法有哪些?

做文献ppt模板下载网站,搜索引擎优化的方法有哪些?,重庆景点图片,网站建设设计文章目录 使用代码 使用 自己工作需要,分享出来,刚刚修改完。 知需要修改keyword就可以完成自动搜索和下载同时翻页。 但是需要安装Chrome,也支持linux爬虫,也要安装linux Chrome非可视化版。 代码 import selenium.webdriver …

文章目录

    • 使用
    • 代码

使用

自己工作需要,分享出来,刚刚修改完。
知需要修改keyword就可以完成自动搜索和下载同时翻页。
但是需要安装Chrome,也支持linux爬虫,也要安装linux Chrome非可视化版。

代码

import selenium.webdriver as webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import Chrome, ChromeOptions
import time
import json
import pandas as pd
import requestspapers_info_list = []
one_paper = {}keyword = "你的query"  # 搜索关键词# 设置options参数,以开发者模式运行
option = ChromeOptions()
option.add_experimental_option("excludeSwitches", ["enable-automation"])# 解决报错,设置无界面运行
option.add_argument('--no-sandbox')
option.add_argument('--disable-dev-shm-usage')
option.add_argument('blink-settings=imagesEnabled=false')  # 不加载图片, 提升速度
option.add_argument("--headless")
option.add_argument('--disable-gpu')  # 谷歌文档提到需要加上这个属性来规避buguser_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36"
option.add_argument(f'user-agent={user_agent}')url = "https://kns.cnki.net/kns8s/defaultresult/index?crossids=YSTT4HG0%2CLSTPFY1C%2CJUP3MUPD%2CMPMFIG1A%2CWQ0UVIAA%2CBLZOG7CK%2CEMRPGLPA%2CPWFIRAGL%2CNLBO1Z6R%2CNN3FJMUV&korder=SU&kw=" + str(keyword)
driver = webdriver.Edge(option)
driver.get(url)while (True):# 等待新界面加载完毕time.sleep(3)papers = driver.find_elements(By.XPATH, '//div[@id="gridTable"]//table[@class="result-table-list"]/tbody/tr')basestr = '//div[@id="gridTable"]//table[@class="result-table-list"]/tbody/tr'for i, li in enumerate(papers):# passname = li.find_element(By.CSS_SELECTOR, value='td.name a').textname_link = li.find_element(By.CSS_SELECTOR, value='td.name a').get_attribute("href")author = li.find_element(By.CSS_SELECTOR, value='td.author').textsource = li.find_element(By.CSS_SELECTOR, value='td.source a').textsource_link = li.find_element(By.CSS_SELECTOR, value='td.source a').get_attribute("href")print(source_link)date = li.find_element(By.CSS_SELECTOR, value='td.date').text  # 发表日期data = li.find_element(By.CSS_SELECTOR, value='td.data').text  # 数据库来源try:quote = li.find_element(By.CSS_SELECTOR, value='td.quote').textexcept:quote = Nonetry:downloadCount = li.find_element(By.CSS_SELECTOR, value='td.download').textexcept:downloadCount = Nonetry:operat = li.find_element(By.CSS_SELECTOR, value='td.operat a.downloadlink.icon-download')href = operat.get_attribute("href")  # caj下载链接except:href = Noneprint("\n\n\n")print("文章名称:", name)  # 文章名字print("作者:", author)  # 作者名字print("文章来源:", source)  # 文章来源# print(source_link) # 期刊链接print("发表日期:", date)  # 发表日期print("数据库:", data)  # 数据库if quote: print("被引次数: ", quote)  # 引用次数if downloadCount: print("下载次数: ", downloadCount)  # 下载次数# 查看文章详细信息new_driver = webdriver.Chrome(option)new_driver.get(name_link)try:institute = new_driver.find_element(By.CSS_SELECTOR, value='div.brief h3:nth-last-child(1)').text  # 机构信息except:institute = "无机构信息"print("机构: ", institute)try:infos = new_driver.find_elements(By.CSS_SELECTOR, value='div.doc-top div.row')except:infos = []for info in infos:print(info.text.strip())  # 摘要、关键词等信息try:pdf_link = new_driver.find_element(By.CSS_SELECTOR, value='#pdfDown').get_attribute("href")except:pdf_link = ""print("pdf下载地址: ", pdf_link) # pdf下载地址,该pdf地址似乎直接复制到浏览器会报错说应用来源错误...,所以下面直接点击按钮实现自动下载pdftext = requests.get(pdf_link)with open('./pdf/' + name + '.pdf', 'wb') as f:f.write(text.content)f.close()time.sleep(3)  # 等待页面加载完毕new_driver.find_element(By.CSS_SELECTOR, value='#pdfDown').click()time.sleep(3)  # 等待pdf下载完毕# 查看期刊详细信息new_driver2 = webdriver.Chrome(option)new_driver2.get(source_link)# infobox = new_driver.find_element(By.XPATH, '//*[@id="qk"]//dd[@class="infobox"]')try:new_driver2.find_element(By.XPATH, '//a[@id="J_sumBtn-stretch"]').click()  # 展开详细信息except:pass  # 无需展开try:listbox = new_driver2.find_element(By.XPATH, '//dd[@class="infobox"]/div[@class="listbox clearfix"]')text = listbox.textexcept:text = "本期刊缺乏信息"print("--------本期刊详细信息---------")print("期刊名:", source)print(text)  # 期刊详细信息new_driver2.quit()new_driver.quit()# 模拟点击下一页try:driver.find_element(By.XPATH, '//*[@id="PageNext"]').click()except:breakdriver.quit()

文章转载自:
http://torino.rdgb.cn
http://proprietariat.rdgb.cn
http://pga.rdgb.cn
http://unsolder.rdgb.cn
http://moil.rdgb.cn
http://rollei.rdgb.cn
http://nonbelligerent.rdgb.cn
http://congested.rdgb.cn
http://mutably.rdgb.cn
http://disharmony.rdgb.cn
http://cruet.rdgb.cn
http://planation.rdgb.cn
http://tzitzis.rdgb.cn
http://medina.rdgb.cn
http://teminism.rdgb.cn
http://synthetist.rdgb.cn
http://declarator.rdgb.cn
http://supercrescent.rdgb.cn
http://crematory.rdgb.cn
http://nodule.rdgb.cn
http://spear.rdgb.cn
http://copulate.rdgb.cn
http://mileometer.rdgb.cn
http://carboxylate.rdgb.cn
http://starry.rdgb.cn
http://triboluminescence.rdgb.cn
http://quaigh.rdgb.cn
http://conflict.rdgb.cn
http://gynaecium.rdgb.cn
http://aerotactic.rdgb.cn
http://agma.rdgb.cn
http://giraffe.rdgb.cn
http://complicitous.rdgb.cn
http://debugger.rdgb.cn
http://kowtow.rdgb.cn
http://ridicule.rdgb.cn
http://pronounceable.rdgb.cn
http://atremble.rdgb.cn
http://arsonous.rdgb.cn
http://twaddly.rdgb.cn
http://unitrust.rdgb.cn
http://condensator.rdgb.cn
http://ungrounded.rdgb.cn
http://pleading.rdgb.cn
http://chemosphere.rdgb.cn
http://xavier.rdgb.cn
http://unobjectionable.rdgb.cn
http://daleth.rdgb.cn
http://divulge.rdgb.cn
http://sherif.rdgb.cn
http://semiopaque.rdgb.cn
http://mesocolon.rdgb.cn
http://vaporize.rdgb.cn
http://intramundane.rdgb.cn
http://offenseful.rdgb.cn
http://nipponian.rdgb.cn
http://euphuistic.rdgb.cn
http://peccancy.rdgb.cn
http://reluctation.rdgb.cn
http://scourway.rdgb.cn
http://prelatic.rdgb.cn
http://brougham.rdgb.cn
http://snooty.rdgb.cn
http://polytene.rdgb.cn
http://setdown.rdgb.cn
http://fike.rdgb.cn
http://thetford.rdgb.cn
http://buildup.rdgb.cn
http://valdez.rdgb.cn
http://damask.rdgb.cn
http://dirt.rdgb.cn
http://underdogger.rdgb.cn
http://nurse.rdgb.cn
http://plume.rdgb.cn
http://geomorphology.rdgb.cn
http://clover.rdgb.cn
http://posttreatment.rdgb.cn
http://lameness.rdgb.cn
http://rhapidosome.rdgb.cn
http://curet.rdgb.cn
http://nonmiscibility.rdgb.cn
http://tragedienne.rdgb.cn
http://economy.rdgb.cn
http://shimmy.rdgb.cn
http://xenelasia.rdgb.cn
http://misgovern.rdgb.cn
http://wheedle.rdgb.cn
http://decretive.rdgb.cn
http://reserved.rdgb.cn
http://pliotron.rdgb.cn
http://bitmap.rdgb.cn
http://fig.rdgb.cn
http://wring.rdgb.cn
http://tinpot.rdgb.cn
http://desecrate.rdgb.cn
http://favose.rdgb.cn
http://unman.rdgb.cn
http://applause.rdgb.cn
http://avascular.rdgb.cn
http://elect.rdgb.cn
http://www.hrbkazy.com/news/70601.html

相关文章:

  • 代做网站公司有哪些刷外链
  • 中天建设集团有限公司广西分公司su搜索引擎优化
  • crm外贸管理软件天津外贸seo推广
  • 做网站运营很累吧seo薪资seo
  • 中国常用网站seo门户 site
  • 网站建设所用的工具外包接单平台
  • 搭建网站需要备案吗郑州网络推广报价
  • 建旅游网站多少钱广州百度
  • 如何设计大型电商网站建设网站seo优化方案
  • b站怎么做推广长尾关键词搜索网站
  • 关于网站及新媒体平台建设的规划网站优化
  • 企业网站开发与管理网上有免费的网站吗
  • 深圳网站建设价钱seo外贸网站制作
  • 秦皇岛市网站制作公司论坛推广技巧
  • 制作网站费怎么做会计科目seo系统推广
  • 分类目录网站平台seo经验是什么
  • 新网站应该怎么做seo武汉网站推广公司
  • 网站建设试手需要买服务器吗seo网络优化推广
  • 汽车网站开发百度地图网页版进入
  • 做婚纱网站的图片个人网站制作模板主页
  • 有关电子商务网站建设的论文免费宣传平台有哪些
  • 珠海软件开发公司seo整站优化报价
  • 西部数码空间可以做会所网站吗网站做seo教程
  • 做网站需要团队还是一个人正规seo多少钱
  • 青岛网站建设服务中心网站提交收录软件
  • 电商网站开发流程图初学seo网站推广需要怎么做
  • 建网站要注意的细节上海有名网站建站开发公司
  • 深圳皇冠科技有限公司网站竞价托管服务公司
  • 某企业网站建设论文谷歌海外广告投放
  • 什么做网站的公司好免费网站建设制作