当前位置: 首页 > news >正文

顶顶呱网站建设seo图片优化的方法

顶顶呱网站建设,seo图片优化的方法,湛江网站开发公司,网站如何做seo优化教程前言 Scrapy是非常优秀的一个爬虫框架,基于twisted异步编程框架。yield的使用如此美妙。基于调度器,下载器可以对scrapy扩展编程。插件也是非常丰富,和Selenium,PlayWright集成也比较轻松。 当然,对网页中的ajax请求…

前言

Scrapy是非常优秀的一个爬虫框架,基于twisted异步编程框架。yield的使用如此美妙。基于调度器,下载器可以对scrapy扩展编程。插件也是非常丰富,和Selenium,PlayWright集成也比较轻松。

当然,对网页中的ajax请求它是无能无力的,但结合mitmproxy几乎无所不能:Scrapy + PlayWright模拟用户点击,mitmproxy则在后台抓包取数据,登录一次,运行一天。

最终,我通过asyncio把这几个工具整合到了一起,基本达成了自动化无人值守的稳定运行,一篇篇的文章送入我的ElasticSearch集群,经过知识工厂流水线,变成知识商品。

”爬虫+数据,算法+智能“,这是一个技术人的理想。

配置与运行

安装:

pip install scrapy

当前目录下有scrapy.cfg和settings.py,即可运行scrapy

命令行运行:

scrapy crawl ArticleSpider

在程序中运行有三种写法:

from scrapy.cmdline import executeexecute('scrapy crawl ArticleSpider'.split())

采用CrawlerRunner:

# 采用CrawlerRunner
from twisted.internet.asyncioreactor import AsyncioSelectorReactor
reactor = AsyncioSelectorReactor()runner = CrawlerRunner(settings)
runner.crawl(ArticleSpider)
reactor.run()

采用CrawlerProcess

# 采用CrawlerProcess
process = CrawlerProcess(settings)
process.crawl(ArticleSpider)
process.start()

和PlayWright的集成

安装

pip install scrapy-playwright
playwright install
playwright install firefox chromium

settings.py配置

BOT_NAME = 'ispider'SPIDER_MODULES = ['ispider.spider']TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'
DOWNLOAD_HANDLERS = {"https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler","http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
}CONCURRENT_REQUESTS = 32
PLAYWRIGHT_MAX_PAGES_PER_CONTEXT = 4
CLOSESPIDER_ITEMCOUNT = 100PLAYWRIGHT_CDP_URL = "http://localhost:9900"

爬虫定义

class ArticleSpider(Spider):name = "ArticleSpider"custom_settings = {# "TWISTED_REACTOR": "twisted.internet.asyncioreactor.AsyncioSelectorReactor",# "DOWNLOAD_HANDLERS": {#     "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",#     "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",# },# "CONCURRENT_REQUESTS": 32,# "PLAYWRIGHT_MAX_PAGES_PER_CONTEXT": 4,# "CLOSESPIDER_ITEMCOUNT": 100,}start_urls = ["https://blog.csdn.net/nav/lang/javascript"]def __init__(self, name=None, **kwargs):super().__init__(name, **kwargs)logger.debug('ArticleSpider initialized.')def start_requests(self):for url in self.start_urls:yield Request(url,meta={"playwright": True,"playwright_context": "first","playwright_include_page": True,"playwright_page_goto_kwargs": {"wait_until": "domcontentloaded",},},)async def parse(self, response: Response, current_page: Optional[int] = None) -> Generator:content = response.textpage = response.meta["playwright_page"]context = page.contexttitle = await page.title()while True:## 垂直滚动下拉,不断刷新数据page.mouse.wheel(delta_x=0, delta_y=200)time.sleep(3)pass

参考链接

  • 官方scrapy-playwright插件
  • 崔庆才丨静觅写的插件GerapyPlaywright
http://www.hrbkazy.com/news/27786.html

相关文章:

  • 企业手机网站建设策划方案域名注册管理中心网站
  • 深圳门窗在哪里网站做推广免费的网站申请
  • cms管理手机网站模板下载网站建设公司哪个好呀
  • wordpress的日志形式怎么用天津seo顾问
  • 企业网站可以做跨境电商吗seo平台代理
  • 做网站要什么知识条件搜索引擎平台排名
  • 网站空间免备案刷百度关键词排名
  • 经常使用( )对网页的布局进行控制seo排名技术教程
  • 网页设计学习教程排名优化外包公司
  • 自己可以做装修效果图的网站青岛网站建设公司
  • 上海网站的优化公司seo查询爱站
  • 做网站为什么需要营业执照互联网营销师是做什么的
  • 网页制作与设计专业免费seo培训
  • 博客类网站源码建设网站的网站首页
  • 个人网站域名所有权长尾关键词有哪些
  • 廊坊网站建设招聘投稿平台
  • 如何做网站不被查百度收录提交网站后多久收录
  • 做配色的网站百度投诉中心24人工客服电话
  • 做效果图常用的网站百度网站权重查询
  • 《动态网站建设》第04章抚州seo外包
  • 做网站好还是app好网站软件下载app
  • 石家庄做网站比较好的公司有哪些网上培训机构
  • 哪里网站建设淘宝关键词优化推广排名
  • jsp做网站用什么封装字符串手机建站系统
  • 网站注册页面跳出怎么做东莞网站推广运营公司
  • 上海网站开发报价新乡百度网站优化排名
  • 酒店网站建设协议seo文案范例
  • 3d演示中国空间站建造历程seo的中文意思
  • 免费管理软件开发平台seo优化关键词分类
  • 网站关键词设置技巧宠物美容师宠物美容培训学校