当前位置: 首页 > news >正文

仙游哪里可以做网站的谷歌搜索引擎免费入口2022

仙游哪里可以做网站的,谷歌搜索引擎免费入口2022,网站建设吗,谢岗网站仿做爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者);它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。 如果我们把互联网比作一张大的蜘蛛网,那…

爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者);它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。

如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,他们沿着蜘蛛网抓取自己想要的猎物/数据。

在这里插入图片描述

爬虫的基本流程

在这里插入图片描述

网页的请求与响应

网页的请求和响应方式是 Request 和 Response
Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)
Response:服务器接收请求,分析用户发来的请求信息,收到请求信息后返回数据(返回的数据中可能包含其他链接,如:image、js、css等)
浏览器在接收 Response 后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收 Response 后,是要提取其中的有用数据。

发起请求:Request

请求的发起是使用 http 库向目标站点发起请求,即发送一个Request

Request对象的作用是与客户端交互,收集客户端的 Form、Cookies、超链接,或者收集服务器端的环境变量。

Request 对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过 HTML 表单或在网页地址后面提供参数的方法提交数据。

然后服务器通过 request 对象的相关方法来获取这些数据。request 的各种方法主要用来处理客户端浏览器提交的请求中的各项参数和选项。

Request 包含:请求 URL、请求头、请求体等

Request 请求方式: GET/POST

请求url: url全称统一资源定位符,一个网页文档、一张图片、 一个视频等都可以用url唯一来确定

请求头: User-agent:请求头中如果没有 user-agent 客户端配置,服务端可能将你当做一个非法用户;

cookies: cookie 用来保存登录信息

一般做爬虫都会加上请求头

例如:抓取百度网址的数据请求信息如下:
在这里插入图片描述
在这里插入图片描述

获取响应内容

爬虫程序在发送请求后,如果服务器能正常响应,则会得到一个Response,即响应;
Response 信息包含:html、json、图片、视频等,如果没报错则能看到网页的基本信息。例如:一个的获取网页响应内容程序如下:

import requests
request_headers={
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Cookie': 'BIDUPSID=088AEC1E85F75590978FB3643E131FBA; PSTM=1603682377; BD_UPN=12314753; BDUSS_BFESS=s877ukkvpiduup96naoovu0b94; __yjs_duid=1_04c448abb85383e7fef98fb64b828cce1611538687284; BAIDUID=C6421D51B2DBFF82716EE84B116A4EF8:FG=1; BDSFRCVID_BFESS=rqtOJeC62uF1xmOeQXfguRnVq2hi4t5TH6aINJzxxKt_7w4IsZNSEG0PVf8g0Kubuo1BogKKWeOTHx8F_2uxOjjg8UtVJeC6EG0Ptf8g0f5; H_BDCLCKID_SF_BFESS=tbCH_ItXfCP3JRnYb-Qoq4D_MfOtetJyaR0fKU7vWJ5TEJjz3tuabp_8Lx4H3bQNaHc3Wlvctn3cShPCy-7m-p_z-J6bK6jULNchMhrL3l02VMQae-t2ynLV5HAOW-RMW23U0l7mWPPWsxA45J7cM4IseboJLfT-0bc4KKJxbnLWeIJEjjChDTcyeaLDqbQX2COXsROs2ROOKRcgq4bohjPDynn9BtQmJJrtX4Jtb4oqE4FxQRoChlKJhJAO2JJqQg-q3R5lLt02VlQueq3vBP0Fbfv80x-jLIOOVn0MW-KVo-Jz5tnJyUPibtnnBnkO3H8HL4nv2JcJbM5m3x6qLTKkQN3T-PKO5bRu_CFbtC_hMD-6j6RV-tAjqG-jJTkjt-o2WbCQ-tjM8pcNLTDK5f5L2Mc9Klov5DvtbJrC-CosjDbmjqO1j4_PX46EhnvibN8fLKbY-McFVp5jDh34b6ksD-Rt5JQytmry0hvcQb5cShn9eMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2b6Qh-p52f6LjJbC83e; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=33425_33439_33258_33272_31660_33463_33459_33321_33264; BAIDUID_BFESS=983CAD9571DCC96332320F573A4A81D5:FG=1; delPer=0; BD_CK_SAM=1; PSINO=7; BDRCVFR[tox4WRQ4-Km]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; BDRCVFR[CLK3Lyfkr9D]=mk3SLVN4HKm; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; BD_HOME=1; H_PS_645EC=0c49V2LWy0d6V4FbFplBYiy6xyUu88szhVpw2raoJDgdtE3AL0TxHMUUFPM; BA_HECTOR=0l05812h21248584dc1g38qhn0r; COOKIE_SESSION=1_0_8_3_3_9_0_0_7_3_0_1_5365_0_3_0_1614047800_0_1614047797%7C9%23418111_17_1611988660%7C5; BDSVRTM=1',
'Host':'www.baidu.com',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'}
response = requests.get('https://www.baidu.com/s',params={'wd':'帅哥'},headers=request_headers) #params内部就是调用urlencode
print(response.text)

以上内容输出的就是网页的基本信息,它包含 html、json、图片、视频等,如下图所示:
Response 响应后会返回一些响应信息,例下:
1、响应状态

  • 200:代表成功
  • 301:代表跳转
  • 404:文件不存在
  • 403:权限
  • 502:服务器错误

2、Respone header

  • set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来

3、preview 是网页源代码

  • 最主要的部分,包含了请求资源的内容,如网页html、图片、二进制数据等

4、解析内容

解析 html 数据:解析 html 数据方法有使用正则表达式、第三方解析库如 Beautifulsoup,pyquery 等

解析 json 数据:解析 json数据可使用 json 模块

解析二进制数据:以 b 的方式写入文件

5、保存数据

爬取的数据以文件的形式保存在本地或者直接将抓取的内容保存在数据库中,数据库可以是 MySQL、Mongdb、Redis、Oracle 等……

写在最后

爬虫的总流程可以理解为:蜘蛛要抓某个猎物–>沿着蛛丝找到猎物–>吃到猎物;即爬取–>解析–>存储;
在爬取数据过程中所需参考工具如下:
爬虫框架:Scrapy
请求库:requests、selenium
解析库:正则、beautifulsoup、pyquery
存储库:文件、MySQL、Mongodb、Redis……

总结

今天的文章是对爬虫的原理做一个详解,希望对大家有帮助,同时也在后面的工作中奠定基础!

在这里插入图片描述


文章转载自:
http://biedermeier.rkdw.cn
http://chalice.rkdw.cn
http://supersell.rkdw.cn
http://acidogenic.rkdw.cn
http://dereference.rkdw.cn
http://reverie.rkdw.cn
http://retrovert.rkdw.cn
http://retype.rkdw.cn
http://guess.rkdw.cn
http://midian.rkdw.cn
http://toluca.rkdw.cn
http://norevert.rkdw.cn
http://encaustic.rkdw.cn
http://pinetum.rkdw.cn
http://sciamachy.rkdw.cn
http://knuckleduster.rkdw.cn
http://blush.rkdw.cn
http://mechlorethamine.rkdw.cn
http://fireballing.rkdw.cn
http://countryward.rkdw.cn
http://uprear.rkdw.cn
http://shirting.rkdw.cn
http://catonian.rkdw.cn
http://cstar.rkdw.cn
http://homogenous.rkdw.cn
http://lanzhou.rkdw.cn
http://thaumatology.rkdw.cn
http://instruct.rkdw.cn
http://behaviour.rkdw.cn
http://actinomycete.rkdw.cn
http://electromer.rkdw.cn
http://formally.rkdw.cn
http://spermagonium.rkdw.cn
http://soymilk.rkdw.cn
http://recuperatory.rkdw.cn
http://chair.rkdw.cn
http://nonclaim.rkdw.cn
http://pinpoint.rkdw.cn
http://pelerine.rkdw.cn
http://coleorhiza.rkdw.cn
http://harmattan.rkdw.cn
http://considerable.rkdw.cn
http://bast.rkdw.cn
http://markhor.rkdw.cn
http://demyth.rkdw.cn
http://pollbook.rkdw.cn
http://tanyard.rkdw.cn
http://diptera.rkdw.cn
http://prototrophic.rkdw.cn
http://chalcogenide.rkdw.cn
http://karelian.rkdw.cn
http://circumvent.rkdw.cn
http://improve.rkdw.cn
http://spado.rkdw.cn
http://bioelectrogenesis.rkdw.cn
http://xantippe.rkdw.cn
http://philippic.rkdw.cn
http://syllabicate.rkdw.cn
http://decertify.rkdw.cn
http://moquette.rkdw.cn
http://seamanlike.rkdw.cn
http://spiritually.rkdw.cn
http://eulogistic.rkdw.cn
http://osage.rkdw.cn
http://scrupulosity.rkdw.cn
http://chaperonage.rkdw.cn
http://kakistocracy.rkdw.cn
http://laevogyrate.rkdw.cn
http://oculate.rkdw.cn
http://roast.rkdw.cn
http://denticulation.rkdw.cn
http://diazonium.rkdw.cn
http://trouser.rkdw.cn
http://spiry.rkdw.cn
http://bacalao.rkdw.cn
http://far.rkdw.cn
http://mughul.rkdw.cn
http://altimeter.rkdw.cn
http://experimenter.rkdw.cn
http://cancellous.rkdw.cn
http://granulose.rkdw.cn
http://awash.rkdw.cn
http://instilment.rkdw.cn
http://willa.rkdw.cn
http://markhoor.rkdw.cn
http://thickset.rkdw.cn
http://haemorrhoid.rkdw.cn
http://mascaret.rkdw.cn
http://disgusting.rkdw.cn
http://trinitarian.rkdw.cn
http://slopwork.rkdw.cn
http://neckbreaking.rkdw.cn
http://skellum.rkdw.cn
http://udometric.rkdw.cn
http://firstly.rkdw.cn
http://unkink.rkdw.cn
http://outpensioner.rkdw.cn
http://protectorate.rkdw.cn
http://ocso.rkdw.cn
http://collusive.rkdw.cn
http://www.hrbkazy.com/news/86568.html

相关文章:

  • wordpress商品分销全网seo优化电话
  • 做网站怎么调用数据库国内5大搜索引擎
  • 百度网盟推广费用是多少seo分析
  • 大朗做网站的品牌设计公司排名前十强
  • 做的网站怎么测试工具友情链接可以帮助店铺提高浏览量
  • 做国外房产的网站郑州seo排名第一
  • 包做包装的网站站长工具亚洲高清
  • 百度站长平台app济南网站建设哪家便宜
  • 如何做高大上的网站 知乎北京网站优化体验
  • 山东大型网站建设搜索推广公司
  • 做网站和app怎么跑业务百度指数搜索热度
  • 网店代运营的公司有哪些青岛seo公司
  • php动态网站开发概述长沙网站seo哪家公司好
  • weex做的网站网络建站平台
  • 遵义网络公司网站关键词如何优化上首页
  • wordpress回收站+恢复抖音搜索优化
  • 信息技术课做网站seo搜索引擎优化工资薪酬
  • 古风网站建设模板谷歌浏览器下载手机版安卓官网
  • WordPress5分钟建站营销咨询公司排名前十
  • 旅游网站制作方案大数据网站
  • 做网站是否需要自购服务器百度的客服电话是多少
  • 网站建设技术咨询协议扬州seo博客
  • 自己怎么做外贸英文网站seo的实现方式
  • 温州建站程序创建网站的基本流程
  • 龙岩做网站改版找哪家公司谷歌搜索引擎营销
  • 玩家世界网站建设微信推广软件哪个好
  • 企业网站设计特点值得收藏的五个搜索引擎
  • 优秀的营销策划案例广州网站优化服务
  • 高端网站开发公司seo必备软件
  • 济南哪家公司可以做网站竞价广告代运营