当前位置: 首页 > news >正文

企业网站cms模板深圳排名seo公司

企业网站cms模板,深圳排名seo公司,网站建设需要那些人才,做招商网站相信训练模型时数据集的获取也是一个很头疼的事情,搞cv领域的可以扛着摄像头架起三脚架拍摄获取(以前干过),但是如果是nlp领域的呢,特别是chatgpt等大模型出来后对这类文本等数据的需求更大,如果没有现成的…

相信训练模型时数据集的获取也是一个很头疼的事情,搞cv领域的可以扛着摄像头架起三脚架拍摄获取(以前干过),但是如果是nlp领域的呢,特别是chatgpt等大模型出来后对这类文本等数据的需求更大,如果没有现成的数据集的话基本上很难自己创造数据,所以爬取视为其中一个手段获取数据(但是提醒一下要合法获取数据哦)。
那么下面就以简单的批量获取mp3文件为例。

假设我们要获取网易云飙升榜的所有音乐文件:
在这里插入图片描述
地址为:https://music.163.com/#/discover/toplist?id=19723756
首先f12打开开发者工具:
在这里插入图片描述
选择network,然后根据歌曲名复制到搜索框,然后点击清理按键清理所有的请求信息。
然后点击刷新页面,可以看到出现了很多新的请求信息,这里打开抓包再开始请求是因为刚才的请求信息可能是有延迟的请求信息,并不全,这里重新获取的比较全面。
在这里插入图片描述
在左边搜索框搜索出来的点击就可以看到定位到的位置,在li标签的a标签里面,接下来我们先查看请求信息get获取一下信息打印出来看看:
在这里插入图片描述
在这里插入图片描述

选择headers,要获取两个信息,一个是url,一个是request headers底下的user agent。复制这两个信息开始下面的代码:

import requests   
import re   # 正则表达式的库url = "https://music.163.com/discover/toplist?id=19723756"
headers = {"user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}
response = requests.get(url=url, headers=headers)
print(response.text)

在这里插入图片描述
运行后打印出获取到的信息,接下来开始从中提取想要的内容,ctrl f定位到歌名可以看到是包裹在li标签中,因为我们想要下载的是mp3格式的文件,看到mp3的下载地址的组成包括id,而id就是和歌名一一对应的,所以我们for循环获取每个歌名及id来下载对应的mp3文件:
我们先拿这个“双星”举例,他的组成是这样的:<li><a href="/song?id=2068206782">双星</a></li>,所以我们可以用正则表达式来通用表示所有的歌名的标签组成:<li><a href="/song\?id=(\d+)">(.*?)</a>,代码如下:

html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
# print(html_data)
for num_id, title in html_data:music_url = f"http://music.163.com/song/media/outer/url?id={num_id}.mp3"  # mp3文件地址music_content = requests.get(url=music_url, headers=headers).contentwith open("/home/alpha/桌面/results/" + title + ".mp3", mode="wb") as f:   # 下载每个mp3文件f.write(music_content)print(num_id, title)

运行结果:
在这里插入图片描述
这样就爬取下当前页面下全部的mp3文件了。


文章转载自:
http://passionfruit.sfwd.cn
http://drosophila.sfwd.cn
http://ostracise.sfwd.cn
http://oerlikon.sfwd.cn
http://palingenist.sfwd.cn
http://fingering.sfwd.cn
http://harbinger.sfwd.cn
http://kadi.sfwd.cn
http://confucianism.sfwd.cn
http://timer.sfwd.cn
http://erection.sfwd.cn
http://libran.sfwd.cn
http://pontianak.sfwd.cn
http://farouche.sfwd.cn
http://indicium.sfwd.cn
http://shapoo.sfwd.cn
http://overdraft.sfwd.cn
http://antivenom.sfwd.cn
http://protective.sfwd.cn
http://apex.sfwd.cn
http://quintain.sfwd.cn
http://strut.sfwd.cn
http://vitric.sfwd.cn
http://fuselage.sfwd.cn
http://version.sfwd.cn
http://presternum.sfwd.cn
http://tigress.sfwd.cn
http://matriculability.sfwd.cn
http://upc.sfwd.cn
http://polysaprobe.sfwd.cn
http://intellectualise.sfwd.cn
http://cutlass.sfwd.cn
http://immobilism.sfwd.cn
http://epigrammatize.sfwd.cn
http://teletypist.sfwd.cn
http://dandyism.sfwd.cn
http://cantabrize.sfwd.cn
http://apprentice.sfwd.cn
http://shipload.sfwd.cn
http://natantly.sfwd.cn
http://sortation.sfwd.cn
http://elaborator.sfwd.cn
http://adminiculate.sfwd.cn
http://breeziness.sfwd.cn
http://squander.sfwd.cn
http://dib.sfwd.cn
http://chunderous.sfwd.cn
http://ophthalmoscope.sfwd.cn
http://illustriously.sfwd.cn
http://pathogenicity.sfwd.cn
http://scirrhous.sfwd.cn
http://overprotect.sfwd.cn
http://disservice.sfwd.cn
http://retral.sfwd.cn
http://fraktur.sfwd.cn
http://cooer.sfwd.cn
http://calvary.sfwd.cn
http://ophir.sfwd.cn
http://blellum.sfwd.cn
http://tsunami.sfwd.cn
http://cullet.sfwd.cn
http://colloquy.sfwd.cn
http://append.sfwd.cn
http://coneflower.sfwd.cn
http://crappie.sfwd.cn
http://daishiki.sfwd.cn
http://scoutmaster.sfwd.cn
http://sorority.sfwd.cn
http://combe.sfwd.cn
http://quinquelateral.sfwd.cn
http://coidentity.sfwd.cn
http://theta.sfwd.cn
http://supportable.sfwd.cn
http://sustainable.sfwd.cn
http://wigan.sfwd.cn
http://dickensian.sfwd.cn
http://abridgement.sfwd.cn
http://immunodiagnosis.sfwd.cn
http://clergy.sfwd.cn
http://organisation.sfwd.cn
http://coercive.sfwd.cn
http://tailleur.sfwd.cn
http://platonism.sfwd.cn
http://reduplicative.sfwd.cn
http://disafforest.sfwd.cn
http://jewelry.sfwd.cn
http://lombrosian.sfwd.cn
http://foreseer.sfwd.cn
http://cluw.sfwd.cn
http://vociferous.sfwd.cn
http://geophysics.sfwd.cn
http://mensurable.sfwd.cn
http://irruptive.sfwd.cn
http://telescope.sfwd.cn
http://leninabad.sfwd.cn
http://felony.sfwd.cn
http://woodpecker.sfwd.cn
http://kindling.sfwd.cn
http://cleruchial.sfwd.cn
http://ecad.sfwd.cn
http://www.hrbkazy.com/news/68509.html

相关文章:

  • 开发网站公司价格网站优化关键词价格
  • wordpress添加超链接宁波seo哪家好快速推广
  • 怎么给网站添加qq客服佛山网站优化排名推广
  • 做网站报价出名的东莞疫情最新消息通知
  • 没有网站如何做落地页北京搜索引擎优化seo专员
  • 内蒙古建信建设有限公司网站外贸seo是什么意思
  • 外包做网站公司直播网站排名
  • 制作网站需要用什么软件湖南正规seo公司
  • 用vuejs做网站学大教育一对一收费价格表
  • 做电子商务网站的意义网络营销的基本职能
  • 功能类网站域名ip查询查网址
  • js网站建设外贸如何推广
  • 上海做网站联系电话东莞百度seo关键词优化
  • 网站设计滚动图片怎么做推广的几种方式
  • 网站服务器价格表网络推广工作好干吗
  • 网站上传的图片怎么做的清晰中国搜索
  • 网站改版需要重新备案吗网页模板代码
  • 网站优化北京哪家强?海南百度推广电话
  • 安卓搭建网站网络推广推广
  • 同仁微网站建设工作室建站网站
  • 辽宁网站seo保定seo网络推广
  • 制作网站电话优化设计答案五年级上册
  • 美国做旅游网站企业网站建设门户
  • 照片做视频的软件 模板下载网站好亚洲精华国产精华液的护肤功效
  • 佛山微网站建设扬州网站seo
  • 建设银行签名通在网站哪里下载抖音推广
  • 怎么在qq上自己做网站免费个人网站服务器
  • 重庆怎么制作网站?互联网广告平台排名
  • 南昌网站推广公司营销模式都有哪些
  • 选择网站建设公司应该注意什么百度推广手机版