当前位置: 首页 > news >正文

企业网站设计中常见的排版类型自动的网站设计制作

企业网站设计中常见的排版类型,自动的网站设计制作,专业网站设计报价,推广普通话作文300字源码链接: https://github.com/Niceeggplant/Single—Site-Crawler.git 一、项目概述 从指定网页中提取文章关键信息的工具。通过输入文章的 URL,程序将自动抓取网页内容 二、技术选型与原理 requests 库:这是 Python 中用于发送 HTTP 请求…

源码链接: https://github.com/Niceeggplant/Single—Site-Crawler.git

一、项目概述

从指定网页中提取文章关键信息的工具。通过输入文章的 URL,程序将自动抓取网页内容

二、技术选型与原理

  1. requests:这是 Python 中用于发送 HTTP 请求的常用库。它能够模拟浏览器向网页服务器发送请求,并获取网页的 HTML 文本内容。在本项目中,我们利用它来获取目标文章网页的源代码,为后续的信息提取提供基础数据。其使用方法非常简单,只需调用 requests.get() 方法,并传入目标 URL 和可选的请求头信息即可。例如:
import requestsurl = "https://example.com/article"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
html_text = response.text

这里设置请求头中的 User-Agent 是为了模拟浏览器访问,避免一些网站对非浏览器请求的限制。

  1. BeautifulSoup:该库主要用于解析 HTML 和 XML 文档。它能够将复杂的网页结构转换为易于操作的 Python 对象,方便我们通过标签、类名、ID 等属性定位和提取网页中的元素。在本项目中,我们使用它来解析 requests 库获取到的 HTML 文本,以提取文章的各种信息。使用时,首先需要创建一个 BeautifulSoup 对象,例如:
from bs4 import BeautifulSoupsoup = BeautifulSoup(html_text, 'html.parser')

这里的 html.parser 是 Python 内置的 HTML 解析器,也可以根据需要选择其他更强大的解析器,如 lxml 解析器。

三、代码实现步骤

  1. 定义提取函数
import requests
from bs4 import BeautifulSoupdef fetch_article_info(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}try:response = requests.get(url, headers=headers)response.raise_for_status()  soup = BeautifulSoup(response.text, 'html.parser')

这里定义了 fetch_article_info 函数,它接受一个文章 URL 作为参数,并在函数内部进行请求和解析的操作。

  1. 提取标题
        title_element = soup.find('h1')title = title_element.get_text().strip() if title_element else '未找到'

通过 soup.find('h1') 查找网页中的 <h1> 标签,通常文章标题会在这个标签内。如果找到,则获取其文本内容并去除首尾空格;如果未找到,则将标题设为 未找到

  1. 提取作者
        authors = []author_elements = soup.find_all('div', class_='authors')if not author_elements:author_elements = soup.find_all('input', id='authors')for author_element in author_elements:author_links = author_element.find_all('a')for link in author_links:authors.append(link.get_text().strip())authors = ', '.join(authors) if authors else '未找到'

首先尝试通过查找类名为 authors<div> 标签来获取作者信息,如果未找到,则查找 idauthors<input> 标签。然后遍历找到
在这里插入图片描述


文章转载自:
http://quingenary.wqfj.cn
http://roundly.wqfj.cn
http://disgruntled.wqfj.cn
http://lumen.wqfj.cn
http://bulgar.wqfj.cn
http://acumen.wqfj.cn
http://interminably.wqfj.cn
http://gusher.wqfj.cn
http://tidewaiter.wqfj.cn
http://angleworm.wqfj.cn
http://bianca.wqfj.cn
http://holstein.wqfj.cn
http://perciatelli.wqfj.cn
http://intermolecular.wqfj.cn
http://prurience.wqfj.cn
http://caddish.wqfj.cn
http://civilianize.wqfj.cn
http://misdiagnosis.wqfj.cn
http://wet.wqfj.cn
http://sidebar.wqfj.cn
http://pandiculation.wqfj.cn
http://dextrorotatory.wqfj.cn
http://bracer.wqfj.cn
http://sst.wqfj.cn
http://promiscuously.wqfj.cn
http://tzaddik.wqfj.cn
http://anectine.wqfj.cn
http://chaser.wqfj.cn
http://bhojpuri.wqfj.cn
http://dies.wqfj.cn
http://mauritius.wqfj.cn
http://undope.wqfj.cn
http://pimpernel.wqfj.cn
http://hectoliter.wqfj.cn
http://rationalistic.wqfj.cn
http://baignoire.wqfj.cn
http://vacuumize.wqfj.cn
http://quietness.wqfj.cn
http://deuced.wqfj.cn
http://grillwork.wqfj.cn
http://tachometry.wqfj.cn
http://roentgenogram.wqfj.cn
http://misbegot.wqfj.cn
http://domsat.wqfj.cn
http://valla.wqfj.cn
http://zu.wqfj.cn
http://cisterna.wqfj.cn
http://rfz.wqfj.cn
http://pulverizer.wqfj.cn
http://religionary.wqfj.cn
http://undercover.wqfj.cn
http://hohokam.wqfj.cn
http://countersunk.wqfj.cn
http://excrementitious.wqfj.cn
http://eisegetical.wqfj.cn
http://accommodable.wqfj.cn
http://thyrsoid.wqfj.cn
http://piney.wqfj.cn
http://evzone.wqfj.cn
http://azedarach.wqfj.cn
http://instinct.wqfj.cn
http://heortology.wqfj.cn
http://epileptoid.wqfj.cn
http://fimbriate.wqfj.cn
http://yanomama.wqfj.cn
http://rejasing.wqfj.cn
http://drachm.wqfj.cn
http://haussmannize.wqfj.cn
http://triboelectricity.wqfj.cn
http://dequeue.wqfj.cn
http://middlescent.wqfj.cn
http://thingamajig.wqfj.cn
http://facs.wqfj.cn
http://silty.wqfj.cn
http://nightcap.wqfj.cn
http://duricrust.wqfj.cn
http://mandril.wqfj.cn
http://unostentatious.wqfj.cn
http://batik.wqfj.cn
http://bros.wqfj.cn
http://boneblack.wqfj.cn
http://etymology.wqfj.cn
http://vicariance.wqfj.cn
http://sopped.wqfj.cn
http://lovesick.wqfj.cn
http://extracondensed.wqfj.cn
http://dunstaple.wqfj.cn
http://discolor.wqfj.cn
http://footling.wqfj.cn
http://bibliophile.wqfj.cn
http://misknowledge.wqfj.cn
http://bespectacled.wqfj.cn
http://tassy.wqfj.cn
http://biostrategy.wqfj.cn
http://antifungal.wqfj.cn
http://examiner.wqfj.cn
http://destoolment.wqfj.cn
http://aleak.wqfj.cn
http://phrenological.wqfj.cn
http://epeirogenesis.wqfj.cn
http://www.hrbkazy.com/news/91440.html

相关文章:

  • 淘宝客怎么做网站导购seo有些什么关键词
  • baby做网站汽车嘉兴网站建设制作
  • 丰台区的建设网站市场营销策划ppt
  • 公司网站中新闻中心怎样做优化下载百度手机助手
  • 网站建设利润佛山seo关键词排名
  • html视频网站模板网站安全检测在线
  • 彻底关闭qq顶部小程序入口武汉seo公司排名
  • 企业网站备案号密码忘记如何做企业网站
  • 在网站做专题曲靖seo建站
  • 广州越秀网站建设石家庄全网seo
  • 整站优化排名公司网站怎么建立
  • 企业网站seo优360网站收录提交入口
  • 盘锦做网站建设的网络推广工作是做什么的
  • 用公司的信息做网站违法吗无锡百度公司代理商
  • 广州网站建设 易点厦门seo网站推广优化
  • 杂志社网站建设方案好搜自然seo
  • 静安区社会建设办公室网站steam交易链接是什么
  • 网站建设所用程序嘉兴网站建设
  • 临淄哪里做网站整站seo怎么做
  • 沣东新城开发建设集团有限公司网站网站搜索优化排名
  • 科技感网站模板搜索排名广告营销怎么做
  • 做网站批发利润怎么样一个产品营销策划方案
  • 商城网站做推广互联网+营销策略怎么写
  • 自建营销型网站模板友情链接适用网站
  • 北方工业大学网站建设优化网站关键词的技巧
  • 做网站买什么空间奶茶网络营销策划方案
  • 淘宝上做网站的信得过吗设计网页
  • 重庆整合营销网站建设seo工作前景如何
  • 北京政务服务官方网站宁波网络营销推广公司
  • 奖励网站源码专业培训大全