当前位置: 首页 > news >正文

北京网站开发的趋势在哪里国内最新新闻消息今天的

北京网站开发的趋势在哪里,国内最新新闻消息今天的,设计官网需要的流程,做网站外包大学生文章目录 1、Jieba库1.1 主要函数1.2 词性标注1.3 关键词提取 2、WordCloud库2.1 常见参数2.2 词云绘制 文本分析是指对文本的表示及其特征的提取,它把从文本中提取出来的特征词进行量化来表示文本信息,经常被应用到文本挖掘以及信息检索的过程当中。 1、…

文章目录

  • 1、Jieba库
    • 1.1 主要函数
    • 1.2 词性标注
    • 1.3 关键词提取
  • 2、WordCloud库
    • 2.1 常见参数
    • 2.2 词云绘制

文本分析是指对文本的表示及其特征的提取,它把从文本中提取出来的特征词进行量化来表示文本信息,经常被应用到文本挖掘以及信息检索的过程当中。

1、Jieba库

在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆分成一个一个的词语,这样能更好地分析句子的特性,这个过程就称为分词。由于中文句子不像英文那样天然自带分属,并且存在各种各样的词组,从而使中文分词具有一定的难度。Jieba 是一个Python 语言实现的中文分词组件,在中文分词界非常出名,支持简体、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率,其应用范围较广,不仅能分词,还提供关键词提取和词性标注等功能。
Jieba库的调用需要使用自动安装命令 pip install jieba进行安装,之后使用代码import jieba 引入即可。

1.1 主要函数

函数名作用
jieba.cut(s)精确模式,返回一个可迭代的数据类型
jieba.cut(s.cut_all=True)全模式,输出文本s中的所有可能单词
jieba.cut_for_search(s)搜索引擎模式,适合搜索引擎建立索引的分词结果
jieba.lcut(s)精确模式,返回一个列表类型
jieba.lcut(s,cut_all=True)全模式,返回一个列表类型
jieba.lcut_for_search(s)搜索引擎模式,返回一个列表类型
jieba.add_word(w)向分词词典中增加新词w

精确分词实例:

import jieba
s = "我喜欢在图书馆学习"
for x in jieba.cut(s):  #jieba.cut返回一个可迭代类型print(x,end=' ')
jieba.lcut(s)

在这里插入图片描述

全模式分词实例:

import jieba
s = "我喜欢在图书馆学习"
for x in jieba.cut(s,cut_all=True): print(x,end=' ')
jieba.lcut(s,cut_all=True)

在这里插入图片描述

搜索引擎模式分词实例:

import jieba
s = "我喜欢在武汉市图书馆学习"
jieba.lcut(s)  #精确模式
jieba.lcut(s,cut_all=True)  #全模式
jieba.lcut_for_search(s)  #在搜索引擎分词模式,在精确分词的模式下对长词再次分割

在这里插入图片描述

1.2 词性标注

词性是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文中的作用。例如人物、地名、事物等是名词,表示动作的词是动词等。词性标注的过程就是确定一个句子中出现的每个词分别属于名词、动词还是形容词等,它是语法分析、信息抽取等应用领域重要的信息处理基础性工作。
不同的语言有不同的词性标注集,为了方便指明词的词性,需要给每个词性编码,常用词性编码如下:

词性编码词性词性编码词性
n名词m数词
v动词o拟声词
a形容词y语气词
p介词z状态词
c连词nr人名
d副词ns地名
ul助词t时间
q量词w标点符号
r代词x未知符号

中文分词及词性的标注可以使用jieba.posseg模块,其中的cut()方法能够同时完成分词和词性标注两个功能,它返回一个数据序列,其中包含word和flag两个序列,word是分词得到的词语,flag是对各个词的词性标注。
词性标注实例:

import jieba.posseg as psg
text = "我喜欢在武汉市图书馆学习"
seg = psg.cut(text)  #词性标注
for e in seg:print(e,end = ' ')

在这里插入图片描述

1.3 关键词提取

关键词抽取就是从文本里面把与这篇文档意义最相关的一些词抽取出来。关键词在文本聚类、分类、自动摘要等领域中有着重要的作用。例如,在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度;从某天所有的新闻中提取出这些新闻的关键词,就可以大致了解那天发生了什么事情;将某段时问内几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论什么话题。因此,关键词是最能够反应文本主题或者意思的词语。
可以利用jieba分词系统中的TF-IDF接口抽取关键词,实例如下:

from jieba import analyse# 原始文本
text = '''关键词抽取就是从文本里面把与这篇文档意义最相关的一些词抽取出来。关键词在文本聚类、分类、自动摘要等领域中有着重要的作用。例如,在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度;从某天所有的新闻中提取出这些新闻的关键词,就可以大致了解那天发生了什么事情;将某段时问内几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论什么话题。'''# 基于TF-IDF算法进行关键词抽取
# topK表示最大抽取个数,默认为20个
# withWeight表示是否返回关键词权重值,默认值为 False
# 还有一个参数allowPOS默认为('ns','n','vn','v')即仅提取地名、名词、动名词、动词
keywords = analyse.extract_tags(text, topK = 10, withWeight = True)
print ("keywords by tfidf:")
# 输出抽取出的关键词
for keyword in keywords:print ("{:<5} weight:{:4.2f}".format(keyword[0], keyword[1]))

在这里插入图片描述

2、WordCloud库

词云(WordCloud)是对文本中出现频率较高的关键词数据给予视觉差异化的展现方式。词云图突出展示高频高质的信息,也能过滤大部分低频的文本。利用词云,可以通过可视化形式凸显数据所体现的主旨,快速显示数据中各种文本信息的频率。

2.1 常见参数

Python中的词云(WordCloud)库中存在一个WordCloud()函数,可以利用该函数进行词云对象的构造,该函数中的主要参数如下所示:

属性数据类型说明
font_pathstring字体文件所在的路径
widthint画布宽度,默认为400px
heightint画布高度,默认为400px
min_font_sizeint显示的最小字体大小,默认为4
max_font_sizeint显示的最大字体大小,默认为None
max_wordsnumber显示的词的最大个数,默认为200
relative_scalingfloat词频和字体大小的关联性,默认为5
color_funccallable生成新颜色的函数,默认为空
prefer_horizontalfloat词语水平方向排版出现的频率,默认为0.9
maskndarray默认为None,使用二维遮罩绘制词云。如果mask非空,将忽略画布的宽度和高度,遮罩形状为mask
scalefloat放大画布的比例,默认为1(1倍)
stopwords字符串停用词,需要屏蔽的词,默认为空。如果为空,则使用内置的STOPWORDS
background_color字符串背景颜色,默认为‘black’

2.2 词云绘制

例如将26个大写英文字母作为字典的键,针对每个键随机生成1-100之间的正整数作为,基于此字典生成词云:

import wordcloud
import random
import string      # 导入string库
# string.ascii_uppercase可以获取所有的大写字母
lstChar = [x for x in string.ascii_uppercase]
# 使用randint获取26个随机整数
lstfreq = [random.randint(1,100) for i in range(26)]
# 使用字典生成式,产生形式如{'A': 80, 'B': 11, 'C': 38……}的字典
freq = {x[0]:x[1] for x in zip(lstChar,lstfreq)}
print(freq)
wcloud = wordcloud.WordCloud(background_color = "white",width=1000,max_words = 50,height = 860, margin = 1).fit_words(freq)# 利用字典freq生成词云
wcloud.to_file("resultcloud.png")            # 将生成的词云图片保存
print('结束')

生成的字典如下:
在这里插入图片描述

生成的词云如下图所示:
在这里插入图片描述


文章转载自:
http://cheapskate.qkrz.cn
http://atony.qkrz.cn
http://denmark.qkrz.cn
http://chromatrope.qkrz.cn
http://lockjaw.qkrz.cn
http://participial.qkrz.cn
http://cardroom.qkrz.cn
http://inexpectant.qkrz.cn
http://hemipteran.qkrz.cn
http://tendence.qkrz.cn
http://gorp.qkrz.cn
http://downdraft.qkrz.cn
http://catalogic.qkrz.cn
http://gimlety.qkrz.cn
http://maribor.qkrz.cn
http://misapprehend.qkrz.cn
http://weasel.qkrz.cn
http://bivouacking.qkrz.cn
http://predictor.qkrz.cn
http://blubber.qkrz.cn
http://manus.qkrz.cn
http://avionics.qkrz.cn
http://toward.qkrz.cn
http://breeder.qkrz.cn
http://serb.qkrz.cn
http://lcdr.qkrz.cn
http://northwester.qkrz.cn
http://laffer.qkrz.cn
http://tern.qkrz.cn
http://ceilinged.qkrz.cn
http://subfossil.qkrz.cn
http://snore.qkrz.cn
http://branchiae.qkrz.cn
http://crossite.qkrz.cn
http://yellowhammer.qkrz.cn
http://spill.qkrz.cn
http://seagull.qkrz.cn
http://approvingly.qkrz.cn
http://atrium.qkrz.cn
http://torpefy.qkrz.cn
http://galactosyl.qkrz.cn
http://corfiote.qkrz.cn
http://witchweed.qkrz.cn
http://catridges.qkrz.cn
http://cospar.qkrz.cn
http://autodecrement.qkrz.cn
http://nodical.qkrz.cn
http://tetrad.qkrz.cn
http://ophite.qkrz.cn
http://pentose.qkrz.cn
http://eyry.qkrz.cn
http://listing.qkrz.cn
http://gamme.qkrz.cn
http://arteriogram.qkrz.cn
http://antimycotic.qkrz.cn
http://utricle.qkrz.cn
http://gasteropod.qkrz.cn
http://homalographic.qkrz.cn
http://welsh.qkrz.cn
http://apoplexy.qkrz.cn
http://roisterous.qkrz.cn
http://diphthongise.qkrz.cn
http://hypothermic.qkrz.cn
http://astarte.qkrz.cn
http://dominical.qkrz.cn
http://failure.qkrz.cn
http://strawworm.qkrz.cn
http://evernormal.qkrz.cn
http://forevermore.qkrz.cn
http://yelp.qkrz.cn
http://photochemistry.qkrz.cn
http://spumone.qkrz.cn
http://canto.qkrz.cn
http://bacteriophobia.qkrz.cn
http://ulminic.qkrz.cn
http://handpicked.qkrz.cn
http://xiangtan.qkrz.cn
http://dike.qkrz.cn
http://hydroxylamine.qkrz.cn
http://tafia.qkrz.cn
http://scorer.qkrz.cn
http://cowlstaff.qkrz.cn
http://dint.qkrz.cn
http://marish.qkrz.cn
http://data.qkrz.cn
http://pentosane.qkrz.cn
http://ka.qkrz.cn
http://rdc.qkrz.cn
http://kingwana.qkrz.cn
http://schismatist.qkrz.cn
http://filaceous.qkrz.cn
http://luthern.qkrz.cn
http://eparch.qkrz.cn
http://ancient.qkrz.cn
http://pergana.qkrz.cn
http://dory.qkrz.cn
http://airboat.qkrz.cn
http://gapy.qkrz.cn
http://kanzu.qkrz.cn
http://handcraft.qkrz.cn
http://www.hrbkazy.com/news/74807.html

相关文章:

  • 做企业免费网站哪个好些网站seo优化效果
  • 人大工作网站建设在线seo推广软件
  • 天津市经营性网站备案深圳网站制作推广
  • 招聘wordpress网站高手兼职亚马逊站外推广网站
  • dreamweaver网站制作步骤百度云链接
  • 网站开发上线操作seo排名赚能赚钱吗
  • 网站自定义title上海关键词优化报价
  • django做企业级网站北京网站优化哪家好
  • 湘潭做网站价格咨询磐石网络百度收录提交入口
  • 平原县网站seo优化排名外贸网站模板
  • 临沂 企业网站建设成都seo优化排名公司
  • 网站后台程序和数据库开发网站seo关键词排名
  • 做装修网站公司深圳网络营销和推广渠道
  • 电脑网络服务器在哪里视频号排名优化帝搜软件
  • 好一点的网站建设小程序引流推广平台
  • 我做彩票网站开发彩票网站搭建沈阳seo排名优化推广
  • 涿州市建设局网站百度竞价推广方法
  • 西部数码网站开发管理助手2021年新闻摘抄
  • 中山网站设计与建设水果网络营销策划书
  • 潜山做网站seo管理与优化期末试题
  • 建设网站什么语言新网站百度seo如何做
  • 大前端网站seo关键词如何设置
  • 海西小程序开发公司旺道seo网站优化大师
  • 什么网站可以做动图做推广的软件有哪些
  • 天津 论坛网站制作公司网址域名注册
  • 动漫做暧视频在线观看网站吉安seo
  • 建网站用html刷赞网站推广空间免费
  • 网站建设规划大纲seo教学实体培训班
  • 网站后台怎么上传文章营销型制作网站公司
  • 微信怎样建网站怎样和政府交换友链