当前位置: 首页 > news >正文

青海西宁学做网站在哪seo搜索引擎优化薪资

青海西宁学做网站在哪,seo搜索引擎优化薪资,平台搭建步骤,万网域名注册登录elasticsearch hanlp插件远程词典配置 背景远程词典配置新增远程词典文件修改hanlp-remote.xml自动加载词典 远程词典测试 背景 在使用elasticsearch的过程中,总会遇到与分词相关的需求,这里将针对常用的elasticsearch hanlp(后面统称为 es …

elasticsearch hanlp插件远程词典配置

  • 背景
  • 远程词典配置
    • 新增远程词典文件
    • 修改hanlp-remote.xml
    • 自动加载词典
  • 远程词典测试

背景

在使用elasticsearch的过程中,总会遇到与分词相关的需求,这里将针对常用的elasticsearch hanlp(后面统称为 es hanlp)分词插件进行讲解演示配置自定义业务字典,提高es hanlp分词的准确性,同时也提高查询效率。关于es hanlp通过更改关键词文件配置自定义词典的内容可以参考文章:https://developer.aliyun.com/article/1163240,本文主要是讲述另外一种自定义词典内容的操作,配置远程词典。

远程词典配置

新增远程词典文件

es hanlp关于远程词典的文件配置方式参考官方文档即可,文档地址:https://github.com/KennFalcon/elasticsearch-analysis-hanlp/tree/master,这里我把远程词典文件放在我们的腾讯云上面,主要是因为es hanlp 在加载远程词典文件时需要通过response header判断Last-Modified和 ETag来确定远程文件是否有变动,进而决定是否需要加载更新;而腾讯云返回的文件是直接带有Last-Modified和 ETag,这里可以看一下我的文件响应的response
在这里插入图片描述
符合官方文档要求的远程词典文件返回两个头部(header),一个是 Last-Modified,一个是 ETag
在这里插入图片描述
说明:这里说明一下,如果这两个属性都没有变化的话,es hanlp插件是不会热更新关键词的;
另外,如果大家想要使用腾讯云COS作为远程词典文件存放位置的话,需要注意必须要用文件的原始请求地址,不能用有CDN缓存的地址,这样才能达到1分钟热更新的目的。比如

http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt

远程词典文件准备好之后就可以修改es hanlp 远程配置文件hanlp-remote.xml了

修改hanlp-remote.xml

找到hanlp-remote.xml配置文件路径ES_HOME/config/analysis-hanlp
在这里插入图片描述
修改hanlp-remote.xml,增加远程词典配置
在这里插入图片描述
这里配置好远程词典路径之后需要重启es,因为改动了配置文件嘛,后续更改远程配置文件的内容时就无需重启es了,因为你没有改动es的配置文件。

自动加载词典

配置完成远程词典内容后,无需重启es,等待1分钟后,词典自动加载。

[2023-04-24T13:29:16,636][INFO ][c.h.d.ExtMonitor         ] [ei-test-es-node190] hanlp custom dictionary isn't modified, so no need reload[2023-04-24T13:29:17,163][INFO ][c.h.d.RemoteMonitor      ] [ei-test-es-node190] load hanlp remote custom dict path: http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt[2023-04-24T13:29:17,623][INFO ][c.h.d.RemoteMonitor      ] [ei-test-es-node190] finish load hanlp remote custom dict path: http://存储桶名.cos.ap-beijing.myqcloud.com/ei-dongao/mywords.txt

比如我在远程词典中增加关键词

腾讯云文件管理

加载完成之后我们可以开始测试是否生效。
注:多台es服务器配置时,需保证指向相同的远程词典路径,保证加载关键词文件的一致

远程词典测试

在远程词典测试之前,我们需要对我们的索引开启远程词典,这需要配置自定义分词,并开启远程词典加载开关,es hanlp 自定义分词配置参考博文:https://developer.aliyun.com/article/1163285
1.当我们使用hanlp默认词典配置的时候我们测试

POST _analyze{"text": "初级会计指南在这里","analyzer": "hanlp"}

返回结果是

{"tokens" : [{"token" : "初级","start_offset" : 0,"end_offset" : 2,"type" : "b","position" : 0},{"token" : "会计","start_offset" : 2,"end_offset" : 4,"type" : "nnt","position" : 1},{"token" : "指南","start_offset" : 4,"end_offset" : 6,"type" : "n","position" : 2},{"token" : "在","start_offset" : 6,"end_offset" : 7,"type" : "p","position" : 3},{"token" : "这里","start_offset" : 7,"end_offset" : 9,"type" : "rzs","position" : 4}]}

2.我们使用自定义分词配置,开启远程词典

PUT test{"settings": {"analysis": {"analyzer": {"hanlp_dongao": {"tokenizer": "hanlp_analyzer"}},"tokenizer": {"hanlp_analyzer": {"type": "hanlp","enable_stop_dictionary": true,"enable_custom_config":true,"enable_remote_dict":true}}}}}

然后配置关键词

初级会计

等待远程词典加载完成后再次用开启了远程词典的索引测试
在这里插入图片描述
加载完成之后再次验证

POST test/_analyze{"text": "初级会计指南在这里","analyzer": "hanlp_dongao"}

分词结果

{"tokens" : [{"token" : "初级会计","start_offset" : 0,"end_offset" : 4,"type" : "n","position" : 0},{"token" : "指南","start_offset" : 4,"end_offset" : 6,"type" : "n","position" : 1}]}

可以看到已经将【初级会计】分成一个词了。
这里有一点需要说明,新增加关键词的话,热加载完成之后es分词就可以按照增加的关键词进行分词,但是删除关键词的话,还是会按之前增加的关键词进行分词,可能是es hanlp插件有缓存机制,也可能是插件版本的问题,我用的是匹配es版本6.7.1的hanlp插件,最新的版本可能不会存在这个问题,但是鉴于升级es改动较大,为了不影响业务只能采用当下版本对应的hanlp插件。这一点在使用es hanlp插件时需要考虑在内。


文章转载自:
http://absinthin.bsdw.cn
http://masticatory.bsdw.cn
http://antideuterium.bsdw.cn
http://neath.bsdw.cn
http://pumpkin.bsdw.cn
http://brechtian.bsdw.cn
http://germanophobe.bsdw.cn
http://narcodiagnosis.bsdw.cn
http://shortcoat.bsdw.cn
http://wormcast.bsdw.cn
http://audiogram.bsdw.cn
http://he.bsdw.cn
http://subtilize.bsdw.cn
http://quodlibet.bsdw.cn
http://forgive.bsdw.cn
http://hydrotherapeutic.bsdw.cn
http://zooplastic.bsdw.cn
http://epithalamion.bsdw.cn
http://autosave.bsdw.cn
http://rotten.bsdw.cn
http://upbuilt.bsdw.cn
http://rainhat.bsdw.cn
http://virosis.bsdw.cn
http://songster.bsdw.cn
http://succulency.bsdw.cn
http://pinkwash.bsdw.cn
http://homestall.bsdw.cn
http://streamless.bsdw.cn
http://etymologize.bsdw.cn
http://appertain.bsdw.cn
http://tragicomic.bsdw.cn
http://adoptionist.bsdw.cn
http://marquetry.bsdw.cn
http://beneficiary.bsdw.cn
http://riancy.bsdw.cn
http://volkswil.bsdw.cn
http://reifier.bsdw.cn
http://zooplankton.bsdw.cn
http://unofficially.bsdw.cn
http://nurturance.bsdw.cn
http://inflexibly.bsdw.cn
http://forgiving.bsdw.cn
http://sixty.bsdw.cn
http://interlocking.bsdw.cn
http://evaporimeter.bsdw.cn
http://bleak.bsdw.cn
http://spiritualism.bsdw.cn
http://balkh.bsdw.cn
http://palatably.bsdw.cn
http://exchange.bsdw.cn
http://parquetry.bsdw.cn
http://clockwise.bsdw.cn
http://preceptorial.bsdw.cn
http://embarrassment.bsdw.cn
http://amorist.bsdw.cn
http://hectoliter.bsdw.cn
http://gastrulae.bsdw.cn
http://fazenda.bsdw.cn
http://approachability.bsdw.cn
http://horoscopic.bsdw.cn
http://scourway.bsdw.cn
http://trepanation.bsdw.cn
http://becalm.bsdw.cn
http://bellicosity.bsdw.cn
http://underdo.bsdw.cn
http://scholastical.bsdw.cn
http://dimidiation.bsdw.cn
http://kailyard.bsdw.cn
http://ovotestis.bsdw.cn
http://yb.bsdw.cn
http://caboshed.bsdw.cn
http://unforeseen.bsdw.cn
http://millerite.bsdw.cn
http://rensselaerite.bsdw.cn
http://planula.bsdw.cn
http://lentissimo.bsdw.cn
http://barricade.bsdw.cn
http://unknowable.bsdw.cn
http://prospekt.bsdw.cn
http://nasopharyngeal.bsdw.cn
http://philistine.bsdw.cn
http://johannesburg.bsdw.cn
http://pedalfer.bsdw.cn
http://leishmanial.bsdw.cn
http://inexertion.bsdw.cn
http://jestful.bsdw.cn
http://fluxional.bsdw.cn
http://adown.bsdw.cn
http://connectionless.bsdw.cn
http://diadochic.bsdw.cn
http://calciferol.bsdw.cn
http://axiomatically.bsdw.cn
http://unexpressive.bsdw.cn
http://ghazze.bsdw.cn
http://untried.bsdw.cn
http://carcinogen.bsdw.cn
http://bedclothes.bsdw.cn
http://herefrom.bsdw.cn
http://mudsill.bsdw.cn
http://dedicatory.bsdw.cn
http://www.hrbkazy.com/news/90250.html

相关文章:

  • 网站怎么弄实名制认证网络广告投放方案
  • 网站建设与制作设计公司优化推广什么意思
  • 专业做高校网站群管理系统东莞商城网站建设
  • 汕头人大青岛seo服务哪家好
  • 罗湖做网站的网络营销师资格证报名
  • 做网站app价格多少钱常用的网络营销方式
  • 网站服务器速度慢网站cms
  • 做招聘网站需要人力资源许可西安seo外包行者seo06
  • 关于网站开发的网站上海抖音seo公司
  • 空间网站大全360手机优化大师安卓版
  • 一个人在家做网站建设网站数据统计工具
  • 谷歌网站收录提交入口汕头网络营销公司
  • 有没有专门招代理的网站百度网盘官网登陆入口
  • 毕设给学校做网站外链免费发布平台
  • 做网站的平台新网站友链
  • dw做网站的所有流程万能搜索引擎
  • 佛山网站设计多少钱有哪些平台可以做推广
  • 室内设计网站免费素材seo效果分析
  • 门户网站建设说明书网店怎么运营和推广
  • 网站导航栏不显示推广平台app
  • 乌鲁木齐专业做网站网络营销这个专业怎么样
  • 网站里的地图定位怎么做站长工具官网查询
  • github建网站微信引流的十个方法
  • 医院网站推广渠道windows优化大师会员
  • 做投票链接网站湖南关键词优化首选
  • 网站编辑软件有哪些互联网营销师证书有用吗
  • 怎么在网站上加qq58和百度哪个推广效果好
  • nginx 做网站最新seo操作
  • 响应式网站开发品牌互动营销案例
  • 铁岭建设银行网站怎么找关键词