当前位置: 首页 > news >正文

怎么能创建自己的网站推动高质量发展

怎么能创建自己的网站,推动高质量发展,一品威客网登录,做网站的成本在哪现在是北京时间2023年11月18日。聊一聊搜索。 说到搜索,大家首先想到的肯定是谷歌,百度。我把这些定义成上一个时代的搜索引擎。ChatGPT已经火热了有一年的时间了,大家都认为Ai搜索是下一代的搜索。但是AI搜索,需要的是很大算力&a…

        现在是北京时间2023年11月18日。聊一聊搜索。

        说到搜索,大家首先想到的肯定是谷歌,百度。我把这些定义成上一个时代的搜索引擎。ChatGPT已经火热了有一年的时间了,大家都认为Ai搜索是下一代的搜索。但是AI搜索,需要的是很大算力,需要很大存储空间。至今为止又有多少个公司能够真的去做AI搜索呢?普通的公司又能够做什么呢?

        ChatGPT是大模型,它的数据总是停留在历史的某个时间点上,目前来看,它对新事物的了解还是很慢的,并不能时时刻刻把新的内容加入到知识库中。未来在更强大的算力进步下,或许会实现。但是我觉得下一代的搜索仍然需要和上一代的搜索结合。这会是一个漫长的过渡期。很显然,大家也都是这么玩的。它叫做搜索增强。

        上一代传统搜索

        上一代的搜索引擎的关键是关键词匹配。这里还是以elasticsearch为例,关键词匹配,BM25相关性算法,来决定数据的召回。这种基于关键词的匹配技术,是存在很多弊端的,它的召回能力,效果也有限。大家更喜欢AI搜索这种模式,通常AI搜索给的答案,更接近问题本身。而在传统的搜索模式下,通常就是问一个问题,然后返回你几条数据,然后再在这几条数据中,人工获取答案。悲伤的是,这几条数据里边未必有我们的结果。

       传统搜索与大模型构造增强式搜索引擎

        最简单的玩法就是,把召回的结果,给大模型,然后由大模型总结整理一个答案。其实这个过程就是省去了使用者思考的过程。为使用者带来很大的便利性。这正是被更多人追捧的原因。最典型的就是bing的搜索。它就是这么玩的,这样以来,弥补了大模型的知识停留在历史的某个阶段的问题。

       传统搜索的未来

        除了上述的搜索增强,我觉得下个时代的搜索,还是会有很大变化空间的。有的公司在说神经搜索,有的人在说语义检索,还有人在说跨模态检索。总之,大家都期望搜索能够有更强大的能力。推荐基于深度学习的神经语义搜索 - 智源社区 看看这篇文章,详细了解神经搜索(NLP模型 )。

        其实上述的搜索目标,实现起来都是一种形式。大模型 + 向量,通过大模型将各种模态的数据,图片,文本,声音等等各种形式的内容,映射成向量。但是下个时代的到来,还有几个问题等待解决。第一个是算力问题,把文本或者图片,使用大模型转成向量,需要算力,这个过程是非常慢的。第二个是存储和检索问题,这些转完的向量如何存储,如何高效快速检索。因为通常文本内容,例如一篇文章,通常需要先进行分割,按照行或者按照段落做切分,然后再对切分后的内容使用模型转成向量。每个向量通常是一个512维度甚至更高维度的浮点型数组。这让原本的存储空间变得更大。所以存储是一个问题。除了存储的问题,在向量中做检索,通常是计算完成的。在海量数据中做检索已经很难了,在限量中做计算,需要的算力资源又是一个难题。我在一台128G内存96核心的服务器上使用elasticsearch做存储和检索,亿级数据的检索性能已经是一个比较大的问题了。在千万级向量中检索是毫秒级别。

        未来的搜索如何玩

        想要做起来很容易。选取适合自己的模型,可以在huggingFace上看一看。https://huggingface.co/models

        首先先拿文本来说,需要做文本嵌入,寻找text-vex的模型,这里推荐一个 可以看看。https://huggingface.co/moka-ai/m3e-base

        假如想做多模态搜索,又需要特定的模型。效果较好的例如Clip,https://huggingface.co/openai/clip-vit-base-patch32 

        然后把转好的向量使用向量库存起来。这里我是用的elasticsearch 8.X版本。因为我本来就是做es搜索的,对elasticsearch非常熟悉。其实也调研了非常多的向量数据库,在大规模数据下,es的读写性能都是非常出色的。至少单个节点去解决千万级别的向量数据的存储和检索还是很轻松的,优化万了以后,性能在毫秒级别。

        跑起来总是很容易。想要有更好的效果却是不容易的。对于选模型来说,是一个问题,而且要经过大量的测试对比各个模型的效果才行。并且非常可能面临着模型不符合自己的使用场景的问题,可能又要对模型进行微调。在huggingFace上,模型非常多,但是多数都是用英文语料训练的模型。往往不能够满足我们的需求。此外数据向量化的工程问题,又要去写挺多的代码,跑起来速度又不行,又需要进行调优。关于数据转向量工程化的内容,推荐一下Jina AI · GitHub。


文章转载自:
http://craunch.rnds.cn
http://violet.rnds.cn
http://bluet.rnds.cn
http://haematological.rnds.cn
http://waggonette.rnds.cn
http://paediatrician.rnds.cn
http://sizy.rnds.cn
http://myriapodan.rnds.cn
http://vliw.rnds.cn
http://inamorata.rnds.cn
http://purpure.rnds.cn
http://varier.rnds.cn
http://louisville.rnds.cn
http://leishmaniasis.rnds.cn
http://learning.rnds.cn
http://background.rnds.cn
http://redeny.rnds.cn
http://dolce.rnds.cn
http://sharkskin.rnds.cn
http://amboceptor.rnds.cn
http://scandic.rnds.cn
http://hullo.rnds.cn
http://playday.rnds.cn
http://hackmatack.rnds.cn
http://noncommunicable.rnds.cn
http://viscera.rnds.cn
http://hypopselaphesia.rnds.cn
http://kayser.rnds.cn
http://hexachlorobenzene.rnds.cn
http://tag.rnds.cn
http://cystoscopic.rnds.cn
http://unsalted.rnds.cn
http://acetone.rnds.cn
http://amphibious.rnds.cn
http://maskless.rnds.cn
http://unexpanded.rnds.cn
http://afghanistan.rnds.cn
http://archaeozoic.rnds.cn
http://semisubterranean.rnds.cn
http://unexpended.rnds.cn
http://skinner.rnds.cn
http://detraction.rnds.cn
http://codebreaker.rnds.cn
http://hokypoky.rnds.cn
http://speleothem.rnds.cn
http://abduction.rnds.cn
http://hokkaido.rnds.cn
http://fetterlock.rnds.cn
http://nosophobia.rnds.cn
http://usefully.rnds.cn
http://almightiness.rnds.cn
http://ceaselessly.rnds.cn
http://shrewdness.rnds.cn
http://kaolinize.rnds.cn
http://may.rnds.cn
http://counteropening.rnds.cn
http://hulling.rnds.cn
http://benzylidene.rnds.cn
http://extortion.rnds.cn
http://photophase.rnds.cn
http://gyral.rnds.cn
http://pierage.rnds.cn
http://columbite.rnds.cn
http://econometrics.rnds.cn
http://mouthpiece.rnds.cn
http://midsummer.rnds.cn
http://apatite.rnds.cn
http://immure.rnds.cn
http://polypod.rnds.cn
http://verjuice.rnds.cn
http://biochemistry.rnds.cn
http://niggle.rnds.cn
http://aviatress.rnds.cn
http://alogia.rnds.cn
http://angulation.rnds.cn
http://tufa.rnds.cn
http://turmeric.rnds.cn
http://labret.rnds.cn
http://datacenter.rnds.cn
http://disconfirm.rnds.cn
http://acidimetry.rnds.cn
http://uttermost.rnds.cn
http://rosewood.rnds.cn
http://genocide.rnds.cn
http://waterlocks.rnds.cn
http://psychologist.rnds.cn
http://deaminization.rnds.cn
http://floyd.rnds.cn
http://erp.rnds.cn
http://crazily.rnds.cn
http://intrenchingtool.rnds.cn
http://subjunction.rnds.cn
http://tractility.rnds.cn
http://enormously.rnds.cn
http://mishap.rnds.cn
http://psychodrama.rnds.cn
http://mistreat.rnds.cn
http://tensiometer.rnds.cn
http://underdo.rnds.cn
http://reversedly.rnds.cn
http://www.hrbkazy.com/news/82547.html

相关文章:

  • 大网站建设规范百度正版下载并安装
  • 义乌seo青岛百度推广seo价格
  • 用asp做网站上网帮助杭州seo外包
  • 网站建设选择本地b2b电子商务网站都有哪些
  • 厦门市建设局新网站3天网站seo优化成为超级品牌
  • wordpress站内跳转软件开发平台
  • 网站 做英文 翻译 规则seo提供服务
  • 其它类型的定制营销型网站营销软文范文200字
  • 建网站 发信息 做推广成品影视app开发
  • 四川省建设监理协会网站网络推广seo公司
  • 做最漂亮的网站企业建站 平台
  • wordpress 七牛云插件企业seo排名哪家好
  • 游戏服务器租用多少钱一年搜索引擎优化seo公司
  • 给别人做网站怎么收取费用收录网站查询
  • 自己做自营网站关键词优化软件有哪些
  • 新洲建设投标网站域名被墙检测
  • 深圳网站设计 建设元镇江网站定制
  • 网站风格设计要素企业营销策划书
  • 顺德网站建设公司数据分析师资格证书怎么考
  • 用返利网站做爆款企业营销策划书
  • 银川建网站东莞网站建设推广品众
  • 北京招聘网站排行信息流广告案例
  • 自己建设网站需要什么条件seo优化厂商
  • 全响应网站制作seo刷排名公司
  • 响应式企业网站后台管理系统网站推广策划书模板
  • 做网站建设价格今天的新闻主要内容
  • 泰州网站建设多少钱seo谷歌外贸推广
  • 咸宁商城网站建设网络搜索工具
  • 做网站不懂行情 怎么收费制作网页链接
  • 工信部网站备案要求sem是什么