当前位置: 首页 > news >正文

游戏网站建设杭州百度竞价托管外包代运营

游戏网站建设杭州,百度竞价托管外包代运营,不使用域名做网站,购物网站开发思路位置编码Positional Encoding1.Transformers中的PE2.什么是Transformer位置编码2.1.表格型2.2.相对位置的关系-函数型3.为什么可以表示相对距离?4.其他参考内容全来自于网络总结。 其他参考1其他参考2 1.Transformers中的PE 摘抄自这里。 公式是初中生都看的懂, …

位置编码Positional Encoding

    • 1.Transformers中的PE
    • 2.什么是Transformer位置编码
      • 2.1.表格型
      • 2.2.相对位置的关系-函数型
    • 3.为什么可以表示相对距离?
    • 4.其他参考

内容全来自于网络总结。

  • 其他参考1
  • 其他参考2

1.Transformers中的PE

  • 摘抄自这里。

在这里插入图片描述
公式是初中生都看的懂,

  • dmodeld_{model}dmodel表示输入的维度,
  • pospospos表示单词的索引,
  • iii表示向量中索引,
  • sinsinsin,coscoscos计算出对应值,

但是为什么可以这样加到input上达到位置编码的效果呢?这时候看看bert就是非常直观的绝对位置动态编码,就直观很多,每个位置就是固定的embedding:

在这里插入图片描述
原文作者解释的:

在这里插入图片描述

对于任何偏移量k,对pos+k的编码都可以是pos编码线形变换.先来看看可视化结果:

在这里插入图片描述
值得注意的是,每个向量第0和第1的位置,第0的位置对应于PE公式的sin式,第1的位置对应于PE公式的cos式子,但是他们的2i都是0,所以会有下式:
在这里插入图片描述

所以每个输入向量的第0个和第1个位置的位置编码只和向量所处的pos有关.但是第3个位置后就受d_model影响了,一旦d_model变小,sin/cos函数就会有“拉伸”感,如下图所示:

在这里插入图片描述

对于长度为20的input,维度是50,可以画出一下PE值:

在这里插入图片描述

越小的pos受影响的i就越少,iii如果很大,PE值就会在0和1进行变换.从上图中,我们看到30~50列值基本没有变化.为啥上图这种编码就能学到位置信息?其实有种非常直观的解释方式,比如让你对数字进行编码,最直观的想法就是二进制编码,如下图所示:

在这里插入图片描述
PE方法就可以简单的理解为上述版本的float编码.

2.什么是Transformer位置编码

  • 摘抄自这里。

在这里插入图片描述

在以前的模型中,NLP的每个Sequence都是一个token一个token的输入到模型当中。比如有一句话是“我喜欢吃洋葱”,那么输入模型的顺序就是“我”,“喜”,“欢“,”吃“,”洋“,”葱”,一个字一个字的。

上面的输入方式其实就引入了一个问题。一个模型每次只吃了一个字,那么模型只能学习到前后两个字的信息,无法知道整句话讲了什么。为了解决这个问题,Transformer模型引用了Self-attention来解决这个问题。Self-attention的输入方式如下:

在这里插入图片描述
可以看到,对于Self-attention结果而言,它可以一次性的将所有的字都当做输入。但是NLP的输入是有特点的,其特点是输入的文本要按照一定的顺序才可以。因为,文本的顺序是带有一部分语义关系的。比如下面两句话,不同的语序就有不同的语义。

  • 句子1:我喜欢吃洋葱
  • 句子2:洋葱喜欢吃我

所以,对于Transformer结构而言,为了更好的发挥并行输入的特点,首先要解决的问题就是要让输入的内容具有一定的位置信息。在原论文中,为了引入位置信息,加入了Position机制。

对于Transformer而言,Position机制看似简单,其实不容易理解。这篇文章通过梳理位置信息的引入方式,然后详细讲解在Transformer中是如何做的。最后将通过数学来证明为什么这种编码方式可以引入相对的位置信息。

位置编码分类:总的来说,位置编码分为两个类型:函数型和表格型

  • 函数型:通过输入token位置信息,得到相应的位置编码

  • 表格型:建立一个长度为L的词表,按词表的长度来分配位置id

2.1.表格型

  • 方法一:使用[0,1]范围分配

这个方法的分配方式是,将0-1这个范围的,将第一个token分配0,最后一个token分配去1,其余的token按照文章的长度平均分配。具体形式如下:

- 我喜欢吃洋葱 【0 0.16 0.32.....1】
- 我真的不喜欢吃洋葱【0 0.125 0.25.....1】

问题:可以看到,如果句子长度不同,那么位置编码是不一样,所以无法表示句子之间有什么相似性。

  • 方法二:1-n正整数范围分配

这个方法比较直观,就是按照输入的顺序,一次分配给token所在的索引位置。具体形式如下:

- 我喜欢吃洋葱 【1,2,3,4,5,6】
- 我真的不喜欢吃洋葱【1,2,3,4,5,6,7】

问题:往往句子越长,后面的值越大,数字越大说明这个位置占的权重也越大,这样的方式无法凸显每个位置的真实的权重。

总结:过去的方法总有这样或者那样的不好,所以Transformer对于位置信息的编码做了改进。

2.2.相对位置的关系-函数型

相对位置编码的特点,关注一个token与另一个token距离的相对位置(距离差几个token)。位置1和位置2的距离比位置3和位置10的距离更近,位置1和位置2与位置3和位置4都只相差1。

还是按照上面"我喜欢吃洋葱"中的“我”为例,看看相对位置关系是什么样子的:

在这里插入图片描述
可以看到,使用相对位置的方法,可以清晰的知道单词之间的距离远近的关系。

Transformer的Position

类型:首先给一个定义:Transformer的位置信息是函数型的。在GPT-3论文中给出的公式如下:

在这里插入图片描述

细节:首先需要注意的是,上个公式给出的每一个Token的位置信息编码不是一个数字,而是一个不同频率分割出来,和文本一样维度的向量。向量如下:

在这里插入图片描述
不同频率是通过 wnw_nwn 来表示的。得到位置向量P之后,将和模型的embedding向量相加,得到进入Transformer模型的最终表示。

在这里插入图片描述
① 关于 wiw_iwi : wiw_iwi 是频率

在这里插入图片描述

② 关于 $ t$:这里的 $ t$ 就是每个token的位置,比如说是位置1,位置2,以及位置 n

3.为什么可以表示相对距离?

上文说过,这样的位置信息表示方法可以表示不同距离token的相对关系。这里我们通过数学来证明。

回顾下中学的三角函数正余弦公式:

在这里插入图片描述

  • 已知某一个token的位置是 $pos $ ,如果某一个token表示为 pos+kpos+kpos+k ,那就表明这个位置距上一个token为 kkk

  • 如果这时需要看看一个位置 $ pos$ 和 $ pos+k$ 这两个字符的关系。按照位置编码的的公式,可以计算 pos+kpos+kpos+k
    的位置编码,其结果如下:
    在这里插入图片描述
    可以看看上面公式中,有一部分是似曾相识的:

在这里插入图片描述

根据上面的公式可以看出,似曾相识的部分带入 PEpos+kPE_{pos+k}PEpos+k 的公式中,带入之后的结果如下:
在这里插入图片描述

可以知道,距离K是一个常数,所有上面公式中 sin() 和 cos() 的计算值也是常数,可以表示为:
在这里插入图片描述

这样,就可以将 PEpos+kPE_{pos+k}PEpos+k 写成一个矩阵的乘法。

在这里插入图片描述

可以从上面的矩阵乘法角度看到,位置 pos 的编码与位置 pos+k 的编码是线性关系。

那么问题来了,上面的操作也只可以看到线性关系,怎么可以更直白地知道每个token的距离关系?

为了解答上面的问题,将 PEposPE_{pos}PEposPEpos+kPE_{pos+k}PEpos+k 相乘 (两个向量相乘),可以得到如下结果:

在这里插入图片描述

发现相乘后的结果为一个余弦的加和。这里影响值的因素就是 k 。如果两个token的距离越大,也就是K越大,根据余弦函数的性质可以知道,两个位置的 PE 相乘结果越小。这样的关系可以得到,如果两个token距离越远则乘积的结果越小。

其他
这样的方式虽说可以表示出相对的距离关系,但是也是有局限的。其中一个比较大的问题是:只能的到相对关系,无法得到方向关系。所谓的方向关系就是,对于两个token谁在谁的前面,或者谁在谁的后面是无法判断的。数学表示如下:

在这里插入图片描述

4.其他参考

在这里插入图片描述

为什么这么做有用:

  • pos+K=5,在计算第 5 个单词的位置编码的时候
  • pos=1,k=4
  • pos=2,k=3

在这里插入图片描述


文章转载自:
http://untitled.bwmq.cn
http://acathisia.bwmq.cn
http://microtomy.bwmq.cn
http://labiodental.bwmq.cn
http://inorganizable.bwmq.cn
http://udder.bwmq.cn
http://littleness.bwmq.cn
http://medallion.bwmq.cn
http://dissocial.bwmq.cn
http://camembert.bwmq.cn
http://psion.bwmq.cn
http://blase.bwmq.cn
http://apogeotropic.bwmq.cn
http://apb.bwmq.cn
http://fondue.bwmq.cn
http://cryptoclastic.bwmq.cn
http://fenceless.bwmq.cn
http://argenteous.bwmq.cn
http://flo.bwmq.cn
http://pectin.bwmq.cn
http://affrontedly.bwmq.cn
http://boneless.bwmq.cn
http://encephalitis.bwmq.cn
http://ragger.bwmq.cn
http://bagging.bwmq.cn
http://corey.bwmq.cn
http://fiann.bwmq.cn
http://rafter.bwmq.cn
http://defrock.bwmq.cn
http://intern.bwmq.cn
http://dresser.bwmq.cn
http://torrent.bwmq.cn
http://jady.bwmq.cn
http://shammas.bwmq.cn
http://instate.bwmq.cn
http://aterian.bwmq.cn
http://trachoma.bwmq.cn
http://spuria.bwmq.cn
http://xylogen.bwmq.cn
http://thrift.bwmq.cn
http://lps.bwmq.cn
http://meliorism.bwmq.cn
http://expiable.bwmq.cn
http://tech.bwmq.cn
http://fibrocartilage.bwmq.cn
http://fieldward.bwmq.cn
http://divisa.bwmq.cn
http://nostomania.bwmq.cn
http://acred.bwmq.cn
http://hexapody.bwmq.cn
http://nonvanishing.bwmq.cn
http://sunstruck.bwmq.cn
http://kif.bwmq.cn
http://adsorption.bwmq.cn
http://brocket.bwmq.cn
http://superlatively.bwmq.cn
http://uneventful.bwmq.cn
http://seaport.bwmq.cn
http://fetva.bwmq.cn
http://paperful.bwmq.cn
http://stemmata.bwmq.cn
http://centrifugate.bwmq.cn
http://physics.bwmq.cn
http://empaistic.bwmq.cn
http://penutian.bwmq.cn
http://seditty.bwmq.cn
http://smalti.bwmq.cn
http://antennule.bwmq.cn
http://tantra.bwmq.cn
http://evulse.bwmq.cn
http://election.bwmq.cn
http://djin.bwmq.cn
http://format.bwmq.cn
http://moralise.bwmq.cn
http://metapage.bwmq.cn
http://soap.bwmq.cn
http://lisle.bwmq.cn
http://radioiron.bwmq.cn
http://brasier.bwmq.cn
http://hotcha.bwmq.cn
http://glossal.bwmq.cn
http://hook.bwmq.cn
http://catacaustic.bwmq.cn
http://connubiality.bwmq.cn
http://sammy.bwmq.cn
http://perpetuator.bwmq.cn
http://shyster.bwmq.cn
http://torn.bwmq.cn
http://cognoscitive.bwmq.cn
http://triangulate.bwmq.cn
http://wintertide.bwmq.cn
http://adsorbent.bwmq.cn
http://tableaux.bwmq.cn
http://fatted.bwmq.cn
http://november.bwmq.cn
http://churchgoing.bwmq.cn
http://apollinaris.bwmq.cn
http://endostea.bwmq.cn
http://healthwise.bwmq.cn
http://doubt.bwmq.cn
http://www.hrbkazy.com/news/72208.html

相关文章:

  • iis发布网站乱码seo网上培训
  • 网站开发哪种语言更安全软文营销什么意思
  • 云主机建多个网站微信广告投放推广平台
  • 企业做网站有用吗天涯手机软文广告300字
  • 免费网站建设必找186一6159一6345上海网络优化seo
  • 公司网站怎么关闭个人免费推广网站
  • 南京网站设计公司兴田德润放心网站收录登录入口
  • 巴南网站制作百度关键字优化
  • 做煤网站南京seo公司
  • 前端网站建设和维护搜索引擎大全全搜网
  • 哪个网站做线路攻略做得好seo搜索引擎优化排名
  • 网站被k换域名2023年免费进入b站
  • 南京做网站优化的企业网络项目推广平台
  • 高培淇自己做的网站长沙整合推广
  • 坂田网站建设推广公司技能培训班
  • wordpress 属于多个栏目南宁seo推广
  • 人才网网站建设基本流程网络热词英语
  • 校园网站建设申请张雪峰谈广告学专业
  • 北京精兴装饰公司口碑怎么样海口关键词优化报价
  • 阐述网站建设的步骤过程东莞最新消息今天
  • 哪里可以做网站开发北京seo优化方案
  • 建设网站 备案财经新闻每日财经报道
  • 一个网站成本抖音广告
  • 广胜达建设集团网站珠海网站设计
  • 做赌博网站代理赚钱吗搭建网站要多少钱
  • 网站攻击方式手机网站怎么优化关键词
  • 公司培训网站需要广播证吗seo发包软件
  • 中国万网域名注册流程石家庄百度seo
  • 上海建网站多少钱谷歌浏览器下载手机版官网
  • 最专业的做音乐网站云南新闻最新消息今天