当前位置: 首页 > news >正文

西宁平台网站建设杭州网站设计公司

西宁平台网站建设,杭州网站设计公司,wordpress播放器问题,网站建设中的技术问题注意力机制 这可能是比较核心的地方了。 gpt2 是一个decoder-only模型,也就是仅仅使用decoder层而没有encoder层。 decoder层中使用了masked-attention 来进行注意力计算。在看代码之前,先了解attention-forward的相关背景知识。 在普通的self-atten…
注意力机制

这可能是比较核心的地方了。

gpt2 是一个decoder-only模型,也就是仅仅使用decoder层而没有encoder层。

decoder层中使用了masked-attention 来进行注意力计算。在看代码之前,先了解attention-forward的相关背景知识。

在普通的self-attention 中,对于一个长为T的句子,对其中第t个单词。需要计算t和句子中所有T个单词的注意力。也就是使用词t的Q向量 q t q_t qt 和 T中的所有单词的key向量 k j , 0 < = j < = T k_j, 0<=j<=T kj,0<=j<=T相乘。得到词t和句子中其他单词的注意力得分。

在这里插入图片描述

于是对于词t和当前句子S, 得到了注意力得分向量,而后对该向量使用softmax. 标准化的同时得到softmax后的注意力得分。

然后使用 每个词对应的值向量与注意力得分相乘之后再求和
( v 1 , v 2 , . . . , v T ) ( s c o r e t 1 s c o r e t 2 . . . s c o r e t T ) = o u t t (v_1, v_2, ..., v_T) \begin{pmatrix}score_{t1}\\score_{t2}\\... \\score_{tT}\end{pmatrix} = out_t (v1,v2,...,vT) scoret1scoret2...scoretT =outt
这里要注意, s o c r e t i socre_{ti} socreti 是一个标量值,但是 v t v_t vt 是 一个向量,长度和词嵌入向量长度相同,相加时,对每个向量位置元素对应相加。

在这里插入图片描述

对于masked-attention呢,实际上就是计算注意力得分时候,对第t个单词,仅仅计算0到t单词的注意力得分,t~T 部分的注意力得分不计算,计算softmaxs时t之后的部分以初值0代替。

在这里插入图片描述

在这里插入图片描述

multi-head attention

前面了解了attention基本知识,就很好理解多头注意力了。多头注意力实际上就是将单个Q,K,V向量,分裂为多个头,然后和self-attention一样流程计算每个头的注意力,最后得到一个输出向量,然后将多个头的输出向量拼接到一起,得到最后的输出结果。

在这里插入图片描述

比如,原本的一个向量长度为 l e n g t h Q = = l e n g t h K = = l e n g t h V = = 168 length_Q == length_K == length_V == 168 lengthQ==lengthK==lengthV==168 分裂为12个注意力头之后,每个注意力头的QKV向量长度为 l e n g t h Q i = = l e n g t h K i = = l e n g t h V i = 64 , i ∈ [ 0 , 12 ] length_{Q_i} == length_{K_i} == length_{V_i} = 64, i \in [0,12] lengthQi==lengthKi==lengthVi=64,i[0,12]

然后和分裂的self-attention一样,对每个词t的第i个头的Q向量 Q t i Q_{t_i} Qti,与其他词的第i个头的K向量 K j i , 0 < = j < = t , i ∈ [ 0 , 12 ] K_{j_i}, 0<=j<=t, i\in[0,12] Kji,0<=j<=t,i[0,12] 内积,得到注意力得分。

而后和self-attention一样的,每一个注意力头的Value向量和该头的注意力得分相乘,得到该注意力头的结果。

对于12个头长度为64的attention,最后得到12个64长的注意力结果

再将其拼接,得到长为768的注意attention forward结果,和单个注意力头但是长为768的attention结果相同。

在这里插入图片描述

http://www.hrbkazy.com/news/2841.html

相关文章:

  • 三水住房和城乡建设局的网站百度信息流投放
  • 网站建设公司(推荐乐云践新)广告优化师发展前景
  • 黑色网站素材网络营销公司怎么注册
  • 濮阳哪里做网站seo的基本步骤
  • 东凤网站建设电商平台推广
  • 做足球行业深度内容的网站seo站内优化包括
  • 企业电子商务网站对seo的理解
  • 人大网站建设工作要求苏州搜索引擎优化
  • 建设网站的企业是什么长春百度推广排名优化
  • 找高权重的网站做外链武汉网站制作推广
  • 阜阳城乡建设局网站百度搜索推广登录入口
  • 图文网站建设奉化首页的关键词优化
  • 模板网站怎么做卖seo的目的是什么
  • 禹城网站建设公司磁力云搜索引擎入口
  • 杭州网站推广营销型网站策划书
  • 做网站制作软件手机网站百度关键词排名查询
  • 可以做网站的app企业网站优化价格
  • 新疆网站建设搭建太原百度公司地址
  • 东西湖区城乡建设局网站怎样做网络推广效果好
  • 快云助手网站建设视频seo提升关键词排名
  • 建设企业网站心得体会自动点击关键词软件
  • 江苏城市建设职业学院网站海外自媒体推广
  • 怎样创建行业门户网站广告语
  • 东莞网站建设服务如何让百度搜索到自己的网站
  • wordpress文章全屏seo优化易下拉霸屏
  • 后湖做网站沧州seo推广
  • 哪里有网站建设官网百度快速收录接口
  • google 垃圾网站新榜数据平台
  • 怎么用软件做原创视频网站下载百度极速版
  • 珠海网站制作系统海外网络推广方案