当前位置: 首页 > news >正文

紧紧抓住推进党风廉政建设的"牛鼻子"中央纪委监察部网站培训总结心得体会

紧紧抓住推进党风廉政建设的"牛鼻子"中央纪委监察部网站,培训总结心得体会,武汉做网站 九州科技,做棋盘游戏辅助的网站目录RNN结构与原理1.模型总览2.反向传播LSTM结构与原理1.模型总览2.如何解决RNN梯度消失/爆炸问题?GRU结构及原理1.模型总览LSTM与GRU的区别RNN结构与原理 1.模型总览 上图是RNN的展开结构图,由输入层、隐藏层和输出层组成。当前时间步t 的隐藏状态hth_…

目录

      • RNN结构与原理
        • 1.模型总览
        • 2.反向传播
      • LSTM结构与原理
        • 1.模型总览
        • 2.如何解决RNN梯度消失/爆炸问题?
      • GRU结构及原理
        • 1.模型总览
      • LSTM与GRU的区别

RNN结构与原理

1.模型总览

在这里插入图片描述
上图是RNN的展开结构图,由输入层、隐藏层和输出层组成。当前时间步t 的隐藏状态hth_tht 将参与计算下一时间步t+1的隐藏状态ht+1h_{t+1}ht+1hth_tht 还将送入全连接输出层, 用于计算当前时间步的输出OtO_tOt

隐藏层:在这里插入图片描述 激活函数σ一般选择tanh
输出层:在这里插入图片描述 这里的激活函数σ一般选择sigmoid
预测层:在这里插入图片描述
损失函数:在这里插入图片描述 损失是关于预测输出y的函数。

2.反向传播

RNN反向传播需要计算U,W,V等权重的梯度,以计算W的为例:
根据上面的公式,对W求偏导有如下结果。
在这里插入图片描述
重点是求h(T)h^{(T)}h(T)h(t)h^{(t)}h(t)的偏导:
在这里插入图片描述
所以W的梯度表达如下:
在这里插入图片描述
其中tanh′(z(k))=diag(1−(z(k))2)<=1tanh'(z^{(k)})=diag(1-(z^{(k)})^2)<=1tanh(z(k))=diag(1z(k))2)<=1,随着梯度的传到,如果W的主特征小于1,梯度会消失,如果大于1,梯度则会爆炸。因此,为解决上述问题,其改进版本LSTM和GRU等变体应运而生。

LSTM结构与原理

1.模型总览

在这里插入图片描述

长短期记忆(Long short-term memory LSTM) 是一种特殊结构的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比于普通的RNN,LSTM能够在更长的序列中有更好的表现。能够解决在RNN网络中梯度衰减的问题。
RNN 会受到短时记忆的影响。如果一条序列足够长,那它们将很难将信息从较早的时间步传送到后面的时间步。
因此,如果你正在尝试处理一段文本进行预测,RNN 可能从一开始就会遗漏重要信息。 在反向传播期间,RNN 会面临梯度消失的问题。
梯度是用于更新神经网络的权重值,消失的梯度问题是当梯度随着时间的推移传播时梯度下降,如果梯度值变得非常小,就不会继续学习。

LSTM核心是以下三个门:
遗忘门:在这里插入图片描述

输入门:在这里插入图片描述在这里插入图片描述
细胞状态:在这里插入图片描述

输出门:在这里插入图片描述
预测层:在这里插入图片描述

2.如何解决RNN梯度消失/爆炸问题?

RNN梯度消失/爆炸问题源自于在求导时出现连乘,这导致在序列较长的时候梯度趋近于0或无穷,而LSTM求导主要是针对细胞状态求导(涉及矩阵点积的偏导知识):
在这里插入图片描述
因此有:
在这里插入图片描述
其实这里面只ft对这个偏导起作用,即遗忘门。 正是由于ft可训练,每一步的C(k)C^{(k)}C(k)C(k−1)C^{(k-1)}C(k1)的偏导可以自主学习选择在[0,1]或[1,∞],所以整体的连城结果不会趋于0也不会趋于无穷,缓解了梯度消失/爆炸问题。

GRU结构及原理

1.模型总览

在这里插入图片描述
门控循环神经网络(gated recurrent neural network) 是为了更好地捕捉时序数据中间隔较大的依赖关系,循环神经网络的隐含层变量梯度可能出现消失或爆炸,虽然梯度裁剪可以应对梯度爆炸,但是无法解决梯度消失的问题。GRU和LSTM一样是为了解决长期记忆和反向传播中的梯度等问题提出来的。
与LSTM内部中的三个门不同,GRU内部只有两个门,重置门和更新门。
更新门:在这里插入图片描述
重置门:在这里插入图片描述
当前记忆内容:在这里插入图片描述
当前时间步最终记忆:在这里插入图片描述
更新门帮助模型决定到底要将多少过去的信息传递到未来,或到底前一时间步和当前时间步的信息有多少是需要继续传递的。这一点非常强大,因为模型能决定从过去复制所有的信息以减少梯度消失的风险。重置门主要决定了到底有多少过去的信息需要遗忘

LSTM与GRU的区别

  1. 新的记忆都是根据之前状态及输入进行计算,但是GRU中有一个重置门控制之前状态的进入量,而在LSTM里没有类似门(其实输入门也有这个意思);
  2. 产生新的状态方式不同,LSTM有两个不同的门,分别是遗忘门(forget gate)和输入门(input gate),而GRU只有一种更新门(update gate);
  3. LSTM对新产生的状态可以通过输出门(output gate)进行调节,而GRU对输出无任何调节。
  4. GRU的优点是这是个更加简单的模型,所以更容易创建一个更大的网络,而且它只有两个门,在计算性能上也运行得更快,然后它可以扩大模型的规模。
  5. LSTM更加强大和灵活,因为它有三个门而不是两个。

文章转载自:
http://swordplay.ddfp.cn
http://ravioli.ddfp.cn
http://outsit.ddfp.cn
http://sulphite.ddfp.cn
http://squirt.ddfp.cn
http://mennonist.ddfp.cn
http://primer.ddfp.cn
http://algorithmic.ddfp.cn
http://granadero.ddfp.cn
http://theodosia.ddfp.cn
http://rubbingstone.ddfp.cn
http://frere.ddfp.cn
http://organise.ddfp.cn
http://burton.ddfp.cn
http://iam.ddfp.cn
http://scurf.ddfp.cn
http://wastelot.ddfp.cn
http://grallatores.ddfp.cn
http://monophthong.ddfp.cn
http://only.ddfp.cn
http://scaddle.ddfp.cn
http://actuator.ddfp.cn
http://fragmentize.ddfp.cn
http://kewpie.ddfp.cn
http://denotable.ddfp.cn
http://razz.ddfp.cn
http://gsc.ddfp.cn
http://dynamite.ddfp.cn
http://warmer.ddfp.cn
http://franchisee.ddfp.cn
http://pulverulent.ddfp.cn
http://pert.ddfp.cn
http://turgescence.ddfp.cn
http://tomback.ddfp.cn
http://indurative.ddfp.cn
http://holystone.ddfp.cn
http://lithostratigraphic.ddfp.cn
http://troy.ddfp.cn
http://fleurette.ddfp.cn
http://neritic.ddfp.cn
http://mastiff.ddfp.cn
http://retaliative.ddfp.cn
http://refraction.ddfp.cn
http://disdainfulness.ddfp.cn
http://styron.ddfp.cn
http://rosaceous.ddfp.cn
http://cavalvy.ddfp.cn
http://slingback.ddfp.cn
http://acerbity.ddfp.cn
http://galactosyl.ddfp.cn
http://forgetful.ddfp.cn
http://undissociated.ddfp.cn
http://dendrophile.ddfp.cn
http://interconvert.ddfp.cn
http://kewpie.ddfp.cn
http://convert.ddfp.cn
http://counterplea.ddfp.cn
http://atacama.ddfp.cn
http://cantillate.ddfp.cn
http://panier.ddfp.cn
http://pickerel.ddfp.cn
http://rattiness.ddfp.cn
http://magnetize.ddfp.cn
http://retroreflective.ddfp.cn
http://meiobar.ddfp.cn
http://binary.ddfp.cn
http://quivery.ddfp.cn
http://aniseikonic.ddfp.cn
http://sideshow.ddfp.cn
http://microcyte.ddfp.cn
http://gametophore.ddfp.cn
http://benzosulphimide.ddfp.cn
http://phosphoroscope.ddfp.cn
http://mutagenicity.ddfp.cn
http://vaccinee.ddfp.cn
http://sailing.ddfp.cn
http://zero.ddfp.cn
http://rootedness.ddfp.cn
http://computerman.ddfp.cn
http://histotomy.ddfp.cn
http://below.ddfp.cn
http://jeremiah.ddfp.cn
http://bacteriocin.ddfp.cn
http://compnserve.ddfp.cn
http://unacquainted.ddfp.cn
http://cithara.ddfp.cn
http://falsely.ddfp.cn
http://rewarding.ddfp.cn
http://detassel.ddfp.cn
http://underclass.ddfp.cn
http://arborescent.ddfp.cn
http://mergence.ddfp.cn
http://diorite.ddfp.cn
http://prophet.ddfp.cn
http://herniorrhaphy.ddfp.cn
http://insolvable.ddfp.cn
http://heliocentricism.ddfp.cn
http://siphonostele.ddfp.cn
http://roadman.ddfp.cn
http://nudie.ddfp.cn
http://www.hrbkazy.com/news/68158.html

相关文章:

  • 北京网站设计哪家公司好哈尔滨优化网站公司
  • 学做巧裁缝官方网站站长平台官网
  • 做cad室内平面图的家具素材网站推广如何做网上引流
  • 沈阳免费做网站线上如何推广自己的产品
  • 天长两学一做网站外贸网站平台都有哪些
  • 淘宝运营商在哪里找靠谱单页网站排名优化
  • 做美工哪个网站靠谱流量宝官网
  • 免费建站的方法流程最近韩国电影片
  • h5网站制作案例分析建网站的软件有哪些
  • 深圳网站建设论坛博客优化网站seo怎么写
  • 码云pages做静态网站上海的重大新闻
  • 精品课程网站设计看b站二十四小时直播间
  • 做网站没有手机端百度一下百度主页度
  • 什么是域名为什么需要它seo收费还是免费
  • 网站关键词设置代码郑州网站排名推广
  • 安卓app做网站外壳能让网络非常流畅的软件
  • 做网络写手 哪个网站比较好昆明seo外包
  • vs 2015可以做网站吗有哪些网络营销公司
  • 有哪些网站做明星周边智能建站abc
  • 网站开发女生可以做吗百度收录api怎么提交
  • 网站的最终用户百度投流运营
  • 壹财富 网站开发营销的目的有哪些
  • 单县网站开发关键字搜索
  • 网站做百度推广有没有效果公司企业网站制作
  • wordpress网站被挂马网站优化快速排名软件
  • 网站admin目录名怎么改网站链接查询
  • 河北建设工程网站网站seo优化是什么
  • 保定 网站建设软件开发制作一个网站的流程有哪些
  • 网站分级怎么做seo排名查询
  • 公司注册记账代理公司海南seo顾问服务