当前位置: 首页 > news >正文

做赌石网站客服的经验问答推广

做赌石网站客服的经验,问答推广,湛江网页定制,专业做网站的团队推荐VPG算法 前言 首先来看经典的策略梯度REINFORCE算法: 在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt​,与动作概率对数相乘,作为误差反向传播,有以下几个特点: …

VPG算法

前言

首先来看经典的策略梯度REINFORCE算法:

在这里插入图片描述

在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:

  • 每个时间步更新一次参数
  • 只有策略网络,没有价值网络
  • 计算 G G G时,仅仅采样了一条轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • G G G实际上类似于 Q Q Q函数,因为 Q Q Q函数就是动作价值回报的期望

VPG算法

全称:Vanilla Policy Gradient,但是属于Actor-Critic算法,因为它既有策略网络,又有价值网络

  • 每个episode更新一次参数
  • 上述伪代码中,计算 G G G时,采样了多个轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • Reward-to-go:即折扣因子 γ = 1 \gamma=1 γ=1 G t = R ^ t = r t + r t + 1 + … + r T G_t=\hat{R}_t=r_t+r_{t+1}+\ldots+r_T Gt=R^t=rt+rt+1++rT T T T为episode的长度
  • 通常为 A ^ t \hat{A}_t A^t引入baseline,以减小方差,提升训练稳定性

A ^ t = R ^ t − V ϕ k \hat{A}_t=\hat{R}_t-V_{\phi_k} A^t=R^tVϕk

比较

/REINFORCEVPG
价值网络
参数更新每个时间步每个episode
回报有折扣无折扣
采样轨迹一条多条
baseline
http://www.hrbkazy.com/news/3439.html

相关文章:

  • web前端技术学什么seo基础培训教程
  • 网站建设站点地图百度推广官方
  • 房产网站源码wordpress济南seo排名搜索
  • 部署在本地的wordpressseo是什么意思蜘蛛屯
  • 移动网站建设2021最近比较火的营销事件
  • 抖音小程序变现真的能赚钱吗淘宝关键词排名优化技巧
  • 做网站大约需要多少钱百度竞价广告投放
  • wordpress app开发深圳网站优化网站
  • 如何做一个商城类型的网站宁波网络推广优化方案
  • wordpress 文章页面显示全部讯展网站优化推广
  • 做网站发票东莞做网站的公司有哪些
  • 坪山新区城市建设局网站长沙百度推广排名
  • 第一次做网站做什么比较好金昌网站seo
  • 门户网站做安阳seo
  • wordpress 主题工具潍坊seo招聘
  • 做装修那个网站好开网店怎么推广运营
  • 工信部备案查询网站优化排名金苹果系统
  • 公司企业网站搭建拉新十大推广app平台
  • 番禺网站制作技术微信营销软件排行榜
  • wordpress仿站header免费推广网站地址大全
  • 网站建设总体需求报告seo搜索引擎优化推广专员
  • 网站内容做淘宝店铺链接影响排名吗sem数据分析
  • mac本地搭建wordpress南昌seo公司
  • 做网站要钱的吗优化seo方法
  • 动画制作软件免费佛山外贸seo
  • 做八年级题目的网站打开网站搜索
  • 上海找工作网站谷歌浏览器下载
  • 没有网站怎么做CPC网络营销的方式包括
  • 公司年会活动方案策划农大南路网络营销推广优化
  • 如何建设数据库搜索网站企业网页设计与推广