当前位置: 首页 > news >正文

社交网站开发意义常用于网站推广的营销手段是

社交网站开发意义,常用于网站推广的营销手段是,做除尘环保的如何推广自己的网站,供应链管理师怎么报考这里写自定义目录标题 参考资料 Safe Reinforcement Learning环境算法CPO 2017 ICMLPCPO 2019 ICLRFOCOPS 2020 NIPSCRPO 2021 ICMLCUP 2022 NIPS TRPO 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎 参考资料 Safe Reinforcement Learning 安全/约束强化学…

这里写自定义目录标题

  • 参考资料 Safe Reinforcement Learning
  • 环境
  • 算法
    • CPO 2017 ICML
    • PCPO 2019 ICLR
    • FOCOPS 2020 NIPS
    • CRPO 2021 ICML
    • CUP 2022 NIPS

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料 Safe Reinforcement Learning

安全/约束强化学习路线图(Safe RL Roadmap)编辑于 2023-05-06

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning(一)2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者
OpenAI/safety-starter-agents github

环境

safety-gym openai
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.

safety-gymnasium
Bullet-Safety-Gym

算法

算法算法类型时间会议引用量
CPO约束策略优化CPO-based 二阶2017ICML1214
RCPO奖励约束策略优化Primal-Dual2018ICLR452
PCPO基于投影的约束策略优化CPO-based 二阶2019ICLR188
FOCOPS策略空间中的一阶约束优化CPO-based 一阶2020NIPS87
CRPO约束修正策略优化Lagrange2021ICML84
CUP约束更新投影CPO-based 一阶2022NIPS18

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631

安全强化学习综述
2.2.2 信赖域法
约束型策略优化 (Constrained policy optimization, CPO)
基于投影的约束策略优化 (Projection-based constrained policy optimization, PCPO)
一阶约束优化方法 (First order constrained optimization in policy space, FOCOPS)
惩罚近端策略优化 (Penalized proximal policy optimization, P3O)
约束修正策略优化 (Constraint-rectified policy optimization, CRPO)
约束变分策略优化 (Constrained variational policy optimization, CVPO)

CPO 2017 ICML

Constrained Policy Optimization 上海交通大学 工学硕士
CPO omnisafe

PCPO 2019 ICLR

PCPO omnisafe

FOCOPS 2020 NIPS

FOCOPS slideslive
FOCOPS slideslive 短
FOCOPS omnisafe

CPO的问题
从当前策略获取样本轨迹时产生的错误。
泰勒近似引起的近似误差。
使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。

FOCOPS的优势
实现简单,只使用一阶近似。
简单的一阶法避免了泰勒法和共轭法引起的误差。
在实验中表现优于CPO。
不需要任何恢复步骤。

Two-stage Policy Update

CRPO 2021 ICML

知乎 钟典鱼
omnisafe代码
CRPO slideslive
CRPO slideslive 短
在这里插入图片描述
在这里插入图片描述

CUP 2022 NIPS

github代码
omnisafe代码git
omnisafe代码

强化学习 safe RL小综述 从TRPO出发 捋清CPO | CUP编辑于 2022-11-24

将GAE引入推导,得出了更紧的上下界
在具体的实现上做了改变,使得每次更新对计算资源的需求更小。

http://www.hrbkazy.com/news/12850.html

相关文章:

  • 公众号开发价钱百度seo费用
  • 中国最好的网站建设外贸公司如何做推广
  • 大丰做网站费用网页设计模板网站免费
  • 网站首页图片切换代码2023年新闻小学生摘抄
  • 佛山免费网站建设承德网络推广
  • 怎样设计卖奖的网站公司的网站
  • 手机静态网站建设课程设计报告东莞网站seo推广
  • 做购物网站流程短视频新媒体推广
  • 做网站怎么兼容所有浏览器网站seo优化皆宣徐州百都网络不错
  • 学校网站建设情况报告网络软文名词解释
  • dedecms做论坛网站seo综合查询爱站
  • 广州网站推广找谁推广计划怎么做
  • 动漫公司网站建设线上推广有哪些
  • 做网站必须要有前台吗seo sem优化
  • wordpress为什么那么卡青岛seo全网营销
  • 沈阳教做网站chrome官网
  • 沈阳网站建设索王道下拉广西壮族自治区在线seo关键词排名优化
  • 安康市建设银行网站百度收录站长工具
  • wordpress页面标题排序肥城市区seo关键词排名
  • 网站优化建设公司广东seo点击排名软件哪家好
  • 网站建设经验交流百度客服人工在线咨询电话
  • 电子商务网站建设原则爱站官网
  • 山西自助建站系统平台如何交换友情链接
  • 如何做网站推广 求指点seo优化排名价格
  • 沈阳自助建站软件百度指数分析数据
  • 武汉网站推广有哪些拉新十大推广app平台
  • wordpress页面模板链接seo关键词排名优化怎么样
  • 母婴网站建设商城小程序开发哪家好
  • 河北建设工程信息网换成什么网址了宁波seo优化流程
  • 公司设计网站有哪些网上永久视频会员是真的吗