游戏世界
游戏攻略
网盘资源
有趣网站
游戏资讯
PS2游戏
PS3游戏
PS4游戏
PS5游戏
switch游戏
PC游戏
软件分享
编程指南
开发小册
Java开发
iOS开发
前端开发
JavaScript开发
Android开发
PHP开发
数据库
开发工具
Python开发
Kotlin开发
Ruby开发
.NET开发
服务器运维
开放平台
架构师
大数据
云计算
人工智能
开发语言
其它开发
spring6中文文档
springboot3中文文档
主机游戏
PS订阅游戏-美服
PS订阅游戏-港服
XGP PGP游戏
SteamDeck游戏
VR PSVR2游戏
3A游戏基地
PS3游戏
spring中文文档
spring6中文文档
springboot3中文文档
vlambda博客
学习文章列表
首页
架构师
vlambda
2020-03-10
第四章 动态规划(二):代码
这一节集中于两种同步动态规划的实践部分,文章按照
算法伪代码
、
算法实现
、
总结
这样的安排展开。
一 算法伪代码
(此处以书中第一个伪代码-策略评估为例)
二 算法实现
实现的问题对应对于书中格子世界,实现的语言是python,在jupyter Notebook中完成代码编写,每个函数表示的含义以注释形式表示,代码有参考GitHub中相关材料。
代码编辑时设置了一个获取某一状态所有后续可能状态的集合的方法,体现了动态规划算法思想的地方。如果无法获取一个状态的所有可能后续状态,那么就不能使用动态规划算法来求解,此外,使用的是
异步更新价值
的方法。
三 总结
在每个状态集中实现完全更新在小数据集上比较有效果,当数据集过大时便会出现
维数灾难
问题,同时动态规划算法是基于
有模型的条件下
进行迭代的,当出现的强化学习问题是无模型的时,便需要另一种方法,即蒙特卡洛法,下一节将对这个方法进行学习。
标签:
推荐阅读
[5.05] 暗喻幻想港中35周年限定版1.03+DLC+金手指+王中王存档
浅谈动态规划(2)进阶篇
相关文章
区间型动态规划题目解析
2020-03-03
动态规划-673. 最长递增子序列的个数
2020-03-02
动态规划算法经典问题回顾(1)
2020-02-28
数据结构--动态规划
2020-02-28