深度强化学习 学术前沿与实战应用 机械工业出版社 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
深度强化学习 学术前沿与实战应用 机械工业出版社电子书下载地址
- 文件名
- [epub 下载] 深度强化学习 学术前沿与实战应用 机械工业出版社 epub格式电子书
- [azw3 下载] 深度强化学习 学术前沿与实战应用 机械工业出版社 azw3格式电子书
- [pdf 下载] 深度强化学习 学术前沿与实战应用 机械工业出版社 pdf格式电子书
- [txt 下载] 深度强化学习 学术前沿与实战应用 机械工业出版社 txt格式电子书
- [mobi 下载] 深度强化学习 学术前沿与实战应用 机械工业出版社 mobi格式电子书
- [word 下载] 深度强化学习 学术前沿与实战应用 机械工业出版社 word格式电子书
- [kindle 下载] 深度强化学习 学术前沿与实战应用 机械工业出版社 kindle格式电子书
寄语:
新华书店正版,关注店铺成为会员可享店铺专属优惠,团购客户请咨询在线客服!
内容简介:
本书共分为四篇,即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用。由浅入深、通俗易懂,涵盖经典算法和近几年的前沿技术进展。特别是书中详细介绍了每一种代表性算法的代码原型实现,旨在理论与实践相结合,让读者学有所得、学有所用。第一篇(包含第1~3章)主要讲解深度强化学习基础,侧重于单智能体强化学习算法,相对简单,有助于初级读者理解,同时涵盖了近几年的经典算法和一些前沿的研究成果。第二篇(包含第4~5章)主要侧重于对多智能体深度强化学习的讲解,从多智能体强化学习基本概念到相关算法的讲解和分析,以多个极具代表性的算法为例带领读者逐步学习多智能体训练及控制的理论与方法。同时,还介绍了多智能体强化学习领域一些前沿学术成果。第三篇(包含第6~7章)扩展到多任务场景,称为多任务深度强化学习。首先介绍了多任务强化学习的基本概念和相关基础知识,随后讲解了部分经典的多任务深度强化学习算法。第四篇(包含第8~11章)主要讲解深度强化学习的实际应用,涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。通过领域应用中思想和方法的讲解,培养读者跨领域解决实际问题的能力,以帮助读者熟练掌握和使用深度强化学习这一强大的方法来解决和优化实际工程领域中的问题。
书籍目录:
前言
致谢
数学符号
第一篇深度强化学习
第1章深度强化学习基础2
1.1强化学习2
1.1.1强化学习的发展历史2
1.1.2强化学习简介4
1.1.3深度强化学习简介6
1.2马尔可夫属性和决策过程9
1.2.1马尔可夫属性9
1.2.2马尔可夫决策过程11
1.3强化学习核心概念12
1.3.1值函数12
1.3.2动态规划14
1.3.3时间(序)差分15
1.3.4策略梯度16
1.3.5actor-critic方法17
1.4Q-learning18
1.4.1Q-learning简介18
1.4.2算法19
1.4.3相关变量及影响20
1.4.4实现方法21
第2章深度强化学习算法22
2.1基于值的深度强化学习算法22
2.1.1深度Q网络22
2.1.2深度双Q网络27
2.1.3竞争网络架构31
2.1.4平均值DQN33
2.1.5多DQN变种结合体:Rainbow37
2.1.6基于动作排除的DQN42
2.2基于策略的深度强化学习算法46
2.2.1循环确定性策略梯度46
2.2.2深度确定性策略梯度55
2.2.3信赖域策略优化62
2.2.4近端策略优化68
2.3基于模型的深度强化学习算法73
2.3.1基于模型加速的连续深度Q-learning73
2.3.2范例模型探索80
2.3.3基于模型集成的信赖域策略优化88
2.3.4时间差分模型95
2.4基于分层的深度强化学习算法102
2.4.1分层深度强化学习102
2.4.2基于封建网络的分层强化学习109
2.4.3基于随机神经网络的分层强化学习116
第3章分布式深度强化学习123
3.1分布式系统123
3.1.1分布式系统简介123
3.1.2分布式系统的发展历史124
3.1.3架构演进125
3.1.4主流分布式系统框架128
3.2分布式深度强化学习算法129
3.2.1分布式近端策略优化129
3.2.2分布式深度确定性策略梯度138
3.3分布式深度强化学习框架145
3.3.1重要性加权Actor-Learner架构145
3.3.2分布式优先经验复用池153
第二篇多智能体深度强化学习
第4章多智能体深度强化学习基础162
4.1多智能体强化学习162
4.1.1多智能体强化学习发展历史162
4.1.2多智能体强化学习简介164
4.1.3优势和挑战166
4.2部分可见马尔可夫决策过程166
4.2.1POMDP模型166
4.2.2POMDP相关研究169
4.2.3POMDP应用领域170
第5章多智能体深度强化学习算法171
5.1基于值函数的多智能体深度强化学习171
5.1.1基于DQN的多智能体网络171
5.1.2增强智能体间学习174
5.1.3协同多智能体学习的价值分解网络178
5.1.4多智能体深度强化学习的稳定经验复用池182
5.1.5单调值函数分解187
5.1.6深度强化学习中的对立智能体建模190
5.1.7平均场多智能体强化学习193
5.2基于策略的多智能体深度强化学习197
5.2.1基于自身策略的其他智能体行为预测197
5.2.2双重平均方案201
5.2.3多智能体深度强化学习的统一博弈论方法208
5.3基于AC框架的多智能体深度强化学习212
5.3.1多智能体深度确定性策略梯度212
5.3.2多智能体集中规划的价值函数策略梯度220
5.3.3多智能体系统的策略表示学习227
5.3.4部分可观察环境下的多智能体策略优化231
5.3.5基于联网智能体的接近去中心化MARL236
第三篇多任务深度强化学习
第6章多任务深度强化学习基础244
6.1简介244
6.1.1理论概述244
6.1.2面临的挑战247
6.2策略蒸馏法248
第7章多任务深度强化学习算法253
7.1无监督强化与辅助学习253
7.1.1算法介绍253
7.1.2算法分析255
7.1.3使用场景与优势分析261
7.2使用渐进式神经网络解决任务的复杂序列262
7.2.1算法介绍262
7.2.2算法分析262
7.2.3使用场景与优势分析266
7.3基于单智能体的多任务共享模型267
7.3.1算法介绍267
7.3.2算法分析268
7.3.3使用场景与优势分析272
7.4使用PopArt归一化多任务更新幅度273
7.4.1算法介绍273
7.4.2算法分析274
7.4.3使用场景与优势分析276
第四篇深度强化学习的应用
第8章游戏278
8.1GymRetro游戏平台278
8.1.1平台简介278
8.1.2安装GymRetro平台281
8.1.3安装RetroUI282
8.1.4GymRetro主要函数说明283
8.2相关应用285
8.2.1Pong游戏285
8.2.2CartPole291
8.2.3FlappyBird298
8.2.4Gradius302
第9章机器人控制312
9.1机器人导航312
9.1.1无地图导航312
9.1.2社会感知机器人导航316
9.2路径规划321
9.3机器人视觉324
第10章计算机视觉327
10.1图像327
10.1.1图像字幕327
10.1.2图像恢复332
10.2视频337
10.2.1视频字幕337
10.2.2视频快进345
10.2.3视觉跟踪348
第11章自然语言处理354
11.1与知识库交互的多轮对话智能体354
11.1.1概率KB查找355
11.1.2端到端KB-InfoBot356
11.1.3总结359
11.2鲁棒远程监督关系提取359
11.2.1问题表述360
11.2.2使用基于策略的智能体重新分配训练数据集363
11.2.3总结363
11.3非成对情感–情感翻译363
11.3.1问题表述363
11.3.2训练算法366
11.3.3总结367
缩写参照表368
常用词中英文对照371
参考文献374
作者介绍:
刘驰,北京理工大学计算机学院副院长、教授、博士生导师,英国工程技术学会会士(IET Fellow),IEEE不错会员(IEEE Senior Member)。分别于清华大学和英国帝国理工学院获得学士和博士学位,曾任美国IBM T.J. Watson研究中心和IBM中国研究院研究主管,并在德国电信研究总院(柏林)任博士后研究员。研究方向为大数据与物联网技术。主持了国家自然科学基金、国家重点研发计划课题、工信部、*、装发预研等20余省部级研究项目。共发表SCI/EI论文百余篇,其中ESI高被引论文2篇、CCF-A类论文20余篇,授权靠前外发明14项,编写书籍9本,Google Scholar索引3500余次,H index为28。现任国家自然科学基金会评专家、科技部重点研发计划会评专家、*科技奖评审专家、全国信标委技术委员会委员、中国电子学会理事、中国计算机学会青工委委员、中国计算机学会物联网/大数据/普适计算专委会委员、中国电子学会物联网专委会委员/副秘书长、中国自动化学会大数据专委会委员、中国通信学会物联网专委会委员等;以及IEEE Transactions on Network Science and Engineering编委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入选了国家人社部“高层次留学人才回国资助计划”、中国科协“青年人才托举工程”、陕西省第八批“百人计划(短期项目)”、中国产学研合作促进奖、中国电子学会科技工作者、国家“十二五”轻工业科技创新优选个人、2017年中国物联网年度人物等。并获得省部级一等奖1项、二等奖1项、三等奖1项。
出版社信息:
暂无出版社相关信息,正在全力查找中!
书籍摘录:
暂无相关书籍摘录,正在全力查找中!
在线阅读/听书/购买/PDF下载地址:
在线阅读地址:深度强化学习 学术前沿与实战应用 机械工业出版社在线阅读
在线听书地址:深度强化学习 学术前沿与实战应用 机械工业出版社在线收听
在线购买地址:深度强化学习 学术前沿与实战应用 机械工业出版社在线购买
原文赏析:
我们所说的思想(1)本身是一种有序的东西,(2)只能应用于在一定程度上有序的材料,即知觉或经验。这有两个推论。首先,一个身体组织,要想与思想密切对应(比如我的大脑与我的思想密切对应),就必须是一种非常有序的组织,这意味着在它内部发生的事件必须遵循严格的物理定律,至少要达到很高程度的准确性。其次,外界其他物体对那个物理上组织得很好的系统所造成的物理印象(显然对应于相应思想的知觉和经验),构成了我所说的思想材料。因此一般来说,我们的系统与别人的系统之间的物理相互作用本身具有某种程度的物理秩序,也就是说,它们也必须遵守严格的物理定律并达到一定程度的准确性。
所有原子每时每刻都在作完全无序的热运动,可以说,这种运动破坏了它们的有序行为,使发生在少量原子之间的事件不能按照任何可认识的定律表现出来。只有在大量原子的合作中,统计学定律才开始影响和控制这些集合体的行为,其准确性随着原子数目的增加而增加。诸事件正是以这种方式获得了真正有序的特征。
在原子选定的一组不连续状态当中,或许存在但并不必然存在一个最低能级,它意味着原子核彼此紧密靠拢。这种状态下的原子便构成了一个分子。这里要强调的是,分子必定具有某种稳定性;除非外界至少把提升至下一个较高能级所需的能量差提供给它,否则构型是不会改变的。因此,这种定量的能级差定量地决定了分子的稳定程度。
当一个不是活的系统被孤立出来或者被置于均匀的环境中时,由于各种摩擦力的影响,所有运动通常都很快静止下来;电势或化学势的差别消失了,倾向于形成化合物的物质也是如此,温度因热传导而变得均一。此后,整个系统逐渐衰退成一块死寂的、惰性的物质,达到一种持久不变的状态,可观察的事件不再出现。物理学家把这种状态称为热力学平衡或最大熵。
有机体正是以负熵为生的。
这个世界为人类点亮了璀璨的意识之光,而人类用自己的生命和语言塑造并改变着我们称为人性的那件艺术作品,并用演说和文字甚至用生命来证明它。因此,人类比其他任何物种更能强烈地感受到内心不和谐而引起的剧烈的折磨。若没有这种不和谐,人类就不曾承受任何痛苦,就没有进化。
因此在生命的每一步、每一天中,我们当时拥有的某种形体似乎必须发生变化,它们被征服、被删除或被某种新的形体取代。我们原始意志对此的抵抗是现存形状对改造其形体的斧子的抵抗的精神呼应。对于我们来说,我们自己既是斧头也是雕塑,既是征服者也是被征服者—它是一个真正持续不断的“自我征服”。
其它内容:
暂无其它内容!
网站评分
书籍多样性:6分
书籍信息完全性:6分
网站更新速度:5分
使用便利性:6分
书籍清晰度:6分
书籍格式兼容性:3分
是否包含广告:4分
加载速度:9分
安全性:9分
稳定性:7分
搜索功能:4分
下载便捷性:4分
下载点评
- 体验还行(446+)
- 内涵好书(155+)
- 格式多(356+)
- 目录完整(348+)
- 排版满分(632+)
- 在线转格式(392+)
- 差评少(290+)
- 体验好(334+)
- 字体合适(398+)
下载评价
- 网友 屠***好: ( 2025-01-13 07:31:42 )
还行吧。
- 网友 康***溪: ( 2024-12-25 21:05:33 )
强烈推荐!!!
- 网友 冷***洁: ( 2025-01-08 14:47:13 )
不错,用着很方便
- 网友 宫***玉: ( 2024-12-31 16:42:57 )
我说完了。
- 网友 仰***兰: ( 2025-01-18 17:07:34 )
喜欢!很棒!!超级推荐!
- 网友 宓***莉: ( 2025-01-04 07:17:18 )
不仅速度快,而且内容无盗版痕迹。
- 网友 石***烟: ( 2025-01-04 07:45:03 )
还可以吧,毕竟也是要成本的,付费应该的,更何况下载速度还挺快的
- 网友 宫***凡: ( 2025-01-07 15:15:58 )
一般般,只能说收费的比免费的强不少。
- 网友 孔***旋: ( 2025-01-16 23:19:12 )
很好。顶一个希望越来越好,一直支持。
- 网友 国***芳: ( 2025-01-03 16:17:25 )
五星好评
- 网友 温***欣: ( 2024-12-24 03:41:53 )
可以可以可以
- 网友 后***之: ( 2025-01-04 17:25:14 )
强烈推荐!无论下载速度还是书籍内容都没话说 真的很良心!
- 网友 师***怡: ( 2025-01-07 08:20:42 )
说的好不如用的好,真心很好。越来越完美
- 网友 堵***洁: ( 2025-01-01 06:06:29 )
好用,支持
喜欢"深度强化学习 学术前沿与实战应用 机械工业出版社"的人也看了
Europe For Dummies,5th ed.欧洲导览,第5版 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
国家级骨干高职院校建设规划教材:有机产品分析 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
规范引力对偶及其在凝聚态物理中的应用 吴健聘 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
全新正版图书 亨迪放射物理学托德·鲍里克基天津科技翻译出版有限公司9787543338302 放射疗法物理学人天图书专营店 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
Maya影视特效制作 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 供应链管理实务 张远昌 编著 著作 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- Encounter Paris 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 新编中小学书法活页习字帖:颜真卿楷书颜勤礼碑(建议5年级上学期使用) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 男孩米赛 男孩米赛.厄运之坑 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 中国筑城史 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 药学专业知识(一)(2023国家执业药师职业资格考试考前预测6套卷) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 三国志(上下册) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 电磁协同理论与方法 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 我只为你盛开 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 国际贸易实务 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
书籍真实打分
故事情节:5分
人物塑造:6分
主题深度:3分
文字风格:8分
语言运用:3分
文笔流畅:9分
思想传递:5分
知识深度:8分
知识广度:3分
实用性:3分
章节划分:7分
结构布局:7分
新颖与独特:4分
情感共鸣:3分
引人入胜:8分
现实相关:6分
沉浸感:3分
事实准确性:4分
文化贡献:5分