Python強化學習實戰：應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

4/1 新書到！ 3/25 新書到！ 12/20新書到！ 12/13 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

Python強化學習實戰：應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習
( 簡體字)

作者：蘇達桑.拉維尚迪蘭類別：1. -> 程式設計 -> Python
　　　2. -> 程式設計 -> 深度學習

譯者：

出版社：機械工業出版社 3dWoo書號： 50475
詢問書籍請說出此書號！
【缺書】
NT售價： 345 元

出版日：12/17/2018

頁數：203

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787111612889

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：

內容簡介：
強化學習是一種重要的機器學習方法，在智能體及分析預測等領域有許多應用。本書共13章，主要包括強化學習的各種要素，即智能體、環境、策略和模型以及相應平臺和庫；Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置；馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關系，動態規劃的基本概念；蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法；時間差分學習、預測、離線/在線策略控制等；多臂賭博機問題以及相關的各種探索策略方法；深度學習的各種基本概念和RNN、LSTM、CNN等神經網絡；深度強化學習算法DQN，以及雙DQN和對抗網絡體系結構等改進架構；DRQN以及DARQN；A3C網絡的基本工作原理及架構；策略梯度和優化問題；*后介紹了強化學習的*新進展以及未來發展。

目錄：
譯者序
原書前言
第1章強化學習簡介 //1
1.1　什么是強化學習 //1
1.2　強化學習算法 //2
1.3　強化學習與其他機器學習范式的不同 //3
1.4　強化學習的要素 //3
1.4.1　智能體 //3
1.4.2　策略函數 //3
1.4.3　值函數 //4
1.4.4　模型 //4
1.5　智能體環境接口 //4
1.6　強化學習的環境類型 //5
1.6.1　確定性環境 //5
1.6.2　隨機性環境 //5
1.6.3　完全可觀測環境 //5
1.6.4　部分可觀測環境 //5
1.6.5　離散環境 //5
1.6.6　連續環境 //5
1.6.7　情景和非情景環境 //5
1.6.8　單智能體和多智能體環境 //6
1.7　強化學習平臺 //6
1.7.1　OpenAI Gym和Universe //6
1.7.2　DeepMind Lab //6
1.7.3　RL-Glue //6
1.7.4　Project Malmo //6
1.7.5　VizDoom //6
1.8　強化學習的應用 //7
1.8.1　教育 //7
1.8.2　醫療和健康 //7
1.8.3　制造業 //7
1.8.4　庫存管理 //7
1.8.5　金融 //7
1.8.6　自然語言處理和計算機視覺 //7
1.9　小結 //8
1.10　問題 //8
1.11　擴展閱讀 //8
第2章從OpenAI和TensorFlow入門 //9
2.1　計算機設置 //9
2.1.1　安裝Anaconda //9
2.1.2　安裝Docker //10
2.1.3　安裝OpenAI Gym和Universe //11
2.2　OpenAI Gym //13
2.2.1　基本模擬 //13
2.2.2　訓練機器人行走 //14
2.3　OpenAI Universe //16
2.3.1　構建一個視頻游戲機器人 //16
2.4　TensorFlow //20
2.4.1　變量、常量和占位符 //20
2.4.2　計算圖 //21
2.4.3　會話 //21
2.4.4　TensorBoard //22
2.5　小結 //25
2.6　問題 //25
2.7　擴展閱讀 //25
第3章馬爾可夫決策過程和動態規劃 //26
3.1　馬爾可夫鏈和馬爾可夫過程 //26
3.2　MDP //27
3.2.1　獎勵和回報 //28
3.2.2　情景和連續任務 //28
3.2.3　折扣因數 //28
3.2.4　策略函數 //29
3.2.5　狀態值函數 //29
3.2.6　狀態—行為值函數（Q函數）//30
3.3　Bellman方程和最優性 //30
3.3.1　推導值函數和Q函數的Bellman方程 //31
3.4　求解Bellman方程 //32
3.4.1　動態規劃 //32
3.5　求解冰凍湖問題 //38
3.5.1　值迭代 //39
3.5.2　策略迭代 //43
3.6　小結 //45
3.7　問題 //45
3.8　擴展閱讀 //46
第4章基于蒙特卡羅方法的博弈游戲 //47
4.1　蒙特卡羅方法 //47
4.1.1　利用蒙特卡羅方法估計π值 //47
4.2　蒙特卡羅預測 //50
4.2.1　首次訪問蒙特卡羅 //51
4.2.2　每次訪問蒙特卡羅 //52
4.2.3　利用蒙特卡羅方法玩二十一點游戲 //52
4.3　蒙特卡羅控制 //58
4.3.1　蒙特卡羅探索開始 //58
4.3.2　在線策略的蒙特卡羅控制 //59
4.3.3　離線策略的蒙特卡羅控制 //61
4.4　小結 //62
4.5　問題 //62
4.6　擴展閱讀 //63
第5章時間差分學習 //64
5.1　時間差分學習 //64
5.2　時間差分預測 //64
5.3　時間差分控制 //66
5.3.1　Q學習 //66
5.3.2　SARSA //72
5.4　Q學習和SARSA之間的區別 //77
5.5　小結 //77
5.6　問題 //78
5.7　擴展閱讀 //78
第6章 MAB問題 //79
6.1　MAB問題 //79
6.1.1　ε貪婪策略 //80
6.1.2　Softmax探索算法 //82
6.1.3　UCB算法 //83
6.1.4　Thompson采樣算法 //85
6.2　MAB的應用 //86
6.3　利用MAB識別正確的廣告標識 //87
6.4　上下文賭博機 //89
6.5　小結 //89
6.6　問題 //89
6.7　擴展閱讀 //89
第7章深度學習基礎 //90
7.1　人工神經元 //90
7.2　ANN //91
7.2.1　輸入層 //92
7.2.2　隱層 //92
7.2.3　輸出層 //92
7.2.4　激活函數 //92
7.3　深入分析ANN //93
7.3.1　梯度下降 //95
7.4　TensorFlow中的神經網絡 //99
7.5　RNN //101
7.5.1　基于時間的反向傳播 //103
7.6　LSTM RNN //104
7.6.1　利用LSTM RNN生成歌詞 //105
7.7　CNN //108
7.7.1　卷積層 //109
7.7.2　池化層 //111
7.7.3　全連接層 //112
7.7.4　CNN架構 //112
7.8　利用CNN對時尚產品進行分類　//113
7.9　小結 //117
7.10　問題 //117
7.11　擴展閱讀 //118
第8章基于DQN的Atari游戲　//119
8.1　什么是DQN //119
8.2　DQN的架構 //120
8.2.1　卷積網絡 //120
8.2.2　經驗回放 //121
8.2.3　目標網絡 //121
8.2.4　獎勵裁剪 //122
8.2.5　算法理解 //122
8.3　構建一個智能體來玩Atari游戲 //122
8.4　雙DQN //129
8.5　優先經驗回放 //130
8.6　對抗網絡體系結構 //130
8.7　小結 //131
8.8　問題 //132
8.9　擴展閱讀 //132
第9章基于DRQN玩Doom游戲　//133
9.1　DRQN //133
9.1.1　DRQN架構 //134
9.2　訓練一個玩Doom游戲的智能體 //135
9.2.1　基本的Doom游戲 //135
9.2.2　基于DRQN的Doom游戲 //136
9.3　DARQN //145
9.3.1　DARQN架構 //145
9.4　小結 //145
9.5　問題 //146
9.6　擴展閱讀 //146
第10章 A3C網絡 //147
10.1　A3C //147
10.1.1　異步優勢行為者 //147
10.1.2　A3C架構 //148
10.1.3　A3C的工作原理 //149
10.2　基于A3C爬山 //149
10.2.1　TensorBoard中的可視化 //155
10.3　小結 //158
10.4　問題 //158
10.5　擴展閱讀 //158
第11章策略梯度和優化 //159
11.1　策略梯度 //159
11.1.1　基于策略梯度的月球著陸器 //160
11.2　DDPG //164
11.2.1　倒立擺 //165
11.3　TRPO //170
11.4　PPO //173
11.5　小結 //175
11.6　問題 //175
11.7　擴展閱讀 //175
第12章 Capstone項目—基于DQN的賽車游戲 //176
12.1　環境封裝函數 //176
12.2　對抗網絡 //179
12.3　回放記憶 //180
12.4　訓練網絡 //181
12.5　賽車游戲 //186
12.6　小結 //189
12.7　問題 //189
12.8　擴展閱讀 //189
第13章最新進展和未來發展 //190
13.1　I2A //190
13.2　基于人類偏好的學習 //193
13.3　DQfd //194
13.4　HER //195
13.5　HRL //196
13.5.１　MAXQ值函數分解 //196
13.6　逆向強化學習 //198
13.7　小結 //199
13.8　問題 //199
13.9　擴展閱讀 //199
附錄知識點 //200

序：