-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習

( 簡體 字)
作者:蘇達桑.拉維尚迪蘭類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 深度學習
譯者:
出版社:機械工業出版社Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習 3dWoo書號: 50475
詢問書籍請說出此書號!

有庫存
NT售價: 345

出版日:12/17/2018
頁數:203
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111612889
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

強化學習是一種重要的機器學習方法,在智能體及分析預測等領域有許多應用。本書共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關系,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法;時間差分學習、預測、離線/在線策略控制等;多臂賭博機問題以及相關的各種探索策略方法;深度學習的各種基本概念和RNN、LSTM、CNN等神經網絡;深度強化學習算法DQN,以及雙DQN和對抗網絡體系結構等改進架構;DRQN以及DARQN;A3C網絡的基本工作原理及架構;策略梯度和優化問題;*后介紹了強化學習的*新進展以及未來發展。
目錄:

譯者序
原書前言
第1章 強化學習簡介 //1
1.1 什么是強化學習 //1
1.2 強化學習算法 //2
1.3 強化學習與其他機器學習范式的不同 //3
1.4 強化學習的要素 //3
1.4.1 智能體 //3
1.4.2 策略函數 //3
1.4.3 值函數 //4
1.4.4 模型 //4
1.5 智能體環境接口 //4
1.6 強化學習的環境類型 //5
1.6.1 確定性環境 //5
1.6.2 隨機性環境 //5
1.6.3 完全可觀測環境 //5
1.6.4 部分可觀測環境 //5
1.6.5 離散環境 //5
1.6.6 連續環境 //5
1.6.7 情景和非情景環境 //5
1.6.8 單智能體和多智能體環境 //6
1.7 強化學習平臺 //6
1.7.1 OpenAI Gym和Universe //6
1.7.2 DeepMind Lab //6
1.7.3 RL-Glue //6
1.7.4 Project Malmo //6
1.7.5 VizDoom //6
1.8 強化學習的應用 //7
1.8.1 教育 //7
1.8.2 醫療和健康 //7
1.8.3 制造業 //7
1.8.4 庫存管理 //7
1.8.5 金融 //7
1.8.6 自然語言處理和計算機視覺 //7
1.9 小結 //8
1.10 問題 //8
1.11 擴展閱讀 //8
第2章 從OpenAI和TensorFlow入門 //9
2.1 計算機設置 //9
2.1.1 安裝Anaconda //9
2.1.2 安裝Docker //10
2.1.3 安裝OpenAI Gym和Universe //11
2.2 OpenAI Gym //13
2.2.1 基本模擬 //13
2.2.2 訓練機器人行走 //14
2.3 OpenAI Universe //16
2.3.1 構建一個視頻游戲機器人 //16
2.4 TensorFlow //20
2.4.1 變量、常量和占位符 //20
2.4.2 計算圖 //21
2.4.3 會話 //21
2.4.4 TensorBoard //22
2.5 小結 //25
2.6 問題 //25
2.7 擴展閱讀 //25
第3章 馬爾可夫決策過程和動態規劃 //26
3.1 馬爾可夫鏈和馬爾可夫過程 //26
3.2 MDP //27
3.2.1 獎勵和回報 //28
3.2.2 情景和連續任務 //28
3.2.3 折扣因數 //28
3.2.4 策略函數 //29
3.2.5 狀態值函數 //29
3.2.6 狀態—行為值函數(Q函數)//30
3.3 Bellman方程和最優性 //30
3.3.1 推導值函數和Q函數的Bellman方程 //31
3.4 求解Bellman方程 //32
3.4.1 動態規劃 //32
3.5 求解冰凍湖問題 //38
3.5.1 值迭代 //39
3.5.2 策略迭代 //43
3.6 小結 //45
3.7 問題 //45
3.8 擴展閱讀 //46
第4章 基于蒙特卡羅方法的博弈游戲 //47
4.1 蒙特卡羅方法 //47
4.1.1 利用蒙特卡羅方法估計π值 //47
4.2 蒙特卡羅預測 //50
4.2.1 首次訪問蒙特卡羅 //51
4.2.2 每次訪問蒙特卡羅 //52
4.2.3 利用蒙特卡羅方法玩二十一點游戲 //52
4.3 蒙特卡羅控制 //58
4.3.1 蒙特卡羅探索開始 //58
4.3.2 在線策略的蒙特卡羅控制 //59
4.3.3 離線策略的蒙特卡羅控制 //61
4.4 小結 //62
4.5 問題 //62
4.6 擴展閱讀 //63
第5章 時間差分學習 //64
5.1 時間差分學習 //64
5.2 時間差分預測 //64
5.3 時間差分控制 //66
5.3.1 Q學習 //66
5.3.2 SARSA //72
5.4 Q學習和SARSA之間的區別 //77
5.5 小結 //77
5.6 問題 //78
5.7 擴展閱讀 //78
第6章 MAB問題 //79
6.1 MAB問題 //79
6.1.1 ε貪婪策略 //80
6.1.2 Softmax探索算法 //82
6.1.3 UCB算法 //83
6.1.4 Thompson采樣算法 //85
6.2 MAB的應用 //86
6.3 利用MAB識別正確的廣告標識 //87
6.4 上下文賭博機 //89
6.5 小結 //89
6.6 問題 //89
6.7 擴展閱讀 //89
第7章 深度學習基礎 //90
7.1 人工神經元 //90
7.2 ANN //91
7.2.1 輸入層 //92
7.2.2 隱層 //92
7.2.3 輸出層 //92
7.2.4 激活函數 //92
7.3 深入分析ANN //93
7.3.1 梯度下降 //95
7.4 TensorFlow中的神經網絡 //99
7.5 RNN //101
7.5.1 基于時間的反向傳播 //103
7.6 LSTM RNN //104
7.6.1 利用LSTM RNN生成歌詞 //105
7.7 CNN //108
7.7.1 卷積層 //109
7.7.2 池化層 //111
7.7.3 全連接層 //112
7.7.4 CNN架構 //112
7.8 利用CNN對時尚產品進行分類 //113
7.9 小結 //117
7.10 問題 //117
7.11 擴展閱讀 //118
第8章 基于DQN的Atari游戲 //119
8.1 什么是DQN //119
8.2 DQN的架構 //120
8.2.1 卷積網絡 //120
8.2.2 經驗回放 //121
8.2.3 目標網絡 //121
8.2.4 獎勵裁剪 //122
8.2.5 算法理解 //122
8.3 構建一個智能體來玩Atari游戲 //122
8.4 雙DQN //129
8.5 優先經驗回放 //130
8.6 對抗網絡體系結構 //130
8.7 小結 //131
8.8 問題 //132
8.9 擴展閱讀 //132
第9章 基于DRQN玩Doom游戲 //133
9.1 DRQN //133
9.1.1 DRQN架構 //134
9.2 訓練一個玩Doom游戲的智能體 //135
9.2.1 基本的Doom游戲 //135
9.2.2 基于DRQN的Doom游戲 //136
9.3 DARQN //145
9.3.1 DARQN架構 //145
9.4 小結 //145
9.5 問題 //146
9.6 擴展閱讀 //146
第10章 A3C網絡 //147
10.1 A3C //147
10.1.1 異步優勢行為者 //147
10.1.2 A3C架構 //148
10.1.3 A3C的工作原理 //149
10.2 基于A3C爬山 //149
10.2.1 TensorBoard中的可視化 //155
10.3 小結 //158
10.4 問題 //158
10.5 擴展閱讀 //158
第11章 策略梯度和優化 //159
11.1 策略梯度 //159
11.1.1 基于策略梯度的月球著陸器 //160
11.2 DDPG //164
11.2.1 倒立擺 //165
11.3 TRPO //170
11.4 PPO //173
11.5 小結 //175
11.6 問題 //175
11.7 擴展閱讀 //175
第12章 Capstone項目—基于DQN的賽車游戲 //176
12.1 環境封裝函數 //176
12.2 對抗網絡 //179
12.3 回放記憶 //180
12.4 訓練網絡 //181
12.5 賽車游戲 //186
12.6 小結 //189
12.7 問題 //189
12.8 擴展閱讀 //189
第13章 最新進展和未來發展 //190
13.1 I2A //190
13.2 基于人類偏好的學習 //193
13.3 DQfd //194
13.4 HER //195
13.5 HRL //196
13.5.1 MAXQ值函數分解 //196
13.6 逆向強化學習 //198
13.7 小結 //199
13.8 問題 //199
13.9 擴展閱讀 //199
附錄 知識點 //200
序: