Python強化學習實戰：使用OpenAI Gym、TensorFlow和Keras @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

4/1 新書到！ 3/25 新書到！ 12/20新書到！ 12/13 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

Python強化學習實戰：使用OpenAI Gym、TensorFlow和Keras
( 簡體字)

作者：[美] 托威赫·貝索洛（Taweh Beysolow II）著類別：1. -> 程式設計 -> Python
　　　2. -> 程式設計 -> 機器學習

譯者：敖富江杜靜張民壘譯

出版社：清華大學出版社 3dWoo書號： 54297
詢問書籍請說出此書號！
【缺書】
NT售價： 250 元

出版日：2/1/2021

頁數：

光碟數：0

站長推薦：

印刷：語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787302570097

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
很榮幸第三次在Apress出版社出書！《Python強化學習實戰使用OpenAI Gym、Tensorrflow和Keras》是我撰寫過的最復雜書籍，但對于每一位數據科學家和工程師來說都物有所值。在過去的幾年中，強化學習領域經歷了重大變革，熱愛人工智能的每個人都值得全身心投入。
作為人工智能研究的前沿，《Python強化學習實戰使用OpenAI Gym、Tensorrflow和Keras》將是熟悉該領域狀況以及最常用技術的絕佳起點。基于這一點，我希望讀者能夠從中汲取力量，從而繼續自己的研究并在各自的領域進行創新。

內容簡介：
主要內容：
使用Python實現強化學習算法；
應用A相架，例如OpenAl Gym.TensorFlow和人cras利用云資源部窖并訓練基于強化學習的解決方案；
實戰遢化學習實際應用

目錄：
第1章強化學習導論1
1.1強化學習的發展史2
1.2MDP及其與強化學習的關系3
1.3強化學習算法和強化學習框架5
1.4Q學習8
1.5強化學習的應用9
1.5.1經典控制問題9
1.5.2《超級馬里奧兄弟》游戲10
1.5.3《毀滅戰士》游戲11
1.5.4基于強化學習的做市策略12
1.5.5《刺?索尼克》游戲12
1.6本章小結13
第2章強化學習算法15
2.1OpenAIGym15
2.2基于策略的學習16
2.3策略梯度的數學解釋17
2.4基于梯度上升的策略優化19
2.5使用普通策略梯度法求解車桿問題20
2.6什么是折扣獎勵，為什么要使用它們23
2.7策略梯度的不足28
2.8近端策略優化(PPO)和Actor-Critic模型29
2.9實現PPO并求解《超級馬里奧兄弟》30
2.9.1《超級馬里奧兄弟》概述30
2.9.2安裝環境軟件包31
2.9.3資源庫中的代碼結構32
2.9.4模型架構32
2.10應對難度更大的強化學習挑戰37
2.11容器化強化學習實驗39
2.12實驗結果41
2.13本章小結41
第3章強化學習算法：Q學習及其變種43
3.1Q學習43
3.2時序差分(TD)學習45
3.3epsilon-greedy算法46
3.4利用Q學習求解冰湖問題47
3.5深度Q學習50
3.6利用深度Q學習玩《毀滅戰士》游戲51
3.7訓練與性能56
3.8深度Q學習的局限性57
3.9雙Q學習和雙深度Q網絡58
3.10本章小結59
第4章基于強化學習的做市策略61
4.1什么是做市61
4.2TradingGym63
4.3為什么強化學習適用于做市64
4.4使用TradingGym合成訂單簿數據66
4.5使用TradingGym生成訂單簿數據67
4.6實驗設計68
4.6.1強化學習方法1：策略梯度71
4.6.2強化學習方法2：深度Q網絡71
4.7結果和討論73
4.8本章小結74
第5章自定義OpenAI強化學習環境75
5.1《刺?索尼克》游戲概述75
5.2下載該游戲76
5.3編寫該環境的代碼78
5.4A3CActor-Critic82
5.5本章小結88
附錄A源代碼91

序：