Python強化學習實戰:使用OpenAI Gym、TensorFlow和Keras ( 簡體 字) |
作者:[美] 托威赫·貝索洛(Taweh Beysolow II)著 | 類別:1. -> 程式設計 -> Python 2. -> 程式設計 -> 機器學習 |
譯者:敖富江 杜靜 張民壘 譯 |
出版社:清華大學出版社 | 3dWoo書號: 54297 詢問書籍請說出此書號!【缺書】 NT售價: 250 元 |
出版日:2/1/2021 |
頁數: |
光碟數:0 |
|
站長推薦: |
印刷: | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787302570097 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:很榮幸第三次在Apress出版社出書!《Python強化學習實戰 使用OpenAI Gym、Tensorrflow和Keras》是我撰寫過的最復雜書籍,但對于每一位數據科學家和工程師來說都物有所值。在過去的幾年中,強化學習領域經歷了重大變革,熱愛人工智能的每個人都值得全身心投入。 作為人工智能研究的前沿,《Python強化學習實戰 使用OpenAI Gym、Tensorrflow和Keras》將是熟悉該領域狀況以及最常用技術的絕佳起點。基于這一點,我希望讀者能夠從中汲取力量,從而繼續自己的研究并在各自的領域進行創新。 |
內容簡介:主要內容: 使用Python實現強化學習算法; 應用A相架,例如OpenAl Gym.TensorFlow和人cras利用云資源部窖并訓練基于強化學習的解決方案; 實戰遢化學習實際應用 |
目錄:第1章強化學習導論1 1.1強化學習的發展史2 1.2MDP及其與強化學習的關系3 1.3強化學習算法和強化學習框架5 1.4Q學習8 1.5強化學習的應用9 1.5.1經典控制問題9 1.5.2《超級馬里奧兄弟》游戲10 1.5.3《毀滅戰士》游戲11 1.5.4基于強化學習的做市策略12 1.5.5《刺?索尼克》游戲12 1.6本章小結13 第2章強化學習算法15 2.1OpenAIGym15 2.2基于策略的學習16 2.3策略梯度的數學解釋17 2.4基于梯度上升的策略優化19 2.5使用普通策略梯度法求解車桿問題20 2.6什么是折扣獎勵,為什么要使用它們23 2.7策略梯度的不足28 2.8近端策略優化(PPO)和Actor-Critic模型29 2.9實現PPO并求解《超級馬里奧兄弟》30 2.9.1《超級馬里奧兄弟》概述30 2.9.2安裝環境軟件包31 2.9.3資源庫中的代碼結構32 2.9.4模型架構32 2.10應對難度更大的強化學習挑戰37 2.11容器化強化學習實驗39 2.12實驗結果41 2.13本章小結41 第3章強化學習算法:Q學習及其變種43 3.1Q學習43 3.2時序差分(TD)學習45 3.3epsilon-greedy算法46 3.4利用Q學習求解冰湖問題47 3.5深度Q學習50 3.6利用深度Q學習玩《毀滅戰士》游戲51 3.7訓練與性能56 3.8深度Q學習的局限性57 3.9雙Q學習和雙深度Q網絡58 3.10本章小結59 第4章基于強化學習的做市策略61 4.1什么是做市61 4.2TradingGym63 4.3為什么強化學習適用于做市64 4.4使用TradingGym合成訂單簿數據66 4.5使用TradingGym生成訂單簿數據67 4.6實驗設計68 4.6.1強化學習方法1:策略梯度71 4.6.2強化學習方法2:深度Q網絡71 4.7結果和討論73 4.8本章小結74 第5章自定義OpenAI強化學習環境75 5.1《刺?索尼克》游戲概述75 5.2下載該游戲76 5.3編寫該環境的代碼78 5.4A3CActor-Critic82 5.5本章小結88 附錄A源代碼91
|
序: |