Python強化學習實戰:應用OpenAI Gym和TensorFlow精通強化學習和深度強化學習 ( 簡體 字) |
作者:蘇達桑.拉維尚迪蘭 | 類別:1. -> 程式設計 -> Python 2. -> 程式設計 -> 深度學習 |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 50475 詢問書籍請說出此書號!【有庫存】 NT售價: 345 元 |
出版日:12/17/2018 |
頁數:203 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111612889 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:強化學習是一種重要的機器學習方法,在智能體及分析預測等領域有許多應用。本書共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關系,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法;時間差分學習、預測、離線/在線策略控制等;多臂賭博機問題以及相關的各種探索策略方法;深度學習的各種基本概念和RNN、LSTM、CNN等神經網絡;深度強化學習算法DQN,以及雙DQN和對抗網絡體系結構等改進架構;DRQN以及DARQN;A3C網絡的基本工作原理及架構;策略梯度和優化問題;*后介紹了強化學習的*新進展以及未來發展。 |
目錄:譯者序 原書前言 第1章 強化學習簡介 //1 1.1 什么是強化學習 //1 1.2 強化學習算法 //2 1.3 強化學習與其他機器學習范式的不同 //3 1.4 強化學習的要素 //3 1.4.1 智能體 //3 1.4.2 策略函數 //3 1.4.3 值函數 //4 1.4.4 模型 //4 1.5 智能體環境接口 //4 1.6 強化學習的環境類型 //5 1.6.1 確定性環境 //5 1.6.2 隨機性環境 //5 1.6.3 完全可觀測環境 //5 1.6.4 部分可觀測環境 //5 1.6.5 離散環境 //5 1.6.6 連續環境 //5 1.6.7 情景和非情景環境 //5 1.6.8 單智能體和多智能體環境 //6 1.7 強化學習平臺 //6 1.7.1 OpenAI Gym和Universe //6 1.7.2 DeepMind Lab //6 1.7.3 RL-Glue //6 1.7.4 Project Malmo //6 1.7.5 VizDoom //6 1.8 強化學習的應用 //7 1.8.1 教育 //7 1.8.2 醫療和健康 //7 1.8.3 制造業 //7 1.8.4 庫存管理 //7 1.8.5 金融 //7 1.8.6 自然語言處理和計算機視覺 //7 1.9 小結 //8 1.10 問題 //8 1.11 擴展閱讀 //8 第2章 從OpenAI和TensorFlow入門 //9 2.1 計算機設置 //9 2.1.1 安裝Anaconda //9 2.1.2 安裝Docker //10 2.1.3 安裝OpenAI Gym和Universe //11 2.2 OpenAI Gym //13 2.2.1 基本模擬 //13 2.2.2 訓練機器人行走 //14 2.3 OpenAI Universe //16 2.3.1 構建一個視頻游戲機器人 //16 2.4 TensorFlow //20 2.4.1 變量、常量和占位符 //20 2.4.2 計算圖 //21 2.4.3 會話 //21 2.4.4 TensorBoard //22 2.5 小結 //25 2.6 問題 //25 2.7 擴展閱讀 //25 第3章 馬爾可夫決策過程和動態規劃 //26 3.1 馬爾可夫鏈和馬爾可夫過程 //26 3.2 MDP //27 3.2.1 獎勵和回報 //28 3.2.2 情景和連續任務 //28 3.2.3 折扣因數 //28 3.2.4 策略函數 //29 3.2.5 狀態值函數 //29 3.2.6 狀態—行為值函數(Q函數)//30 3.3 Bellman方程和最優性 //30 3.3.1 推導值函數和Q函數的Bellman方程 //31 3.4 求解Bellman方程 //32 3.4.1 動態規劃 //32 3.5 求解冰凍湖問題 //38 3.5.1 值迭代 //39 3.5.2 策略迭代 //43 3.6 小結 //45 3.7 問題 //45 3.8 擴展閱讀 //46 第4章 基于蒙特卡羅方法的博弈游戲 //47 4.1 蒙特卡羅方法 //47 4.1.1 利用蒙特卡羅方法估計π值 //47 4.2 蒙特卡羅預測 //50 4.2.1 首次訪問蒙特卡羅 //51 4.2.2 每次訪問蒙特卡羅 //52 4.2.3 利用蒙特卡羅方法玩二十一點游戲 //52 4.3 蒙特卡羅控制 //58 4.3.1 蒙特卡羅探索開始 //58 4.3.2 在線策略的蒙特卡羅控制 //59 4.3.3 離線策略的蒙特卡羅控制 //61 4.4 小結 //62 4.5 問題 //62 4.6 擴展閱讀 //63 第5章 時間差分學習 //64 5.1 時間差分學習 //64 5.2 時間差分預測 //64 5.3 時間差分控制 //66 5.3.1 Q學習 //66 5.3.2 SARSA //72 5.4 Q學習和SARSA之間的區別 //77 5.5 小結 //77 5.6 問題 //78 5.7 擴展閱讀 //78 第6章 MAB問題 //79 6.1 MAB問題 //79 6.1.1 ε貪婪策略 //80 6.1.2 Softmax探索算法 //82 6.1.3 UCB算法 //83 6.1.4 Thompson采樣算法 //85 6.2 MAB的應用 //86 6.3 利用MAB識別正確的廣告標識 //87 6.4 上下文賭博機 //89 6.5 小結 //89 6.6 問題 //89 6.7 擴展閱讀 //89 第7章 深度學習基礎 //90 7.1 人工神經元 //90 7.2 ANN //91 7.2.1 輸入層 //92 7.2.2 隱層 //92 7.2.3 輸出層 //92 7.2.4 激活函數 //92 7.3 深入分析ANN //93 7.3.1 梯度下降 //95 7.4 TensorFlow中的神經網絡 //99 7.5 RNN //101 7.5.1 基于時間的反向傳播 //103 7.6 LSTM RNN //104 7.6.1 利用LSTM RNN生成歌詞 //105 7.7 CNN //108 7.7.1 卷積層 //109 7.7.2 池化層 //111 7.7.3 全連接層 //112 7.7.4 CNN架構 //112 7.8 利用CNN對時尚產品進行分類 //113 7.9 小結 //117 7.10 問題 //117 7.11 擴展閱讀 //118 第8章 基于DQN的Atari游戲 //119 8.1 什么是DQN //119 8.2 DQN的架構 //120 8.2.1 卷積網絡 //120 8.2.2 經驗回放 //121 8.2.3 目標網絡 //121 8.2.4 獎勵裁剪 //122 8.2.5 算法理解 //122 8.3 構建一個智能體來玩Atari游戲 //122 8.4 雙DQN //129 8.5 優先經驗回放 //130 8.6 對抗網絡體系結構 //130 8.7 小結 //131 8.8 問題 //132 8.9 擴展閱讀 //132 第9章 基于DRQN玩Doom游戲 //133 9.1 DRQN //133 9.1.1 DRQN架構 //134 9.2 訓練一個玩Doom游戲的智能體 //135 9.2.1 基本的Doom游戲 //135 9.2.2 基于DRQN的Doom游戲 //136 9.3 DARQN //145 9.3.1 DARQN架構 //145 9.4 小結 //145 9.5 問題 //146 9.6 擴展閱讀 //146 第10章 A3C網絡 //147 10.1 A3C //147 10.1.1 異步優勢行為者 //147 10.1.2 A3C架構 //148 10.1.3 A3C的工作原理 //149 10.2 基于A3C爬山 //149 10.2.1 TensorBoard中的可視化 //155 10.3 小結 //158 10.4 問題 //158 10.5 擴展閱讀 //158 第11章 策略梯度和優化 //159 11.1 策略梯度 //159 11.1.1 基于策略梯度的月球著陸器 //160 11.2 DDPG //164 11.2.1 倒立擺 //165 11.3 TRPO //170 11.4 PPO //173 11.5 小結 //175 11.6 問題 //175 11.7 擴展閱讀 //175 第12章 Capstone項目—基于DQN的賽車游戲 //176 12.1 環境封裝函數 //176 12.2 對抗網絡 //179 12.3 回放記憶 //180 12.4 訓練網絡 //181 12.5 賽車游戲 //186 12.6 小結 //189 12.7 問題 //189 12.8 擴展閱讀 //189 第13章 最新進展和未來發展 //190 13.1 I2A //190 13.2 基于人類偏好的學習 //193 13.3 DQfd //194 13.4 HER //195 13.5 HRL //196 13.5.1 MAXQ值函數分解 //196 13.6 逆向強化學習 //198 13.7 小結 //199 13.8 問題 //199 13.9 擴展閱讀 //199 附錄 知識點 //200 |
序: |