-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

TensorFlow強化學習快速入門指南--使用Python動手搭建自學習的智能體

( 簡體 字)
作者:(美)考希克·巴拉克里希南類別:1. -> 程式設計 -> 深度學習
   2. -> 程式設計 -> Python
譯者:王康//路乙達//劉麗敏|譯
出版社:機械工業TensorFlow強化學習快速入門指南--使用Python動手搭建自學習的智能體 3dWoo書號: 52810
詢問書籍請說出此書號!

有庫存
NT售價: 225

出版日:5/1/2020
頁數:108
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111648123
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

強化學習是一類重要的機器學習方法,在很多領域得到了成功的應用,最近幾年與深度學習結合起來,進一步推動了人工智慧的發展。本書首先介紹了強化學習的基本原理,然後介紹典型的強化學習演算法,包括時序差分、SARSA、Q-Learning、DeepQ-network、Double DQN、競爭網路結構、Rainbow、Actor-Critic、A2C、A3C、TRPO和PPO等,每種演算法基本上利用了主流的開源機器學習框架TensorFlow,使用Python編程進行實現。此外,還介紹了一些上述演算法的應用。本書可以使讀者快速理解強化學習的基本知識,並通過簡單的案例加深對演算法的理解。本書適合對強化學習感興趣的普通高校師生以及相關專業人員閱讀。
目錄:

第1章 強化學習的啟動和運行
1.1 為何選擇強化學習
闡述強化學習問題
1.2 agent及其環境之間的關係
1.2.1 定義agent的狀態
1.2.2 定義agent的行為
1.2.3 了解策略、價值函數和優勢函數
1.3 認識回合
1.4 認識獎勵函數和折扣獎勵獎勵
1.5 學習馬爾可夫決策過程
1.6 定義貝爾曼方程
1.7 同步策略與非同步策略學習
1.7.1 同步策略方法
1.7.2 非同步策略方法
1.8 無模型訓練和基於模型訓練
1.9 本書中涉及的演算法
總結
思考題
擴展閱讀
第2章 時序差分、SARSA與Q-Learning
2.1 技術需求
2.2 理解TD學習
價值函數與狀態之間的關係
2.3 理解SARSA與Q-Learning
2.3.1 學習SARSA
2.3.2 理解Q-Learning
2.4 懸崖徒步與網格世界問題
2.4.1 SARSA下的懸崖徒步
2.4.2 Q-Learning下的懸崖徒步
2.4.3 SARSA下的網格世界
總結
擴展閱讀
第3章 深度Q網路
3.1 技術需求
3.2 學習DQN原理
3.3 理解目標網路
3.4 了解重放緩衝區
3.5 Atari環境介紹
3.5.1 Atari遊戲概述
3.5.2 用TensorFlow編寫DQN
3.6 驗證DQN在Atari Breakout上的性能
總結
思考題
擴展閱讀
第4章 Double DQN、競爭網路結構和Rainbow
4.1 技術需求
4.2 了解Double DQN
4.2.1 編寫DDQN並訓練解決Atari Breakout問題

4.2.2 在Atari Breakout問題中評估DDQN的性能
4.3 理解競爭網路結構
4.3.1 編寫競爭網路結構並訓練其解決Atari Breakout問題
4.3.2 在Atari Breakout中評估競爭網路結構的性能
4.4 了解Rainbow網路DQN改進
4.5 在Dopamine上運行Rainbow網路
使用Dopamine運行Rainbow
總結
思考題
擴展閱讀
第5章 深度確定性策略梯度
5.1 技術需求
5.2 Actor-Critic演算法和策略梯度策略梯度
5.3 深度確定性策略梯度
5.3.1 編寫ddpg.py
5.3.2 編寫AandC.py
5.3.3 編寫TrainOrTest.py
5.3.4 編寫replay_buffer.py
5.4 在Pendulum-v0中訓練和測試DDPG
總結
思考題
擴展閱讀
第6章 非同步的方法——A3C和A2C
6.1 技術需求
6.2 A3C演算法
6.2.1 損失函數
6.2.2 CartPole and LunarLander
6.3 A3C演算法在CartPole中的應用
6.3.1 編寫cartpole.py
6.3.2 編寫a3c.py
6.3.3 Worker類
6.3.4 編寫utils.py
6.3.5 CartPole訓練
6.4 A3C演算法在LunarLander中的應用
6.4.1 編寫lunar.py
6.4.2 在LunarLander上訓練
6.5 A2C演算法
總結
思考題
擴展閱讀
第7章 信任區域策略優化和近端策略優化
7.1 技術需求
7.2 學習TRPO
TRPO方程
7.3 學習PPO
PPO損失函數
7.4 使用PPO解決Mountain Car問題
7.4.1 編寫class_ppo.py
7.4.2 編寫train_test.py
7.5 評估性能

7.6 馬力全開
7.7 隨機發力
總結
思考題
擴展閱讀
第8章 深度強化學習在自動駕駛中的應用
8.1 技術需求
8.2 汽車駕駛模擬器
8.3 學習使用ORCS
8.3.1 狀態空間
8.3.2 支持文件
8.4 訓練 DDPG agent來學習駕駛
8.4.1 編寫ddpg.py
8.4.2 編寫AandC.py
8.4.3 編寫TrainOrTest.py
8.5 訓練 PPO agent
總結
思考題
擴展閱讀
附錄 思考題答案
序: