-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
10/8 新書到! 10/1 新書到! 9/24 新書到! 9/18 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

用Python動手學強化學習

( 簡體 字)
作者:[日]久保隆宏類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 深度學習
譯者:
出版社:人民郵電出版社用Python動手學強化學習 3dWoo書號: 54819
詢問書籍請說出此書號!

有庫存
NT售價: 450

出版日:7/1/2021
頁數:262
光碟數:0
站長推薦:
印刷:全彩印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787115564221
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

(全彩印刷)
強化學習是機器學習的重要分支之一。《用Python動手學強化學習》結合實際可運行的Python代碼,通過簡明的文字、豐富的插圖和示例,通俗易懂地介紹了從基礎概念到前沿應用等方方面面的內容,包括根據環境和經驗制訂計劃的學習方法、強化學習與神經網絡的組合,以及強化學習的弱點和克服方法。讀者通過下載書中代碼并親自動手運行,可以快速入門強化學習并進行實踐。
目錄:

第 1章 了解強化學習 1
1.1 強化學習與各關鍵詞之間的關系 1
1.2 強化學習的優點和弱點 8
1.3 強化學習的問題設定:馬爾可夫決策過程 9

第 2章 強化學習的解法(1):根據環境制訂計劃 21
2.1 價值的定義和計算:貝爾曼方程 22
2.2 基于動態規劃法的價值近似的學習:價值迭代 28
2.3 基于動態規劃法的策略的學習:策略迭代 32
2.4 基于模型的方法和無模型的方法的區別 36

第3章 強化學習的解法(2):根據經驗制訂計劃 39
3.1 平衡經驗的積累與利用:Epsilon-Greedy 算法 41
3.2 是根據實際獎勵還是預測來修正計劃:蒙特卡洛方法和時序差分學習 46
3.3 用經驗來更新價值近似還是策略:基于價值和基于策略 62

第4章 使用面向強化學習的神經網絡 73
4.1 將神經網絡應用于強化學習 74
4.2 通過含有參數的函數實現價值近似:價值函數近似 100
4.3 將深度學習應用于價值近似:DQN 109
4.4 通過含有參數的函數實現策略:策略梯度 121
4.5 將深度學習應用于策略:A2C 133
4.6 是價值近似還是策略呢 153

第5章 強化學習的弱點 157
5.1 獲取樣本的效率低 157
5.2 容易陷入局部最優行動和過擬合160
5.3 復現性差 163
5.4 以弱點為前提的對策 164

第6章 克服強化學習弱點的方法 169
6.1 應對采樣效率低的方法:與基于模型的方法一起使用、表征學習 170
6.2 改善復現性的方法:進化策略 198
6.3 應對局部最優行動和過擬合的方法:模仿學習和逆強化學習 206

第7章 強化學習的應用領域 237
7.1 行動的最優化 239
7.2 學習的最優化 248
參考文獻 252
序: