用Python動手學強化學習 @ 3dWoo大學簡體電腦書店

用Python動手學強化學習 ( 簡體字)
作者：[日]久保隆宏	類別：1. -> 程式設計 -> Python 　　　2. -> 程式設計 -> 深度學習
出版社：人民郵電出版社	3dWoo書號： 54819 詢問書籍請說出此書號！有庫存 NT售價： 450 元
出版日：7/1/2021
頁數：262
光碟數：0
站長推薦：
印刷：全彩印刷	語系： ( 簡體字 )
ISBN：9787115564221
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
目錄前言內容簡介第 1章　了解強化學習 1 1.1　強化學習與各關鍵詞之間的關系 1 1.2　強化學習的優點和弱點 8 1.3　強化學習的問題設定：馬爾可夫決策過程 9 第 2章　強化學習的解法(1)：根據環境制訂計劃 21 2.1　價值的定義和計算：貝爾曼方程 22 2.2　基于動態規劃法的價值近似的學習：價值迭代 28 2.3　基于動態規劃法的策略的學習：策略迭代 32 2.4　基于模型的方法和無模型的方法的區別 36 第3章　強化學習的解法(2)：根據經驗制訂計劃 39 3.1　平衡經驗的積累與利用：Epsilon-Greedy 算法 41 3.2　是根據實際獎勵還是預測來修正計劃：蒙特卡洛方法和時序差分學習 46 3.3　用經驗來更新價值近似還是策略：基于價值和基于策略 62 第4章　使用面向強化學習的神經網絡 73 4.1　將神經網絡應用于強化學習 74 4.2　通過含有參數的函數實現價值近似：價值函數近似 100 4.3　將深度學習應用于價值近似：DQN 109 4.4　通過含有參數的函數實現策略：策略梯度 121 4.5　將深度學習應用于策略：A2C 133 4.6　是價值近似還是策略呢 153 第5章　強化學習的弱點 157 5.1　獲取樣本的效率低 157 5.2　容易陷入局部最優行動和過擬合160 5.3　復現性差 163 5.4　以弱點為前提的對策 164 第6章　克服強化學習弱點的方法 169 6.1　應對采樣效率低的方法：與基于模型的方法一起使用、表征學習 170 6.2　改善復現性的方法：進化策略 198 6.3　應對局部最優行動和過擬合的方法：模仿學習和逆強化學習 206 第7章　強化學習的應用領域 237 7.1　行動的最優化 239 7.2　學習的最優化 248 參考文獻 252 (全彩印刷）強化學習是機器學習的重要分支之一。《用Python動手學強化學習》結合實際可運行的Python代碼，通過簡明的文字、豐富的插圖和示例，通俗易懂地介紹了從基礎概念到前沿應用等方方面面的內容，包括根據環境和經驗制訂計劃的學習方法、強化學習與神經網絡的組合，以及強化學習的弱點和克服方法。讀者通過下載書中代碼并親自動手運行，可以快速入門強化學習并進行實踐。