邊做邊學深度強化學習：PyTorch程序設計實踐 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

4/1 新書到！ 3/25 新書到！ 12/20新書到！ 12/13 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

邊做邊學深度強化學習：PyTorch程序設計實踐
( 簡體字)

作者：[日]小川雄太郎（Yutaro ogawa）著類別：1. -> 程式設計 -> 深度學習

譯者：

出版社：機械工業出版社 3dWoo書號： 52778
詢問書籍請說出此書號！
【缺書】
NT售價： 345 元

出版日：4/1/2020

頁數：215

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787111650140

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
本書的目標

近年來，我們常常聽到強化學習和深度強化學習等詞語。但是，實際上真正實現強化學習的并不多。目前正處于第三次人工智能熱潮中，深度學習方面已經出版了大量書籍。然而，大多數關于強化學習和深度強化學習的書籍都是相關研究人員的學術成果。學術性書籍強調理論，傾向于公式和證明，實現代碼往往很少。對于非研究人員來說，通過閱讀這類書籍來理解強化學習和深度強化學習存在著較大的障礙。

因此，本書面向的不是研究者而是普通大眾，旨在讓讀者在實踐中理解強化學習和深度強化學習。本書強調算法的具體實現，通過給出大量代碼并對其進行解釋和說明，來幫助讀者更好地學習。書中所有的代碼都可以下載。在閱讀本書時請實現相關程序，通過完成實際代碼來學習。

強化學習和深度強化學習主要用于兩個目的—機器人等控制規則的構建以及圍棋、將棋等對戰游戲的策略構建。本書涉及控制規則的構建，但沒有實現圍棋等對戰游戲。然而，本書所講述的基本內容對那些想要為對戰游戲制定策略的人也是有用的。

讀者所需的先驗知識

本書以對強化學習和深度強化學習感興趣，但不了解其細節和實現方法的讀者為對象。閱讀本書需要以下三方面的知識：

1）能夠理解if語句、for語句。

2）能夠自己定義方法（函數）。

3）會執行向量和矩陣的乘法運算。

換句話說，本書試圖以更容易理解的方式進行講解，讀者具備一些基本的編程經驗和基本的線性代數知識即可順利學習。本書使用Python作為編程語言來實現相關程序，即使對Python不熟悉的讀者也能輕松理解本書內容。但是，由于篇幅的限制，本書沒有解釋Python的所有基本細節，如果你是Python初學者，請參考網上的信息和Python的入門書籍。

本書的實現代碼和運行環境

可以從作者的GitHub或Mynavi出版社的出版支持頁面下載本書的實現代碼。

本書的運行環境如下所示。我們使用PyTorch作為深度學習的框架，采用的是在2018年4月底發布的0.4.0版本。第7章使用亞馬遜的云服務，通過GPU服務器來進行計算。計算所需時間大約3小時，費用為500日元或更少，所以嘗試運行所需的費用并不高。

" 運行環境—第1～6章（本地PC）

操作系統：Windows 10

GPU：無；Python：3.6.5；Anaconda：5.1；PyTorch：0.4.0

" 運行環境—第7章（AWS）

操作系統：Ubuntu 16.04 | 64位；實例：p2.xlarge

GPU：NVIDIA K80；Python：3.6.5；conda：4.5.2；PyTorch：0.4.0

各章概述

第1章介紹三部分內容。首先，分別介紹機器學習及其三個分類（監督學習、非監督學習和強化學習）。然后，介紹強化學習近年來引起人們關注的原因，以及強化學習發展的歷史。最后，介紹學者在強化學習和深度強化學習領域正在做什么樣的工作，以及它在未來如何對社會產生價值。

第2章逐步介紹強化學習的算法和實現方法，一步步實現簡單的強化學習代碼，采用走迷宮作為目標任務，通過強化學習訓練使智能體以最短的路線到達目的地。該章在學習強化學習的概念和術語的同時，實現了三種不同的算法—策略梯度法、Sarsa和Q學習。實現環境可以為Web瀏覽器上的Try Jupyter，這是一項能實現和執行Python的服務。

第3章的目的是將第2章中介紹的強化學習的基礎知識應用于更復雜的任務。該章使用倒立擺作為目標任務，倒立擺形似在手掌上立起的掃帚，放一根棍子使其站在小車上，要求一點一點地移動小車以防止小棍掉落，這一控制規則是通過強化學習技術來學習并實現的。與走迷宮任務的不同之處在于狀態空間的復雜性。倒立擺的狀態由諸如位置和速度等多個連續變量表示，我們將在通過實現強化學習來執行此復雜任務時進行解釋。該章還介紹如何使用Anaconda設置本地PC作為示例的實現環境。

第4章的目的是幫助讀者了解深度學習的內容以及如何使用PyTorch實現簡單任務。PyTorch是一個深度學習庫，TensorFlow、Keras、Chainer等也是用于實現深度學習的有名的庫，但在本書中我們使用PyTorch。首先，我們將介紹神經網絡和深度學習的發展歷史。然后，介紹實現深度學習時重要的學習階段和推理階段，解釋各階段的目的和要完成的任務。最后，通過使用PyTorch實現對MNIST手寫數字的分類向讀者解釋深度學習。

第5章的目的是理解強化學習與深度學習相結合的深度強化學習的原理，并能夠實現一種稱為DQN（深度Q網絡）的算法。該章首先解釋第3章中實現的傳統強化學習的問題。之后，介紹深度強化學習的最基本算法DQN，并介紹在實現過程中重要的四個關鍵點。最后，采用DQN來完成與第3章中相同的倒立擺任務，并進行說明。

第6章的目的是解釋繼DQN之后提出的新的深度強化學習技術，并在此基礎上給出其具體實現。該章首先將深度強化學習的進展以算法圖的形式展示。然后，對于倒立擺任務，用DDQN、Dueling Network、優先經驗回放和A2C等算法實現并說明，其中A2C是A3C（Asynchronous Advantage Actor-Critic）的變體。

第7章的目的是實現用于消磚塊游戲的深度強化學習A2C。DeepMind公司是深度強化學習領域引人注目的公司，該章采用的A2C再現了DeepMind公司進行消磚塊游戲的策略。該章將解釋如何使用亞馬遜的云服務AWS與GPU構建深度學習的執行環境。

致謝

本書在撰寫過程中得到株式會社電通國際信息有限公司技術本部開發技術部中村年宏部長、涉谷謙吾、三瀾谷嗣、佐佐木亮輔、清水琢也先生，以及開發技術部的各位同仁的支持，通過技術討論，作者獲得了很多指導。

本書由Mynavi出版社出版，正是由于山口正樹的提案及大量建議和反饋，本書才得以出版。

感謝所有合作的人。

內容簡介：
PyTorch是基于Python的張量和動態神經網絡，作為近年來較為火爆的深度學習框架，它使用強大的GPU能力,提供極高的靈活性和速度。

本書面向普通大眾，指導讀者以PyTorch為工具，在Python中實踐深度強化學習。讀者只需要具備一些基本的編程經驗和基本的線性代數知識即可讀懂書中內容，通過實現具體程序來掌握深度強化學習的相關知識。

本書內容：

介紹監督學習、非監督學習和強化學習的基本知識。

通過走迷宮任務介紹三種不同的算法（策略梯度法、Sarsa和Q學習）。

使用Anaconda設置本地PC，在倒立擺任務中實現強化學習。

使用PyTorch實現MNIST手寫數字分類任務。

實現深度強化學習的最基本算法DQN。

解釋繼DQN之后提出的新的深度強化學習技術（DDQN、Dueling Network、優先經驗回放和A2C等）。

使用GPU與AWS構建深度學習環境，采用A2C再現消磚塊游戲。

目錄：
譯者序
前言
第1章　強化學習概述 1
1.1　機器學習的分類（監督學習、非監督學習、強化學習） 1
1.2　強化學習、深度強化學習的歷史 6
1.3　深度強化學習的應用實例 11
參考文獻 14
第2章　在走迷宮任務中實現強化學習 16
2.1　Try Jupyter的使用方法 16
2.2　迷宮和智能體的實現 23
2.3　策略迭代法的實現 31
2.4　價值迭代法的術語整理 41
2.5　Sarsa的實現 46
2.6　實現Q學習 52
參考文獻 57
第3章　在倒立擺任務中實現強化學習 59
3.1　在本地PC上準備強化學習的實現和執行環境 59
3.2　倒立擺任務“CartPole” 64
3.3　由多變量連續值表示的狀態的表格表示 69
3.4　Q學習的實現 72
參考文獻 80
第4章　使用PyTorch實現深度學習 81
4.1　神經網絡和深度學習的歷史 81
4.2　深度學習的計算方法 89
4.3　使用PyTorch實現MNIST手寫數字分類任務 94
參考文獻 107
第5章　深度強化學習DQN的實現 108
5.1　深度強化學習DQN（深度Q網絡）的說明 108
5.2　實現DQN的四個要點 111
5.3　實現DQN（上） 113
5.4　實現DQN（下） 123
參考文獻 127
第6章　實現深度強化學習的改進版 128
6.1　深度強化學習算法發展圖 128
6.2　DDQN的實現 132
6.3　Dueling Network的實現 141
6.4　優先經驗回放的實現 145
6.5　A2C的實現 157
參考文獻 168
第7章　在AWS GPU環境中實現消磚塊游戲 169
7.1　消磚塊游戲“Breakout”的描述 169
7.2　準備在AWS上使用GPU所需要的深度學習執行環境 174
7.3　學習Breakout的四個關鍵思想 187
7.4　A2C的實現（上） 193
7.5　A2C的實現（下） 203
參考文獻 212
后記 214

序：