-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

深入淺出強化學習:原理入門

( 簡體 字)
作者:郭憲,方勇純類別:1. -> 程式設計 -> 機器學習
譯者:
出版社:電子工業出版社深入淺出強化學習:原理入門 3dWoo書號: 48202
詢問書籍請說出此書號!

缺書
NT售價: 395

出版日:1/1/2018
頁數:256
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121329180
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

推薦序一
強化學習是機器學習的一個重要分支,它試圖解決決策優化的問題。所謂決策優化,是指面對特定狀態(State,S),采取什么行動方案(Action,A),才能使收益最大(Reward,R)。很多問題都與決策優化有關,比如下棋、投資、課程安排、駕車,動作模仿等。
AlphaGo的核心算法,就是強化學習。AlphaGo不僅穩操勝券地戰勝了當今世界所有人類高手,而且甚至不需要學習人類棋手的棋譜,完全靠自己摸索,就在短短幾天內,發現并超越了一千多年來人類積累的全部圍棋戰略戰術。
最簡單的強化學習的數學模型,是馬爾科夫決策過程(Markov Decision Process,MDP)。之所以說MDP是一個簡單的模型,是因為它對問題做了很多限制。
1.面對的狀態st,數量是有限的。
2.采取的行動方案at,數量也是有限的。
3.對應于特定狀態st,當下的收益rt是明確的。
4.在某一個時刻t,采取了行動方案at,狀態從當前的st轉換成下一個狀態st+1。下一個狀態有多種可能,記為 , i = 1... n。
換句話說,面對局面st,采取行動at,下一個狀態是 ,不是確定的,而是概率的,狀態轉換概率,記為P( | st, at )。但是狀態轉換只依賴于當前狀態st,而與先前的狀態st-1, st-2 ...無關。
解決馬爾科夫決策過程問題的常用的算法,是動態規劃(Dynamic Programming)。
對馬爾科夫決策過程的各項限制,不斷放松,研究相應的算法,是強化學習的目標。例如對狀態st放松限制:
1.假如狀態st的數量,雖然有限,但是數量巨大,如何降低動態規劃算法的計算成本;
2.假如狀態st的數量是無限的,現有動態規劃算法失效,如何改進算法;
3.假如狀態st的數量不僅是無限的,而且取值不是離散的,而是連續的,如何改進算法;
4.假如狀態st不能被完全觀察到,只能被部分觀察到,剩余部分被遮擋或缺失,如何改進算法;
5.假如狀態st完全不能被觀察到,只能通過其他現象猜測潛在的狀態,如何改進算法。
放松限制,就是提升問題難度。在很多情況下,強化學習的目標,不是尋找絕對的最優解,而是尋找相對滿意的次優解。
強化學習的演進,有兩個軸線:一個是不斷挑戰更難的問題,不斷從次優解向最優解逼近;另一個是在不嚴重影響算法精度的前提下,不斷降低算法的計算成本。
此書的敘述線索非常清晰,從最簡單的解決馬爾科夫決策過程的動態規劃算法,一路講解到最前沿的深度強化學習算法(Deep Q Network,DQN),單刀直入,全無枝枝蔓蔓之感。不僅解釋數學原理,而且注重編程實踐。同時,行文深入淺出,通俗易懂。
將本書與Richard Sutton和Andrew Barto合著的經典著作Reinforcement Learning: An Introduction, Second Edition相比,Sutton和Barto在內容上更注重全面,覆蓋了強化學習各個分支的研究成果;而本書更強調實用,是值得精讀的教材。
鄧侃
PhD of Robotics Institute, School of Computer Science, Carnegie Mellon University,
前Oracle 主任架構師、前百度網頁搜索部高級總監、
北京大數醫達科技有限公司創始人

推薦序二
強化學習又稱為增強學習或再勵學習(Reinforcement learning),是AlphaGo、AlphaGo Zero等人工智能軟件的核心技術。近年來,隨著高性能計算、大數據和深度學習技術的突飛猛進,強化學習算法及其應用也得到更為廣泛的關注和更加快速的發展。尤其是強化學習與深度學習相結合而發展起來的深度強化學習技術已經取得若干突破性進展。AlphaGo與人類頂級棋手之間的對弈,使得深度強化學習技術在學術界和工業界得到了更為廣泛的關注。強化學習不僅在計算機博弈中取得巨大成功,而且在機器人控制、汽車智能駕駛、人機對話、過程優化決策與控制等領域,也被認為是實現高級人工智能最有潛力的方法。
本人在多年從事強化學習與近似動態規劃理論和應用的研究過程中,力求不斷提升強化學習算法的快速收斂性和泛化性能,并且將強化學習新理論和新算法應用于移動機器人和自主駕駛車輛等領域,為智能移動機器人和自主駕駛車輛在復雜、不確定條件下的自主優化決策和自學習控制提供高效的技術手段。今后,隨著相關理論和技術的不斷進步,強化學習技術在智能機器人和自主駕駛車輛、復雜生產過程的優化決策與控制、天空與海洋無人系統等領域的應用將很快會有新的突破。
強化學習的思想從20世紀初便被提出來了,經過將近一個世紀的發展,強化學習與心理學、運籌學、智能控制、優化理論、計算智能、認知科學等學科有著密切的聯系,是一個典型的多學科交叉領域。來自不同學科的概念和思想使得初學者學習和了解強化學習存在較大的困難。郭憲博士和方勇純教授的這本《深入淺出強化學習:原理入門》用通俗的語言系統地講解了強化學習的基本概念以及它們之間的關聯關系。從內容的廣度來看,這本書涵蓋了強化學習領域的基本概念和基本方法(基于值函數的方法和基于直接策略搜索的方法);從內容的深度來看,這本書既有傳統的強化學習算法(基于表格的強化學習方法,如Qlearning,Sarsa算法等),也有最近發展起來的深度強化學習算法(如DQN,TRPO,DDPG等)。另外,該書還有兩大特色:第一,在介紹強化學習算法的同時,相應地介紹了算法設計和分析的數學基礎;第二,相關算法配有代碼實例。這兩個特色使得該書非常適合初學者、相關領域科研人員以及研究生學習和研討。鑒于此,強烈推薦該書作為廣大讀者學習強化學習技術的入門讀物,也希望該書能引導和幫助更多的學者投入到強化學習的研究和應用中,為我國新一代人工智能的發展貢獻自己的力量。
——徐昕,國防科技大學教授

推薦序三
繼深度學習與大數據結合產生了巨大的技術紅利之后,人們開始探索后深度學習時代的新技術方向。當前主流的機器學習范式大都是以預先收集或構造數據及標簽,基于已存在的靜態數據進行機器學習為特征的“開環學習”。近年來,采用動態的數據及標簽,將數據產生與模型優化通過一定的交互方式結合在一起,將動態反饋信號引入學習過程的“閉環學習”受到越來越多的關注。強化學習就是“閉環學習”范式的典型代表。
在AlphaGo戰勝人類圍棋選手之后,AlphaGO Zero以其完全憑借自我學習超越人類數千年經驗的能力再次刷新了人類對人工智能的認識。而這一人工智能領域的巨大成功的核心就是強化學習與深度學習的結合,這也使得強化學習這一行為主義學習范式,受到了學術界和產業界的新一輪廣泛關注。
本書的出版正是在這樣的背景下,可謂恰逢其時。本書深入淺出地對強化學習的理論進行了綜合全面的介紹,系統完整又通俗易懂。同時,結合OpenAI的仿真環境,將強化學習算法的實際使用與理論介紹聯系起來,具有很強的實用性。在強化學習方法論得到廣泛關注,以及其實踐需求快速增長的背景下,這是一本很好的入門教程。
——俞凱,上海交通大學研究員

推薦序四
AlphaGo的誕生掀起了(深度)強化學習技術的一輪熱潮,該方向已成為人工智能領域最熱門的方向之一,由于其通用性而備受各個應用領域推崇,從端對端控制、機器人手臂控制,到推薦系統、自然語言對話系統等。(深度)強化學習也被OpenAI等公司認為是實現通用人工智能的重要途徑。
然而目前強化學習中文資料相對零散,缺少兼具系統性和前沿性的強化學習教學及科研資料。郭博士的《深入淺出強化學習:原理入門》這本書恰好填補了這一空白。本書根據郭博士在知乎的強化學習專欄內容整理而成,條分縷析、通俗易懂,既對強化學習基礎知識做了全方面“深入淺出”的講述,又涵蓋了深度強化學習領域一系列最新的前沿技術。因此它無論是對強化學習的入門者,還是強化學習領域研究人員和工程師,都是一本很好的推薦讀物,相信不同的讀者都會從中獲益。
——郝建業,天津大學副教授、天津市青年千人、天津大學“北洋青年學者”

推薦序五
受行為主義心理學研究啟發,在機器學習領域中產生了一種交互式學習方法的分支,這便是強化學習,又稱為增強學習。強化學習模擬的是人類的一種學習方式,在執行某個動作或決策后根據執行效果來獲得獎勵,通過不斷與環境的交互進行學習,最終達到目標。強化學習概念早在上世紀就已經提出,在計算機領域,第一個增強學習問題是利用獎懲手段學習迷宮策略。然而,直到2016年AlphaGo對決李世石一戰成名后,強化學習的概念才真正廣為人知。強化學習主要應用于眾多帶有交互性和決策性問題,比如博弈、游戲、機器人、人機對話等,這些問題是常用的監督學習和非監督學習方法無法很好處理的。
本人一直從事移動機器人、機器視覺和機器學習領域的研究,以及人工智能課程的教學。此前,為了解決人形機器人斜坡穩定行走問題,在查閱深度學習相關資料的過程中,在網上偶然看到郭憲博士開辟的強化學習專欄,讀后很有收獲。現在他將專欄文章整理編著成書,重新按知識層次進行編排和補充,對于讀者學習更有幫助。
本書覆蓋了強化學習最基本的概念和算法。在基于值函數的強化學習方法中,介紹了蒙特卡羅法、時間差分法和值函數逼近法。在基于直接策略搜索的強化學習方法中,介紹了策略梯度法、置信域策略法、確定性策略搜索法和引導策略搜索。在強化學習的前沿部分,介紹了逆向強化學習、深度強化學習和PILCO等。除了深度學習算法本身,書中還對涉及的基礎知識,如概率學基礎、馬爾科夫決策過程、線性方程組的數值求解方法、函數逼近方法、信息論中熵和相對熵的概念等也做了詳細的說明。本書非常適合科技人員、高等學校師生和感興趣人員作為入門強化學習的讀物,也可作為相關研究和教學的參考書。
本書內容深入淺出、文字簡單明了,采用了豐富的實例,讓讀者易讀、易懂。同時配有習題和代碼詳解,能有效提升讀者對理論知識的理解,幫助讀者運用理論解決實際問題。建議讀者跟隨書中的示例和代碼(https://github.com/gxnk/reinforcement- learning-code)來實現和驗證相關強化學習算法,并可同時關注作者的知乎專欄(https://zhuanlan.zhihu.com/sharerl)以便更好地互動和探討相關細節。
——陳白帆, 中南大學副教授 湖南省自興人工智能研究院副院長

前言
2017年5月,AlphaGo擊敗世界圍棋冠軍柯潔,標志著人工智能進入一個新的階段。AlphaGo背后的核心算法——深度強化學習——成為繼深度學習之后廣泛受人關注的前沿熱點。與深度學習相比,深度強化學習具有更寬泛的應用背景,可應用于機器人、游戲、自然語言處理、圖像處理、視頻處理等領域。深度強化學習算法被認為是最有可能實現通用人工智能計算的方法。不過,由于深度強化學習算法融合了深度學習、統計、信息學、運籌學、概率論、優化等多個學科的內容,因此強化學習的入門門檻比較高,并且,到目前為止,市面上沒有一本零基礎全面介紹強化學習算法的書籍。
本書是筆者在南開大學計算機與控制工程學院做博士后期間,每周在課題組內講解強化學習知識的講義合集。在學習強化學習基本理論的時候,我深深地感受到強化學習理論中的很多概念和公式都很難理解。經過大量資料和文獻的查閱并終于理解一個全新的概念時,內心涌現的那種喜悅和興奮,鼓動著我將這些知識分享給大家。為此,我在知乎開辟了《強化學習知識大講堂》專欄,并基本保持了每周一次更新的速度。該專欄得到大家的關注,很多知友反映受益良多,本書的雛形正是來源于此。在成書時,考慮到書的邏輯性和完整性,又添加了很多數學基礎和實例講解。希望本書能幫助更多的人入門強化學習,開啟自己的人工智能之旅。
在寫作過程中,博士后合作導師方勇純教授給了大量的建議,包括書的整體結構、每一章的講述方式,甚至每個標題的選擇。寫作后,方老師細致地審閱了全文,給出了詳細的批注,并多次當面指導書稿的修改。正是因為方老師的耐心指導與辛勤付出,本書才得以順利完成。
同時,非常感謝組內的研究生丁杰、朱威和趙銘慧三位同學,通過與他們的交流,我學會了如何更明晰地講解一個概念。本書的很多講解方式都是在與他們的交流中產生的。
本書在寫作過程中參考了很多文獻資料,這些文獻資料是無數科研工作者們日日夜夜奮斗的成果。本書對這些成果進行加工并形成了一套自成體系的原理入門教程。可以說沒有這些科研工作者們的豐碩成果就沒有今天蓬勃發展的人工智能,也就沒有這本書,在此對這些科學工作者們表示由衷的敬意。
本書前六章的內容及組織思路很大部分參考了David Silver的網絡課程,同時參考了強化學習鼻祖 Richard S. Sutton等人所著的Reinforcement Learning: An Introduction,在此向Silver和Sutton致敬。
本書第8章介紹了置信域強化學習算法,主要參考了John Shulman的博士論文,在此向John Shulman博士及其導師Pieter Abbeel致敬。第10章主要介紹了Sergey Levine博士的工作,在此對其表示感謝。在強化學習前沿部分,本書介紹了最近一年該領域很優秀的研究工作,如Donoghue的組合策略梯度和Qlearning方法,Tamar的值迭代網絡,Deisenroth的PILCO方法和McAllister的PILCO擴展方法,在此對這些作者表示感謝。當然,本書還介紹了很多其他科研工作者的工作,在此對他們一并致謝。
本書闡述的主要是前人提出的強化學習算法的基本理論,并沒有介紹筆者個人的工作,但在此仍然要感謝目前我負責的兩項基金的支持:國家自然科學基金青年基金(61603200)和中國博士后基金面上項目(2016M601256)。這兩個項目都和強化學習有關,本書也可看成是這兩個項目的前期調研和積累。關于更多筆者個人的工作,留待以后再與大家分享。
由于個人水平有限,書稿中難免有錯誤,歡迎各位同行和讀者批評指正。如有疑問,歡迎咨詢。
最后,感謝我的家人,感謝我的愛人王凱女士,感謝她長時間對我的理解和支持,沒有她的幫助,我一無所有,一事無成。這本書獻給她。

郭憲
2017年11月
內容簡介:

從零起步掌握強化學習技術精髓,稱霸人工智能領域!《深入淺出強化學習:原理入門》針對初學者的需求,直接分析原理,并輔以編程實踐。以解決問題的思路,層層剖析,單刀直入地普及了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法,直接將讀者帶入強化學習的殿堂。精讀完本書,您能在熟練掌握原理的基礎上,直接上手編程實踐。本書的敘述方式簡潔、直接、清晰,值得精讀!

目錄:

1 緒論 1
1.1 這是一本什么書 1
1.2 強化學習可以解決什么問題  2
1.3 強化學習如何解決問題 4
1.4 強化學習算法分類及發展趨勢 5
1.5 強化學習仿真環境構建 7
1.5.1 gym 安裝及簡單的demo 示例 8
1.5.2 深入剖析gym 環境構建 10
1.6 本書主要內容及安排 12
第一部分 強化學習基礎 17
2 馬爾科夫決策過程 18
2.1 馬爾科夫決策過程理論講解  18
2.2 MDP 中的概率學基礎講解   26
2.3 基于gym 的MDP 實例講解  29
2.4 習題   34
3 基于模型的動態規劃方法 36
3.1 基于模型的動態規劃方法理論 36
3.2 動態規劃中的數學基礎講解  47
3.2.1 線性方程組的迭代解法 47
3.2.2 壓縮映射證明策略評估的收斂性 49
3.3 基于gym 的編程實例 52
3.4 最優控制與強化學習比較  54
3.5 習題 56
第二部分 基于值函數的強化學習方法 57
4 基于蒙特卡羅的強化學習方法 58
4.1 基于蒙特卡羅方法的理論 58
4.2 統計學基礎知識  67
4.3 基于Python 的編程實例  71
4.4 習題   74
5 基于時間差分的強化學習方法 75
5.1 基于時間差分強化學習算法理論講解 75
5.2 基于Python 和gym 的編程實例  83
5.3 習題 87
6 基于值函數逼近的強化學習方法 88
6.1 基于值函數逼近的理論講解 88
6.2 DQN 及其變種 94
6.2.1 DQN 方法 94
6.2.2 Double DQN 100
6.2.3 優先回放(Prioritized Replay) 102
6.2.4 Dueling DQN 104
6.3 函數逼近方法  105
6.3.1 基于非參數的函數逼近 105
1.3.2 基于參數的函數逼近 111
6.3.3 卷積神經網絡 117
6.4 習題 123
第三部分 基于直接策略搜索的強化學習方法  125
7 基于策略梯度的強化學習方法  126
7.1 基于策略梯度的強化學習方法理論講解 126
7.2 基于gym 和TensorFlow 的策略梯度算法實現 134
7.2.1 安裝Tensorflow 135
7.2.2 策略梯度算法理論基礎 135
7.2.3 Softmax 策略及其損失函數  136
7.2.4 基于TensorFlow 的策略梯度算法實現   138
7.2.5 基于策略梯度算法的小車倒立擺問題 141
7.3 習題  141
8 基于置信域策略優化的強化學習方法 142
8.1 理論基礎  143
8.2 TRPO 中的數學知識 153
8.2.1 信息論 153
8.2.2 優化方法 155
8.4 習題 164
9 基于確定性策略搜索的強化學習方法 165
9.1 理論基礎 165
9.2 習題 170
10 基于引導策略搜索的強化學習方法 171
10.1 理論基礎 171
10.2 GPS 中涉及的數學基礎 178
10.2.1 監督相LBFGS 優化方法 178
10.2.2 ADMM 算法 179
10.2.3 KL 散度與變分推理 183
10.3 習題 184
第四部分 強化學習研究及前沿 185
11 逆向強化學習 186
11.1 概述   186
11.2 基于最大邊際的逆向強化學習 187
11.3 基于最大熵的逆向強化學習 194
11.4 習題 201
12 組合策略梯度和值函數方法 202
12.1 理論基礎 202
13 值迭代網絡 207
13.1 為什么要提出值迭代網絡 207
13.2 值迭代網絡 210
14 基于模型的強化學習方法:PILCO 及其擴展 214
14.1 概述 214
14.2 PILCO 216
14.3 濾波PILCO 和探索PILCO 226
14.3.1 濾波PILCO 算法 227
14.3.2 有向探索PILCO 算法 230
14.4 深度PILCO 232
參考文獻 235
序: