-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

強化學習

( 簡體 字)
作者:(荷)馬可·威寧(Marco Wiering),(荷)馬丁·范·奧特羅(Martijn van Otterlo)編著類別:1. -> 程式設計 -> 深度學習
譯者:
出版社:機械工業出版社強化學習 3dWoo書號: 49356
詢問書籍請說出此書號!

缺書
NT售價: 595

出版日:6/1/2018
頁數:462
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111600220
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

強化學習研究者們經常會被學生或同事問:“最近有沒有一些強化學習方面的好書可以推薦給我?”

我們編寫這本書的目的就是給這個問題提供一個答案。

一本關于強化學習的書

10年前上面的問題是很容易回答的,在那個時候,有兩本時興的權威書籍。一本是由Rich Sutton和Andy Barto在1998年編寫的優秀的強化學習導論書籍。這本書從人工智能的角度出發,采用教科書式的寫作風格,一直被廣泛使用(截至目前引用了一萬次)。另一本是1996年由Dimitri Bertsekas和John Tsitsiklis撰寫的《神經動力學編程》(neuro-dynamic programming)。這本書從運籌學的角度出發,以精確的數學方法講述了動態規劃和強化學習,特別強調了求近似解的體系結構。其中Sutton和Barto總是最大化回報,談及價值函數、回報,并偏向于使用π增加的字母表中的{V, Q, S, A, T, R}部分;而Bertsekas和 Tsitsiklis談及代價函數(cost-to-go-functions),總是最小化成本,并且使用希臘符號μ增加的字母表中的{J, G, I, U}部分。盡管它們有著表面(符號)差異、不同的寫作風格和背景,可能這些書的讀者也不同,但這兩本書都試圖對這個令人興奮的新研究領域進行全面介紹,并成功地做到了這一點。當時運籌學和人工智能方法在行為優化方面的深入合并仍然在進行,這種交叉產生了豐碩的成果。最近,雖然已引入了Q學習和TD學習等強大的思想和算法,但仍有很多未知有待探索。

例如,算法和函數逼近器的組合的收斂問題出現了。包括算法收斂性、保證性能所需的樣本數量以及強化學習技術在更大的智能體系結構中的適用性等許多理論和實驗問題都沒有得到解答。事實上,出現了許多新的問題并導致了越來越多的研究問題,這些都有待聰明的、年輕的博士生們來回答。盡管Sutton和Barto、Bertsekas和Tsitsiklis都很擅長介紹這個領域,并充分地描述了它的基本方法論和問題,但是,這個領域變得如此之大,需要新的教科書來記錄所有新的研究進展。所以,這本書就是嘗試填補這個空白的。

這是第一本介紹強化學習各主要子領域研究進展的書。但是,我們也提到其他一些有趣的介紹或描述各種強化學習主題的書籍。這些書包括Leslie Kaelbling于1996年編輯的合集和Puterman編著的馬爾可夫決策過程手冊的新版本。其他幾本書涉及近似動態規劃的相關概念。最近,又出現了一些關于馬爾可夫決策過程、強化學習、函數逼近和強化學習的關系型知識表示的書籍。針對那些對強化學習課程感興趣的人員,上述書只是強化學習相關著作的一部分。

強化學習:一個逐漸成熟的領域

在過去的15年中,強化學習領域發展迅猛。然而最近的書中并沒有反映出這段時間的最新研究,而是更多地關注豐富的、堅實的理論研究,提升算法的適用性、向上擴展性、與(概率)人工智能的結合,以及大腦理論和一般的適應性系統的聯系。現代強化學習的創始人之一Richard Sutton,在1999年提出了強化學習發展的三個不同部分:過去、現在和未來。

過去的強化學習指的是1985年以前,在這個階段,試錯學習(trial-and-error learning)的思想得到了發展。這個時期強調使用積極探索的學習器(agent,也稱智能體),并開發了利用標量回報信號來指定學習器目標的關鍵思想,稱為回報假說。這些方法通常只學習策略,一般不能有效地處理延遲回報。

現在的強化學習指的是價值函數形成的時期。價值函數是強化學習的核心,幾乎所有的方法都集中在價值函數的逼近上,以便計算(最優)策略。價值函數假說認為價值函數的逼近是智能化的主要目的。

目前,我們正處于強化學習的未來階段。Sutton對這個時期的方向做出了預測,并寫道:“正如現在強化學習離開回報的最終目標向價值函數邁了一步,未來的強化學習可能會進一步把重點放在研究能夠對價值函數進行估計的結構上……在心理學中,積極創造世界的表征的開發思維的方法稱為建構主義。我預計在未來幾十年中,強化學習將集中在建構主義上。”事實上,正如我們在本書中所看到的那樣,這一領域的許多新進展都與能夠實現價值函數逼近的新結構有關。此外,許多進展都是關于這些新結構的性能及收斂的性質、能力和保證的。貝葉斯框架、高效線性逼近、關系型知識表示以及分層和多學習器性質的分解都構成了當今強化學習方法中所采用的新結構。

目前強化學習是一個已經確立的研究領域,通常歸于機器學習。然而,由于其專注于行為學習,它與心理學、運籌學、數學優化等其他領域有著許多聯系。在人工智能領域,它與概率論和決策論規劃有很大的重疊,因為它與規劃社區(例如國際自動規劃系統會議(ICAPS))有許多共同的目標。在最新的國際規劃競賽(IPC)中,源于強化學習文獻的方法已經參賽,并且在概率規劃問題和最近的“學習規劃”(learning for planning)方面都有著非常好的表現。

強化學習的研究在人工智能的廣泛領域中幾乎隨處可見,因為它既是行為優化的一般方法,也是一套計算工具。現在所有主要的人工智能期刊都發表關于強化學習的文章,并且已經持續很長時間了。強化學習的應用領域從機器人、電腦游戲到網絡路由和自然語言對話系統,強化學習論文也出現在跟這些主題相關的論壇上。大量的論文每年(或每兩年)出現在人工智能領域的頂級會議上(如IJCAI、ECAI和AAAI),還有許多統計機器學習領域的頂級會議上(如UAI、ICML、ECML和NIPS)。此外,關于人工生命(Alife)、自適應行為(SAB)、機器人(ICRA、IROS、RSS)、神經網絡和進化計算(如IJCNN和ICANN)的會議也有強化學習的研究工作。最后但同樣重要的一點是,在過去的10年中,所有主要的人工智能會議都出現了許多專業化的強化學習研討會和教程。

盡管強化學習已經為其他許多領域做出了巨大貢獻,并且強化學習的論文無處不在,但強化學習領域的現狀使得它很自然地在強化學習方法的某個特定焦點上形成論壇。歐洲強化學習研討會(EWRL)已經逐漸成為這樣一個論壇,每隔一年就會有一次相當大的發展,2008年在南錫舉辦并在2011年與ECML一起舉辦。此外,IEEE自適應動態規劃與強化學習(ADPRL)研討會也成為研究人員展示和討論其最新研究成果的一個會議。EWRL和ADPRL一起表明,這一領域已經有了很大的進展,需要有自己的社區和事件。

在強化學習的實踐方面以及更重要的是在基準、評估和比較方面也有了很多進展。除了規劃比賽(例如IPC)之外,一些強化學習比賽也已成功舉辦。參賽者不僅在幾個經典領域進行競賽(例如平衡桿),而且在電腦游戲“俄羅斯方塊”和“超級馬里奧”等新興領域進行競賽。這些比賽可以促進代碼共享和重用,建立該領域的基準,并用于評估和比較具有挑戰性的領域中的算法。另一個代碼和解決方案重用的倡導者是RL-Glue框架,它提供了一個抽象的強化學習框架,用于在研究人員之間共享方法。RL-Glue適用于大多數常用的編程語言,從而為實驗提供了系統和語言獨立的軟件框架。比賽和RL-Glue促進了強化學習領域的成熟,使得可以應用更好的科學方法來測試、比較和重用強化學習方法。

本書的目的和目標讀者

如前所述,我們試圖讓本書回答這個問題:“你會推薦什么樣的書來學習目前的強化學習?”每個可能提出這個問題的人都是本書的潛在讀者,這包括博士和碩士生、強化學習的研究人員,以及其他任何想了解強化學習領域的研究人員。書中關于當前強化學習主要研究領域的文獻為研究人員提供了一個很好的起點去繼續拓展該領域,把強化學習應用到新問題,并將主要的行為學習技術引入到他們自己的智能系統和機器人中。

當我們開始編著本書時,我們首先創建了一個長長的主題列表,并對它們進行了分組,最后選出了近20個比較大的強化學習子領域,這些子領域在過去10年里發布了許多新成果。這些子領域不僅包括比較成熟的子領域(如演進強化學習),還包括更新的主題(如關系型知識表示方法、貝葉斯學習和規劃框架)。此外,我們還專門用了一章來介紹分層方法,形成了第一個子領域——它是在前面提到的兩本書之后出現的,因此當時沒有討論。

本書的理念是讓所有的作者反映這個領域青春和活躍的本質。為此,我們主要選擇并邀請了剛開始工作的年輕研究人員。他們中的許多人最近剛獲得博士學位,這就確保了他們在自己的強化學習子領域是活躍的專家,并對這個子領域充滿了想法和熱情。而且,這也給了他們一個在更大的研究領域內推廣其子領域研究成果的好機會。此外,我們還邀請了幾位經驗豐富的研究人員,他們在強化學習的幾個子領域取得了先進的研究成果。這一切使得關于這個主題的不同觀點得到了很好的結合。正如我們所希望的那樣,提交的內容初稿質量非常高。為了有一套確保高質量內容的完整程序,編輯組成員連同一批專家作為審稿人,對每章進行了至少三次審核。成書內容得到了進一步的改進,而且使書中包含了每個子領域的大量的參考文獻。

本書的最終版本包含19章,其中第1章包含強化學習的基礎知識、動態規劃、馬爾可夫決策過程和基礎的算法(如Q學習和值迭代)。最后一章回顧了書中的內容,討論了遺漏的東西,并指出了進一步研究的方向。另外,這一章還包含個人對這個領域的思考和預測。構成本書核心的17章中,每一章都是自成一體的,包含對強化學習子領域的介紹和概述。下面我們將會給出本書結構及各章的概要。本書共有30位作者,他們分別來自于不同的機構和不同的國家。

本書結構

這本書包含了19篇關于強化學習基礎概念和各個子領域的綜述,并分為四個主要的類別,我們接下來會對這些類別進行簡要的說明。第1章由Martijn van Otterlo和Marco Wiering執筆,涵蓋對基礎概念與算法的介紹性材料。這一章討論馬爾可夫決策過程,及其對應的基于模型的和無模型的求解算法。這一章的目的是給讀者提供一個快速了解強化學習方法主要構成的概述,同時該章也為其余各章提供了必要的背景知識。本書中的所有綜述都建立在第1章的背景介紹的基礎之上。本書的最后一章也是由Marco Wiering和Martijn van Otterlo執筆的,它回顧本書各章的內容,并列舉了本書尚未討論到的主題以及未來的研究發展方向。另外,通過匯總其他章部分作者的簡要表述,列舉了個人對強化學習領域的一些思考與預測。本書共有六個部分,其主體為第二∼五部分,我們接下來將分別對它們進行簡要的介紹。

第一部分(第1章)

這一部分對基礎概念與算法進行了概述。

第二部分(第2∼6章)

這一部分包含5章,介紹當前強化學習中使用的解決方案框架。其中所用到的大部分技術都能依據章節中定義的框架進行理解,盡管這些新方法側重于以更加復雜的形式使用樣本、世界模型等。

第2章由Sascha Lange、Thomas Gabel和Martin Riedmiller執筆,對價值函數逼近的上下文批處理強化學習方法進行了綜述。這種方法能夠利用高度優化的回歸技術從海量的數據中學習到魯棒的、精確的價值函數。第3章由Lucian Bu?oniu、Alessandro Lazaric、Mohammad Ghavamzadeh、Remi Munos、Robert Babu?ka和Bart De Schutter執筆,綜合論述了強化學習在策略學習的魯棒線性逼近技術方面的最新發展趨勢。這些技術建立在一系列堅實的數學技巧之上,有這些數學基礎的支撐,我們才可以建立學習速度、逼近精確度以及上下界的保證。第4章由Todd Hester和Peter Stone執筆,描述學習現實世界的模型的多種方法,以及這些模型如何加速強化學習。學習好的模型可以用來做更高效的值更新、做規劃以及更有效的探索。世界模型代表著關于世界的一般知識,正因為如此,才有可能遷移到其他相關的任務上。第5章由Alessandro Lazaric執筆,詳細介紹強化學習中的知識遷移。當遇到幾個相關的任務時,一旦學會了,各種各樣的事情可以在隨后的任務中重用。例如,策略可以重用,但取決于兩個相關任務的狀態或動作空間是否不同,需要應用其他方法。該章不僅考察了現有的方法,而且試圖把它們放在一個更普適的框架中。第6章由Lihong Li執筆,對強化學習樣本復雜度的技術和結果進行了綜述。對于所有的算法,了解需要多少個樣本(與世界進行交互的例子)才能保證任務的最小性能是非常重要的。在過去的10年中,鑒于利用嚴謹的數學方式研究這一重要方面出現了許多新的成果,該章提供這些成果的概述。

第三部分(第7∼10章)

這一部分包含4章,其中表征及其構建和使用是重點內容。如前所述,建設性的技術的一個主要方面是實現價值函數逼近的結構(或針對該問題的策略)。強化學習的幾個主要新發展方向是尋找新的表征框架以用于在挑戰性的新環境中學習行為。

第7章由Hado van Hasselt執筆,描述了包含連續變量的問題表征的諸多技術。這在很長一段時間內都是強化學習的主要組成部分,例如通過使用神經函數逼近器。然而,該領域的一些新發展已經試圖更嚴格地捕捉處理連續狀態和動作的算法的性質,或者已經將這樣的技術應用于新的領域。我們特別感興趣的是處理連續動作的新技術,因為這些新技術能有效地使適用動作的數量無限大,并需要復雜的技術來計算最優策略。第8章由Martijn van Otterlo執筆,描述了10年前開始的強化學習的一個新的表征方向。該章涵蓋了所有比狀態和行為的命題(或屬性–值)表達更加嚴格的表征。這些表征包括在邏輯編程和一階邏輯中發現的模型。這樣的表征可以用對象和關系來表示世界,并且在一系列更廣泛的領域中開辟了強化學習的可能性。這些表征開啟了許多新的途徑來泛化價值函數、策略以及世界模型,并且需要邏輯機器學習和知識表示的方法來實現。第9章由Bernhard Hengst執筆,綜述一個具有代表性的研究方向,而這里說的表征指的是某個任務的結構分解,以及隱含的馬爾可夫決策過程等方面。20世紀90年代末出現了許多分層方法,從那以后產生了大量的技術。這些技術包括新的任務分解、價值函數和策略,以及許多交互中自動學習的任務分解技術。第10章由Shimon Whiteson執筆,綜述良好的策略結構(和價值函數)的演進查詢。這種演進算法對于迭代式的、增量式的強化學習方法一直是很好的替代,而且兩種方法都可以用來優化復雜行為。演進算法特別適合非馬爾可夫問題和難以計算梯度的策略結構。 除此之外,該章還介紹應用在行為學習中的演進神經網絡。

第四部分(第11∼15章)

目前的人工智能已經變得越來越具有統計和概率的特點。概率圖形模型領域的研究成果已經被廣泛使用,并且這些模型的結果(無論在理論上還是計算上)都有效地應用于許多子領域,這與強化學習沒有什么不同。有幾個大的子領域在普遍使用概率模型,如貝葉斯網絡,這種具有普遍性的表征和計算技術促使概率模型與其他相似的模型建立了豐富的聯系。

第11章由Nikos Vlassis、Mohammad Ghavamzadeh、Shie Mannor和Pascal Poupart執筆,綜述用于強化學習的貝葉斯技術。在不確定情況下,學習時序決策可以映射至貝葉斯空間,其中,交互痕跡提供樣例(證據),貝葉斯推理和學習可以通過一種嚴格的概率方式來尋找最優決策。第12章由Matthijs Spaan執筆,綜述了部分可觀察的問題的表征和技術,這些問題通常被映射到例如動態貝葉斯網絡的概率框架中,并且需要概率推斷來推測潛在的隱藏(未觀察的)狀態。該章同時綜述了基于模型的和無模型的方法。鑒于POMDP通常根據某種形式的歷史(或記憶)的置信狀態來建模,由David Wingate執筆的第13章綜述了最近的一類側重于未來的新方法。這些技術維護一個置信狀態,用于根據對未來事件的概率預測做出行為選擇。該章介紹了幾種技術,其中這些預測用簡潔的方式表示,并根據經驗進行更新。到目前為止,大多數方法都集中在預測(或評估)問題上,而控制方面的論述很少。第14章由Ann Nowe、Peter Vrancx和Yann-Micha?l De Hauwere執筆,轉移到一系列更通用的問題——多個學習器的學習和交互。該章綜述博弈論和多學習器方法,介紹用于優化多學習器的技術。第15章由Frans Oliehoek執筆,綜述由多個學習器組成的基于模型的技術,這些學習器合作解決由POMDP分解的大任務。這種模型出現在如何優化不同地點傳感器共同提供世界重要信息方式的問題中。該章主要介紹POMDP方法和多學習器的情況。

第五部分(第16∼18章)

正如我們在前言開始所說的那樣,強化學習是一種在人工智能的許多其他領域用來優化行為的方法。因此,除了本書前面部分介紹的許多先進的算法之外,我們還將包括強化學習取得成功的一些應用領域。這一部分的特色是介紹機器人和游戲,還有一章介紹了將強化學習與認知神經科學聯系起來的研究方向。

第16章由Ashvin Shah執筆,綜述了強化學習方法與認知和神經科學之間的關系。最初,許多強化學習的技術來源于心理學方面的見解,例如Skinner、Thorndike和Watson等的見解,還有心理學和強化學習之間的交叉領域。最近,由于腦科學理論的進步,尤其是因為測試和測量腦部活動(功能核磁共振成像、腦電圖等)已經變得更成熟,很多研究試圖解釋有關大腦的強化學習方面的研究成果、學習技術,即哪些算法確實出現在大腦中,或者受大腦內部運作啟發而提出新的算法。第17章由Istvan Szita執筆,綜述游戲中使用的強化學習。在這里“游戲”比前面關于博弈論的章節中的更通用。實際上,該章中的游戲相當于棋盤游戲,如西洋雙陸棋和跳棋,還包括角色扮演和實時策略游戲等電腦游戲。游戲通常是一個令人興奮的強化學習算法的測試平臺(例如參見上述強化學習競賽中的“俄羅斯方塊”和“馬里奧”),除了舉出很多例子外,該章還試圖勾勒出強化學習在游戲中的應用。第18章由Jens Kober和Jan Peters執筆,嚴謹地描述了強化學習在機器人中的應用。由于機器人技術在真實的物理世界中工作,產生了許多有挑戰性的問題。大量的噪聲數據、真實機器人的訓練和測試緩慢、模擬器與現實世界之間的實際差距以及擴展到高維空間等,這些都是這里所討論的具有挑戰性的問題。機器人技術是一個令人興奮的領域,因為將人類置于其中的可能性可以為仿生學創造額外的機會,從示范中學習,并讓人類作為機器人的教師。

第六部分(第19章)

這一部分對全書進行總結,并展望了強化學習的未來。

致謝

編寫這樣的一本書不是一件一蹴而就的事情。許多人為此付出了非常多的努力。首先,我們要感謝所有的作者們,他們付出專業知識、時間以及創造力對各自的子領域進行了精彩的論述。撰寫綜述通常需要付出格外多的努力,因為這需要你非常了解某個主題,而且需要你將所有相關的工作放在更加通用的框架中。作為編輯,我們非常高興地看到作者們圓滿完成了這個困難但卻非常有用的任務。

我們想感謝的第二群人是審稿人,他們為我們提供了非常透徹且非常具有建設性的評論,使得這本書更加完美。我們感謝那些同意在書中寫下自己名字的審稿人,非常感謝你們的幫助:Andrea Bonarini, Prasad Tadepalli, Sarah Ostentoski, Rich Sutton, Daniel Kudenko, Jesse Hoey, Christopher Amato, Damien Ernst, Remi Munos, Johannes Fuernkrantz, Juergen Schmidhuber, Thomas Ruckstiess, Joelle Pineau, Dimitri Bertsekas, John Asmuth, Lisa Torrey, Yael Niv, Te Thamrongrattanarit, Michael Littman和Csaba Szepesvari。

非常感謝Rich Sutton為本書寫下序言。我們都認為他是強化學習領域的領軍人物,而且,我們都欽佩他在所有方面為這個領域所做出的巨大貢獻。他在強化學習剛剛興起的時候就開始研究,并且不斷地提出新穎的、有創造性的方法讓學習器去學習。感謝Rich先生!

如果能夠把編輯這樣一本書納入日常科學生活中,那會更加方便。在這方面,Martijn要感謝比利時魯汶大學和荷蘭奈梅亨大學的支持。Marco也非常感謝荷蘭格羅寧根大學提供同樣的支持。

最后,我們要感謝讀者選擇了這本書并開始閱讀。我們希望這本書能夠為你提供幫助,并希望你即將開始的工作會被納入隨后的強化學習書籍中。



Marco Wiering,荷蘭格羅寧根大學人工智能系

Martijn van Otterlo,荷蘭奈梅亨大學

2011年11月
內容簡介:

強化學習既包括不確定性環境中相關事物的適應性行為,又包括智能學習器在控制、優化和自適應行為等具有挑戰性的問題中尋找最優行為的計算方法。其相關領域在過去幾十年中取得了巨大的進步。

本書由17位不同的領域的專家對強化學習進行了深入而完整的描述,分為六個部分,涉及基礎理論到高效解決方案框架的各方面內容,反映了強化學習的主要子領域的研究進展,為讀者提供強化學習完整的學習路線,有助于發現新的研究問題和方向。

本書內容

強化學習領域經典的方法及高效的解決方案框架,包括TD學習、Q學習、批處理強化學習、策略迭代的最小二乘法、模型的運用以及知識遷移,還分析了更優探索方法的理論優勢以獲取更好的經驗。

強化學習中各種表示方式的不同用途,包括基于向量的表示、使用一階邏輯的表示、有效地運用分層表示以及使用進化算法時用到的無偏表示。

強化學習相關的概率框架和算法,包括貝葉斯強化學習框架、部分可觀察的馬爾可夫決策過程、可預測的狀態表示、多學習器的擴展與博弈論的概念、去中心化的部分可觀察的馬爾可夫決策過程框架及規劃算法。

強化學習相關領域知識,包括強化學習與人類學習的關系,強化學習在游戲領域的應用以及強化學習在機器人控制中的應用等。
目錄:

譯者序
序言
前言
作者清單
第一部分 緒論
第1章 強化學習和馬爾可夫決策過程 2
1.1 簡介 2
1.2 時序決策 3
1.2.1 接近時序決策 4
1.2.2 在線學習與離線學習 4
1.2.3 貢獻分配 5
1.2.4 探索–運用的平衡 5
1.2.5 反饋、目標和性能 5
1.2.6 表達 6
1.3 正式的框架 6
1.3.1 馬爾可夫決策過程 7
1.3.2 策略 9
1.3.3 最優準則和減量 9
1.4 價值函數和貝爾曼方程 10
1.5 求解馬爾可夫決策過程 12
1.6 動態規劃:基于模型的解決方案 13
1.6.1 基本的動態規劃算法 13
1.6.2 高效的動態規劃算法 17
1.7 強化學習:無模型的解決方案 19
1.7.1 時序差分學習 20
1.7.2 蒙特卡羅方法 23
1.7.3 高效的探索和價值更新 24
1.8 總結 27
參考文獻 27
第二部分 高效的解決方案框架
第2章 批處理強化學習 32
2.1 簡介 32
2.2 批處理強化學習問題 33
2.2.1 批處理學習問題 33
2.2.2 增長批處理學習問題 34
2.3 批處理強化學習算法的基礎 34
2.4 批處理強化學習算法 37
2.4.1 基于核的近似動態規劃 37
2.4.2 擬合Q迭代 39
2.4.3 基于最小二乘的策略迭代 40
2.4.4 識別批處理算法 41
2.5 批處理強化學習理論 42
2.6 批處理強化學習的實現 43
2.6.1 神經擬合Q迭代 44
2.6.2 控制應用中的神經擬合Q迭代算法 45
2.6.3 面向多學習器的批處理強化學習 46
2.6.4 深度擬合Q迭代 48
2.6.5 應用/發展趨勢 49
2.7 總結 50
參考文獻 50
第3章 策略迭代的最小二乘法 53
3.1 簡介 53
3.2 預備知識:經典策略迭代算法 54
3.3 近似策略評估的最小二乘法 55
3.3.1 主要原則和分類 55
3.3.2 線性情況下和矩陣形式的方程 57
3.3.3 無模型算法的實現 60
3.3.4 參考文獻 62
3.4 策略迭代的在線最小二乘法 63
3.5 例子:car-on-the-hill 64
3.6 性能保障 66
3.6.1 漸近收斂性和保證 66
3.6.2 有限樣本的保證 68
3.7 延伸閱讀 73
參考文獻 74
第4章 學習和使用模型 78
4.1 簡介 78
4.2 什么是模型 79
4.3 規劃 80
4.4 聯合模型和規劃 82
4.5 樣本復雜度 84
4.6 分解域 86
4.7 探索 88
4.8 連續域 91
4.9 實證比較 93
4.10 擴展 95
4.11 總結 96
參考文獻 97
第5章 強化學習中的遷移:框架和概觀 101
5.1 簡介 101
5.2 強化學習遷移的框架和分類 102
5.2.1 遷移框架 102
5.2.2 分類 104
5.3 固定狀態–動作空間中從源到目標遷移的方法 108
5.3.1 問題形式化 108
5.3.2 表示遷移 109
5.3.3 參數遷移 110
5.4 固定狀態–動作空間中跨多任務遷移的方法 111
5.4.1 問題形式化 111
5.4.2 實例遷移 111
5.4.3 表示遷移 112
5.4.4 參數遷移 113
5.5 不同狀態–動作空間中從源到目標任務遷移的方法 114
5.5.1 問題形式化 114
5.5.2 實例遷移 115
5.5.3 表示遷移 115
5.5.4 參數遷移 116
5.6 總結和開放性問題 116
參考文獻 117
第6章 探索的樣本復雜度邊界 122
6.1 簡介 122
6.2 預備知識 123
6.3 形式化探索效率 124
6.3.1 探索的樣本復雜度和PAC-MDP 124
6.3.2 遺憾最小化 125
6.3.3 平均損失 127
6.3.4 貝葉斯框架 127
6.4 通用PAC-MDP定理 128
6.5 基于模型的方法 130
6.5.1 Rmax 130
6.5.2 Rmax的泛化 132
6.6 無模型方法 138
6.7 總結 141
參考文獻 141
第三部分 建設性的表征方向
第7章 連續狀態和動作空間中的強化學習 146
7.1 簡介 146
7.1.1 連續域中的馬爾可夫決策過程 147
7.1.2 求解連續MDP的方法 148
7.2 函數逼近 149
7.2.1 線性函數逼近 150
7.2.2 非線性函數逼近 153
7.2.3 更新參數 154
7.3 近似強化學習 157
7.3.1 數值逼近 157
7.3.2 策略逼近 162
7.4 雙極車桿實驗 168
7.5 總結 171
參考文獻 171
第8章 綜述:求解一階邏輯馬爾可夫決策過程 179
8.1 關系世界中的順序決策簡介 179
8.1.1 馬爾可夫決策過程:代表性和可擴展性 180
8.1.2 簡短的歷史和與其他領域的聯系 181
8.2 用面向對象和關系擴展馬爾可夫決策過程 183
8.2.1 關系表示與邏輯歸納 183
8.2.2 關系型馬爾可夫決策過程 184
8.2.3 抽象問題和求解 184
8.3 基于模型的解決方案 186
8.3.1 貝爾曼備份的結構 186
8.3.2 確切的基于模型的算法 187
8.3.3 基于近似模型的算法 190
8.4 無模型的解決方案 192
8.4.1 固定泛化的價值函數學習 192
8.4.2 帶自適應泛化的價值函數 193
8.4.3 基于策略的求解技巧 196
8.5 模型、層級、偏置 198
8.6 現在的發展 201
8.7 總結和展望 203
參考文獻 204
第9章 層次式技術 213
9.1 簡介 213
9.2 背景 215
9.2.1 抽象動作 215
9.2.2 半馬爾可夫決策問題 216
9.2.3 結構 217
9.2.4 狀態抽象 218
9.2.5 價值函數分解 219
9.2.6 優化 220
9.3 層次式強化學習技術 220
9.3.1 選項 221
9.3.2 HAMQ學習 222
9.3.3 MAXQ 223
9.4 學習結構 226
9.5 相關工作和當前研究 228
9.6 總結 230
參考文獻 230
第10章 針對強化學習的演化計算 235
10.1 簡介 235
10.2 神經演化 237
10.3 TWEANN 239
10.3.1 挑戰 239
10.3.2 NEAT 240
10.4 混合方法 241
10.4.1 演化函數近似 242
10.4.2 XCS 243
10.5 協同演化 245
10.5.1 合作式協同演化 245
10.5.2 競爭式協同演化 246
10.6 生成和發展系統 247
10.7 在線方法 249
10.7.1 基于模型的技術 249
10.7.2 在線演化計算 250
10.8 總結 251
參考文獻 251
第四部分 概率模型
第11章 貝葉斯強化學習 260
11.1 簡介 260
11.2 無模型貝葉斯強化學習 261
11.2.1 基于價值函數的算法 261
11.2.2 策略梯度算法 264
11.2.3 演員–評論家算法 266
11.3 基于模型的貝葉斯強化學習 268
11.3.1 由POMDP表述的貝葉斯強化學習 268
11.3.2 通過動態規劃的貝葉斯強化學習 269
11.3.3 近似在線算法 271
11.3.4 貝葉斯多任務強化學習 272
11.3.5 集成先驗知識 273
11.4 有限樣本分析和復雜度問題 274
11.5 總結和討論 275
參考文獻 275
第12章 部分可觀察的馬爾可夫決策過程 279
12.1 簡介 279
12.2 部分可觀察環境中的決策 280
12.2.1 POMDP模型 280
12.2.2 連續和結構化的表達 281
12.2.3 優化決策記憶 282
12.2.4 策略和價值函數 284
12.3 基于模型的技術 285
12.3.1 基于MDP的啟發式解決方案 285
12.3.2 POMDP的值迭代 286
12.3.3 確切的值迭代 288
12.3.4 基于點的值迭代方法 290
12.3.5 其他近似求解方法 291
12.4 無先驗模型的決策 292
12.4.1 無記憶技術 292
12.4.2 學習內部記憶 292
12.5 近期研究趨勢 294
參考文獻 295
第13章 預測性定義狀態表示 300
13.1 簡介 300
13.1.1 狀態是什么 301
13.1.2 哪一個狀態表示 301
13.1.3 為什么使用預測性定義模型 302
13.2 PSR 303
13.2.1 歷史及測試 303
13.2.2 測試的預測 304
13.2.3 系統動態向量 304
13.2.4 系統動態矩陣 305
13.2.5 充分的數據集 305
13.2.6 狀態 306
13.2.7 更新狀態 306
13.2.8 線性PSR 307
13.2.9 線性PSR與POMDP的關聯 307
13.2.10 線性PSR的理論結果 308
13.3 PSR模型學習 308
13.3.1 發現問題 308
13.3.2 學習問題 309
13.3.3 估計系統動態矩陣 309
13.4 規劃與PSR 309
13.5 PSR的擴展 310
13.6 其他具有預測性定義狀態的模型 311
13.6.1 可觀測算子模型 311
13.6.2 預測線性高斯模型 312
13.6.3 時序差分網絡 312
13.6.4 分集自動機 312
13.6.5 指數族PSR 313
13.6.6 轉換PSR 313
13.7 總結 313
參考文獻 314
第14章 博弈論和多學習器強化學習 317
14.1 簡介 317
14.2 重復博弈 319
14.2.1 博弈論 319
14.2.2 重復博弈中的強化學習 322
14.3 順序博弈 325
14.3.1 馬爾可夫博弈 326
14.3.2 馬爾可夫博弈中的強化學習 327
14.4 在多學習器系統中的稀疏交互 330
14.4.1 多等級學習 330
14.4.2 協調學習與稀疏交互 331
14.5 延伸閱讀 334
參考文獻 334
第15章 去中心化的部分可觀察馬爾可夫決策過程 338
15.1 簡介 338
15.2 Dec-POMDP框架 339
15.3 歷史狀態與策略 340
15.3.1 歷史狀態 341
15.3.2 策略 341
15.3.3 策略的結構 342
15.3.4 聯合策略的質量 343
15.4 有限域的Dec-POMDP的解決方案 344
15.4.1 窮舉搜索和Dec-POMDP復雜性 344
15.4.2 交替最大化 344
15.4.3 Dec-POMDP的最優價值函數 345
15.4.4 前推法:啟發式搜索 348
15.4.5 后推法:動態規劃 350
15.4.6 其他有限域的方法 353
15.5 延伸閱讀 353
15.5.1 一般化和特殊問題 353
15.5.2 有限Dec-POMDP 354
15.5.3 強化學習 355
15.5.4 通信 356
參考文獻 356
第五部分 其他應用領域
第16章 強化學習與心理和神經科學之間的關系 364
16.1 簡介 364
16.2 經典(巴甫洛夫)條件反射 365
16.2.1 行為 365
16.2.2 理論 366
16.2.3 小結和其他注意事項 367
16.3 操作性(工具性)條件反射 368
16.3.1 動作 368
16.3.2 理論 369
16.3.3 基于模型的控制與無模型的控制 370
16.3.4 小結和其他注意事項 371
16.4 多巴胺 371
16.4.1 多巴胺作為獎勵預測誤差 372
16.4.2 多巴胺的強化信號的作用 372
16.4.3 小結和其他注意事項 373
16.5 基底神經節 373
16.5.1 基底神經節概述 374
16.5.2 紋狀體的神經活動 374
16.5.3 皮質基神經節丘腦循環 375
16.5.4 小結和其他注意事項 377
16.6 總結 378
參考文獻 378
第17章 游戲領域的強化學習 387
17.1 簡介 387
17.1.1 目標和結構 387
17.1.2 范圍 388
17.2 游戲展示廳 388
17.2.1 西洋雙陸棋 389
17.2.2 國際象棋 391
17.2.3 圍棋 394
17.2.4 俄羅斯方塊 398
17.2.5 即時戰略游戲 400
17.3 強化學習應用到游戲的挑戰 402
17.3.1 表示的設計 402
17.3.2 探索 404
17.3.3 訓練數據的來源 405
17.3.4 處理缺失的信息 406
17.3.5 對手建模 407
17.4 在游戲中使用強化學習 407
17.4.1 最具娛樂性的對手 407
17.4.2 開發期間的學習 408
17.5 總結 409
參考文獻 410
第18章 機器人領域的強化學習綜述 415
18.1 簡介 415
18.2 機器人強化學習中的挑戰 416
18.2.1 維度災難 417
18.2.2 真實場景樣本災難 418
18.2.3 真實場景交互災難 418
18.2.4 模型錯誤災難 418
18.2.5 目標規范災難 419
18.3 機器人強化學習基礎 419
18.3.1 價值函數方法 420
18.3.2 策略搜索 421
18.4 表示法帶來的可行性 422
18.4.1 智能狀態–動作離散化 423
18.4.2 函數近似 423
18.4.3 預構建策略 424
18.5 先驗知識帶來的可行性 425
18.5.1 示范中的先驗知識 425
18.5.2 任務結構中的先驗知識 426
18.5.3 先驗知識指導探索 427
18.6 仿真模擬帶來的可行性 427
18.6.1 模型的作用 427
18.6.2 智力預演 428
18.6.3 從仿真直接遷移到真實機器人 429
18.7 一個學習樣例:杯中球任務 429
18.7.1 實驗設置:任務和獎勵 429
18.7.2 適當的策略表示 430
18.7.3 生成教師的示范 430
18.7.4 使用策略搜索進行強化學習 430
18.7.5 機器人強化學習中使用仿真模擬 431
18.7.6 價值函數方法的替代方案 431
18.8 總結 432
參考文獻 432
第六部分 結束語
第19章 總結、未來方向和展望 440
19.1 回顧 440
19.1.1 本書覆蓋內容 440
19.1.2 哪些主題沒有被包含 441
19.2 展望未來 445
19.2.1 目前未知的內容 445
19.2.2 看起來不可能的強化學習應用 446
19.2.3 有趣的方向 447
19.2.4 專家對未來發展的看法 448
參考文獻 449
縮寫詞 453
索引 455
序: