|
-- 會員 / 註冊 --
|
|
|
|
機器學習:算法背后的理論與優化 ( 簡體 字) |
作者:史春奇、卜晶?、施智平 | 類別:1. -> 程式設計 -> 機器學習 |
譯者: |
出版社:清華大學出版社 | 3dWoo書號: 51275 詢問書籍請說出此書號!【有庫存】 NT售價: 345 元 |
出版日:7/1/2019 |
頁數:185 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787302517184 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:在當今的人工智能領域中最熱門技術毫無疑問當屬深度學習。深度學習在Geo?rey Hinton、Yoshua Bengio、Yann LeCun 和Juergen Schmidhuber 等巨擘們持續不斷的貢獻 下,在文本、圖像、自然語言等方向均取得了革命性的進展。當然,深度學習只是機器學習 的一個分支,能取得當前的成功也是建立在機器學習不斷發展的基礎之上。在機器學習領 域,很多著名科學家(如圖1 所示) 提出了他們的理論,做出了他們的貢獻。Leslie Valiant 提出的概率近似正確學習(Probably Approximately Correct Learning, PAC) 理論打下了 計算學習理論的基石,并在此后提出了自舉(Boosting) 思想。Vladimir Vapnik 提出的支 持向量機(Support Vector Machine, SVM) 是一個理論和應用都十分強大的算法。與此同 時他所提出的經驗風險最小與結構風險最小理論,以及背后更深層次的VC 維(Vapnik- Chervonenkis dimension) 理論,為部分統一分類問題提供了理論基礎。Judea Pearl 提出 圖1 機器學習領域(支持向量機、集成學習、概率圖模型) 的著名科學家 II 了貝葉斯網絡,而Michael I. Jordan 則在此基礎上發展了概率圖模型。Leo Breiman 在集 成(Ensemble) 學習的思想下設計了隨機森林(Random Forest) 算法,Robert Schapire 和 Jerome H. Friedman 則基于Boosting 分別發明了AdaBoost和Gradient Boosting算法。至 此,機器學習中最耀眼的算法|| 支持向量機、集成學習和概率圖模型交相輝映,為整 個機器學習理論的發展奠定了深厚的基礎。 本書首先嘗試把機器學習的經典算法,包括邏輯回歸(Logistic Regression)、支持 向量機和AdaBoost 等,在經驗風險最小和結構風險最小的框架下進行統一,并且借助 Softmax 模型和概率圖模型中的Log-Linear 模型闡述它們的內在聯系;其次從熵的角度 解讀概率分布、最大似然估計、指數分布族、廣義線性模型等概念;最后深入剖析用于求 解的最優化算法及其背后的數學理論。 本書的主要內容 全書分為9 個章節,從單一算法到統一框架,再到一致最優化求解,各章節的設置 如下。 第1 章,首先提出并探討幾個基本問題,包括回歸思想、最優模型評價標準、數理統 計與機器學習的關系等。之后介紹兩個最簡單最常見的有監督學習算法|| 線性回歸和 邏輯回歸,并從計算的角度分析兩種模型內在的關聯,從而為學習“廣義線性模型”打下 基礎。在本章的最后部分初步講解兩個模型的求解方法|| 最小二乘法和最大似然估 計。 第2 章,主要內容是線性回歸的泛化形式|| 廣義線性模型。本章詳細介紹廣義線 性模型,并在第1 章的基礎上從Fisher 信息、KL 散度、Bregman 距離的角度深入講解 最大似然估計。本章可以看作是第3 章的基礎引入。 第3 章,在前兩章的基礎上提出泛化誤差和經驗風險最小等概念,并且將最小二乘 和最大似然并入損失函數的范疇。在此基礎之上,我們便將邏輯回歸、支持向量機和Ada Boost 算法統一到分類界面的框架下。至此我們會看到不同的算法只是分別對應了不同 的損失函數。 第4 章,介紹經驗風險最小的不足與過擬合的概念,之后引出正則化。緊接著介紹 有監督學習算法中的常見正則化方法,包括L1 和L2 正則化XG Boost 和樹。本章從兩 個角度對L1 和L2 正則化進行深入講解|| 貝葉斯和距離空間。這兩個觀點分別對應 了本書后續的兩大部分|| 熵和最優化。 第5 章,介紹貝葉斯統計和熵之間的關系,并且基于熵重新解讀了最大似然估計、指 III 數分布族等概念。本章可以看作是前四章中出現的內容在熵概念下的再定義。同時也是 為下一章的Log-Linear 模型作出鋪墊。 第6 章,介紹Softmax 和Log-Linear 的變化,并且將第3 章的二分類界面泛化到多 分類界面,把分類問題的思路擴展到了多分類和結構分類。在本章中通過Log-Linear 關 聯了概率圖模型,通過Softmax 關聯了深度學習。 第7 章,承接第4 章中L1 和L2 正則化在最優化角度的解釋,從凸共軛的開始遞進 地推導出拉格朗日對偶、Fenchel 對偶、增廣拉格朗日乘子法、交替方向乘子法。 第8 章,介紹有監督學習模型在機器學習場景下的統一求解方法|| 隨機梯度下 降法及其改進算法。本章對隨機梯度下降法進行了收斂性分析,并根據分析結果針對其 缺點著重介紹了兩類改進策略|| 方差縮減、加速和適應。 第9 章,主要對數學意義上的最優化方法進行探討,可以看作是連接第7 章和第8 章的橋梁。第7 章的內容是本章的理論部分,而第8 章的內容則是本章介紹的算法應用 在在機器學習場景中的特例,主要內容包括一階、二階最優化算法及其收斂性分析。 圖2 章節結構關系圖 史春奇與卜晶?為本書的共同第一作者。書中第3?6 章主要由史春奇博士撰寫,第 IV 1、2、7?9 章主要由卜晶?撰寫,施智平教授參與了本書的組織結構設計并提出了很多寶 貴意見。由于作者的能力與水平有限,本書對機器學習的探討難免會有不全面、不深刻 等不足之處,敬請各位讀者批評指正,如蒙賜教將不勝感激。 各個章節結構之間的關系如圖2 所示。對于基礎稍淺的讀者,可以按照圖示循序漸 進地閱讀;對于有一定基礎的讀者,可以跳過部分章節直接閱讀感興趣的章節。 作者 2019 年1 月 |
內容簡介:以機器學習為核心的人工智能已經成為新一代生產力發展的主要驅動因素。新的技術正在向各行各業 滲透,大有變革各個領域的趨勢。傳統產業向智慧產業的升級迫使原行業從業人員逐漸轉型,市場上對相 關學習材料的需求也日益高漲。幫助廣大學習者更好地理解和掌握機器學習,是編寫本書的目的。 本書針對機器學習領域中最常見的一類問題——有監督學習,從入門、進階、深化三個層面由淺入深 地進行了講解。三個層面包括基礎入門算法、核心理論及理論背后的數學優化。入門部分用以邏輯回歸為 代表的廣義線性模型為出發點,引入書中所有涉及的知識點;進階部分的核心理論涵蓋了經驗風險最小、 結構風險最小、正則化及統一的分類邊界理論;深化部分的數學優化則主要包括最大熵原理、拉格朗日對 偶等理論在數學上的推導,以及對模型求解的主流最優化方法的探討等。 本書由淺入深,從個別到普便,從自然算法到優化算法,從各個角度深入剖析了機器學習,力求幫助 讀者循序漸進地掌握機器學習的概念、算法和優化理論。 |
目錄:第1章線性回歸與邏輯回歸.1 1.1線性回歸.1 1.1.1函數關系與統計關系.1 1.1.2統計與機器學習.2 1.2最小二乘法與高斯-馬爾可夫定理.5 1.2.1最小二乘法..5 1.2.2高斯-馬爾可夫定理..6 1.3從線性回歸到邏輯回歸.8 1.4最大似然估計求解邏輯回歸..9 1.5最小二乘與最大似然..11 1.5.1邏輯回歸與伯努利分布.11 1.5.2線性回歸與正態分布.12 1.6小結.13 參考文獻.13 第2章廣義線性模型.15 2.1廣義線性模型概述.15 2.1.1廣義線性模型的定義.15 2.1.2鏈接函數與指數分布簇.17 2.2廣義線性模型求解.20 2.3最大似然估計Ⅰ:Fisher信息.21 2.4最大似然估計Ⅱ:KL散度與Bregman散度.23 2.4.1KL散度..23 2.4.2Bregman散度..25 2.5小結.26 X 參考文獻.26 第3章經驗風險最小.28 3.1經驗風險與泛化誤差概述..28 3.1.1經驗風險.30 3.1.2泛化誤差.30 3.1.3欠擬合和過擬合..34 3.1.4VC維..37 3.2經驗風險最小的算法..40 3.3分類邊界..42 3.3.1分類算法的損失函數.42 3.3.2分類算法的邊界..45 3.4小結.48 參考文獻.48 第4章結構風險最小.49 4.1經驗風險最小和過擬合..49 4.2結構風險最小和正則化..51 4.2.1從空間角度理解SRM52 4.2.2從貝葉斯觀點理解SRM54 4.3回歸的正則化.55 4.3.1L2正則化和嶺回歸.56 4.3.2L1正則化和Lasso回歸..57 4.3.3L1、L2組合正則化和ElasticNet回歸..58 4.4分類的正則化.60 4.4.1支持向量機和L2正則化.60 4.4.2XGBoost和樹正則化.62 4.4.3神經網絡和DropOut正則化.65 4.4.4正則化的優缺點..66 4.5小結.67 參考文獻.67 第5章貝葉斯統計與熵.68 5.1統計學習的基礎:參數估計..68 5.1.1矩估計..68 XI 5.1.2最大似然估計.69 5.1.3最小二乘法.71 5.2概率分布與三大統計思維..72 5.2.1頻率派和正態分布..72 5.2.2經驗派和正態分布..75 5.2.3貝葉斯派和正態分布.76 5.2.4貝葉斯統計和熵的關系.79 5.3信息熵的理解.79 5.3.1信息熵簡史.79 5.3.2信息熵定義.80 5.3.3期望編碼長度解釋..81 5.3.4不確定性公理化解釋.81 5.3.5基于熵的度量.84 5.4最大熵原理..86 5.4.1最大熵的直觀理解..86 5.4.2最大熵解釋自然指數分布簇..87 5.4.3最大熵解釋最大似然估計.89 5.5小結.90 參考文獻.90 第6章基于熵的Softmax..92 6.1二項分布和多項分布..92 6.2Logistic回歸和Softmax回歸..93 6.2.1廣義線性模型的解釋.93 6.2.2Softmax回歸.94 6.2.3最大熵原理與Softmax回歸的等價性.96 6.3最大熵條件下的Log-Linear101 6.4多分類界面.103 6.4.1感知機和多分類感知機..104 6.4.2多分類感知機和結構感知機.105 6.5概率圖模型里面的Log-Linear106 6.6深度學習里面的Softmax層..108 6.7小結..109 XII 參考文獻..109 第7章拉格朗日乘子法.111 7.1凸共軛..111 7.1.1凸共軛的定義.111 7.1.2凸共軛定理..113 7.2拉格朗日對偶..114 7.2.1拉格朗日對偶概述.115 7.2.2Salter條件..117 7.2.3KKT條件.118 7.3Fenchel對偶..120 7.4增廣拉格朗日乘子法.123 7.4.1近端.123 7.4.2增廣拉格朗日乘子法和對偶上升算法..126 7.5交替方向乘子法..129 7.5.1對偶分解..130 7.5.2交替方向乘子法概述..131 7.6小結..131 參考文獻..132 第8章隨機梯度下降法.134 8.1隨機梯度下降法概述.134 8.1.1機器學習場景.134 8.1.2隨機梯度下降法的定義..135 8.1.3隨機梯度下降法收斂性分析.136 8.1.4收斂性證明..139 8.2隨機梯度下降法進階Ⅰ:方差縮減.140 8.2.1方差縮減的效果.141 8.2.2方差縮減的實現.143 8.3隨機梯度下降法進階Ⅱ:加速與適應.145 8.3.1加速.146 8.3.2適應.148 8.3.3加速£適應.151 8.4隨機梯度下降法的并行實現..156 XIII 8.5小結..160 參考文獻..161 第9章常見的最優化方法.163 9.1最速下降算法..163 9.1.1l2范數與梯度下降法..164 9.1.2l1范數與坐標下降算法..165 9.1.3二次范數與牛頓法.166 9.2步長的設定.168 9.2.1Armijo-Goldstein準則.169 9.2.2Wolfe-Powell準則.170 9.2.3回溯線搜索..171 9.3收斂性分析.171 9.3.1收斂速率..172 9.3.2對目標函數的一些假設..173 9.4一階算法:梯度下降法.177 9.5二階算法:牛頓法及其衍生算法..178 9.5.1牛頓法與梯度下降法的對比.179 9.5.2擬牛頓法..180 9.5.3從二次范數的角度看牛頓法.182 9.6小結..183 參考文獻..185
|
序: |
|