深度學習 ( 簡體 字) |
作者:[美]Ian Goodfellow(伊恩·古德費洛)、[加]Yoshua Bengio(約書亞·本吉奧)、[加]Aaron Courville(亞倫·庫維爾) | 類別:1. -> 程式設計 -> 深度學習 |
譯者: |
出版社:人民郵電出版社 | 3dWoo書號: 47296 詢問書籍請說出此書號!【缺書】 NT售價: 840 元 |
出版日:7/1/2017 |
頁數:500 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787115461476 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:AI聖經!深度學習領域奠基性的經典暢銷書!長期位居美國亞馬遜AI和機器學習類圖書榜首!所有資料科學家和機器學習從業者的必讀圖書!特斯拉CEO埃隆•馬斯克等國內外眾多專家推薦! 深度學習是機器學習的一個分支,它能夠使電腦通過層次概念來學習經驗和理解世界。因為電腦能夠從經驗中獲取知識,所以不需要人類來形式化地定義電腦需要的所有知識。層次概念允許電腦通過構造簡單的概念來學習複雜的概念,而這些分層的圖結構將具有很深的層次。本書會介紹深度學習領域的許多主題。 本書囊括了數學及相關概念的背景知識,包括線性代數、概率論、資訊理論、數值優化以及機器學習中的相關內容。同時,它還介紹了工業界中實踐者用到的深度學習技術,包括深度前饋網路、正則化、優化演算法、卷積網路、序列建模和實踐方法等,並且調研了諸如自然語言處理、語音辨識、電腦視覺、線上推薦系統、生物資訊學以及視頻遊戲方面的應用。*後,本書還提供了一些研究方向,涵蓋的理論主題包括線性因數模型、自編碼器、表示學習、結構化概率模型、蒙特卡羅方法、配分函數、近似推斷以及深度生成模型。 《深度學習》這本書既可以被本科生或研究生用於規劃其學術界或工業界生涯,也適用於希望在各種產品或平臺上開始使用深度學習技術的軟體工程師。作者在本書的配套網站上為讀者和教師提供了補充資料。中文版讀者可以訪問人民郵電出版社非同步社區www.epubit.com.cn獲取相關資訊。 封面特色: 由藝術家Daniel Ambrosi提供的中央公園杜鵑花步道夢幻景觀。在Ambrosi的億級圖元全景圖上,應用Joseph Smarr(Google)和Chirs Lamb(NVIDIA)修改後的Google DeepDream開來源程式,創造了Daniel Ambrosi的“幻景”。 |
內容簡介:《深度學習》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學習領域奠基性的經典教材。全書的內容包括3個部分:第1部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第2部分系統深入地講解現今已成熟的深度學習方法和技術;第3部分討論某些具有前瞻性的方向和想法,它們被公認為是深度學習未來的研究重點。 《深度學習》適合各類讀者閱讀,包括相關專業的大學生或研究生,以及不具有機器學習或統計背景、但是想要快速補充深度學習知識,以便在實際產品或平臺中應用的軟體工程師。 |
目錄:第 1 章 引言 . . . . 1 1.1 本書面向的讀者 . . .7 1.2 深度學習的歷史趨勢 . . . . 8 1.2.1 神經網路的眾多名稱和命運變遷 . . 8 1.2.2 與日俱增的數據量 . . . . 12 1.2.3 與日俱增的模型規模 . . . .13 1.2.4 與日俱增的精度、複雜度和對現實世界的衝擊 . . . 15
第 1 部分 應用數學與機器學習基礎 第 2 章 線性代數 . . . . 19 2.1 標量、向量、矩陣和張量 . . . 19 2.2 矩陣和向量相乘. . . .21 2.3 單位矩陣和逆矩陣 . . . 22 2.4 線性相關和生成子空間 . . . . 23 2.5 範數. . . .24 2.6 特殊類型的矩陣和向量 . . . . 25 2.7 特徵分解 . . . 26 2.8 奇異值分解 . . . . 28 2.9 Moore-Penrose 偽逆 . . . . 28 2.10 跡運算 . . . . 29 2.11 行列式 . . . . 30 2.12 實例:主成分分析. . . . .30 第 3 章 概率與資訊理論. . . .34 3.1 為什麼要使用概率 . . . 34 3.2 隨機變數 . . . 35 3.3 概率分佈 . . . 36 3.3.1 離散型變數和概率品質函數 . . . 36 3.3.2 連續型變數和概率密度函數 . . . 36 3.4 邊緣概率 . . . 37 3.5 條件概率 . . . 37 3.6 條件概率的鏈式法則 . . . 38 3.7 獨立性和條件獨立性 . . . 38 3.8 期望、方差和協方差 . . . 38 3.9 常用概率分佈 . . . . 39 3.9.1 Bernoulli 分佈 . . . 40 3.9.2 Multinoulli 分佈 . . . 40 3.9.3 高斯分佈 . . . . 40 3.9.4 指數分佈和 Laplace 分佈 . . . 41 3.9.5 Dirac 分佈和經驗分佈 . . . . 42 3.9.6 分佈的混合 . . . . 42 3.10 常用函數的有用性質. . . .43 3.11 貝葉斯規則 . . . 45 3.12 連續型變數的技術細節 . . . 45 3.13 資訊理論 . . . . 47 3.14 結構化概率模型 . . . . 49 第 4 章 數值計算 . . . . 52 4.1 上溢和下溢 . . . . 52 4.2 病態條件 . . . 53 4.3 基於梯度的優化方法 . . . 53 4.3.1 梯度之上:Jacobian 和 Hessian 矩陣 . . . 56 4.4 約束優化 . . . 60 4.5 實例:線性最小二乘 . . . 61 第 5 章 機器學習基礎. . . .63 5.1 學習演算法 . . . 63 5.1.1 任務 T . . . 63 5.1.2 性能度量 P . . . . 66 5.1.3 經驗 E . . . . 66 5.1.4 示例:線性回歸 . . . . 68 5.2 容量、過擬合和欠擬合 . . . 70 5.2.1 沒有免費午餐定理 . . . . 73 5.2.2 正則化 . . . . 74 5.3 超參數和驗證集. . . .76 5.3.1 交叉驗證 . . . . 76 5.4 估計、偏差和方差. . . .77 5.4.1 點估計 . . . . 77 5.4.2 偏差 . . . . 78 5.4.3 方差和標準差 . . . . 80 5.4.4 權衡偏差和方差以最小化均方誤差 . . . 81 5.4.5 一致性 . . . . 82 5.5 最大似然估計 . . . . 82 5.5.1 條件對數似然和均方誤差. . . .84 5.5.2 最大似然的性質 . . . . 84 5.6 貝葉斯統計 . . . . 85 5.6.1 最大後驗 (MAP) 估計 . . . . 87 5.7 監督學習演算法 . . . . 88 5.7.1 概率監督學習 . . . . 88 5.7.2 支持向量機 . . . . 88 5.7.3 其他簡單的監督學習演算法. . . .90 5.8 無監督學習演算法. . . .91 5.8.1 主成分分析 . . . . 92 5.8.2 k-均值聚類 . . .94 5.9 隨機梯度下降 . . . . 94 5.10 構建機器學習演算法 . . . . 96 5.11 促使深度學習發展的挑戰 . . . 96 5.11.1 維數災難 . . . 97 5.11.2 局部不變性和平滑正則化 . . 97 5.11.3 流形學習 . . . 99
第 2 部分 深度網路:現代實踐 第 6 章 深度前饋網路 . . . . 105 6.1 實例:學習 XOR. . . . 107 6.2 基於梯度的學習 . . . . 110 6.2.1 代價函數 . . . 111 6.2.2 輸出單元 . . . 113 6.3 隱藏單元. . . .119 6.3.1 整流線性單元及其擴展 . . 120 6.3.2 logistic sigmoid 與雙曲正切函數 . . 121 6.3.3 其他隱藏單元 . . . 122 6.4 架構設計. . . .123 6.4.1 萬能近似性質和深度. . . . .123 6.4.2 其他架構上的考慮 . . .126 6.5 反向傳播和其他的微分演算法. . .126 6.5.1 計算圖 . . . 127 6.5.2 微積分中的鏈式法則. . . . .128 6.5.3 遞迴地使用鏈式法則來實現反向傳播 . . 128 6.5.4 全連接 MLP 中的反向傳播計算 . . 131 6.5.5 符號到符號的導數 . . .131 6.5.6 一般化的反向傳播 . . .133 6.5.7 實例:用於 MLP 訓練的反向傳播 . . .135 6.5.8 複雜化 . . . 137 6.5.9 深度學習界以外的微分 . . 137 6.5.10 高階微分 . . . . 138 6.6 歷史小記. . . .139 第 7 章 深度學習中的正則化 . . . 141 7.1 參數範數懲罰 . . . 142 7.1.1 L2 參數正則化 . . . . 142 7.1.2 L1 正則化 . . . . 144 7.2 作為約束的範數懲罰. . . .146 7.3 正則化和欠約束問題. . . .147 7.4 資料集增強 . . . 148 7.5 雜訊魯棒性 . . . 149 7.5.1 向輸出目標注入雜訊. . . . .150 7.6 半監督學習 . . . 150 7.7 多工學習 . . . 150 7.8 提前終止. . . .151 7.9 參數綁定和參數共用. . . .156 7.9.1 卷積神經網路 . . . 156 7.10 稀疏表示. . . . .157 7.11 Bagging 和其他集成方法. . .158 7.12 Dropout . . . .159 7.13 對抗訓練. . . . .165 7.14 切面距離、正切傳播和流形正切分類器 . . 167 第 8 章 深度模型中的優化. . . .169 8.1 學習和純優化有什麼不同 . . . 169 8.1.1 經驗風險最小化 . . . 169 8.1.2 代理損失函數和提前終止 . . 170 8.1.3 批量演算法和小批量演算法 . . 170 8.2 神經網路優化中的挑戰 . . . 173 8.2.1 病態 . . . 173 8.2.2 局部極小值 . . . 174 8.2.3 高原、鞍點和其他平坦區域 . . .175 8.2.4 懸崖和梯度爆炸 . . . 177 8.2.5 長期依賴 . . . 177 8.2.6 非精確梯度 . . . 178 8.2.7 局部和全域結構間的弱對應 . . 178 8.2.8 優化的理論限制 . . . 179 8.3 基本演算法. . . .180 8.3.1 隨機梯度下降 . . . 180 8.3.2 動量 . . . 181 8.3.3 Nesterov 動量. . . . .183 8.4 參數初始化策略 . . . . 184 8.5 自我調整學習率演算法 . . . . 187 8.5.1 AdaGrad . . . . 187 8.5.2 RMSProp . . . . 188 8.5.3 Adam . . . . 189 8.5.4 選擇正確的優化演算法. . . . .190 8.6 二階近似方法 . . . 190 8.6.1 牛頓法 . . . 190 8.6.2 共軛梯度 . . . 191 8.6.3 BFGS. . . . 193 8.7 優化策略和元演算法 . . . . 194 8.7.1 批標準化 . . . 194 8.7.2 座標下降 . . . 196 8.7.3 Polyak 平均 . . . . 197 8.7.4 監督預訓練 . . . 197 8.7.5 設計有助於優化的模型 . . 199 8.7.6 延拓法和課程學習 . . .199 第 9 章 卷積網路 . . . 201 9.1 卷積運算. . . .201 9.2 動機 . . . . 203 9.3 池化 . . . . 207 9.4 卷積與池化作為一種無限強的先驗 . . . 210 9.5 基本磁碟區積函數的變體. . . .211 9.6 結構化輸出 . . . 218 9.7 資料類型. . . .219 9.8 高效的卷積演算法 . . . . 220 9.9 隨機或無監督的特徵. . . .220 9.10 卷積網路的神經科學基礎 . . 221 9.11 卷積網路與深度學習的歷史 . . . 226 第 10 章 序列建模:迴圈和遞迴網路 . . . 227 10.1 展開計算圖 . . . . 228 10.2 迴圈神經網路 . . . .230 10.2.1 導師驅動過程和輸出迴圈網路 . . . 232 10.2.2 計算迴圈神經網路的梯度 . . . 233 10.2.3 作為有向圖模型的迴圈網路 . . . 235 10.2.4 基於上下文的 RNN 序列建模 . . . 237 10.3 雙向 RNN . . . 239 10.4 基於編碼 - 解碼的序列到序列架構 . . . 240 10.5 深度迴圈網路 . . . .242 10.6 遞迴神經網路 . . . .243 10.7 長期依賴的挑戰 . . . 244 10.8 回聲狀態網路 . . . .245 10.9 滲漏單元和其他多時間尺度的策略 . . 247 10.9.1 時間維度的跳躍連接. . . .247 10.9.2 滲漏單元和一系列不同時間尺度 . . . 247 10.9.3 刪除連接 . . . . 248 10.10 長短期記憶和其他門控 RNN . . 248 10.10.1 LSTM . . . 248 10.10.2 其他門控 RNN. . . .250 10.11 優化長期依賴. . . . .251 10.11.1 截斷梯度 . . . 251 10.11.2 引導資訊流的正則化 . . 252 10.12 外顯記憶 . . . 253 第 11 章 實踐方法論 . . . 256 11.1 性能度量. . . . .256 11.2 預設的基準模型 . . . 258 11.3 決定是否收集更多資料 . . . . 259 11.4 選擇超參數 . . . . 259 11.4.1 手動調整超參數 . . . .259 11.4.2 自動超參數優化演算法. . . .262 11.4.3 網格搜索 . . . . 262 11.4.4 隨機搜索 . . . . 263 11.4.5 基於模型的超參數優化 . . . 264 11.5 調試策略. . . . .264 11.6 示例:多位數字識別 . . . 267 第 12 章 應用. . . . .269 12.1 大規模深度學習 . . . 269 12.1.1 快速的 CPU 實現 . . . . 269 12.1.2 GPU 實現 . . . 269 12.1.3 大規模的分散式實現. . . .271 12.1.4 模型壓縮 . . . . 271 12.1.5 動態結構 . . . . 272 12.1.6 深度網路的專用硬體實現 . . . 273 12.2 電腦視覺 . . . . 274 12.2.1 預處理 . . . . 275 12.2.2 資料集增強 . . . . 277 12.3 語音辨識. . . . .278 12.4 自然語言處理 . . . .279 12.4.1 n-gram . . . .280 12.4.2 神經語言模型 . . . . 281 12.4.3 高維輸出 . . . . 282 12.4.4 結合 n-gram 和神經語言模型 . . . 286 12.4.5 神經機器翻譯 . . . . 287 12.4.6 歷史展望 . . . . 289 12.5 其他應用. . . . .290 12.5.1 推薦系統 . . . . 290 12.5.2 知識表示、推理和回答 . . 292
第 3 部分 深度學習研究 第 13 章 線性因數模型 . . . 297 13.1 概率 PCA 和因數分析 . . . 297 13.2 獨立成分分析 . . . .298 13.3 慢特徵分析 . . . . 300 13.4 稀疏編碼. . . . .301 13.5 PCA 的流形解釋 . . . . 304 第 14 章 自編碼器 . . . . 306 14.1 欠完備自編碼器 . . . 306 14.2 正則自編碼器 . . . .307 14.2.1 稀疏自編碼器 . . . . 307 14.2.2 去噪自編碼器 . . . . 309 14.2.3 懲罰導數作為正則. . . .309 14.3 表示能力、層的大小和深度 . . 310 14.4 隨機編碼器和解碼器. . . . .310 14.5 去噪自編碼器詳解 . . . 311 14.5.1 得分估計 . . . . 312 14.5.2 歷史展望 . . . . 314 14.6 使用自編碼器學習流形 . . . . 314 14.7 收縮自編碼器 . . . .317 14.8 預測稀疏分解 . . . .319 14.9 自編碼器的應用 . . . 319 第 15 章 表示學習 . . . . 321 15.1 貪心逐層無監督預訓練 . . . . 322 15.1.1 何時以及為何無監督預訓練有效有效 . . . 323 15.2 遷移學習和領域自我調整 . . . . 326 15.3 半監督解釋因果關係. . . . .329 15.4 分散式表示 . . . . 332 15.5 得益於深度的指數增益 . . . . 336 15.6 提供發現潛在原因的線索 . . 337 第 16 章 深度學習中的結構化概率模型 . . 339 16.1 非結構化建模的挑戰. . . . .339 16.2 使用圖描述模型結構. . . . .342 16.2.1 有向模型 . . . . 342 16.2.2 無向模型 . . . . 344 16.2.3 配分函數 . . . . 345 16.2.4 基於能量的模型 . . . .346 16.2.5 分離和 d-分離 . . . .347 16.2.6 在有向模型和無向模型中轉換 . . . 350 16.2.7 因數圖 . . . . 352 16.3 從圖模型中採樣 . . . 353 16.4 結構化建模的優勢 . . . 353 16.5 學習依賴關係 . . . .354 16.6 推斷和近似推斷 . . . 354 16.7 結構化概率模型的深度學習方法. . .355 16.7.1 實例:受限玻爾茲曼機 . . 356 第 17 章 蒙特卡羅方法 . . . 359 17.1 採樣和蒙特卡羅方法. . . . .359 17.1.1 為什麼需要採樣 . . . .359 17.1.2 蒙特卡羅採樣的基礎. . . .359 17.2 重要採樣. . . . .360 17.3 瑪律可夫鏈蒙特卡羅方法 . . 362 17.4 Gibbs 採樣. . . . .365 17.5 不同的峰值之間的混合挑戰 . . . 365 17.5.1 不同峰值之間通過回火來混合 . . . 367 17.5.2 深度也許會有助於混合 . . . 368 第 18 章 直面配分函數 . . . 369 18.1 對數似然梯度 . . . .369 18.2 隨機最大似然和對比散度 . . 370 18.3 偽似然 . . . 375 18.4 得分匹配和比率匹配. . . . .376 18.5 去噪得分匹配 . . . .378 18.6 雜訊對比估計 . . . .378 18.7 估計配分函數 . . . .380 18.7.1 退火重要採樣 . . . . 382 18.7.2 橋式採樣 . . . . 384 第 19 章 近似推斷 . . . . 385 19.1 把推斷視作優化問題. . . . .385 19.2 期望最大化 . . . . 386 19.3 最大後驗推斷和稀疏編碼 . . 387 19.4 變分推斷和變分學習. . . . .389 19.4.1 離散型潛變數 . . . . 390 19.4.2 變分法 . . . . 394 19.4.3 連續型潛變數 . . . . 396 19.4.4 學習和推斷之間的相互作用 . . . 397 19.5 學成近似推斷 . . . .397 19.5.1 醒眠演算法 . . . . 398 19.5.2 學成推斷的其他形式. . . .398 第 20 章 深度生成模型 . . . 399 20.1 玻爾茲曼機 . . . . 399 20.2 受限玻爾茲曼機 . . . 400 20.2.1 條件分佈 . . . . 401 20.2.2 訓練受限玻爾茲曼機. . . .402 20.3 深度信念網路 . . . .402 20.4 深度玻爾茲曼機 . . . 404 20.4.1 有趣的性質 . . . . 406 20.4.2 DBM 均勻場推斷 . . . . 406 20.4.3 DBM 的參數學習 . . . . 408 20.4.4 逐層預訓練 . . . . 408 20.4.5 聯合訓練深度玻爾茲曼機 . . . 410 20.5 實值數據上的玻爾茲曼機 . . 413 20.5.1 Gaussian-Bernoulli RBM . . . 413 20.5.2 條件協方差的無向模型 . . . 414 20.6 卷積玻爾茲曼機 . . . 417 20.7 用於結構化或序列輸出的玻爾茲曼機 . . 418 20.8 其他玻爾茲曼機 . . . 419 20.9 通過隨機操作的反向傳播 . . 419 20.9.1 通過離散隨機操作的反向傳播 . . . 420 20.10 有向生成網路. . . . .422 20.10.1 sigmoid 信念網路 . . . 422 20.10.2 可微生成器網路 . . .423 20.10.3 變分自編碼器 . . .425 20.10.4 生成式對抗網路 . . .427 20.10.5 生成矩匹配網路 . . .429 20.10.6 卷積生成網路 . . .430 20.10.7 自回歸網路 . . . 430 20.10.8 線性自回歸網路 . . .430 20.10.9 神經自回歸網路 . . .431 20.10.10 NADE . . . . 432 20.11 從自編碼器採樣 . . . . 433 20.11.1 與任意去噪自編碼器相關的瑪律可夫鏈 . . 434 20.11.2 夾合與條件採樣 . . .434 20.11.3 回退訓練過程 . . .435 20.12 生成隨機網路. . . . .435 20.12.1 判別性 GSN . . . . 436 20.13 其他生成方案. . . . .436 20.14 評估生成模型. . . . .437 20.15 結論 . . . . 438 參考文獻. . . .439 索引 . . . . 486
|
序: |