-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

深度學習

( 簡體 字)
作者:[美]Ian Goodfellow(伊恩·古德費洛)、[加]Yoshua Bengio(約書亞·本吉奧)、[加]Aaron Courville(亞倫·庫維爾)類別:1. -> 程式設計 -> 深度學習
譯者:
出版社:人民郵電出版社深度學習 3dWoo書號: 47296
詢問書籍請說出此書號!

缺書
NT售價: 840

出版日:7/1/2017
頁數:500
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787115461476
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

AI聖經!深度學習領域奠基性的經典暢銷書!長期位居美國亞馬遜AI和機器學習類圖書榜首!所有資料科學家和機器學習從業者的必讀圖書!特斯拉CEO埃隆•馬斯克等國內外眾多專家推薦! 深度學習是機器學習的一個分支,它能夠使電腦通過層次概念來學習經驗和理解世界。因為電腦能夠從經驗中獲取知識,所以不需要人類來形式化地定義電腦需要的所有知識。層次概念允許電腦通過構造簡單的概念來學習複雜的概念,而這些分層的圖結構將具有很深的層次。本書會介紹深度學習領域的許多主題。 本書囊括了數學及相關概念的背景知識,包括線性代數、概率論、資訊理論、數值優化以及機器學習中的相關內容。同時,它還介紹了工業界中實踐者用到的深度學習技術,包括深度前饋網路、正則化、優化演算法、卷積網路、序列建模和實踐方法等,並且調研了諸如自然語言處理、語音辨識、電腦視覺、線上推薦系統、生物資訊學以及視頻遊戲方面的應用。*後,本書還提供了一些研究方向,涵蓋的理論主題包括線性因數模型、自編碼器、表示學習、結構化概率模型、蒙特卡羅方法、配分函數、近似推斷以及深度生成模型。 《深度學習》這本書既可以被本科生或研究生用於規劃其學術界或工業界生涯,也適用於希望在各種產品或平臺上開始使用深度學習技術的軟體工程師。作者在本書的配套網站上為讀者和教師提供了補充資料。中文版讀者可以訪問人民郵電出版社非同步社區www.epubit.com.cn獲取相關資訊。 封面特色: 由藝術家Daniel Ambrosi提供的中央公園杜鵑花步道夢幻景觀。在Ambrosi的億級圖元全景圖上,應用Joseph Smarr(Google)和Chirs Lamb(NVIDIA)修改後的Google DeepDream開來源程式,創造了Daniel Ambrosi的“幻景”。
內容簡介:

《深度學習》由全球知名的三位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學習領域奠基性的經典教材。全書的內容包括3個部分:第1部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第2部分系統深入地講解現今已成熟的深度學習方法和技術;第3部分討論某些具有前瞻性的方向和想法,它們被公認為是深度學習未來的研究重點。 《深度學習》適合各類讀者閱讀,包括相關專業的大學生或研究生,以及不具有機器學習或統計背景、但是想要快速補充深度學習知識,以便在實際產品或平臺中應用的軟體工程師。
目錄:

第 1 章 引言 . . . . 1
1.1 本書面向的讀者 . . .7
1.2 深度學習的歷史趨勢 . . . . 8
1.2.1 神經網路的眾多名稱和命運變遷 . . 8
1.2.2 與日俱增的數據量 . . . . 12
1.2.3 與日俱增的模型規模 . . . .13
1.2.4 與日俱增的精度、複雜度和對現實世界的衝擊 . . . 15

第 1 部分 應用數學與機器學習基礎
第 2 章 線性代數 . . . . 19
2.1 標量、向量、矩陣和張量 . . . 19
2.2 矩陣和向量相乘. . . .21
2.3 單位矩陣和逆矩陣 . . . 22
2.4 線性相關和生成子空間 . . . . 23
2.5 範數. . . .24
2.6 特殊類型的矩陣和向量 . . . . 25
2.7 特徵分解 . . . 26
2.8 奇異值分解 . . . . 28
2.9 Moore-Penrose 偽逆 . . . . 28
2.10 跡運算 . . . . 29
2.11 行列式 . . . . 30
2.12 實例:主成分分析. . . . .30
第 3 章 概率與資訊理論. . . .34
3.1 為什麼要使用概率 . . . 34
3.2 隨機變數 . . . 35
3.3 概率分佈 . . . 36
3.3.1 離散型變數和概率品質函數 . . . 36
3.3.2 連續型變數和概率密度函數 . . . 36
3.4 邊緣概率 . . . 37
3.5 條件概率 . . . 37
3.6 條件概率的鏈式法則 . . . 38
3.7 獨立性和條件獨立性 . . . 38
3.8 期望、方差和協方差 . . . 38
3.9 常用概率分佈 . . . . 39
3.9.1 Bernoulli 分佈 . . . 40
3.9.2 Multinoulli 分佈 . . . 40
3.9.3 高斯分佈 . . . . 40
3.9.4 指數分佈和 Laplace 分佈 . . . 41
3.9.5 Dirac 分佈和經驗分佈 . . . . 42
3.9.6 分佈的混合 . . . . 42
3.10 常用函數的有用性質. . . .43
3.11 貝葉斯規則 . . . 45
3.12 連續型變數的技術細節 . . . 45
3.13 資訊理論 . . . . 47
3.14 結構化概率模型 . . . . 49
第 4 章 數值計算 . . . . 52
4.1 上溢和下溢 . . . . 52
4.2 病態條件 . . . 53
4.3 基於梯度的優化方法 . . . 53
4.3.1 梯度之上:Jacobian 和 Hessian 矩陣 . . . 56
4.4 約束優化 . . . 60
4.5 實例:線性最小二乘 . . . 61
第 5 章 機器學習基礎. . . .63
5.1 學習演算法 . . . 63
5.1.1 任務 T . . . 63
5.1.2 性能度量 P . . . . 66
5.1.3 經驗 E . . . . 66
5.1.4 示例:線性回歸 . . . . 68
5.2 容量、過擬合和欠擬合 . . . 70
5.2.1 沒有免費午餐定理 . . . . 73
5.2.2 正則化 . . . . 74
5.3 超參數和驗證集. . . .76
5.3.1 交叉驗證 . . . . 76
5.4 估計、偏差和方差. . . .77
5.4.1 點估計 . . . . 77
5.4.2 偏差 . . . . 78
5.4.3 方差和標準差 . . . . 80
5.4.4 權衡偏差和方差以最小化均方誤差 . . . 81
5.4.5 一致性 . . . . 82
5.5 最大似然估計 . . . . 82
5.5.1 條件對數似然和均方誤差. . . .84
5.5.2 最大似然的性質 . . . . 84
5.6 貝葉斯統計 . . . . 85
5.6.1 最大後驗 (MAP) 估計 . . . . 87
5.7 監督學習演算法 . . . . 88
5.7.1 概率監督學習 . . . . 88
5.7.2 支持向量機 . . . . 88
5.7.3 其他簡單的監督學習演算法. . . .90
5.8 無監督學習演算法. . . .91
5.8.1 主成分分析 . . . . 92
5.8.2 k-均值聚類 . . .94
5.9 隨機梯度下降 . . . . 94
5.10 構建機器學習演算法 . . . . 96
5.11 促使深度學習發展的挑戰 . . . 96
5.11.1 維數災難 . . . 97
5.11.2 局部不變性和平滑正則化 . . 97
5.11.3 流形學習 . . . 99

第 2 部分 深度網路:現代實踐
第 6 章 深度前饋網路 . . . . 105
6.1 實例:學習 XOR. . . . 107
6.2 基於梯度的學習 . . . . 110
6.2.1 代價函數 . . . 111
6.2.2 輸出單元 . . . 113
6.3 隱藏單元. . . .119
6.3.1 整流線性單元及其擴展 . . 120
6.3.2 logistic sigmoid 與雙曲正切函數 . . 121
6.3.3 其他隱藏單元 . . . 122
6.4 架構設計. . . .123
6.4.1 萬能近似性質和深度. . . . .123
6.4.2 其他架構上的考慮 . . .126
6.5 反向傳播和其他的微分演算法. . .126
6.5.1 計算圖 . . . 127
6.5.2 微積分中的鏈式法則. . . . .128
6.5.3 遞迴地使用鏈式法則來實現反向傳播 . . 128
6.5.4 全連接 MLP 中的反向傳播計算 . . 131
6.5.5 符號到符號的導數 . . .131
6.5.6 一般化的反向傳播 . . .133
6.5.7 實例:用於 MLP 訓練的反向傳播 . . .135
6.5.8 複雜化 . . . 137
6.5.9 深度學習界以外的微分 . . 137
6.5.10 高階微分 . . . . 138
6.6 歷史小記. . . .139
第 7 章 深度學習中的正則化 . . . 141
7.1 參數範數懲罰 . . . 142
7.1.1 L2 參數正則化 . . . . 142
7.1.2 L1 正則化 . . . . 144
7.2 作為約束的範數懲罰. . . .146
7.3 正則化和欠約束問題. . . .147
7.4 資料集增強 . . . 148
7.5 雜訊魯棒性 . . . 149
7.5.1 向輸出目標注入雜訊. . . . .150
7.6 半監督學習 . . . 150
7.7 多工學習 . . . 150
7.8 提前終止. . . .151
7.9 參數綁定和參數共用. . . .156
7.9.1 卷積神經網路 . . . 156
7.10 稀疏表示. . . . .157
7.11 Bagging 和其他集成方法. . .158
7.12 Dropout . . . .159
7.13 對抗訓練. . . . .165
7.14 切面距離、正切傳播和流形正切分類器 . . 167
第 8 章 深度模型中的優化. . . .169
8.1 學習和純優化有什麼不同 . . . 169
8.1.1 經驗風險最小化 . . . 169
8.1.2 代理損失函數和提前終止 . . 170
8.1.3 批量演算法和小批量演算法 . . 170
8.2 神經網路優化中的挑戰 . . . 173
8.2.1 病態 . . . 173
8.2.2 局部極小值 . . . 174
8.2.3 高原、鞍點和其他平坦區域 . . .175
8.2.4 懸崖和梯度爆炸 . . . 177
8.2.5 長期依賴 . . . 177
8.2.6 非精確梯度 . . . 178
8.2.7 局部和全域結構間的弱對應 . . 178
8.2.8 優化的理論限制 . . . 179
8.3 基本演算法. . . .180
8.3.1 隨機梯度下降 . . . 180
8.3.2 動量 . . . 181
8.3.3 Nesterov 動量. . . . .183
8.4 參數初始化策略 . . . . 184
8.5 自我調整學習率演算法 . . . . 187
8.5.1 AdaGrad . . . . 187
8.5.2 RMSProp . . . . 188
8.5.3 Adam . . . . 189
8.5.4 選擇正確的優化演算法. . . . .190
8.6 二階近似方法 . . . 190
8.6.1 牛頓法 . . . 190
8.6.2 共軛梯度 . . . 191
8.6.3 BFGS. . . . 193
8.7 優化策略和元演算法 . . . . 194
8.7.1 批標準化 . . . 194
8.7.2 座標下降 . . . 196
8.7.3 Polyak 平均 . . . . 197
8.7.4 監督預訓練 . . . 197
8.7.5 設計有助於優化的模型 . . 199
8.7.6 延拓法和課程學習 . . .199
第 9 章 卷積網路 . . . 201
9.1 卷積運算. . . .201
9.2 動機 . . . . 203
9.3 池化 . . . . 207
9.4 卷積與池化作為一種無限強的先驗 . . . 210
9.5 基本磁碟區積函數的變體. . . .211
9.6 結構化輸出 . . . 218
9.7 資料類型. . . .219
9.8 高效的卷積演算法 . . . . 220
9.9 隨機或無監督的特徵. . . .220
9.10 卷積網路的神經科學基礎 . . 221
9.11 卷積網路與深度學習的歷史 . . . 226
第 10 章 序列建模:迴圈和遞迴網路 . . . 227
10.1 展開計算圖 . . . . 228
10.2 迴圈神經網路 . . . .230
10.2.1 導師驅動過程和輸出迴圈網路 . . . 232
10.2.2 計算迴圈神經網路的梯度 . . . 233
10.2.3 作為有向圖模型的迴圈網路 . . . 235
10.2.4 基於上下文的 RNN 序列建模 . . . 237
10.3 雙向 RNN . . . 239
10.4 基於編碼 - 解碼的序列到序列架構 . . . 240
10.5 深度迴圈網路 . . . .242
10.6 遞迴神經網路 . . . .243
10.7 長期依賴的挑戰 . . . 244
10.8 回聲狀態網路 . . . .245
10.9 滲漏單元和其他多時間尺度的策略 . . 247
10.9.1 時間維度的跳躍連接. . . .247
10.9.2 滲漏單元和一系列不同時間尺度 . . . 247
10.9.3 刪除連接 . . . . 248
10.10 長短期記憶和其他門控 RNN . . 248
10.10.1 LSTM . . . 248
10.10.2 其他門控 RNN. . . .250
10.11 優化長期依賴. . . . .251
10.11.1 截斷梯度 . . . 251
10.11.2 引導資訊流的正則化 . . 252
10.12 外顯記憶 . . . 253
第 11 章 實踐方法論 . . . 256
11.1 性能度量. . . . .256
11.2 預設的基準模型 . . . 258
11.3 決定是否收集更多資料 . . . . 259
11.4 選擇超參數 . . . . 259
11.4.1 手動調整超參數 . . . .259
11.4.2 自動超參數優化演算法. . . .262
11.4.3 網格搜索 . . . . 262
11.4.4 隨機搜索 . . . . 263
11.4.5 基於模型的超參數優化 . . . 264
11.5 調試策略. . . . .264
11.6 示例:多位數字識別 . . . 267
第 12 章 應用. . . . .269
12.1 大規模深度學習 . . . 269
12.1.1 快速的 CPU 實現 . . . . 269
12.1.2 GPU 實現 . . . 269
12.1.3 大規模的分散式實現. . . .271
12.1.4 模型壓縮 . . . . 271
12.1.5 動態結構 . . . . 272
12.1.6 深度網路的專用硬體實現 . . . 273
12.2 電腦視覺 . . . . 274
12.2.1 預處理 . . . . 275
12.2.2 資料集增強 . . . . 277
12.3 語音辨識. . . . .278
12.4 自然語言處理 . . . .279
12.4.1 n-gram . . . .280
12.4.2 神經語言模型 . . . . 281
12.4.3 高維輸出 . . . . 282
12.4.4 結合 n-gram 和神經語言模型 . . . 286
12.4.5 神經機器翻譯 . . . . 287
12.4.6 歷史展望 . . . . 289
12.5 其他應用. . . . .290
12.5.1 推薦系統 . . . . 290
12.5.2 知識表示、推理和回答 . . 292

第 3 部分 深度學習研究
第 13 章 線性因數模型 . . . 297
13.1 概率 PCA 和因數分析 . . . 297
13.2 獨立成分分析 . . . .298
13.3 慢特徵分析 . . . . 300
13.4 稀疏編碼. . . . .301
13.5 PCA 的流形解釋 . . . . 304
第 14 章 自編碼器 . . . . 306
14.1 欠完備自編碼器 . . . 306
14.2 正則自編碼器 . . . .307
14.2.1 稀疏自編碼器 . . . . 307
14.2.2 去噪自編碼器 . . . . 309
14.2.3 懲罰導數作為正則. . . .309
14.3 表示能力、層的大小和深度 . . 310
14.4 隨機編碼器和解碼器. . . . .310
14.5 去噪自編碼器詳解 . . . 311
14.5.1 得分估計 . . . . 312
14.5.2 歷史展望 . . . . 314
14.6 使用自編碼器學習流形 . . . . 314
14.7 收縮自編碼器 . . . .317
14.8 預測稀疏分解 . . . .319
14.9 自編碼器的應用 . . . 319
第 15 章 表示學習 . . . . 321
15.1 貪心逐層無監督預訓練 . . . . 322
15.1.1 何時以及為何無監督預訓練有效有效 . . . 323
15.2 遷移學習和領域自我調整 . . . . 326
15.3 半監督解釋因果關係. . . . .329
15.4 分散式表示 . . . . 332
15.5 得益於深度的指數增益 . . . . 336
15.6 提供發現潛在原因的線索 . . 337
第 16 章 深度學習中的結構化概率模型 . . 339
16.1 非結構化建模的挑戰. . . . .339
16.2 使用圖描述模型結構. . . . .342
16.2.1 有向模型 . . . . 342
16.2.2 無向模型 . . . . 344
16.2.3 配分函數 . . . . 345
16.2.4 基於能量的模型 . . . .346
16.2.5 分離和 d-分離 . . . .347
16.2.6 在有向模型和無向模型中轉換 . . . 350
16.2.7 因數圖 . . . . 352
16.3 從圖模型中採樣 . . . 353
16.4 結構化建模的優勢 . . . 353
16.5 學習依賴關係 . . . .354
16.6 推斷和近似推斷 . . . 354
16.7 結構化概率模型的深度學習方法. . .355
16.7.1 實例:受限玻爾茲曼機 . . 356
第 17 章 蒙特卡羅方法 . . . 359
17.1 採樣和蒙特卡羅方法. . . . .359
17.1.1 為什麼需要採樣 . . . .359
17.1.2 蒙特卡羅採樣的基礎. . . .359
17.2 重要採樣. . . . .360
17.3 瑪律可夫鏈蒙特卡羅方法 . . 362
17.4 Gibbs 採樣. . . . .365
17.5 不同的峰值之間的混合挑戰 . . . 365
17.5.1 不同峰值之間通過回火來混合 . . . 367
17.5.2 深度也許會有助於混合 . . . 368
第 18 章 直面配分函數 . . . 369
18.1 對數似然梯度 . . . .369
18.2 隨機最大似然和對比散度 . . 370
18.3 偽似然 . . . 375
18.4 得分匹配和比率匹配. . . . .376
18.5 去噪得分匹配 . . . .378
18.6 雜訊對比估計 . . . .378
18.7 估計配分函數 . . . .380
18.7.1 退火重要採樣 . . . . 382
18.7.2 橋式採樣 . . . . 384
第 19 章 近似推斷 . . . . 385
19.1 把推斷視作優化問題. . . . .385
19.2 期望最大化 . . . . 386
19.3 最大後驗推斷和稀疏編碼 . . 387
19.4 變分推斷和變分學習. . . . .389
19.4.1 離散型潛變數 . . . . 390
19.4.2 變分法 . . . . 394
19.4.3 連續型潛變數 . . . . 396
19.4.4 學習和推斷之間的相互作用 . . . 397
19.5 學成近似推斷 . . . .397
19.5.1 醒眠演算法 . . . . 398
19.5.2 學成推斷的其他形式. . . .398
第 20 章 深度生成模型 . . . 399
20.1 玻爾茲曼機 . . . . 399
20.2 受限玻爾茲曼機 . . . 400
20.2.1 條件分佈 . . . . 401
20.2.2 訓練受限玻爾茲曼機. . . .402
20.3 深度信念網路 . . . .402
20.4 深度玻爾茲曼機 . . . 404
20.4.1 有趣的性質 . . . . 406
20.4.2 DBM 均勻場推斷 . . . . 406
20.4.3 DBM 的參數學習 . . . . 408
20.4.4 逐層預訓練 . . . . 408
20.4.5 聯合訓練深度玻爾茲曼機 . . . 410
20.5 實值數據上的玻爾茲曼機 . . 413
20.5.1 Gaussian-Bernoulli RBM . . . 413
20.5.2 條件協方差的無向模型 . . . 414
20.6 卷積玻爾茲曼機 . . . 417
20.7 用於結構化或序列輸出的玻爾茲曼機 . . 418
20.8 其他玻爾茲曼機 . . . 419
20.9 通過隨機操作的反向傳播 . . 419
20.9.1 通過離散隨機操作的反向傳播 . . . 420
20.10 有向生成網路. . . . .422
20.10.1 sigmoid 信念網路 . . . 422
20.10.2 可微生成器網路 . . .423
20.10.3 變分自編碼器 . . .425
20.10.4 生成式對抗網路 . . .427
20.10.5 生成矩匹配網路 . . .429
20.10.6 卷積生成網路 . . .430
20.10.7 自回歸網路 . . . 430
20.10.8 線性自回歸網路 . . .430
20.10.9 神經自回歸網路 . . .431
20.10.10 NADE . . . . 432
20.11 從自編碼器採樣 . . . . 433
20.11.1 與任意去噪自編碼器相關的瑪律可夫鏈 . . 434
20.11.2 夾合與條件採樣 . . .434
20.11.3 回退訓練過程 . . .435
20.12 生成隨機網路. . . . .435
20.12.1 判別性 GSN . . . . 436
20.13 其他生成方案. . . . .436
20.14 評估生成模型. . . . .437
20.15 結論 . . . . 438
參考文獻. . . .439
索引 . . . . 486
序: