3dwoo大學簡體電腦書店
推薦系統算法實踐
( 簡體 字)
作者:黃美靈類別:1. -> 程式設計 -> 綜合
出版社:電子工業出版社推薦系統算法實踐 3dWoo書號: 51661
詢問書籍請說出此書號!
有庫存
NT售價: 445
出版日:9/1/2019
頁數:356
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121370403 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1部分 推薦系統的算法基礎
第1章 數學基礎 2
1.1 線性代數 2
1.2 概率與統計 5
1.3 損失函數 7
1.4 優化方法 8
1.4.1 SGD 8
1.4.2 動量 8
1.4.3 Nesterov動量 9
1.4.4 AdaGrad 9
1.4.5 Adam 10
1.4.6 L-BFGS 10
1.4.7 梯度法和牛頓法的比較 11
1.5 評價方法 11
1.5.1 混淆矩陣 11
1.5.2 ROC曲線 13
第2章 推薦系統介紹 17
2.1 推薦系統背景 17
2.2 推薦系統的典型案例 18
2.2.1 Amazon推薦 19
2.2.2 Facebook推薦 21
2.2.3 YouTube推薦 22
2.3 推薦系統原理 23
第3章 推薦算法工具 26
3.1 Python Sklearn機器學習庫 26
3.1.1 Sklearn介紹 26
3.1.2 Sklearn建模流程 27
3.2 Spark MLlib機器學習庫 28
3.2.1 MLlib介紹 28
3.2.2 MLlib建模流程 29
3.3 TensorFlow 31
3.3.1 TensorFlow介紹 31
3.3.2 TensorFlow建模流程 31
3.4 Notebook介紹 32
3.4.1 Zeppelin Notebook介紹 32
3.4.2 Jupyter Notebook介紹 36
第2部分 推薦系統的召回算法
第4章 協同過濾——基于行為相似的召回 40
4.1 協同過濾算法 40
4.1.1 協同過濾推薦概述 40
4.1.2 用戶評分 41
4.1.3 相似度計算 41
4.1.4 推薦計算 43
4.2 協同過濾推薦算法實現 44
4.2.1 相似度計算及推薦計算 47
4.2.2 協同推薦 54
4.2.3 運行結果 59
第5章 Word2vec——基于內容相似的召回 65
5.1 Word2vec算法 65
5.1.1 語言模型 65
5.1.2 CBOW One-Word Context模型 66
5.1.3 CBOW Multi-Word Context 模型 71
5.1.4 Skip-Gram模型 72
5.1.5 Hierarchical Softmax 74
5.1.6 Negative Sampling 74
5.2 Word2vec實例 75
5.2.1 Spark實現 75
5.2.2 TensorFlow實現 80
第3部分 推薦系統的排序算法——線性模型
第6章 邏輯回歸 86
6.1 邏輯回歸算法 86
6.1.1 二元邏輯回歸模型 86
6.1.2 模型參數估計 88
6.1.3 多元邏輯回歸模型(Softmax回歸) 88
6.1.4 邏輯回歸的網絡結構 89
6.1.5 梯度下降算法 90
6.1.6 正則化 91
6.2 邏輯回歸實現 93
6.2.1 Sklearn實現 93
6.2.2 Spark實現 98
6.2.3 TensorFlow實現 108
6.2.4 效果總結 114
第7章 因子分解機(FM) 115
7.1 FM算法 115
7.1.1 FM模型 115
7.1.2 FFM模型 118
7.1.3 FM模型的網絡結構 119
7.2 FM實現 120
7.2.1 Sklearn實現 120
7.2.2 TensorFlow實現 122
7.2.3 效果總結 128
第4部分 推薦系統的排序算法——樹模型
第8章 決策樹 130
8.1 決策樹算法 130
8.1.1 決策樹模型 130
8.1.2 特征選擇 131
8.1.3 決策樹的生成 133
8.1.4 決策樹的生成實例 134
8.1.5 決策樹的剪枝 135
8.2 決策樹的集成算法 136
8.2.1 集成分類器 136
8.2.2 隨機森林 137
8.2.3 GBDT 137
8.3 決策樹集成算法實例 139
8.3.1 Spark實現 139
8.3.2 Sklearn實現 149
8.3.3 效果總結 154
第9章 集成學習 155
9.1 GBDT+LR算法 155
9.1.1 背景 155
9.1.2 GBDT+LR網絡結構 156
9.2 深度森林算法 159
9.2.1 深度森林介紹 159
9.2.2 級聯森林 160
9.2.3 多粒度掃描 161
9.3 決策樹集成分類器 162
9.4 集成學習實例 164
9.4.1 GBDT+LR實現 164
9.4.2 深度森林實現 167
9.4.3 效果總結 175
第5部分 推薦系統的排序算法——深度學習模型
第10章 深度學習在推薦算法中的應用 178
10.1 推薦模型的特點 178
10.2 基于深度學習的推薦模型 179
10.2.1 DNN優化高階特征 179
10.2.2 高階特征交叉與低階特征交叉 181
10.2.3 特征交叉優化 183
10.2.4 特征連接優化 184
10.2.5 高階特征交叉優化 185
10.2.6 多樣性的深度興趣特征優化 186
第11章 DNN算法 189
11.1 人工神經網絡算法 189
11.1.1 神經元 189
11.1.2 神經網絡模型 191
11.1.3 信號的前向傳播 191
11.1.4 誤差的反向傳播 193
11.2 DNN優化方法 195
11.2.1 優化參數 196
11.2.2 Attention機制 197
11.3 DNN實例 198
11.4 運行結果 205
第12章 Wide & Deep模型 206
12.1 Wide & Deep模型概述 206
12.1.1 Wide模型 208
12.1.2 Deep模型 209
12.1.3 模型聯合訓練 210
12.2 Wide & Deep系統實現 211
12.2.1 推薦系統介紹 211
12.2.2 系統流程 212
12.2.3 訓練數據的生成 213
12.2.4 模型訓練 213
12.2.5 線上應用 214
12.3 Wide & Deep實例 214
12.4 運行結果 219
第13章 DeepFM模型 225
13.1 DeepFM模型概述 225
13.1.1 FM組件 226
13.1.2 Deep組件 228
13.1.3 模型對比 229
13.2 DeepFM模型實例 231
13.3 運行結果 241
第14章 YouTube的深度神經網絡模型 243
14.1 YouTube推薦模型 243
14.1.1 背景介紹 243
14.1.2 召回模型設計 245
14.1.3 排序模型設計 250
14.2 YouTube實例 252
14.3 運行結果 256
第6部分 推薦系統的算法實踐
第15章 實踐——基于電商平臺的商品召回 260
15.1 背景介紹 260
15.2 模型選擇 261
15.3 算法開發 261
第16章 實踐——基于邏輯回歸的音樂評分預測 266
16.1 背景介紹 266
16.2 數據準備 266
16.3 特征處理 268
16.4 模型選擇 270
16.5 算法開發 271
第17章 實踐——Kaggle競賽之Outbrain點擊率預估 275
17.1 背景介紹 275
17.2 數據準備 277
17.3 特征處理 283
17.4 模型選擇 284
17.4.1 FFM 285
17.4.2 XGBoost 288
17.4.3 集成學習 292
17.5 算法開發 292
第18章 實踐——基于深度學習的電商商品點擊率預估 297
18.1 背景介紹 297
18.2 數據準備 298
18.3 特征處理 302
18.4 模型選擇 303
18.5 算法開發 304
18.6 運行結果 309
第19章 Notebook實踐 312
19.1 Sklearn中的LR實踐 312
19.2 TensorFlow中的LR實踐 316
19.3 Spark中的LR實踐 321
19.4 TensorFlow中的FM調試實踐 327
19.5 Spark中的協同過濾調試實踐 331
本書主要講解推薦系統中的召回算法和排序算法,以及各個算法在主流工具Sklearn、Spark、TensorFlow等中的實現和應用。 書中本著循序漸進的原則進行講解。首先,介紹推薦系統中推薦算法的數學基礎,推薦算法的平臺、工具基礎,以及具體的推薦系統。其次,對推薦系統中的召回算法進行講解,主要包括基于行為相似的協同過濾召回和基于內容相似的Word2vec 召回,并且介紹其在Spark、TensorFlow 主流工具中的實現與應用。再次,講解推薦系統中的排序算法,包括線性模型、樹模型和深度學習模型,分別介紹邏輯回歸、FM、決策樹、隨機森林、GBDT、GBDT+LR、集成學習、深度森林、DNN、Wide & Deep、DeepFM、YouTube推薦等模型的原理,以及其在Sklearn、Spark、TensorFlow 主流工具中的實現與應用。最后,介紹推薦算法的4 個實踐案例,幫助讀者進行工程實踐和應用,并且介紹如何在Notebook 上進行代碼開發和算法調試,以幫助讀者提升工作效率。
隨著互聯網行業的高速發展,人們獲取信息的方式越來越多,從主動獲取信息逐漸變為被動接收信息,信息量也呈爆發式增長。因此,人們已經從信息匱乏時代進入信息“過載”時代。人們對信息獲取的有效性和針對性的需求隨之出現,推薦系統也應運而生。推薦系統就是互聯網時代的一種信息檢索工具,推薦系統的任務就是連接用戶和信息,創造價值。
推薦系統從20世紀90年代開始出現,逐漸成為一門獨立的學科,并且在學術界和工業界應用中都取得了諸多成果。本書主要講解目前學術界和工業界的一些主流、常用的推薦方法和工具。
首先從基礎開始,介紹數學基礎、具體的推薦系統,以及常用的推薦算法工具,包括目前主流的工具Sklearn、Spark MLlib、TensorFlow,并且介紹效率提升工具Zeppelin Notebook和Jupyter Notebook。
隨后講解推薦系統中的召回算法,包括常見的協同過濾和Word2vec兩個算法,并且介紹這兩個算法在Spark、TensorFlow主流工具中的實現。
接著講解推薦系統中的排序算法——線性模型,包括常見的邏輯回歸和FM兩個算法,并且介紹這兩個算法在Sklearn、Spark、TensorFlow主流工具中的實現。
然后講解推薦系統中的排序算法——樹模型,包括常見的隨機森林、GBDT、GBDT+LR、集成學習算法以及最近出現的深度森林算法,并且介紹各個算法在Sklearn、Spark、TensorFlow主流工具中的實現。
之后講解推薦系統中的排序算法——深度學習模型,包括深度學習在推薦算法中的應用、常見的DNN算法以及最近出現的DeepFM、Wide & Deep、YouTube推薦模型等,并且介紹各個算法在TensorFlow工具中的實現。
最后講解電商平臺的商品召回、音樂的評分預測、Kaggle競賽Outbrain的點擊率預估和電商商品點擊率預估4個推薦算法的實踐案例,并且講解在Notebook上進行代碼開發的實踐案例和算法調試的實踐案例。
本書主要對推薦系統中的常見方法和工具進行全面講解,并且配合講解算法原理、實現以及案例,通過本書可從基礎到實踐全面掌握推薦系統中的推薦算法。
學習本書內容需要具備以下基礎:Python基礎知識、Spark基礎知識、TensorFlow基礎知識、Scala基礎知識、線性代數基礎知識等。
本書面向以下各類讀者:機器學習工程師、數據挖掘工程師、大數據工程師、各高校的研究生和高年級本科生等。
本書學習指南
第1部分 推薦系統的算法基礎
第1章 數學基礎
第2章 推薦系統介紹
第3章 推薦算法工具
本部分涵蓋以下內容:
√推薦算法的基礎知識講解,包括數學基礎知識的講解,如對線性代數、概率與統計、損失函數、優化方法和評價方法等內容的介紹;
√對具體推薦系統的介紹;
√常用的推薦算法工具,如Sklearn、Spark MLlib、TensorFlow、Zeppelin Notebook和Jupyter Notebook
通過本部分的學習,可掌握數學基礎、常用工具、推薦系統入門等相關知識

第2部分 推薦系統的召回算法
第4章 協同過濾——基于行為相似的召回
第5章 Word2vec——基于內容相似的召回
本部分介紹推薦系統的召回算法,包含常見的協同過濾和Word2vec
通過本部分的學習,可掌握常見的兩個召回算法,以及其在Spark、TensorFlow主流工具中的實現,讀者可以實現簡單的召回方法開發,并可以實現具體的實踐應用

第3部分 推薦系統的排序算法——線性模型
第6章 邏輯回歸
第7章 因子分解機(FM)
第4部分 推薦系統的排序算法——樹模型
第8章 決策樹
第9章 集成學習
第5部分 推薦系統的排序算法——深度學習模型
第10章 深度學習在推薦算法中的應用
第11章 DNN算法
第12章 Wide & Deep模型
第13章 DeepFM模型
第14章 YouTube的深度神經網絡模型
這幾部分介紹推薦系統的排序算法,包括線性模型、樹模型、深度學習模型:
√線性模型部分介紹邏輯回歸、FM算法等內容;
√樹模型部分介紹決策樹、隨機森林、GBDT、GBDT+LR、集成學習、深度森林等內容;
√深度學習模型部分介紹DNN、Wide & Deep、DeepFM、YouTube推薦模型等內容
通過這幾部分的學習,可掌握常見的排序算法,以及其在Sklearn、Spark、TensorFlow主流工具中的實現,讀者可以實現簡單的排序方法開發,并可以實現具體的實踐應用

第6部分 推薦系統的算法實踐
第15章 實踐——基于電商平臺的商品召回
第16章 實踐——基于邏輯回歸的音樂評分預測
第17章 實踐——Kaggle競賽Outbrain的點擊率預估
第18章 實踐——基于深度學習的電商商品點擊率預估
第19章 Notebook實踐
本部分介紹推薦算法的具體實踐,包括電商平臺的商品召回、音樂評分預測、Outbrain的點擊率預估和電商商品點擊率預估4個推薦算法的實踐案例,以及Notebook的使用方法(包括Zeppelin Notebook和Jupyter Notebook)
通過本部分的學習,可以幫助讀者進行具體的工程實踐和應用,以及掌握Notebook的使用方法,提升工作效率

在本書的編寫過程中,參考了一些國內外文獻,主要如下。
【第1章】1.4節“優化方法”,參考了張志華審校的《深度學習》一書中的第8章(英文版是由Ian Goodfellow、Yoshua Bengio和Aaron Courville編寫的Deep Learning)。
【第5章】5.1節“Word2vec算法”,參考了Xin Rong在2016年發表的論文Word2vec Parameter Learning Explained。
【第6章】6.1節“邏輯回歸算法”,參考了李航編寫的《統計學習方法》的第6章。
【第7章】7.1節“FM算法”,參考了美團技術文章《深入FFM原理與實踐》、Steffen Rendle在2010發表的論文Factorization Machines、Yu-Chin Juan在2016年發表的論文Field-aware Factorization Machines for CTR Prediction。
【第9章】9.1節“GBDT+LR算法”,參考了He Xinran在2014年發表的論文Practical Lessons from Predicting Clicks on Ads at Facebook。9.2節“深度森林算法”,參考了周志華在2018年發表的論文Deep Forest: Towards an Alternative to Deep Neural Networks。
【第11章】11.2.2節“Attention機制”,參考了Colin Raffel在2016年發表的論文Feed- forward networks with attention can solve some long-term memory problems。
【第12章】參考了Heng-Tze Cheng在2016年發表的論文Wide & Deep Learning for Recommender Systems。
【第13章】參考了Huifeng Guo在2017年發表的論文DeepFM: A Factorization-Machine based Neural Network for CTR Prediction。
【第14章】參考了Paul Covington在2016年發表的論文Deep Neural Networks for YouTube Recommendations。
另外,書中參考的部分內容未能找到原始出處和作者,在此對相關作者表示衷心感謝。
何娟、何丹、黃春林參與了全書的編寫、整理及校對工作。邱泰生、吳德龍對全書提出了寶貴意見。
由于筆者的水平有限,編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。讀者也可以通過微信公眾號“推薦系統算法實踐”、郵箱403122592@qq.com和QQ群715526135 聯系到我,期待能夠得到讀者朋友的真摯反饋,在技術之路上互勉共進。
本書在寫作的過程中得到了很多朋友及同事的幫助和支持,在此表示衷心感謝!
在工作中筆者也得到了很多同事的指導、支持和幫助,尤其感謝王雪暉、吳俊彥、邱泰生、KUN BAI、吳德龍、江偉森、李釗、吳春成、周遠遠、林偉兵、黃韜、文雙炳,米成錦、郭嘉杰、謝維邦、彭佑輝、鐘俊葳、郭鑫鵬、謝毅、陳慶麟、胡榮杰、何錦潮、戴智君、張燕、林也、邱鑫、代鋒、駱順昌、李陽、熊先明、樊鵬等給予的支持與幫助。
感謝電子工業出版社的付睿編輯,她不僅積極策劃和推動本書的出版,而且在寫作過程中提出了極為詳細的改進意見。感謝電子工業出版社的李云靜、王中英編輯為本書做了非常辛苦和專業的編輯工作。
感謝我的父母和妻子,有了你們的幫助和支持,我才有時間和精力去完成本書的寫作。
最后,將此書獻給熱愛AI和大數據技術的朋友們!
讀者服務
輕松注冊成為博文視點社區用戶(www.broadview.com.cn),掃碼直達本書頁面。
√提交勘誤:您對書中內容的修改意見可在 提交勘誤 處提交,若被采納,將獲贈博文視點社區積分(在您購買電子書時,積分可用來抵扣相應金額)。
√交流互動:在頁面下方 讀者評論 處留下您的疑問或觀點,與我們和其他讀者一同學習交流。
pagetop