-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Apache Spark機器學習

( 簡體 字)
作者:[美]劉永川Alex Liu類別:1. -> 程式設計 -> Spark
譯者:
出版社:機械工業出版社Apache Spark機器學習 3dWoo書號: 46459
詢問書籍請說出此書號!

缺書
NT售價: 295

出版日:3/27/2017
頁數:208
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111562559
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書包裝了一系列項目“藍圖”,展示了Spark可以幫你解決的一些有趣挑戰,讀者在將理論知識實踐于一些實際項目之前,會了解到如何使用Sparknotebook,以及如何訪問、清洗和連接不同的數據集,你將在其中了解Spark機器學習如何幫助你完成從欺詐檢測到分析客戶流失等各種工作。你還將了解如何使用Spark的并行計算能力構建推薦引擎。
目錄:

譯者序
前 言
第1章 Spark機器學習簡介 1
1.1 Spark概述和技術優勢 2
1.1.1 Spark概述 2
1.1.2 Spark優勢 3
1.2 在機器學習中應用Spark計算 4
1.3 機器學習算法 5
1.4 MLlib 6
1.5 Spark RDD和DataFrame 8
1.5.1 Spark RDD 8
1.5.2 Spark DataFrame 9
1.5.3 R語言DataFrame API 10
1.5.4 機器學習框架、RM4E和Spark計算 11
1.5.5 機器學習框架 12
1.5.6 RM4E 13
1.5.7 Spark計算框架 13
1.6 機器學習工作流和Spark pipeline 14
1.7 機器學習工作流示例 16
1.8 Spark notebook簡介 19
1.8.1 面向機器學習的notebook方法 19
1.8.2 Spark notebook 21
1.9 小結 22
第2章 Spark機器學習的數據準備 24
2.1 訪問和加載數據集 25
2.1.1 訪問公開可用的數據集 25
2.1.2 加載數據集到Spark 26
2.1.3 數據集探索和可視化 27
2.2 數據清洗 29
2.2.1 處理數據不完備性 30
2.2.2 在Spark中進行數據清洗 31
2.2.3 更簡便的數據清洗 32
2.3 一致性匹配 33
2.3.1 一致性問題 33
2.3.2 基于Spark的一致性匹配 34
2.3.3 實體解析 34
2.3.4 更好的一致性匹配 35
2.4 數據集重組 36
2.4.1 數據集重組任務 36
2.4.2 使用Spark SQL進行數據集重組 37
2.4.3 在Spark上使用R語言進行數據集重組 38
2.5 數據集連接 39
2.5.1 數據連接及其工具——Spark SQL 39
2.5.2 Spark中的數據集連接 40
2.5.3 使用R語言數據表程序包進行數據連接 40
2.6 特征提取 42
2.6.1 特征開發的挑戰 42
2.6.2 基于Spark MLlib的特征開發 43
2.6.3 基于R語言的特征開發 45
2.7 復用性和自動化 45
2.7.1 數據集預處理工作流 46
2.7.2 基于Spark pipeline的數據集預處理 47
2.7.3 數據集預處理自動化 47
2.8 小結 49
第3章 基于Spark的整體視圖 51
3.1 Spark整體視圖 51
3.1.1 例子 52
3.1.2 簡潔快速的計算 54
3.2 整體視圖的方法 55
3.2.1 回歸模型 56
3.2.2 SEM方法 57
3.2.3 決策樹 57
3.3 特征準備 58
3.3.1 PCA 59
3.3.2 使用專業知識進行分類分組 59
3.3.3 特征選擇 60
3.4 模型估計 61
3.4.1 MLlib實現 62
3.4.2 R notebook實現 62
3.5 模型評估 63
3.5.1 快速評價 63
3.5.2 RMSE 64
3.5.3 ROC曲線 65
3.6 結果解釋 66
3.7 部署 66
3.7.1 儀表盤 67
3.7.2 規則 68
3.8 小結 68
第4章 基于Spark的欺詐檢測 69
4.1 Spark欺詐檢測 70
4.1.1 例子 70
4.1.2 分布式計算 71
4.2 欺詐檢測方法 72
4.2.1 隨機森林 73
4.2.2 決策樹 74
4.3 特征提取 74
4.3.1 從日志文件提取特征 75
4.3.2 數據合并 75
4.4 模型估計 76
4.4.1 MLlib實現 77
4.4.2 R notebook實現 77
4.5 模型評價 77
4.5.1 快速評價 78
4.5.2 混淆矩陣和誤報率 78
4.6 結果解釋 79
4.7 部署欺詐檢測 80
4.7.1 規則 81
4.7.2 評分 81
4.8 小結 82
第5章 基于Spark的風險評分 83
5.1 Spark用于風險評分 84
5.1.1 例子 84
5.1.2 Apache Spark notebook 85
5.2 風險評分方法 87
5.2.1 邏輯回歸 87
5.2.2 隨機森林和決策樹 88
5.3 數據和特征準備 89
5.4 模型估計 91
5.4.1 在Data Scientist Workbench上應用R notebook 91
5.4.2 實現R notebook 92
5.5 模型評價 93
5.5.1 混淆矩陣 93
5.5.2 ROC分析 93
5.5.3 Kolmogorov-Smirnov檢驗 94
5.6 結果解釋 95
5.7 部署 96
5.8 小結 97
第6章 基于Spark的流失預測 99
6.1 Spark流失預測 99
6.1.1 例子 100
6.1.2 Spark計算 100
6.2 流失預測的方法 101
6.2.1 回歸模型 102
6.2.2 決策樹和隨機森林 103
6.3 特征準備 104
6.3.1 特征提取 104
6.3.2 特征選擇 105
6.4 模型估計 105
6.5 模型評估 107
6.6 結果解釋 109
6.7 部署 110
6.7.1 評分 111
6.7.2 干預措施推薦 111
6.8 小結 111
第7章 基于Spark的產品推薦 112
7.1 基于Apache Spark 的產品推薦引擎 112
7.1.1 例子 113
7.1.2 基于Spark平臺的SPSS 114
7.2 產品推薦方法 117
7.2.1 協同過濾 117
7.2.2 編程準備 118
7.3 基于SPSS的數據治理 119
7.4 模型估計 120
7.5 模型評價 121
7.6 產品推薦部署 122
7.7 小結 125
第8章 基于Spark的學習分析 126
8.1 Spark流失預測 127
8.1.1 例子 127
8.1.2 Spark計算 128
8.2 流失預測方法 130
8.2.1 回歸模型 130
8.2.2 決策樹 131
8.3 特征準備 131
8.3.1 特征開發 133
8.3.2 特征選擇 133
8.4 模型估計 135
8.5 模型評價 137
8.5.1 快速評價 138
8.5.2 混淆矩陣和錯誤率 138
8.6 結果解釋 139
8.6.1 計算干預影響 140
8.6.2 計算主因子影響 140
8.7 部署 141
8.7.1 規則 141
8.7.2 評分 142
8.8 小結 143
第9章 基于Spark的城市分析 144
9.1 Spark服務預測 145
9.1.1 例子 145
9.1.2 Spark計算 146
9.1.3 服務預測方法 148
9.1.4 回歸模型 149
9.1.5 時間序列建模 149
9.2 數據和特征準備 151
9.2.1 數據合并 151
9.2.2 特征選擇 152
9.3 模型估計 152
9.3.1 用Zeppelin notebook實現Spark 153
9.3.2 用R notebook實現Spark 154
9.4 模型評估 155
9.4.1 使用MLlib計算RMSE 155
9.4.2 使用R語言計算RMSE 156
9.5 結果解釋 157
9.5.1 最大影響因素 157
9.5.2 趨勢可視化 158
9.6 小結 163
第10章 基于Spark的電信數據學習 165
10.1 在Spark平臺上使用電信數據 166
10.1.1 例子 166
10.1.2 Spark計算 167
10.2 電信數據機器學習方法 168
10.2.1 描述性統計和可視化 169
10.2.2 線性和邏輯回歸模型 169
10.2.3 決策樹和隨機森林 170
10.3 數據和特征開發 171
10.3.1 數據重組 171
10.3.2 特征開發和選擇 172
10.4 模型估計 173
10.5 模型評估 175
10.5.1 使用MLlib計算RMSE 176
10.5.2 使用R語言計算RMSE 177
10.5.3 使用MLlib和R語言計算混淆矩陣與錯誤率 177
10.6 結果解釋 178
10.6.1 描述性統計和可視化 178
10.6.2 最大影響因素 180
10.6.3 特別的洞見 181
10.6.4 趨勢可視化 181
10.7 模型部署 183
10.7.1 告警發送規則 184
10.7.2 為流失和呼叫中心呼叫情況進行用戶評分 184
10.7.3 為購買傾向分析進行用戶評分 185
10.8 小結 185
第11章 基于Spark的開放數據建模 187
11.1 Spark用于開放數據學習 188
11.1.1 例子 188
11.1.2 Spark計算 189
11.1.3 評分和排名方法 192
11.1.4 聚類分析 193
11.1.5 主成分分析 193
11.1.6 回歸模型 194
11.1.7 分數合成 194
11.2 數據和特征準備 195
11.2.1 數據清洗 195
11.2.2 數據合并 197
11.2.3 特征開發 197
11.2.4 特征選擇 198
11.3 模型估計 199
11.3.1 基于Spark的SPSS分析:SPSS Analytics Server 200
11.3.2 模型評價 202
11.3.3 用MLlib計算RMSE 202
11.3.4 用R語言計算RMSE 202
11.4 結果解釋 203
11.4.1 排名比較 204
11.4.2 最大影響因素 204
11.5 部署 205
11.5.1 發送告警規則 206
11.5.2 學區排名評分 207
11.6 小結 207
序: