-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Spark核心技術與高級應用

( 簡體 字)
作者:于俊 向海 代其鋒 馬海平類別:1. -> 程式設計 -> Spark
譯者:
出版社:機械工業出版社Spark核心技術與高級應用 3dWoo書號: 43235
詢問書籍請說出此書號!

缺書
NT售價: 345

出版日:1/1/2016
頁數:300
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111523543
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書共分為四大部分:基礎篇(1∼10章)介紹了Spark的用途、擴展、安裝、運行模式、程序開發、編程模型、工作原理,以及SparkSQL、SparkStreaming、MLlib、GraphX、Bagel等重要的擴展;實戰篇(11∼14)講解了搜索結果的排序、個性化推薦系統、日志分析系統、自然語言處理、數據挖掘等方面的案例;高級篇(15∼18)則講解了Spark的調度管理、存儲管理、監控管理、性能優化、最佳實踐以及重點算法的解讀;擴展篇(19∼20)講解了Sparkjob-server和Tachyon。


目錄:

基 礎 篇
第1章 Spark簡介 2
1.1 什么是Spark 2
1.1.1 概述 3
1.1.2 Spark大數據處理框架 3
1.1.3 Spark的特點 4
1.1.4 Spark應用場景 5
1.2 Spark的重要擴展 6
1.2.1 Spark SQL和DataFrame 6
1.2.2 Spark Streaming 7
1.2.3 Spark MLlib和ML 8
1.2.4 GraphX 8
1.2.5 SparkR 9
1.3 本章小結 10
第2章 Spark部署和運行 11
2.1 部署準備 11
2.1.1 下載Spark 11
2.1.2 編譯Spark版本 12
2.1.3 集群部署概述 14
2.2 Spark部署 15
2.2.1 Local模式部署 16
2.2.2 Standalone模式部署 16
2.2.3 YARN模式部署 18
2.3 運行Spark應用程序 19
2.3.1 Local模式運行Spark應用程序 19
2.3.2 Standalone模式運行Spark應用程序 20
2.3.3 YARN模式運行Spark 22
2.3.4 應用程序提交和參數傳遞 23
2.4 本章小結 26
第3章 Spark程序開發 27
3.1 使用Spark Shell編寫程序 27
3.1.1 啟動Spark Shell 28
3.1.2 加載text文件 28
3.1.3 簡單RDD操作 28
3.1.4 簡單RDD操作應用 29
3.1.5 RDD緩存 30
3.2 構建Spark的開發環境 30
3.2.1 準備環境 30
3.2.2 構建Spark的Eclipse開發環境 31
3.2.3 構建Spark的IntelliJ IDEA開發環境 32
3.3 獨立應用程序編程 40
3.3.1 創建SparkContext對象 40
3.3.2 編寫簡單應用程序 40
3.3.3 編譯并提交應用程序 40
3.4 本章小結 43
第4章 編程模型 44
4.1 RDD介紹 44
4.1.1 RDD特征 45
4.1.2 RDD依賴 45
4.2 創建RDD 47
4.2.1 集合(數組)創建RDD 47
4.2.2 存儲創建RDD 48
4.3 RDD操作 49
4.3.1 轉換操作 50
4.3.2 執行操作 52
4.3.3 控制操作 54
4.4 共享變量 56
4.4.1 廣播變量 57
4.4.2 累加器 57
4.5 本章小結 58
第5章 作業執行解析 59
5.1 基本概念 59
5.1.1 Spark組件 59
5.1.2 RDD視圖 60
5.1.3 DAG圖 61
5.2 作業執行流程 62
5.2.1 基于Standalone模式的Spark架構 62
5.2.2 基于YARN模式的Spark架構 64
5.2.3 作業事件流和調度分析 65
5.3 運行時環境 67
5.3.1 構建應用程序運行時環境 68
5.3.2 應用程序轉換成DAG 68
5.3.3 調度執行DAG圖 70
5.4 應用程序運行實例 71
5.5 本章小結 72
第6章 Spark SQL與DataFrame 73
6.1 概述 73
6.1.1 Spark SQL 發展 74
6.1.2 Spark SQL 架構 74
6.1.3 Spark SQL 特點 76
6.1.4 Spark SQL 性能 76
6.2 DataFrame 77
6.2.1 DataFrame和RDD的區別 78
6.2.2 創建DataFrame 78
6.2.3 DataFrame 操作 80
6.2.4 RDD轉化為DataFrame 82
6.3 數據源 84
6.3.1 加載保存操作 84
6.3.2 Parquet 文件 85
6.3.3 JSON 數據集 88
6.3.4 Hive 表 89
6.3.5 通過JDBC 連接數據庫 91
6.3.6 多數據源整合查詢的小例子 92
6.4 分布式的SQL Engine 93
6.4.1 運行Thrift JDBC/ODBC 服務 93
6.4.2 運行 Spark SQL CLI 94
6.5 性能調優 94
6.5.1 緩存數據 94
6.5.2 調優參數 94
6.5.3 增加并行度 95
6.6 數據類型 95
6.7 本章小結 96
第7章 深入了解Spark Streaming 97
7.1 基礎知識 97
7.1.1 Spark Streaming工作原理 98
7.1.2 DStream編程模型 99
7.2 DStream操作 100
7.2.1 Input DStream 100
7.2.2 DStream轉換操作 102
7.2.3 DStream狀態操作 104
7.2.4 DStream輸出操作 106
7.2.5 緩存及持久化 107
7.2.6 檢查點 108
7.3 性能調優 109
7.3.1 優化運行時間 109
7.3.2 設置合適的批次大小 111
7.3.3 優化內存使用 111
7.4 容錯處理 112
7.4.1 文件輸入源 112
7.4.2 基于Receiver的輸入源 112
7.4.3 輸出操作 113
7.5 一個例子 113
7.6 本章小結 115
第8章 Spark MLlib與機器學習 116
8.1 機器學習概述 116
8.1.1 機器學習分類 117
8.1.2 機器學習算法 117
8.2 Spark MLlib介紹 118
8.3 Spark MLlib庫 119
8.3.1 MLlib數據類型 120
8.3.2 MLlib的算法庫與實例 123
8.4 ML庫 142
8.4.1 主要概念 143
8.4.2 算法庫與實例 145
8.5 本章小結 147
第9章 GraphX圖計算框架與應用 148
9.1 概述 148
9.2 Spark GraphX架構 149
9.3 GraphX編程 150
9.3.1 GraphX的圖操作 152
9.3.2 常用圖算法 161
9.4 應用場景 164
9.4.1 圖譜體檢平臺 164
9.4.2 多圖合并工具 165
9.4.3 能量傳播模型 165
9.5 本章小結 166
第10章 SparkR(R on Spark) 167
10.1 概述 167
10.1.1 SparkR介紹 168
10.1.2 SparkR的工作原理 168
10.1.3 R語言介紹 169
10.1.4 R語言與其他語言的通信 170
10.2 安裝SparkR 170
10.2.1 安裝R語言與rJava 171
10.2.2 SparkR的安裝 171
10.3 SparkR的運行與應用示例 172
10.3.1 運行SparkR 172
10.3.2 SparkR示例程序 173
10.3.3 R的DataFrame操作方法 175
10.3.4 SparkR的DataFrame 183
10.4 本章小結 186
實 戰 篇
第11章 大數據分析系統 188
11.1 背景 188
11.2 數據格式 189
11.3 應用架構 189
11.4 業務實現 190
11.4.1 流量、性能的實時分析 190
11.4.2 流量、性能的統計分析 192
11.4.3 業務關聯分析 193
11.4.4 離線報表分析 195
11.5 本章小結 199
第12章 系統資源分析平臺 200
12.1 業務背景 200
12.1.1 業務介紹 201
12.1.2 實現目標 201
12.2 應用架構 201
12.2.1 總體架構 202
12.2.2 模塊架構 202
12.3 代碼實現 203
12.3.1 Kafka集群 203
12.3.2 數據采集 207
12.3.3 離線數據處理 207
12.3.4 數據表現 207
12.4 結果驗證 213
12.5 本章小結 214
第13章 在Spark上訓練LR模型 215
13.1 邏輯回歸簡介 215
13.2 數據格式 216
13.3 MLlib中LR模型源碼介紹 217
13.3.1 邏輯回歸分類器 217
13.3.2 優化方法 219
13.3.3 算法效果評估 221
13.4 實現案例 223
13.4.1 訓練模型 223
13.4.2 計算AUC 223
13.5 本章小結 224
第14章 獲取二級鄰居關系圖 225
14.1 理解PageRank 225
14.1.1 初步理解PageRank 225
14.1.2 深入理解PageRank 227
14.2 PageRank算法基于Spark的實現 228
14.3 基于PageRank的二級鄰居獲取 232
14.3.1 系統設計 232
14.3.2 系統實現 232
14.3.3 代碼提交命令 235
14.4 本章小結 236
高 級 篇
第15章 調度管理 238
15.1 調度概述 238
15.1.1 應用程序間的調度 239
15.1.2 應用程序中的調度 241
15.2 調度器 242
15.2.1 調度池 243
15.2.2 Job調度流程 243
15.2.3 調度模塊 245
15.2.4 Job的生與死 249
15.3 本章小結 253
第16章 存儲管理 254
16.1 硬件環境 254
16.1.1 存儲系統 254
16.1.2 本地磁盤 255
16.1.3 內存 255
16.1.4 網絡和CPU 255
16.2 Storage模塊 256
16.2.1 通信層 256
16.2.2 存儲層 258
16.3 Shuff?le數據持久化 261
16.4 本章小結 263
第17章 監控管理 264
17.1 Web界面 264
17.2 Spark UI歷史監控 266
17.2.1 使用spark-server的原因 266
17.2.2 配置spark-server 266
17.3 監控工具 269
17.3.1 Metrics工具 269
17.3.2 其他工具 271
17.4 本章小結 272
第18章 性能調優 273
18.1 文件的優化 273
18.1.1 輸入采用大文件 273
18.1.2 lzo壓縮處理 274
18.1.3 Cache壓縮 275
18.2 序列化數據 277
18.3 緩存 278
18.4 共享變量 278
18.4.1 廣播變量 279
18.4.2 累加器 279
18.5 流水線優化 280
18.6 本章小結 280
擴 展 篇
第19章 Spark-jobserver實踐 282
19.1 Spark-jobserver是什么 282
19.2 編譯、部署及體驗 283
19.2.1 編譯及部署 283
19.2.2 體驗 286
19.3 Spark-jobserver程序實戰 288
19.3.1 創建步驟 288
19.3.2 一些常見的問題 289
19.4 使用場景:用戶屬性分布計算 289
19.4.1 項目需求 290
19.4.2 計算架構 290
19.4.3 使用NamedRDD 291
19.5 本章小結 291
第20章 Spark Tachyon實戰 292
20.1 Tachyon文件系統 292
20.1.1 文件系統概述 293
20.1.2 HDFS和Tachyon 294
20.1.3 Tachyon設計原理 294
20.1.4 Tachyon特性 295
20.2 Tachyon入門 295
20.2.1 Tachyon 部署 295
20.2.2 Tachyon API 297
20.2.3 在Spark上使用Tachyon 298
20.3  容錯機制 299
20.4 本章小結 300
序: