3dwoo大學簡體電腦書店
Spark核心源碼分析與開發實戰
( 簡體 字)
作者:王家林類別:1. -> 程式設計 -> Spark
出版社:機械工業出版社Spark核心源碼分析與開發實戰 3dWoo書號: 43955
詢問書籍請說出此書號!
有庫存
NT售價: 375
出版日:4/1/2016
頁數:432
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787111528609 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1章Spark系統概述
11Spark是什麼
12Spark生態系統BDAS
121Spark Core
122Spark SQL
123Spark Streaming
124Spark GraphX
125MLlib
126Tachyon
127BlinkDB
思考題
第2章Spark安裝和集群部署
21搭建Hadoop分散式集群
211安裝VMware虛擬機器
212安裝Ubuntu的鏡像檔
213安裝JDK
214搭建另外兩台Ubuntu系統並配置SSH免密碼登錄
215安裝Hadoop和搭建Hadoop分散式集群
22Spark安裝和集群部署
221安裝Scala

222安裝Spark和集群部署
23測試Spark集群
231通過Spark提供的示例LocalPi測試Spark集群
232通過Spark Shell測試Spark集群
思考題
第3章Spark RDD與Spark API程式設計實踐
31RDD介紹
311RDD是Spark的核心抽象
312RDD的特徵
32RDD的操作分類
321輸入操作
322轉換操作
323行動操作
324控制操作
33Spark Shell下的Spark API程式設計實踐
331Local模式下實踐map、filter和collect方法
332集群模式下實踐textFile、sortByKey和 saveAstextFile方法
333集群模式下實踐union、join、reduce和lookup方法
334搜狗日誌資料分析實踐
34基於IntelliJ IDEA使用Spark API開發應用程式
341搭建和設置IntelliJ IDEA開發環境
342在IntelliJ IDEA下開發並部署Spark應用程式
343使用SBT編譯Spark應用程式
344使用Maven構建Spark應用程式
345Spark工具
思考題
第4章Spark的運行模式
41Spark的運行模式概覽
411Spark的基本工作流程
412Spark應用程式部署
42Local模式
421Local模式實例部署及運行演示
422Local模式內部實現原理
43Standalone模式
431Standalone模式實例部署及運行演示
432Standalone模式內部實現原理
44Yarn-Cluster模式
441Yarn-Cluster模式實例部署及運行演示
442Yarn-Cluster模式內部實現原理
45Yarn-Client模式
451Yarn-Client模式實例部署及運行演示
452Yarn-Client模式內部實現原理
46Mesos模式
461Mesos模式實例部署及運行演示
462Mesos模式內部實現原理
思考題
第5章Spark的運行機制
51Spark集群的架構
52Spark的作業和任務調度
521Spark Application提交
522作業(Job)提交
523DAGScheduler劃分Stage並提交
524TaskScheduler提交Task
525Executor運行Task並返回結果
526Driver的處理
53容錯機制
531Lineage機制
532Checkpoint機制
54Storage存儲模組
541Storage模組整體架構
542緩存實現原理
543緩存策略
55Spark的消息傳遞機制Akka
551Akka架構解析
552Akka驅動下的start-allsh源碼解析
56Shuffle機制
561Shuffle的原理
562Shuffle的寫操作
563Shuffle的讀操作
57共用變數
571廣播變數
572累加器
58Spark性能調優
581數據序列化
582記憶體優化
583其他優化方法
思考題
第6章Spark SQL
61Spark SQL原理和實現
611Spark SQL簡介
612Spark SQL運行架構
613Hive在Spark上的使用
614源碼解析SQL語句和HiveQL語句的執行過程
62Spark SQL的操作實例
621文字檔操作以及DSL操作
622Parquet檔以及JSON檔操作
623Hive資料操作演示(訂單交易資料操作)
624Spark SQL處理交通資料實戰
思考題
第7章Spark Streaming
71Spark Streaming運行原理
711Spark Streaming簡介
712程式設計模型DStream
713容錯和持久化
714性能調優
715監控應用
72源碼解析Spark Streaming的運行過程
721StreamingContext初始化並啟動
722資料接收
723資料處理
73Spark Streaming操作實例演示
731文本資料操作實例演示
732網路資料操作實例——銷售模擬器演示
733有狀態(Stateful)操作實例演示
734Window操作實例演示
735SparkStreaming處理多來源資料實戰
思考題
第8章Spark GraphX
81圖的定義和應用
811圖的定義
812圖的應用
82Spark GraphX簡介
821彈性分散式屬性圖
822Spark GraphX圖的切分和存儲策略
823Spark GraphX圖的操作
83Spark GraphX架構
831Pregel圖計算框架
832Spark GraphX的實現
833Spark GraphX圖演算法的實現方法
84Spark GraphX圖操作實例
841基於Spark GraphX的屬性圖的操作實例
842Spark GraphX圖演算法操作實例
思考題
第9章MLlib
91機器學習簡介
911機器學習的定義
912機器學習的分類
913機器學習的常用演算法
92MLlib的簡介
921什麼是MLlib
922MLlib的架構
923MLlib的資料類型
924MLlib的演算法
93MLlib常用演算法操作實踐
931K-Means演算法解析和實踐
932協同過濾演算法分析和案例實踐
思考題
本書是一本全面介紹Spark以及Spark生態系統相關技術的書籍。主要內容包括Spark系統概述、Spark安裝和集群的部署、RDD的編程實踐、Spark的運行模式、Spark的運行機制以及Spark的四大子框架(Spark SQL、Spark Streaming、Spark GraphX、MLlib)的詳細講解。本書通過理論和實踐相結合的方式對Spark的核心框架和生態圈做了詳細的解讀,不僅對Spark的原理進行詳細闡述,還結合Spark的源碼和案例操作展示了Spark框架的所具有的優雅和豐富的表現力。本書適合大數據從業者、Spark技術愛好者閱讀。相信通過學習本書,讀者能夠熟悉和掌握Spark這一當前流行的大數據計算框架,并將其投入到實踐中去。
pagetop