Spark核心源碼分析與開發實戰( 簡體 字) | |
作者:王家林 | 類別:1. -> 程式設計 -> Spark |
出版社:機械工業出版社 | 3dWoo書號: 43955 詢問書籍請說出此書號! 有庫存 NT售價: 375 元 |
出版日:4/1/2016 | |
頁數:432 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787111528609 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章Spark系統概述
11Spark是什麼 12Spark生態系統BDAS 121Spark Core 122Spark SQL 123Spark Streaming 124Spark GraphX 125MLlib 126Tachyon 127BlinkDB 思考題 第2章Spark安裝和集群部署 21搭建Hadoop分散式集群 211安裝VMware虛擬機器 212安裝Ubuntu的鏡像檔 213安裝JDK 214搭建另外兩台Ubuntu系統並配置SSH免密碼登錄 215安裝Hadoop和搭建Hadoop分散式集群 22Spark安裝和集群部署 221安裝Scala 222安裝Spark和集群部署 23測試Spark集群 231通過Spark提供的示例LocalPi測試Spark集群 232通過Spark Shell測試Spark集群 思考題 第3章Spark RDD與Spark API程式設計實踐 31RDD介紹 311RDD是Spark的核心抽象 312RDD的特徵 32RDD的操作分類 321輸入操作 322轉換操作 323行動操作 324控制操作 33Spark Shell下的Spark API程式設計實踐 331Local模式下實踐map、filter和collect方法 332集群模式下實踐textFile、sortByKey和 saveAstextFile方法 333集群模式下實踐union、join、reduce和lookup方法 334搜狗日誌資料分析實踐 34基於IntelliJ IDEA使用Spark API開發應用程式 341搭建和設置IntelliJ IDEA開發環境 342在IntelliJ IDEA下開發並部署Spark應用程式 343使用SBT編譯Spark應用程式 344使用Maven構建Spark應用程式 345Spark工具 思考題 第4章Spark的運行模式 41Spark的運行模式概覽 411Spark的基本工作流程 412Spark應用程式部署 42Local模式 421Local模式實例部署及運行演示 422Local模式內部實現原理 43Standalone模式 431Standalone模式實例部署及運行演示 432Standalone模式內部實現原理 44Yarn-Cluster模式 441Yarn-Cluster模式實例部署及運行演示 442Yarn-Cluster模式內部實現原理 45Yarn-Client模式 451Yarn-Client模式實例部署及運行演示 452Yarn-Client模式內部實現原理 46Mesos模式 461Mesos模式實例部署及運行演示 462Mesos模式內部實現原理 思考題 第5章Spark的運行機制 51Spark集群的架構 52Spark的作業和任務調度 521Spark Application提交 522作業(Job)提交 523DAGScheduler劃分Stage並提交 524TaskScheduler提交Task 525Executor運行Task並返回結果 526Driver的處理 53容錯機制 531Lineage機制 532Checkpoint機制 54Storage存儲模組 541Storage模組整體架構 542緩存實現原理 543緩存策略 55Spark的消息傳遞機制Akka 551Akka架構解析 552Akka驅動下的start-allsh源碼解析 56Shuffle機制 561Shuffle的原理 562Shuffle的寫操作 563Shuffle的讀操作 57共用變數 571廣播變數 572累加器 58Spark性能調優 581數據序列化 582記憶體優化 583其他優化方法 思考題 第6章Spark SQL 61Spark SQL原理和實現 611Spark SQL簡介 612Spark SQL運行架構 613Hive在Spark上的使用 614源碼解析SQL語句和HiveQL語句的執行過程 62Spark SQL的操作實例 621文字檔操作以及DSL操作 622Parquet檔以及JSON檔操作 623Hive資料操作演示(訂單交易資料操作) 624Spark SQL處理交通資料實戰 思考題 第7章Spark Streaming 71Spark Streaming運行原理 711Spark Streaming簡介 712程式設計模型DStream 713容錯和持久化 714性能調優 715監控應用 72源碼解析Spark Streaming的運行過程 721StreamingContext初始化並啟動 722資料接收 723資料處理 73Spark Streaming操作實例演示 731文本資料操作實例演示 732網路資料操作實例——銷售模擬器演示 733有狀態(Stateful)操作實例演示 734Window操作實例演示 735SparkStreaming處理多來源資料實戰 思考題 第8章Spark GraphX 81圖的定義和應用 811圖的定義 812圖的應用 82Spark GraphX簡介 821彈性分散式屬性圖 822Spark GraphX圖的切分和存儲策略 823Spark GraphX圖的操作 83Spark GraphX架構 831Pregel圖計算框架 832Spark GraphX的實現 833Spark GraphX圖演算法的實現方法 84Spark GraphX圖操作實例 841基於Spark GraphX的屬性圖的操作實例 842Spark GraphX圖演算法操作實例 思考題 第9章MLlib 91機器學習簡介 911機器學習的定義 912機器學習的分類 913機器學習的常用演算法 92MLlib的簡介 921什麼是MLlib 922MLlib的架構 923MLlib的資料類型 924MLlib的演算法 93MLlib常用演算法操作實踐 931K-Means演算法解析和實踐 932協同過濾演算法分析和案例實踐 思考題 本書是一本全面介紹Spark以及Spark生態系統相關技術的書籍。主要內容包括Spark系統概述、Spark安裝和集群的部署、RDD的編程實踐、Spark的運行模式、Spark的運行機制以及Spark的四大子框架(Spark SQL、Spark Streaming、Spark GraphX、MLlib)的詳細講解。本書通過理論和實踐相結合的方式對Spark的核心框架和生態圈做了詳細的解讀,不僅對Spark的原理進行詳細闡述,還結合Spark的源碼和案例操作展示了Spark框架的所具有的優雅和豐富的表現力。本書適合大數據從業者、Spark技術愛好者閱讀。相信通過學習本書,讀者能夠熟悉和掌握Spark這一當前流行的大數據計算框架,并將其投入到實踐中去。
|