|
-- 會員 / 註冊 --
|
|
|
|
循序漸進學Spark ( 簡體 字) |
作者:小象學院 楊磊 | 類別:1. -> 程式設計 -> Spark |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 46490 詢問書籍請說出此書號!【有庫存】 NT售價: 295 元 |
出版日:4/6/2017 |
頁數:242 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111563327 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:這是一本引導讀者深度學習Spark的技術指南。它由國內具實力的大數據在線教育機構小象學院組織撰寫,旨在用合理的結構和精煉的內容讓讀者用短的時間掌握Spark技術的核心內容。第1章和第2章分別講解了Spark的開發環境和編程模型;第3章分析了Spark的工作機制和原理;第4章則結合源代碼分析了Spark的內核架構和實現原理;第5章講解了Spark與YARN的結合應用;第6章介紹了Spark生態中其他模塊的功能和使用;第7章總結了Spark性能調優方面的技巧和方法;第8章描述了Spark2.0發布后,其模塊API的變化以及新增的功能特性。 |
目錄:第1章 Spark架構與集群環境 1 1.1 Spark概述與架構 1 1.1.1 Spark概述 2 1.1.2 Spark生態 3 1.1.3 Spark架構 5 1.2 在Linux集群上部署Spark 8 1.2.1 安裝OpenJDK 9 1.2.2 安裝Scala 9 1.2.3 配置SSH免密碼登錄 10 1.2.4 Hadoop的安裝配置 10 1.2.5 Spark的安裝部署 13 1.2.6 Hadoop與Spark的集群復制 14 1.3 Spark 集群試運行 15 1.4 Intellij IDEA的安裝與配置 17 1.4.1 Intellij的安裝 17 1.4.2 Intellij的配置 17 1.5 Eclipse IDE的安裝與配置 18 1.6 使用Spark Shell開發運行Spark程序 19 1.7 本章小結 20 第2章 Spark 編程模型 21 2.1 RDD彈性分布式數據集 21 2.1.1 RDD簡介 22 2.1.2 深入理解RDD 22 2.1.3 RDD特性總結 24 2.2 Spark程序模型 25 2.3 Spark算子 26 2.3.1 算子簡介 26 2.3.2 Value型Transmation算子 27 2.3.3 Key-Value型Transmation算子 32 2.3.4 Action算子 34 2.4 本章小結 37 第3章 Spark機制原理 38 3.1 Spark應用執行機制分析 38 3.1.1 Spark應用的基本概念 38 3.1.2 Spark應用執行機制概要 39 3.1.3 應用提交與執行 41 3.2 Spark調度機制 42 3.2.1 Application的調度 42 3.2.2 job的調度 43 3.2.3 stage(調度階段)和TasksetManager的調度 46 3.2.4 task的調度 50 3.3 Spark存儲與I/O 52 3.3.1 Spark存儲系統概覽 52 3.3.2 BlockManager中的通信 54 3.4 Spark通信機制 54 3.4.1 分布式通信方式 54 3.4.2 通信框架AKKA 56 3.4.3 Client、Master和Worker之間的通信 57 3.5 容錯機制及依賴 65 3.5.1 Lineage(血統)機制 66 3.5.2 Checkpoint(檢查點)機制 68 3.6 Shuffle機制 70 3.6.1 什么是Shuffle 70 3.6.2 Shuffle歷史及細節 72 3.7 本章小結 78 第4章 深入Spark內核 79 4.1 Spark代碼布局 79 4.1.1 Spark源碼布局簡介 79 4.1.2 Spark Core內模塊概述 80 4.1.3 Spark Core外模塊概述 80 4.2 Spark執行主線[RDD→Task]剖析 80 4.2.1 從RDD到DAGScheduler 81 4.2.2 從DAGScheduler到TaskScheduler 82 4.2.3 從TaskScheduler到Worker節點 88 4.3 Client、Master和Worker交互過程剖析 89 4.3.1 交互流程概覽 89 4.3.2 交互過程調用 90 4.4 Shuffle觸發 96 4.4.1 觸發Shuffle Write 96 4.4.2 觸發Shuffle Read 98 4.5 Spark存儲策略 100 4.5.1 CacheManager職能 101 4.5.2 BlockManager職能 105 4.5.3 DiskStore與DiskBlock--Manager類 113 4.5.4 MemoryStore類 114 4.6 本章小結 117 第5章 Spark on YARN 118 5.1 YARN概述 118 5.2 Spark on YARN的部署模式 121 5.3 Spark on YARN的配置重點 125 5.3.1 YARN的自身內存配置 126 5.3.2 Spark on YARN的重要配置 127 5.4 本章小結 128 第6章 BDAS 生態主要模塊 129 6.1 Spark SQL 129 6.1.1 Spark SQL概述 130 6.1.2 Spark SQL的架構分析 132 6.1.3 Spark SQL如何使用 135 6.2 Spark Streaming 140 6.2.1 Spark Streaming概述 140 6.2.2 Spark Streaming的架構分析 143 6.2.3 Spark Streaming編程模型 145 6.2.4 數據源Data Source 147 6.2.5 DStream操作 149 6.3 SparkR 154 6.3.1 R語言概述 154 6.3.2 SparkR簡介 155 6.3.3 DataFrame創建 156 6.3.4 DataFrame操作 158 6.4 MLlib on Spark 162 6.4.1 機器學習概述 162 6.4.2 機器學習的研究方向與問題 164 6.4.3 機器學習的常見算法 167 6.4.4 MLlib概述 210 6.4.5 MLlib架構 212 6.4.6 MLlib使用實例——電影推薦 214 6.5 本章小結 220 第7章 Spark調優 221 7.1 參數配置 221 7.2 調優技巧 223 7.2.1 序列化優化 223 7.2.2 內存優化 224 7.2.3 數據本地化 228 7.2.4 其他優化考慮 229 7.3 實踐中常見調優問題及思考 230 7.4 本章小結 231 第8章 Spark 2.0.0 232 8.1 功能變化 232 8.1.1 刪除的功能 232 8.1.2 Spark中發生變化的行為 233 8.1.3 不再建議使用的功能 233 8.2 Core以及Spark SQL的改變 234 8.2.1 編程API 234 8.2.2 多說些關于SparkSession 234 8.2.3 SQL 236 8.3 MLlib 237 8.3.1 新功能 237 8.3.2 速度/擴展性 237 8.4 SparkR 238 8.5 Streaming 238 8.5.1 初識結構化Streaming 238 8.5.2 結構化Streaming編程模型 239 8.5.3 結果輸出 240 8.6 依賴、打包 242 8.7 本章小結 242 |
序: |
|