|
-- 會員 / 註冊 --
|
|
|
|
Spark核心技術與高級應用 ( 簡體 字) |
作者:于俊 向海 代其鋒 馬海平 | 類別:1. -> 程式設計 -> Spark |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 43235 詢問書籍請說出此書號!【缺書】 NT售價: 345 元 |
出版日:1/1/2016 |
頁數:300 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111523543 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:本書共分為四大部分:基礎篇(1∼10章)介紹了Spark的用途、擴展、安裝、運行模式、程序開發、編程模型、工作原理,以及SparkSQL、SparkStreaming、MLlib、GraphX、Bagel等重要的擴展;實戰篇(11∼14)講解了搜索結果的排序、個性化推薦系統、日志分析系統、自然語言處理、數據挖掘等方面的案例;高級篇(15∼18)則講解了Spark的調度管理、存儲管理、監控管理、性能優化、最佳實踐以及重點算法的解讀;擴展篇(19∼20)講解了Sparkjob-server和Tachyon。
|
目錄:基 礎 篇 第1章 Spark簡介 2 1.1 什么是Spark 2 1.1.1 概述 3 1.1.2 Spark大數據處理框架 3 1.1.3 Spark的特點 4 1.1.4 Spark應用場景 5 1.2 Spark的重要擴展 6 1.2.1 Spark SQL和DataFrame 6 1.2.2 Spark Streaming 7 1.2.3 Spark MLlib和ML 8 1.2.4 GraphX 8 1.2.5 SparkR 9 1.3 本章小結 10 第2章 Spark部署和運行 11 2.1 部署準備 11 2.1.1 下載Spark 11 2.1.2 編譯Spark版本 12 2.1.3 集群部署概述 14 2.2 Spark部署 15 2.2.1 Local模式部署 16 2.2.2 Standalone模式部署 16 2.2.3 YARN模式部署 18 2.3 運行Spark應用程序 19 2.3.1 Local模式運行Spark應用程序 19 2.3.2 Standalone模式運行Spark應用程序 20 2.3.3 YARN模式運行Spark 22 2.3.4 應用程序提交和參數傳遞 23 2.4 本章小結 26 第3章 Spark程序開發 27 3.1 使用Spark Shell編寫程序 27 3.1.1 啟動Spark Shell 28 3.1.2 加載text文件 28 3.1.3 簡單RDD操作 28 3.1.4 簡單RDD操作應用 29 3.1.5 RDD緩存 30 3.2 構建Spark的開發環境 30 3.2.1 準備環境 30 3.2.2 構建Spark的Eclipse開發環境 31 3.2.3 構建Spark的IntelliJ IDEA開發環境 32 3.3 獨立應用程序編程 40 3.3.1 創建SparkContext對象 40 3.3.2 編寫簡單應用程序 40 3.3.3 編譯并提交應用程序 40 3.4 本章小結 43 第4章 編程模型 44 4.1 RDD介紹 44 4.1.1 RDD特征 45 4.1.2 RDD依賴 45 4.2 創建RDD 47 4.2.1 集合(數組)創建RDD 47 4.2.2 存儲創建RDD 48 4.3 RDD操作 49 4.3.1 轉換操作 50 4.3.2 執行操作 52 4.3.3 控制操作 54 4.4 共享變量 56 4.4.1 廣播變量 57 4.4.2 累加器 57 4.5 本章小結 58 第5章 作業執行解析 59 5.1 基本概念 59 5.1.1 Spark組件 59 5.1.2 RDD視圖 60 5.1.3 DAG圖 61 5.2 作業執行流程 62 5.2.1 基于Standalone模式的Spark架構 62 5.2.2 基于YARN模式的Spark架構 64 5.2.3 作業事件流和調度分析 65 5.3 運行時環境 67 5.3.1 構建應用程序運行時環境 68 5.3.2 應用程序轉換成DAG 68 5.3.3 調度執行DAG圖 70 5.4 應用程序運行實例 71 5.5 本章小結 72 第6章 Spark SQL與DataFrame 73 6.1 概述 73 6.1.1 Spark SQL 發展 74 6.1.2 Spark SQL 架構 74 6.1.3 Spark SQL 特點 76 6.1.4 Spark SQL 性能 76 6.2 DataFrame 77 6.2.1 DataFrame和RDD的區別 78 6.2.2 創建DataFrame 78 6.2.3 DataFrame 操作 80 6.2.4 RDD轉化為DataFrame 82 6.3 數據源 84 6.3.1 加載保存操作 84 6.3.2 Parquet 文件 85 6.3.3 JSON 數據集 88 6.3.4 Hive 表 89 6.3.5 通過JDBC 連接數據庫 91 6.3.6 多數據源整合查詢的小例子 92 6.4 分布式的SQL Engine 93 6.4.1 運行Thrift JDBC/ODBC 服務 93 6.4.2 運行 Spark SQL CLI 94 6.5 性能調優 94 6.5.1 緩存數據 94 6.5.2 調優參數 94 6.5.3 增加并行度 95 6.6 數據類型 95 6.7 本章小結 96 第7章 深入了解Spark Streaming 97 7.1 基礎知識 97 7.1.1 Spark Streaming工作原理 98 7.1.2 DStream編程模型 99 7.2 DStream操作 100 7.2.1 Input DStream 100 7.2.2 DStream轉換操作 102 7.2.3 DStream狀態操作 104 7.2.4 DStream輸出操作 106 7.2.5 緩存及持久化 107 7.2.6 檢查點 108 7.3 性能調優 109 7.3.1 優化運行時間 109 7.3.2 設置合適的批次大小 111 7.3.3 優化內存使用 111 7.4 容錯處理 112 7.4.1 文件輸入源 112 7.4.2 基于Receiver的輸入源 112 7.4.3 輸出操作 113 7.5 一個例子 113 7.6 本章小結 115 第8章 Spark MLlib與機器學習 116 8.1 機器學習概述 116 8.1.1 機器學習分類 117 8.1.2 機器學習算法 117 8.2 Spark MLlib介紹 118 8.3 Spark MLlib庫 119 8.3.1 MLlib數據類型 120 8.3.2 MLlib的算法庫與實例 123 8.4 ML庫 142 8.4.1 主要概念 143 8.4.2 算法庫與實例 145 8.5 本章小結 147 第9章 GraphX圖計算框架與應用 148 9.1 概述 148 9.2 Spark GraphX架構 149 9.3 GraphX編程 150 9.3.1 GraphX的圖操作 152 9.3.2 常用圖算法 161 9.4 應用場景 164 9.4.1 圖譜體檢平臺 164 9.4.2 多圖合并工具 165 9.4.3 能量傳播模型 165 9.5 本章小結 166 第10章 SparkR(R on Spark) 167 10.1 概述 167 10.1.1 SparkR介紹 168 10.1.2 SparkR的工作原理 168 10.1.3 R語言介紹 169 10.1.4 R語言與其他語言的通信 170 10.2 安裝SparkR 170 10.2.1 安裝R語言與rJava 171 10.2.2 SparkR的安裝 171 10.3 SparkR的運行與應用示例 172 10.3.1 運行SparkR 172 10.3.2 SparkR示例程序 173 10.3.3 R的DataFrame操作方法 175 10.3.4 SparkR的DataFrame 183 10.4 本章小結 186 實 戰 篇 第11章 大數據分析系統 188 11.1 背景 188 11.2 數據格式 189 11.3 應用架構 189 11.4 業務實現 190 11.4.1 流量、性能的實時分析 190 11.4.2 流量、性能的統計分析 192 11.4.3 業務關聯分析 193 11.4.4 離線報表分析 195 11.5 本章小結 199 第12章 系統資源分析平臺 200 12.1 業務背景 200 12.1.1 業務介紹 201 12.1.2 實現目標 201 12.2 應用架構 201 12.2.1 總體架構 202 12.2.2 模塊架構 202 12.3 代碼實現 203 12.3.1 Kafka集群 203 12.3.2 數據采集 207 12.3.3 離線數據處理 207 12.3.4 數據表現 207 12.4 結果驗證 213 12.5 本章小結 214 第13章 在Spark上訓練LR模型 215 13.1 邏輯回歸簡介 215 13.2 數據格式 216 13.3 MLlib中LR模型源碼介紹 217 13.3.1 邏輯回歸分類器 217 13.3.2 優化方法 219 13.3.3 算法效果評估 221 13.4 實現案例 223 13.4.1 訓練模型 223 13.4.2 計算AUC 223 13.5 本章小結 224 第14章 獲取二級鄰居關系圖 225 14.1 理解PageRank 225 14.1.1 初步理解PageRank 225 14.1.2 深入理解PageRank 227 14.2 PageRank算法基于Spark的實現 228 14.3 基于PageRank的二級鄰居獲取 232 14.3.1 系統設計 232 14.3.2 系統實現 232 14.3.3 代碼提交命令 235 14.4 本章小結 236 高 級 篇 第15章 調度管理 238 15.1 調度概述 238 15.1.1 應用程序間的調度 239 15.1.2 應用程序中的調度 241 15.2 調度器 242 15.2.1 調度池 243 15.2.2 Job調度流程 243 15.2.3 調度模塊 245 15.2.4 Job的生與死 249 15.3 本章小結 253 第16章 存儲管理 254 16.1 硬件環境 254 16.1.1 存儲系統 254 16.1.2 本地磁盤 255 16.1.3 內存 255 16.1.4 網絡和CPU 255 16.2 Storage模塊 256 16.2.1 通信層 256 16.2.2 存儲層 258 16.3 Shuff?le數據持久化 261 16.4 本章小結 263 第17章 監控管理 264 17.1 Web界面 264 17.2 Spark UI歷史監控 266 17.2.1 使用spark-server的原因 266 17.2.2 配置spark-server 266 17.3 監控工具 269 17.3.1 Metrics工具 269 17.3.2 其他工具 271 17.4 本章小結 272 第18章 性能調優 273 18.1 文件的優化 273 18.1.1 輸入采用大文件 273 18.1.2 lzo壓縮處理 274 18.1.3 Cache壓縮 275 18.2 序列化數據 277 18.3 緩存 278 18.4 共享變量 278 18.4.1 廣播變量 279 18.4.2 累加器 279 18.5 流水線優化 280 18.6 本章小結 280 擴 展 篇 第19章 Spark-jobserver實踐 282 19.1 Spark-jobserver是什么 282 19.2 編譯、部署及體驗 283 19.2.1 編譯及部署 283 19.2.2 體驗 286 19.3 Spark-jobserver程序實戰 288 19.3.1 創建步驟 288 19.3.2 一些常見的問題 289 19.4 使用場景:用戶屬性分布計算 289 19.4.1 項目需求 290 19.4.2 計算架構 290 19.4.3 使用NamedRDD 291 19.5 本章小結 291 第20章 Spark Tachyon實戰 292 20.1 Tachyon文件系統 292 20.1.1 文件系統概述 293 20.1.2 HDFS和Tachyon 294 20.1.3 Tachyon設計原理 294 20.1.4 Tachyon特性 295 20.2 Tachyon入門 295 20.2.1 Tachyon 部署 295 20.2.2 Tachyon API 297 20.2.3 在Spark上使用Tachyon 298 20.3 容錯機制 299 20.4 本章小結 300 |
序: |
|