-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

PySpark實戰指南:利用Python和Spark構建數據密集型應用并規模化部署

( 簡體 字)
作者:〔美〕 托馬茲·卓巴斯(Tomasz Drabas)丹尼·李(Denny Lee) 著類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> Spark
譯者:
出版社:機械工業出版社PySpark實戰指南:利用Python和Spark構建數據密集型應用并規模化部署 3dWoo書號: 47951
詢問書籍請說出此書號!

缺書
NT售價: 245

出版日:11/1/2017
頁數:186
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111582380
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

本書需要的軟/硬件支持

閱讀本書,需要準備一臺個人電腦(Windows、Mac或者Linux任一系統都行)。運行Apache Spark,需要Java 7+并且安裝配置Python 2.6+版本或者3.4+版本的環境;本書中使用的是Anaconda Python3.5版本,可以在https://www.continuum.io/downloads下載。

本書中我們隨意使用了Anaconda的預裝版Python模塊。GraphFrames和TensorFrames也可以在啟動Spark實例時動態加載:載入時你的電腦需要聯網。如果有的模塊尚未安裝到你的電腦里,也沒有關系,我們會指導你完成安裝過程。

本書的讀者對象

想要學習大數據領域發展最迅速的技術即Apache Spark的每一個人,都可以閱讀此書。我們甚至希望還有來自于數據科學領域更高級的從業人員,能夠找到一些令人耳目一新的例子以及更有趣的主題。

本書約定

警告或重要的筆記

提示和技巧
內容簡介:

Apache Spark是用于高效集群計算的開源框架,具有強大的數據并行和容錯接口。本書將向你展示如何利用Python的強大功能,并將其用于Spark生態系統。在本書的最后,你將對Spark Python API以及如何使用它們構建數據密集型應用程序有一個深入的了解。



通過閱讀本書,你將學會:

Apache Spark和Spark 2.0架構

使用Spark SQL構建Spark DataFrame并與其進行交互

使用GraphFrames和TensorFrames解決圖形和深度學習問題

讀取、轉換和理解數據,并用它來訓練機器學習模型

使用MLlib和ML構建機器學習模型

spark-submit如何以編程方式提交應用程序

將本地構建的應用程序部署到集群中



內容簡介



本書從Spark的基本特點出發,借助大量例子詳細介紹了如何使用Python調用Spark新特性、處理結構化及非結構化數據、使用PySpark中基本可用數據類型、生成機器學習模型、進行圖像操作以及讀取數據流等新興技術內容。

全書共11章。第1章通過技術和作業的組織等概念提供了對Spark的介紹。第2章介紹了RDD、基本原理、PySpark中可用的非模式化數據結構。第3章詳細介紹了DataFrame數據結構,它可以彌合Scala和Python之間在效率方面的差距。第4章引導讀者了解在Spark環境中的數據清理和轉換的過程。第5章介紹了適用于RDD的機器學習庫,并回顧了最有用的機器學習模型。第6章涵蓋了當前主流的機器學習庫,并且提供了目前可用的所有模型的概述。第7章引導你了解能輕松利用圖解決問題的新結構。第8章介紹了Spark和張量流(TensorFlow)領域中深度學習的連接橋梁。第9章描述了Blaze是如何跟Spark搭配使用以更容易地對多源數據進行抽象化的。第10章介紹了PySpark中可用的流工具。第11章逐步指導你運用命令行界面完成代碼模塊化并提交代碼到Spark執行。
目錄:

譯者序



前言

關于作者

第1章 了解Spark 1

1.1 什么是Apache Spark 1

1.2 Spark作業和API 2

1.2.1 執行過程 2

1.2.2 彈性分布式數據集 3

1.2.3 DataFrame 4

1.2.4 Dataset 5

1.2.5 Catalyst優化器 5

1.2.6 鎢絲計劃 5

1.3 Spark 2.0的架構 6

1.3.1 統一Dataset和DataFrame 7

1.3.2 SparkSession介紹 8

1.3.3 Tungsten Phase 2 8

1.3.4 結構化流 10

1.3.5 連續應用 10

1.4 小結 11

第2章 彈性分布式數據集 12

2.1 RDD的內部運行方式 12

2.2 創建RDD 13

2.2.1 Schema 14

2.2.2 從文件讀取 14

2.2.3 Lambda表達式 15

2.3 全局作用域和局部作用域 16

2.4 轉換 17

2.4.1 .map(...)轉換 17

2.4.2 .filter(...)轉換 18

2.4.3 .flatMap(...)轉換 18

2.4.4 .distinct(...)轉換 18

2.4.5 .sample(...)轉換 19

2.4.6 .leftOuterJoin(...)轉換 19

2.4.7 .repartition(...)轉換 20

2.5 操作 20

2.5.1 .take(...)方法 21

2.5.2 .collect(...)方法 21

2.5.3 .reduce(...)方法 21

2.5.4 .count(...)方法 22

2.5.5 .saveAsTextFile(...)方法 22

2.5.6 .foreach(...)方法 23

2.6 小結 23

第3章 DataFrame 24

3.1 Python到RDD之間的通信 24

3.2 Catalyst優化器刷新 25

3.3 利用DataFrame加速PySpark 27

3.4 創建DataFrame 28

3.4.1 生成自己的JSON數據 29

3.4.2 創建一個DataFrame 29

3.4.3 創建一個臨時表 30

3.5 簡單的DataFrame查詢 31

3.5.1 DataFrame API查詢 32

3.5.2 SQL查詢 32

3.6 RDD的交互操作 33

3.6.1 使用反射來推斷模式 33

3.6.2 編程指定模式 34

3.7 利用DataFrame API查詢 35

3.7.1 行數 35

3.7.2 運行篩選語句 35

3.8 利用SQL查詢 36

3.8.1 行數 36

3.8.2 利用where子句運行篩選語句 36

3.9 DataFrame場景——實時飛行性能 38

3.9.1 準備源數據集 38

3.9.2 連接飛行性能和機場 39

3.9.3 可視化飛行性能數據 40

3.10 Spark數據集(Dataset)API 41

3.11 小結 42

第4章 準備數據建模 43

4.1 檢查重復數據、未觀測數據和異常數據(離群值) 43

4.1.1 重復數據 43

4.1.2 未觀測數據 46

4.1.3 離群值 50

4.2 熟悉你的數據 51

4.2.1 描述性統計 52

4.2.2 相關性 54

4.3 可視化 55

4.3.1 直方圖 55

4.3.2 特征之間的交互 58

4.4 小結 60

第5章  MLlib介紹 61

5.1 包概述 61

5.2 加載和轉換數據 62

5.3 了解你的數據 65

5.3.1 描述性統計 66

5.3.2 相關性 67

5.3.3 統計測試 69

5.4 創建最終數據集 70

5.4.1 創建LabeledPoint形式的RDD 70

5.4.2 分隔培訓和測試數據 71

5.5 預測嬰兒生存機會 71

5.5.1 MLlib中的邏輯回歸 71

5.5.2 只選擇最可預測的特征 72

5.5.3 MLlib中的隨機森林 73

5.6 小結 74

第6章 ML包介紹 75

6.1 包的概述 75

6.1.1 轉換器 75

6.1.2 評估器 78

6.1.3 管道 80

6.2 使用ML預測嬰兒生存幾率 80

6.2.1 加載數據 80

6.2.2 創建轉換器 81

6.2.3 創建一個評估器 82

6.2.4 創建一個管道 82

6.2.5 擬合模型 83

6.2.6 評估模型的性能 84

6.2.7 保存模型 84

6.3 超參調優 85

6.3.1 網格搜索法 85

6.3.2 Train-validation 劃分 88

6.4 使用PySpark ML的其他功能 89

6.4.1 特征提取 89

6.4.2 分類 93

6.4.3 聚類 95

6.4.4 回歸 98

6.5 小結 99

第7章 GraphFrames 100

7.1 GraphFrames介紹 102

7.2 安裝GraphFrames 102

7.2.1 創建庫 103

7.3 準備你的航班數據集 105

7.4 構建圖形 107

7.5 執行簡單查詢 108

7.5.1 確定機場和航班的數量 108

7.5.2 確定這個數據集中的最長延誤時間 108

7.5.3 確定延誤和準點/早到航班的數量對比 109

7.5.4 哪一班從西雅圖出發的航班最有可能出現重大延誤 109

7.5.5 西雅圖出發到哪個州的航班最有可能出現重大延誤 110

7.6 理解節點的度 110

7.7 確定最大的中轉機場 112

7.8 理解Motif 113

7.9 使用PageRank確定機場排名 114

7.10 確定最受歡迎的直飛航班 115

7.11 使用廣度優先搜索 116

7.12 使用D3將航班可視化 118

7.13 小結 119

第8章 TensorFrames 120

8.1 深度學習是什么 120

8.1.1 神經網絡和深度學習的必要性 123

8.1.2 特征工程是什么 125

8.1.3 橋接數據和算法 125

8.2 TensorFlow是什么 127

8.2.1 安裝PIP 129

8.2.2 安裝TensorFlow 129

8.2.3 使用常量進行矩陣乘法 130

8.2.4 使用placeholder進行矩陣乘法 131

8.2.5 討論 132

8.3 TensorFrames介紹 133

8.4 TensorFrames快速入門 134

8.4.1 配置和設置 134

8.4.2 使用TensorFlow向已有列添加常量 136

8.4.3 Blockwise reducing操作示例 137

8.5 小結 139

第9章 使用Blaze實現混合持久化 141

9.1 安裝Blaze 141

9.2 混合持久化 142

9.3 抽象數據 143

9.3.1 使用NumPy 數組 143

9.3.2 使用pandas的DataFrame 145

9.3.3 使用文件 145

9.3.4 使用數據庫 147

9.4 數據操作 149

9.4.1 訪問列 150

9.4.2 符號轉換 150

9.4.3 列的操作 151

9.4.4 降階數據 152

9.4.5 連接 154

9.5 小結 156

第10章 結構化流 157

10.1 什么是Spark Streaming 157

10.2 為什么需要Spark Streaming 159

10.3 Spark Streaming應用程序數據流是什么 160

10.4 使用DStream簡化Streaming應用程序 161

10.5 全局聚合快速入門 165

10.6 結構化流介紹 168

10.7 小結 172

第11章 打包Spark應用程序 173

11.1 spark-submit命令 173

11.2 以編程方式部署應用程序 176

11.2.1 配置你的SparkSession 176

11.2.2 創建SparkSession 177

11.2.3 模塊化代碼 177

11.2.4 提交作業 180

11.2.5 監控執行 182

11.3 Databricks作業 184

11.4 小結 186
序: