-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Spark實時大數據分析——基于Spark Streaming框架

( 簡體 字)
作者:(美)祖貝爾·納比 著 類別:1. -> 程式設計 -> Spark
譯者:王勝夏 景玉 譯
出版社:清華大學出版社Spark實時大數據分析——基于Spark Streaming框架 3dWoo書號: 50318
詢問書籍請說出此書號!

缺書
NT售價: 445

出版日:11/1/2018
頁數:238
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302511878
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

每天有100萬次優步打車,每月有100億小時的Netflix視頻,每年有1萬億美元花在電子商務網站上。這些服務的成功得益于大數據和日益增長的實時分析。實時分析的出現,讓企業能夠把握消費者的消費取向,并將消費者需求整合到關鍵業務決策中。到目前為止,我們只是觸及了實時分析的冰山一角。未來10年,將有500億部設備接入互聯網,從智能手機、臺式機和汽車到噴氣發動機、冰箱,甚至是廚房水槽都會接入互聯網。未來就是數據,這些數據變得越來越實時。當下正是勇當實時分析時代弄潮兒的最佳時機,而學習這本書將有助你成為一名專業人士。
流式應用程序的低延遲規定,加上一般大數據系統的共同要求,即可擴展性、容錯和可靠性,這些要求催生了一種全新的實時計算。而引領實時計算的先鋒是Spark Streaming,它將流處理視為離散的微批處理。這不僅使得低延遲計算能夠同時保留Spark的可擴展性和容錯特性,也能保留它的簡單編程模型。還允許流式應用程序連接到更廣泛的 Spark Libraries生態系統,如Spark SQL,MLlib,SparkR和GraphX等。此外,程序員還可以將流處理與批處理結合起來,創建出既能處理靜態數據又能處理動態數據的應用程序。最后,這些應用程序也能使用與其他系統開箱即用的集成,如Kafka,Flume,HBase和Cassandra。由于Spark Streaming具備所有這些功能,讓它在進行實時大數據處理時就像是一把多功能的瑞士軍刀。讀者閱讀本書時可以用這把瑞士軍刀來解決一些領域和行業的問題。
本書采取用例為先的方法:每一章都專門針對某一特定垂直行業(進行分析)。通過討論該領域的實時大數據問題而展開內容,并從總體上說明Spark Streaming和流處理的概念。然后進一步采用該領域公開可用的數據集,去實現每個章節中的真實應用程序。此外,本書的所有代碼片段都可以用于執行。但是為了簡化這個過程,我們把代碼放在GitHub 和出版社的網站上供讀者使用。本書中的所有內容都是真實的:真實的示例、真實的應用程序、真實的數據和真實的代碼。讀者在閱讀的過程中按書中步驟設置一個環境,下載數據,并運行應用程序,這就是學習本書的最佳方法。而讀者也會從處理這些現實問題及找尋解決方案的過程中獲得寶貴的心得體會。
總之,令人興奮的Spark Streaming和Spark時刻來臨了。Spark已經成為世界上最大的開源大數據處理項目,超過200個組織的750多名貢獻者(為此做出了貢獻)。Spark代碼庫處于快速發展中,幾乎每天都有性能改進和特性添加。例如,(在Spark 1.4版本首次出現的)Project Tungsten將底層引擎的性能提高了許多數量級。在我開始寫這本書之時,Spark的最新版本是1.4。此后Spark又發行了兩個重要版本(1.5和1.6版本)。這些版本中有一些改變,包括原生內存管理,MLlib中添加更多算法,通過TensorFlow支持深度學習、Dataset API和會話管理。在Spark Streaming前端,添加了兩個主要功能:mapWithState允許跨多個批處理維護狀態,并且在隊列積聚的情況下用背壓來控制輸入速率。 此外,像Google,Databricks和IBM這些公司的云托管服務降低了開發和運行Spark應用程序的門檻。
讓我們揭開Spark新篇章去為學習技能錦上添花!
內容簡介:

本書詳細闡述了與Spark實時大數據分析以及Spark Streaming框架相關的基本解決方案,主要包括大數據漫游指南,實時RDD,高速流:鏈接外部數據源,邊界效應,實時ETL和分析技術,大規模機器學習,云、Lambda及Python等內容。此外,本書還提供了豐富的示例以及代碼,以幫助讀者進一步理解相關方案的實現過程。
本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。
目錄:

第1章 大數據漫游指南1
1.1 Spark前傳1
1.1.1 Web2.0時代2
1.1.2 無處不在的傳感器7
1.2 SparkStreaming:MapReduce和CEP的交集9
第2章 Spark簡介10
2.1 安裝11
2.2 執行12
2.2.1 獨立集群模式(StandaloneCluster)12
2.2.2 YARN模式13
2.3 第一個應用程序13
2.3.1 構建16
2.3.2 執行17
2.4 SparkContext19
2.4.1 RDDs創建19
2.4.2 處理依賴關系20
2.4.3 創建共享變量21
2.4.4 作業執行22
2.5 RDD22
2.5.1 持久化23
2.5.2 轉換24
2.5.3 行動(Action)28
小結29
第3章 實時RDD:DStream30
3.1 從連續流到離散流30
3.2 第一個SparkStreaming應用程序31
3.2.1 構建和執行34
3.2.2 StreamingContext34
3.3 DStreams36
3.3.1 SparkStreaming應用程序剖析38
3.3.2 轉換42
小結52
第4章 高速流:并行化及其他54
4.1 流數據的一大飛躍54
4.2 并行化56
4.2.1 Worker56
4.2.2 執行器(Executor)57
4.2.3 任務(Task)59
4.3 批處理間隔62
4.4 調度64
4.4.1 應用程序間調度64
4.4.2 批處理調度64
4.4.3 作業間調度65
4.4.4 一個行動,一個作業65
4.5 內存66
4.5.1 序列化67
4.5.2 壓縮(Compression)70
4.5.3 垃圾收集70
4.6 Shuffle70
4.6.1 早期投影和過濾70
4.6.2 經常使用組合器70
4.6.3 大量運用平行化70
4.6.4 文件合并(FileConsolidation)71
4.6.5 更多內存71
小結71
第5章 鏈接外部數據源72
5.1 智慧城市,智慧地球,一切更智慧72
5.2 ReceiverInputDStream74
5.3 套接字76
5.4 MQTT85
5.5 Flume89
5.5.1 基于推模式的Flume數據攝取91
5.5.2 基于拉模式的Flume數據攝取92
5.6 Kafka92
5.6.1 基于接收器的Kafka消費者95
5.6.2 直接Kafka消費者98
5.7 Twitter99
5.8 塊間隔100
5.9 自定義接收器100
小結104
第6章 邊界效應106
6.1 盤點股市106
6.2 foreachRDD108
6.2.1 為每條記錄創建一個連接110
6.2.2 為每個分區創建一個連接111
6.2.3 靜態連接112
6.2.4 惰性靜態連接113
6.2.5 靜態連接池114
6.3 可擴展流存儲116
6.3.1 HBase117
6.3.2 股市控制臺(Dashboard)118
6.3.3 SparkOnHBase120
6.3.4 Cassandra122
6.3.5 SparkCassandra連接器124
6.4 全局狀態(GlobalState)126
6.4.1 靜態變量126
6.4.2 updateStateByKey()128
6.4.3 累加器129
6.4.4 外部解決方案131
小結133
第7章 充分準備134
7.1 每個點擊都異乎重要134
7.2 Tachyon(Alluxio)135
7.3 SparkWebUI138
7.3.1 歷史分析151
7.3.2 RESTful度量152
7.4 日志記錄153
7.5 外部度量154
7.6 系統度量156
7.7 監控和報警157
小結159
第8章 實時ETL和分析技術160
8.1 交易數據記錄的強大功能160
8.2 第一個流式SparkSQL應用程序162
8.3 SQLContext165
8.3.1 創建數據框165
8.3.2 執行SQL168
8.3.3 配置169
8.3.4 用戶自定義函數169
8.3.5 Catalyst:查詢執行和優化171
8.3.6 HiveContext171
8.4 數據框(DataFrame)173
8.4.1 類型173
8.4.2 查詢轉換173
8.4.3 行動180
8.4.4 RDD操作182
8.4.5 持久化182
8.4.6 最佳做法183
8.5 SparkR183
8.6 第一個SparkR應用程序184
8.6.1 執行185
8.6.2 流式SparkR185
小結188
第9章 大規模機器學習189
9.1 傳感器數據風暴189
9.2 流式MLlib應用程序191
9.3 MLlib194
9.3.1 數據類型194
9.3.2 統計分析197
9.3.3 預處理198
9.4 特征選擇和提取199
9.4.1 卡方選擇199
9.4.2 主成分分析200
9.5 學習算法201
9.5.1 分類202
9.5.2 聚類202
9.5.3 推薦系統204
9.5.4 頻繁模式挖掘207
9.6 流式ML管道應用程序208
9.7 ML211
9.8 管道交叉驗證212
小結213
第10章 云、Lambda及Python215
10.1 一條好評勝過一千個廣告216
10.2 GoogleDataproc217
10.3 基于Dataproc應用程序創建的第一個Spark220
10.4 PySpark227
10.5 Lambda架構229
10.6 流式圖分析238
總結241
序: