Spark大數據處理：技術、應用與性能優化 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

4/1 新書到！ 3/25 新書到！ 12/20新書到！ 12/13 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

Spark大數據處理：技術、應用與性能優化
( 簡體字)

作者：高彥杰著類別：1. -> 程式設計 -> Spark

譯者：

出版社：機械工業出版社 3dWoo書號： 40099
詢問書籍請說出此書號！
【缺書】
NT售價： 295 元

出版日：11/1/2014

頁數：254

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787111483861

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
k是發源于美國加州大學伯克利分校AMPLab的大數據分析平臺，它立足于內存計算，從多迭代批量處理出發，兼顧數據倉庫、流處理和圖計算等多種計算范式，是大數據系統領域的全棧計算平臺。Spark當下已成為Apache基金會的頂級開源項目，擁有龐大的社區支持，技術也逐漸走向成熟。

為什么要寫這本書

大數據還在如火如荼地發展著，突然之間，Spark就火了。還記得最開始接觸Spark技術時資料匱乏，只有官方文檔和源碼可以作為研究學習的資料。寫一本Spark系統方面的技術書籍，是我持續了很久的一個想法。由于學習和工作較為緊張，最初只是通過幾篇筆記在博客中分享自己學習Spark過程的點滴，但是隨著時間的推移，筆記不斷增多，最終還是打算將筆記整理成書，也算是一個總結和分享。

在國外Yahoo!、Intel、Amazon、Cloudera等公司率先應用并推廣Spark技術，在國內淘寶、騰訊、網易、星環等公司敢為人先，并樂于分享。在隨后的發展中，IBM、MapR、Hortonworks、微策略等公司紛紛將Spark融進現有解決方案，并加入Spark陣營。Spark在工業界的應用也呈星火燎原之勢。

隨著Spark技術在國內的大范圍落地、Spark中國峰會的召開，及各地meetup的火爆舉行，開源軟件Spark也因此水漲船高。隨著大數據相關技術和產業的逐漸成熟，公司生產環境往往需要同時進行多種類型的大數據分析作業：批處理、各種機器學習、流式計算、圖計算、SQL查詢等。在Spark出現前，要在一個平臺內同時完成以上數種大數據分析任務，就不得不與多套獨立的系統打交道，這需要系統間進行代價較大的數據轉儲，但是這無疑會增加運維負擔。

在1年之前，關注Spark的人和公司不多，由于它包含的軟件種類多，版本升級較快，技術較為新穎，初學者難以在有限的時間內快速掌握Spark蘊含的價值。同時國內缺少一本實踐與理論相結合的Spark書籍，很多Spark初學者和開發人員只能參考網絡上零星的Spark技術相關博客，自己一點一滴地閱讀源碼和文檔，緩慢地學習Spark。本書也正是為了解決上面的問題而編寫的。

本書從一個系統化的視角，秉承大道至簡的主導思想，介紹Spark中最值得關注的內容，講解Spark部署、開發實戰，并結合Spark的運行機制及拓展，幫讀者開啟Spark技術之旅。

本書特色

本書是國內首本系統講解Spark編程實戰的書籍，涵蓋Spark技術的方方面面。

1）對Spark的架構、運行機制、系統環境搭建、測試和調優進行深入講解，以期讓讀者知其所以然。講述Spark最核心的技術內容，以激發讀者的聯想，進而衍化至繁。

2）實戰部分不但給出編程示例，還給出可拓展的應用場景。

3）剖析BDAS生態系統的主要組件的原理和應用，讓讀者充分了解Spark生態系統。

本書的理論和實戰安排得當，突破傳統講解方式，使讀者讀而不厭。

本書中一些講解實操部署和示例的章節，比較適合作為運維和開發人員工作時手邊的書；運行機制深入分析方面的章節，比較適合架構師和Spark研究人員，可幫他們拓展解決問題的思路。

讀者對象

Spark初學者

Spark二次開發人員

Spark應用開發人員

Spark運維工程師

開源軟件愛好者

其他對大數據技術感興趣的人員

如何閱讀本書

本書分為兩大部分，共計9章內容。

第1章　從Spark概念出發，介紹了Spark的來龍去脈，闡述Spark生態系統全貌。

第2章　詳細介紹了Spark在Linux集群和Windows上如何進行部署和安裝。

第3章　詳細介紹了Spark的計算模型，RDD的概念與原理，RDD上的函數算子的原理和使用，廣播和累加變量。

第4章　詳細介紹了Spark應用執行機制、Spark調度與任務分配、Spark I/O機制、Spark通信模塊、容錯機制、Shuffle機制，并對Spark機制原理進行了深入剖析。

第5章　從實際出發，詳細介紹了如何在Intellij、Eclipse中配置開發環境，如何使用SBT構建項目，如何使用SparkShell進行交互式分析、遠程調試和編譯Spark源碼，以及如何構建Spark源碼閱讀環境。

第6章　由淺入深，詳細介紹了Spark的編程案例，通過WordCount、Top K到傾斜連接等，以幫助讀者快速掌握開發Spark程序的技巧。

第7章　展開介紹了主流的大數據Benchmark的原理，并對比了Benchmark優劣勢，指導Spark系統性能測試和性能問題診斷。

第8章　圍繞Spark生態系統，介紹了Spark之上的SQL on Spark、Spark Streaming、GraphX、MLlib的原理和應用。

第9章　詳細介紹了如何對Spark進行性能調優，以及調優方法的原理。

如果您是一位有著一定經驗的資深開發人員，能夠理解Spark的相關基礎知識和使用技巧，那么可以直接閱讀4章、7章、8章、9章。如果你是一名初學者，請一定從第1章的基礎知識開始學起。

勘誤和支持

由于筆者的水平有限，編寫時間倉促，書中難免會出現一些錯誤或者不準確的地方，懇請讀者批評指正。如果您有更多的寶貴意見，歡迎訪問我的個人Github上的Spark大數據處理專版： https://github.com/YanjieGao/SparkInAction，您可以將書中的錯誤提交PR或者進行評論，我會盡量在線上為讀者提供最滿意的解答。您也可以通過微博@高彥杰gyj、微信公共號@Spark大數據、博客http://blog.csdn.net/gaoyanjie55或者郵箱gaoyanjie55@163.com聯系到我，期待能夠得到讀者朋友們的真摯反饋，在技術之路上互勉共進。

致謝

感謝中國人民大學的杜小勇老師、何軍老師、陳躍國老師，是老師們將我帶進大數據技術領域，教授我專業知識與學習方法，并在每一次迷茫時給予我鼓勵與支持。

感謝微軟亞洲研究院的閆鶯老師和其他老師及同事，在實習工作中給予我的幫助和指導。

感謝IBM中國研究院的陳冠誠老師和其他老師及同事，在實習工作中給予我的幫助和指導。

感謝連城、明風、Daoyuan Wang等大牛以及Michael Armbrust、Reynold Xin、Sean Owen等多位社區大牛，在開發和技術學習中對我的點撥和指導，以及社區的各位技術專家們的博客文章。本書多處引用了他們的觀點和思想。

感謝機械工業出版社華章公司的首席策劃楊福川和編輯高婧雅，在近半年的時間中始終支持我的寫作，給我鼓勵和幫助，引導我順利完成全部書稿。

特別致謝

最后，我要特別感謝我的女友蔣丹彤對我的支持，我為寫作這本書，犧牲了很多陪伴你的時間。同時也要感謝你花了很大的精力幫助我進行書稿校對。正因為有了你的付出與支持，我才能堅持寫下去。

感謝我的父母、姐姐，有了你們的幫助和支持，我才有時間和精力去完成全部寫作。

謹以此書獻給我最親愛的家人，以及眾多熱愛大數據技術的朋友們！

內容簡介：
一個基于內存計算的大數據并行計算框架，Spark不僅很好地解決了數據的實時處理問題，而且保證了高容錯性和高可伸縮性。具體來講，它有如下優勢：
打造全棧多計算范式的高效數據流水線
輕量級快速處理
易于使用，支持多語言
與HDFS等存儲層兼容
社區活躍度高
……
Spark已經在全球范圍內廣泛使用，無論是Intel、Yahoo!、Twitter、阿里巴巴、百度、騰訊等國際互聯網巨頭，還是一些尚處于成長期的小公司，都在使用Spark。本書作者結合自己在微軟和IBM實踐Spark的經歷和經驗，編寫了這本書。站著初學者的角度，不僅系統、全面地講解了Spark的各項功能及其使用方法，而且較深入地探討了Spark的工作機制、運行原理以及BDAS生態系統中的其他技術，同時還有一些可供操作的案例，能讓沒有經驗的讀者迅速掌握Spark。更為重要的是，本書還對Spark的性能優化進行了探討。
內容簡介
這是一本依據最新技術版本，系統、全面、詳細講解Spark的著作，作者結合自己在微軟和IBM的實踐經驗和對Spark源代碼的研究撰寫而成。首先從技術層面講解了Spark的體系結構、工作機制、安裝與部署、開發環境搭建、計算模型、Benchmark、BDAS等內容；然后從應用角度講解了一些簡單的、有代表性的案例；最后對Spark的性能優化進行了探討。

目錄：
前　言

第1章　Spark簡介 1

1.1　Spark是什么 1

1.2　Spark生態系統BDAS 4

1.3　Spark架構 6

1.4　Spark分布式架構與單機多核

架構的異同 9

1.5　Spark的企業級應用 10

1.5.1　Spark在Amazon中的應用 11

1.5.2　Spark在Yahoo!的應用 15

1.5.3　Spark在西班牙電信的應用 17

1.5.4　Spark在淘寶的應用 18

1.6　本章小結 20

第2章　Spark集群的安裝與部署 21

2.1　Spark的安裝與部署 21

2.1.1　在Linux集群上安裝與配置Spark 21

2.1.2　在Windows上安裝與配置Spark 30

2.2　Spark集群初試 33

2.3　本章小結 35

第3章　Spark計算模型 36

3.1　Spark程序模型 36

3.2　彈性分布式數據集 37

3.2.1　RDD簡介 38

3.2.2　RDD與分布式共享內存的異同 38

3.2.3　Spark的數據存儲 39

3.3　Spark算子分類及功能 41

3.3.1　Value型Transformation算子 42

3.3.2　Key-Value型Transformation算子 49

3.3.3　Actions算子 53

3.4　本章小結 59

第4章　Spark工作機制詳解 60

4.1　Spark應用執行機制 60

4.1.1　Spark執行機制總覽 60

4.1.2　Spark應用的概念 62

4.1.3　應用提交與執行方式 63

4.2　Spark調度與任務分配模塊 65

4.2.1　Spark應用程序之間的調度 66

4.2.2　Spark應用程序內Job的調度 67

4.2.3　Stage和TaskSetManager調度方式 72

4.2.4　Task調度 74

4.3　Spark I/O機制 77

4.3.1　序列化 77

4.3.2　壓縮 78

4.3.3　Spark塊管理 80

4.4　Spark通信模塊 93

4.4.1　通信框架AKKA 94

4.4.2　Client、Master和Worker間的通信 95

4.5　容錯機制 104

4.5.1　Lineage機制 104

4.5.2　Checkpoint機制 108

4.6　Shuffle機制 110

4.7　本章小結 119

第5章　Spark開發環境配置及流程 120

5.1　Spark應用開發環境配置 120

5.1.1　使用Intellij開發Spark程序 120

5.1.2　使用Eclipse開發Spark程序 125

5.1.3　使用SBT構建Spark程序 129

5.1.4　使用Spark Shell開發運行Spark程序 130

5.2　遠程調試Spark程序 130

5.3　Spark編譯 132

5.4　配置Spark源碼閱讀環境 135

5.5　本章小結 135

第6章　Spark編程實戰 136

6.1　WordCount 136

6.2　Top K 138

6.3　中位數 140

6.4　倒排索引 141

6.5　CountOnce 143

6.6　傾斜連接 144

6.7　股票趨勢預測 146

6.8　本章小結 153

第7章　Benchmark使用詳解 154

7.1　Benchmark簡介 154

7.1.1　Intel Hibench與Berkeley BigDataBench 155

7.1.2　Hadoop GridMix 157

7.1.3　Bigbench、BigDataBenchmark與TPC-DS 158

7.1.4　其他Benchmark 161

7.2　Benchmark的組成 162

7.2.1　數據集 162

7.2.2　工作負載 163

7.2.3　度量指標 167

7.3　Benchmark的使用 168

7.3.1　使用Hibench 168

7.3.2　使用TPC-DS 170

7.3.3　使用BigDataBench 172

7.4　本章小結 176

第8章　BDAS簡介 177

8.1　SQL on Spark 177

8.1.1　使用Spark SQL的原因 178

8.1.2　Spark SQL架構分析 179

8.1.3　Shark簡介 182

8.1.4　Hive on Spark 184

8.1.5　未來展望 185

8.2　Spark Streaming 185

8.2.1　Spark Streaming簡介 186

8.2.2　Spark Streaming架構 188

8.2.3　Spark Streaming原理剖析 189

8.2.4　Spark Streaming調優 198

8.2.5　Spark Streaming 實例 198

8.3　GraphX 205

8.3.1　GraphX簡介 205

8.3.2　GraphX的使用 206

8.3.3　GraphX架構 209

8.3.4　運行實例 211

8.4　MLlib 215

8.4.1　MLlib簡介 217

8.4.2　MLlib的數據存儲 219

8.4.3　數據轉換為向量（向量空間模型VSM） 222

8.4.4　MLlib中的聚類和分類 223

8.4.5　算法應用實例 228

8.4.6　利用MLlib進行電影推薦 230

8.5　本章小結 237

第9章　Spark性能調優 238

9.1　配置參數 238

9.2　調優技巧 239

9.2.1　調度與分區優化 240

9.2.2　內存存儲優化 243

9.2.3　網絡傳輸優化 249

9.2.4　序列化與壓縮 251

9.2.5　其他優化方法 253

9.3　本章小結 255

序：