-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Spark MLlib機器學習實踐(第2版)

( 簡體 字)
作者:王曉華類別:1. -> 程式設計 -> Spark
譯者:
出版社:清華大學出版社Spark MLlib機器學習實踐(第2版) 3dWoo書號: 46371
詢問書籍請說出此書號!

缺書
NT售價: 245

出版日:3/1/2017
頁數:189
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302465089
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

Spark在英文中是火花的意思,創作者希望它能夠像火花一樣點燃大數據時代的序幕。它,做到了。
大數據時代是一個充滿著機會和挑戰的時代,就像一座未經開發的金山,任何人都有資格去獲得其中的寶藏,僅僅需要的就是有一把得心應手的工具——MLlib就是這個工具。
本書目的
本書的主要目的是介紹如何使用MLlib進行數據挖掘。MLlib是Spark中最核心的部分,它是Spark機器學習庫,經過無數創造者卓越的工作,MLlib已經成為一個優雅的、可以運行在分布式集群上的數據挖掘工具。
MLlib充分利用了現有數據挖掘的技術與手段,將隱藏在數據中不為人知,但又包含價值的信息從中提取出來,并通過相應的計算機程序,無須人工干預自動地在系統中進行計算,以發現其中的規律。
通常來說,數據挖掘的難點和重點在于兩個方面:分別是算法的學習和程序的設計。還有的是需要使用者有些相應的背景知識,例如統計學、人工智能、網絡技術等。本書在寫作上以工程實踐為主,重點介紹其與數據挖掘密切相關的算法與概念,并且使用淺顯易懂的語言將其中涉及的算法進行概括性描述,從而可以幫助使用者更好地了解和掌握數據挖掘的原理。
作者在寫作本書的時候有一個基本原則,這本書應該體現工程實踐與理論之間的平衡。數據挖掘的目的是為了解決現實中的問題,并提供一個結果,而不是去理論比較哪個算法更高深,看起來更能嚇唬人。本書對算法的基本理論和算法也做了描述,如果讀者閱讀起來覺得困難,建議找出相應的教材深入復習一下,相信大多數的讀者都能理解相關的內容。
本書內容
本書主要介紹MLlib數據挖掘算法,編寫的內容可以分成三部分:第一部分是MLlib最基本的介紹以及RDD的用法,包括第1~4章;第二部分是MLlib算法的應用介紹,包括第5~12章;第三部分通過一個經典的實例向讀者演示了如何使用MLlib去進行數據挖掘工作,為第13章。
各章節內容如下:
第1章主要介紹了大數據時代帶給社會與個人的影響,并由此產生的各種意義。介紹了大數據如何深入到每個人的生活之中。MLlib是大數據分析的利器,能夠幫助使用者更好地完成數據分析。
第2章介紹Spark的單機版安裝方法和開發環境配置。MLlib是Spark數據處理框架的一個主要組件,因此其運行必須要有Spark的支持。
第3章是對彈性數據集(RDD)進行了講解,包括彈性數據集的基本組成原理和使用,以及彈性數據集在數據處理時產生的相互依賴關系,并對主要方法逐一進行示例演示。
第4章介紹了MLlib在數據處理時所用到的基本數據類型。MLlib對數據進行處理時,需要將數據轉變成相應的數據類型。
第5章介紹了MLlib中協同過濾算法的基本原理和應用,并據此介紹了相似度計算和最小二乘法的原理和應用。
第6~12章每章是一個MLlib分支部分,其將MLlib各個數據挖掘算法分別做了應用描述,介紹了其基本原理和學科背景,演示了使用方法和示例,對每個數據做了詳細的分析。并且在一些較為重要的程序代碼上,作者深入MLlib源碼,研究了其構建方法和參數設計,從而幫助讀者更深入地理解MLlib,也為將來讀者編寫自有的MLlib程序奠定了基礎。
第13章是本文的最后一章,通過經典的鳶尾花數據集向讀者演示了一個數據挖掘的詳細步驟。從數據的預處理開始,去除有相關性的重復數據,采用多種算法對數據進行分析計算,對數據進行分類回歸,從而最終得到隱藏在數據中的結果,并為讀者演示了數據挖掘的基本步驟與方法。
本書特點
? 本書盡量避免純粹的理論知識介紹和高深技術研討,完全從應用實踐出發,用最簡單的、典型的示例引申出核心知識,最后還指出了通往“高精尖”進一步深入學習的道路;
? 本書全面介紹了MLlib涉及的數據挖掘的基本結構和上層程序設計,借此能夠系統地看到MLlib的全貌,使讀者在學習的過程中不至于迷失方向;
? 本書在寫作上淺顯易懂,沒有深奧的數學知識,采用了較為簡潔的形式描述了應用的理論知識,讓讀者輕松愉悅地掌握相關內容;
? 本書旨在引導讀者進行更多技術上的創新,每章都會用示例描述的形式幫助讀者更好地學習內容;
? 本書代碼遵循重構原理,避免代碼污染,引導讀者寫出優秀的、簡潔的、可維護的代碼。
讀者與作者
? 準備從事或者從事大數據挖掘、大數據分析的工作人員
? Spark MLlib初學者
? 高校和培訓學校數據分析和處理相關專業的師生
本書由王曉華主編,其他參與創作的作者還有李陽、張學軍、陳士領、陳麗、殷龍、張鑫、趙海波、張興瑜、毛聰、王琳、陳宇、生暉、張?、王健,排名不分先后。
示例代碼下載
本書示例代碼可以從下面地址(注意數字和字母大小寫)下載:
http://pan.baidu.com/s/1hqtuutY
如果下載有問題,請聯系電子郵箱booksaga@163.com,郵件主題為“MLlib代碼”。





編 者
2017年1月

內容簡介:

Spark作為新興的、應用范圍最為廣泛的大數據處理開源框架引起了廣泛的關注,它吸引了大量程序設計和開發人員進行相關內容的學習與開發,其中MLlib是Spark框架使用的核心。本書是一本細致介紹Spark MLlib程序設計的圖書,入門簡單,示例豐富。
本書分為13章,從Spark基礎安裝和配置開始,依次介紹MLlib程序設計基礎、MLlib的數據對象構建、MLlib中RDD使用介紹,各種分類、聚類、回歸等數據處理方法,最后還通過一個完整的實例,回顧了前面的學習內容,并通過代碼實現了一個完整的分析過程。
本書理論內容由淺而深,采取實例和理論相結合的方式,講解細致直觀,適合Spark MLlib初學者、大數據分析和挖掘人員,也適合高校和培訓學習相關專業的師生教學參考。
目錄:

第1章星星之火1

1.1大數據時代1

1.2大數據分析時代2

1.3簡單、優雅、有效——這就是Spark3

1.4核心——MLlib4

1.5星星之火,可以燎原6

1.6小結6

第2章Spark安裝和開發環境配置7

2.1Windows單機模式Spark安裝和配置7

2.1.1Windows7安裝Java7

2.1.2Windows7安裝Scala10

2.1.3IntellijIDEA下載和安裝13

2.1.4IntellijIDEA中Scala插件的安裝14

2.1.5HelloJava——使用IntellijIDEA創建Java程序18

2.1.6HelloScala——使用IntellijIDEA創建Scala程序21

2.1.7最后一腳——Spark單機版安裝26

2.2經典的WordCount29

2.2.1Spark實現WordCount29

2.2.2MapReduce實現WordCount31

2.3小結34

第3章RDD詳解35

3.1RDD是什么35

3.1.1RDD名稱的秘密35

3.1.2RDD特性36

3.1.3與其他分布式共享內存的區別37

3.1.4RDD缺陷37

3.2RDD工作原理38

3.2.1RDD工作原理圖38

3.2.2RDD的相互依賴38

3.3RDD應用API詳解39

3.3.1使用aggregate方法對給定的數據集進行方法設定39

3.3.2提前計算的cache方法42

3.3.3笛卡爾操作的cartesian方法43

3.3.4分片存儲的coalesce方法44

3.3.5以value計算的countByValue方法45

3.3.6以key計算的countByKey方法45

3.3.7除去數據集中重復項的distinct方法46

3.3.8過濾數據的filter方法47

3.3.9以行為單位操作數據的flatMap方法47

3.3.10以單個數據為目標進行操作的map方法48

3.3.11分組數據的groupBy方法48

3.3.12生成鍵值對的keyBy方法49

3.3.13同時對兩個數據進行處理的reduce方法50

3.3.14對數據進行重新排序的sortBy方法51

3.3.15合并壓縮的zip方法52

3.4小結53

第4章MLlib基本概念54

4.1MLlib基本數據類型54

4.1.1多種數據類型54

4.1.2從本地向量集起步55

4.1.3向量標簽的使用56

4.1.4本地矩陣的使用58

4.1.5分布式矩陣的使用59

4.2MLlib數理統計基本概念62

4.2.1基本統計量62

4.2.2統計量基本數據63

4.2.3距離計算64

4.2.4兩組數據相關系數計算65

4.2.5分層抽樣67

4.2.6假設檢驗69

4.2.7隨機數70

4.3小結71

第5章協同過濾算法72

5.1協同過濾72

5.1.1協同過濾概述72

5.1.2基于用戶的推薦73

5.1.3基于物品的推薦74

5.1.4協同過濾算法的不足75

5.2相似度度量75

5.2.1基于歐幾里得距離的相似度計算75

5.2.2基于余弦角度的相似度計算76

5.2.3歐幾里得相似度與余弦相似度的比較77

5.2.4第一個例子——余弦相似度實戰77

5.3MLlib中的交替最小二乘法(ALS算法)80

5.3.1最小二乘法(LS算法)詳解81

5.3.2MLlib中交替最小二乘法(ALS算法)詳解82

5.3.3ALS算法實戰83

5.4小結85

第6章MLlib線性回歸理論與實戰86

6.1隨機梯度下降算法詳解86

6.1.1道士下山的故事87

6.1.2隨機梯度下降算法的理論基礎88

6.1.3隨機梯度下降算法實戰88

6.2MLlib回歸的過擬合89

6.2.1過擬合產生的原因90

6.2.2lasso回歸與嶺回歸91

6.3MLlib線性回歸實戰91

6.3.1MLlib線性回歸基本準備91

6.3.2MLlib線性回歸實戰:商品價格與消費者收入之間的關系94

6.3.3對擬合曲線的驗證95

6.4小結97

第7章MLlib分類實戰98

7.1邏輯回歸詳解98

7.1.1邏輯回歸不是回歸算法98

7.1.2邏輯回歸的數學基礎99

7.1.3一元邏輯回歸示例100

7.1.4多元邏輯回歸示例101

7.1.5MLlib邏輯回歸驗證103

7.1.6MLlib邏輯回歸實例:腎癌的轉移判斷104

7.2支持向量機詳解106

7.2.1三角還是圓106

7.2.2支持向量機的數學基礎108

7.2.3支持向量機使用示例109

7.2.4使用支持向量機分析腎癌轉移110

7.3樸素貝葉斯詳解111

7.3.1穿褲子的男生or女生111

7.3.2貝葉斯定理的數學基礎和意義112

7.3.3樸素貝葉斯定理113

7.3.4MLlib樸素貝葉斯使用示例114

7.3.5MLlib樸素貝葉斯實戰:“僵尸粉”的鑒定115

7.4小結117

第8章決策樹與保序回歸118

8.1決策樹詳解118

8.1.1水晶球的秘密119

8.1.2決策樹的算法基礎:信息熵119

8.1.3決策樹的算法基礎——ID3算法121

8.1.4MLlib中決策樹的構建122

8.1.5MLlib中決策樹示例123

8.1.6隨機雨林與梯度提升算法(GBT)125

8.2保序回歸詳解127

8.2.1何為保序回歸128

8.2.2保序回歸示例128

8.3小結129

第9章MLlib中聚類詳解130

9.1聚類與分類130

9.1.1什么是分類130

9.1.2什么是聚類131

9.2MLlib中的Kmeans算法131

9.2.1什么是kmeans算法131

9.2.2MLlib中Kmeans算法示例133

9.2.3Kmeans算法中細節的討論134

9.3高斯混合聚類135

9.3.1從高斯分布聚類起步135

9.3.2混合高斯聚類137

9.3.3MLlib高斯混合模型使用示例137

9.4快速迭代聚類138

9.4.1快速迭代聚類理論基礎138

9.4.2快速迭代聚類示例139

9.5小結140

第10章MLlib中關聯規則141

10.1Apriori頻繁項集算法141

10.1.1啤酒與尿布141

10.1.2經典的Apriori算法142

10.1.3Apriori算法示例144

10.2FP-growth算法145

10.2.1Apriori算法的局限性145

10.2.2FP-growth算法145

10.2.3FP樹示例148

10.3小結149

第11章數據降維150

11.1奇異值分解(SVD)150

11.1.1行矩陣(RowMatrix)詳解150

11.1.2奇異值分解算法基礎151

11.1.3MLlib中奇異值分解示例152

11.2主成分分析(PCA)153

11.2.1主成分分析(PCA)的定義154

11.2.2主成分分析(PCA)的數學基礎154

11.2.3MLlib中主成分分析(PCA)示例155

11.3小結156

第12章特征提取和轉換157

12.1TF-IDF157

12.1.1如何查找所要的新聞157

12.1.2TF-IDF算法的數學計算158

12.1.3MLlib中TF-IDF示例159

12.2詞向量化工具160

12.2.1詞向量化基礎160

12.2.2詞向量化使用示例161

12.3基于卡方檢驗的特征選擇162

12.3.1“吃貨”的苦惱162

12.3.2MLlib中基于卡方檢驗的特征選擇示例163

12.4小結164

第13章MLlib實戰演練——鳶尾花分析166

13.1建模說明166

13.1.1數據的描述與分析目標166

13.1.2建模說明168

13.2數據預處理和分析171

13.2.1微觀分析——均值與方差的對比分析171

13.2.2宏觀分析——不同種類特性的長度計算174

13.2.3去除重復項——相關系數的確定176

13.3長與寬之間的關系——數據集的回歸分析180

13.3.1使用線性回歸分析長與寬之間的關系180

13.3.2使用邏輯回歸分析長與寬之間的關系183

13.4使用分類和聚類對鳶尾花數據集進行處理184

13.4.1使用聚類分析對數據集進行聚類處理184

13.4.2使用分類分析對數據集進行分類處理187

13.5最終的判定——決策樹測試188

13.5.1決定數據集的歸類——決策樹188

13.5.2決定數據集歸類的分布式方法——隨機雨林190

13.6小結191

序: