|
-- 會員 / 註冊 --
|
|
|
|
Spark高級數據分析 第2版 ( 簡體 字) |
作者:[美]桑迪·里扎(Sandy Ryza), [美]于里·萊瑟森(Uri Laserson), [英]肖恩·歐文(Sean Owen), [美]喬希·威爾斯(Josh Wills) | 類別:1. -> 程式設計 -> Spark |
譯者: |
出版社:人民郵電出版社 | 3dWoo書號: 49149 詢問書籍請說出此書號!【有庫存】 NT售價: 345 元 |
出版日:6/1/2018 |
頁數:226 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787115482525 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:本書是使用Spark進行大規模數據分析的實戰寶典,由知名數據科學家撰寫。本書在第1版的基礎上,針對Spark近年來的發展,對樣例代碼和所使用的資料進行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL兩個子項目也發生了較大變化,本書為關注Spark發展趨勢的讀者提供了與時俱進的資料,例如Dataset和DataFrame的使用,以及與DataFrame API高度集成的Spark ML API。 |
目錄:推薦序 ix 譯者序 xi 序 xiii 前言 xv 第 1章 大數據分析 1 1.1 數據科學面臨的挑戰 2 1.2 認識Apache Spark 4 1.3 關于本書 5 1.4 第 2版說明 6 第 2章 用Scala 和Spark 進行數據分析 8 2.1 數據科學家的Scala 9 2.2 Spark編程模型 10 2.3 記錄關聯問題 10 2.4 小試牛刀:Spark shell和SparkContext 11 2.5 把數據從集群上獲取到客戶端 16 2.6 把代碼從客戶端發送到集群 19 2.7 從RDD到DataFrame 20 2.8 用DataFrame API來分析數據 23 2.9 DataFrame的統計信息 27 2.10 DataFrame的轉置和重塑 29 2.11 DataFrame的連接和特征選擇 32 2.12 為生產環境準備模型 33 2.13 評估模型 35 2.14 小結 36 第3章 音樂推薦和Audioscrobbler數據集 37 3.1 數據集 38 3.2 交替最小二乘推薦算法 39 3.3 準備數據 41 3.4 構建第 一個模型 44 3.5 逐個檢查推薦結果 47 3.6 評價推薦質量 50 3.7 計算AUC 51 3.8 選擇超參數 53 3.9 產生推薦 55 3.10 小結 56 第4章 用決策樹算法預測森林植被 58 4.1 回歸簡介 59 4.2 向量和特征 59 4.3 樣本訓練 60 4.4 決策樹和決策森林 61 4.5 Covtype數據集 63 4.6 準備數據 64 4.7 第 一棵決策樹 66 4.8 決策樹的超參數 72 4.9 決策樹調優 73 4.10 重談類別型特征 77 4.11 隨機決策森林 79 4.12 進行預測 81 4.13 小結 82 第5章 基于K均值聚類的網絡流量異常檢測 84 5.1 異常檢測 85 5.2 K均值聚類 85 5.3 網絡入侵 86 5.4 KDD Cup 1999數據集 86 5.5 初步嘗試聚類 87 5.6 k的選擇 90 5.7 基于SparkR 的可視化 92 5.8 特征的規范化 96 5.9 類別型變量 98 5.10 利用標號的熵信息 99 5.11 聚類實戰 100 5.12 小結 102 第6章 基于潛在語義分析算法分析維基百科 104 6.1 文檔-詞項矩陣 105 6.2 獲取數據 106 6.3 分析和準備數據 107 6.4 詞形歸并 109 6.5 計算TF-IDF 110 6.6 奇異值分解 111 6.7 找出重要的概念 113 6.8 基于低維近似的查詢和評分 117 6.9 詞項-詞項相關度 117 6.10 文檔-文檔相關度 119 6.11 文檔-詞項相關度 121 6.12 多詞項查詢 122 6.13 小結 123 第7章 用GraphX分析伴生網絡 124 7.1 對MEDLINE文獻引用索引的網絡分析 125 7.2 獲取數據 126 7.3 用Scala XML工具解析XML文檔 128 7.4 分析MeSH主要主題及其伴生關系 130 7.5 用GraphX來建立一個伴生網絡 132 7.6 理解網絡結構 135 7.6.1 連通組件 136 7.6.2 度的分布 138 7.7 過濾噪聲邊 140 7.7.1 處理EdgeTriplet 141 7.7.2 分析去掉噪聲邊的子圖 142 7.8 小世界網絡 144 7.8.1 系和聚類系數 144 7.8.2 用Pregel計算平均路徑長度 145 7.9 小結 150 第8章 紐約出租車軌跡的空間和時間數據分析 151 8.1 數據的獲取 152 8.2 基于Spark的第三方庫分析 153 8.3 基于Esri Geometry API和Spray的地理空間數據處理 153 8.3.1 認識Esri Geometry API 154 8.3.2 GeoJSON簡介 155 8.4 紐約市出租車客運數據的預處理 157 8.4.1 大規模數據中的非法記錄處理 159 8.4.2 地理空間分析 162 8.5 基于Spark的會話分析 165 8.6 小結 168 第9章 基于蒙特卡羅模擬的金融風險評估 170 9.1 術語 171 9.2 VaR計算方法 172 9.2.1 方差-協方差法 172 9.2.2 歷史模擬法 172 9.2.3 蒙特卡羅模擬法 172 9.3 我們的模型 173 9.4 獲取數據 173 9.5 數據預處理 174 9.6 確定市場因素的權重 177 9.7 采樣 179 9.8 運行試驗 182 9.9 回報分布的可視化 185 9.10 結果的評估 186 9.11 小結 188 第 10章 基因數據分析和BDG項目 190 10.1 分離存儲與模型 191 10.2 用ADAM CLI導入基因學數據 193 10.3 從ENCODE數據預測轉錄因子結合位點 201 10.4 查詢1000 Genomes項目中的基因型 207 10.5 小結 210 第 11章 基于PySpark和Thunder的神經圖像數據分析 211 11.1 PySpark簡介 212 11.2 Thunder工具包概況和安裝 215 11.3 用Thunder加載數據 215 11.4 用Thunder對神經元進行分類 221 11.5 小結 225 作者介紹 226 封面介紹 226 |
序: |
|