-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
10/8 新書到! 10/1 新書到! 9/24 新書到! 9/18 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

數據科學與大數據分析 數據的發現 分析 可視化與表示

( 簡體 字)
作者:[美] EMC教育服務團隊 ( EMC Education Services ) 類別:1. -> 程式設計 -> 大數據
譯者:
出版社:人民郵電出版社數據科學與大數據分析 數據的發現 分析 可視化與表示 3dWoo書號: 44771
詢問書籍請說出此書號!

有庫存
NT售價: 345

出版日:7/1/2016
頁數:356
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787115416377
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

  數據科學與大數據分析在當前是炙手可熱的概念,關注的是如何通過分析海量數據來洞悉隱藏于數據背后的見解。本書是數據科學領域為數不多的實用性技術圖書,它通過詳細剖析數據分析生命周期的各個階段來講解用于發現、分析、可視化、表示數據的相關方法和技術。
《數據科學與大數據分析——數據的發現 分析 可視化與表示》總共分為12章,主要內容包括大數據分析的簡單介紹,數據分析生命周期的各個階段,使用R語言進行基本的數據分析,以及高級的分析理論和方法,主要涉及數據的聚類、關聯規則、回歸、分類、時間序列分析、文本分析等方法。此外,本書還涵蓋了用來進行高級數據分析所使用的技術和工具,比如MapReduce和Hadoop、數據庫內分析等。
《數據科學與大數據分析——數據的發現 分析 可視化與表示》內容詳細,示例豐富,側重于理論與練習的結合,因此比較適合對大數據分析、數據科學感興趣的人員閱讀,有志于成為數據科學家的讀者也可以從本書中獲益。
目錄:

第1章 大數據分析介紹 1
1.1 大數據概述 2
1.1.1 數據結構 4
1.1.2 數據存儲的分析視角 9
1.2 分析的實踐狀態 10
1.2.1 商業智能 VS 數據科學 11
1.2.2 當前分析架構 12
1.2.3 大數據的驅動力 14
1.2.4 新的大數據生態系統和新的分析方法 15
1.3 新的大數據生態系統中的關鍵角色 17
1.4 大數據分析案例 20
1.5 總結 21
1.6 練習 21
參考書目 21
第2章 數據分析生命周期 23
2.1 數據分析生命周期概述 24
2.1.1 一個成功分析項目的關鍵角色 24
2.1.2 數據分析生命周期的背景和概述 26
2.2 第1階段:發現 28
2.2.1 學習業務領域 29
2.2.2 資源 29
2.2.3 設定問題 30
2.2.4 確定關鍵利益相關者 30
2.2.5 采訪分析發起人 31
2.2.6 形成初始假設 32
2.2.7 明確潛在數據源 32
2.3 第2階段:數據準備 33
2.3.1 準備分析沙箱 34
2.3.2 執行ETLT 35
2.3.3 研究數據 36
2.3.4 數據治理 37
2.3.5 調查和可視化 37
2.3.6 數據準備階段的常用工具 38
2.4 第3階段:模型規劃 39
2.4.1 數據探索和變量選擇 40
2.4.2 模型的選擇 41
2.4.3 模型設計階段的常用工具 42
2.5 第4階段:模型建立 42
2.5.1 模型構建階段中的常用工具 44
2.6 第5階段:溝通結果 45
2.7 第6階段:實施 46
2.8 案例研究:全球創新網絡和分析(GINA) 49
2.8.1 第1階段:發現 50
2.8.2 第2階段:數據準備 51
2.8.3 第3階段:模型規劃 51
2.8.4 第4階段:模型建立 51
2.8.5 第5階段:溝通結果 53
2.8.6 第6階段:實施 54
2.9 總結 55
2.10 練習 55
參考書目 55
第3章 使用R進行基本數據分析 57
3.1 R簡介 58
3.1.1 R圖形用戶界面 61
3.1.2 數據導入和導出 63
3.1.3 屬性和數據類型 64
3.1.4 描述性統計(descriptive statistics) 72
3.2 探索性數據分析 73
3.2.1 在分析之前先可視化 74
3.2.2 臟數據 77
3.2.3 可視化單個變量 80
3.2.4 研究多個變量 83
3.2.5 對比數據探索和數據演示 90
3.3 用于評估的統計方法 92
3.3.1 假設檢驗 93
3.3.2 均值差異 94
3.3.3 Wilcoxon秩和檢驗 98
3.3.4 I型和II型錯誤 99
3.3.5 功效和抽樣大小 100
3.3.6 ANOVA 100
3.4 總結 104
3.5 練習 104
參考文獻 105
第4章 高級分析理論與方法:聚類 107
4.1 聚類概述 108
4.2 k均值聚類 108
4.2.1 使用案例 109
4.2.2 方法概述 110
4.2.3 確定聚類簇的數量 112
4.2.4 診斷 117
4.2.5 選擇原因及注意事項 118
4.3 其他算法 122
4.4 總結 122
4.5 練習 123
參考書目 123
第5章 高級分析理論與方法:關聯規則 124
5.1 概述 125
5.2 Apriori算法 127
5.3 評估候選規則 128
5.4 關聯規則的應用 129
5.5 雜貨店交易示例 130
5.5.1 雜貨店數據集 130
5.5.2 生成頻繁數據集 132
5.5.3 規則的生成和可視化 137
5.6 驗證和測試 143
5.7 診斷 143
5.8 總結 144
5.9 練習 144
參考書目 145
第6章 高級分析理論與方法:回歸 147
6.1 線性回歸 148
6.1.1 用例 148
6.1.2 模型描述 149
6.1.3 診斷 158
6.2 邏輯回歸 163
6.2.1 用例 163
6.2.2 模型描述 163
6.2.3 診斷 165
6.3 選擇理由和注意事項 172
6.4 其他回歸模型 173
6.5 總結 173
6.6 練習 174
第7章 高級分析理論與方法:分類 175
7.1 決策樹 176
7.1.1 決策樹概覽 177
7.1.2 通用算法 181
7.1.3 決策樹算法 185
7.1.4 評估決策樹 186
7.1.5 R中的決策樹 189
7.2 樸素貝葉斯 193
7.2.1 貝葉斯定理 194
7.2.2 樸素貝葉斯分類器 196
7.2.3 平滑 198
7.2.4 診斷 198
7.2.5 R中的樸素貝葉斯 199
7.3 分類器診斷 204
7.4 其他分類方法 208
7.5 總結 209
7.6 練習 210
參考書目 210
第8章 高級分析理論與方法:時間序列分析 212
8.1 時間序列分析概述 213
8.1.1 Box-Jenkins方法 214
8.2 ARIMA模型 215
8.2.1 自相關函數(ACF) 215
8.2.2 自回歸模型 216
8.2.3 移動平均模型 218
8.2.4 ARMA和ARIMA模型 219
8.2.5 建立和評估ARIMA模型 222
8.2.6 選擇理由及注意事項 230
8.3 其他方法 230
8.4 總結 231
8.5 練習 231
第9章 高級分析理論與方法:文本分析 232
9.1 文本分析步驟 234
9.2 一個文本分析的示例 235
9.3 收集原始數據 237
9.4 表示文本 240
9.5 詞頻-逆文檔頻率(TFIDF) 245
9.6 通過主題來分類文件 249
9.7 情感分析 253
9.8 獲得洞察力 258
9.9 總結 263
9.10 練習 263
參考書目 264
第10章 高級分析技術與工具:MapReduce和Hadoop 267
10.1 非結構化數據分析 268
10.1.1 用例 268
10.1.2 MapReduce 270
10.1.3 Apache Hadoop 271
10.2 Hadoop生態系統 277
10.2.1 Pig 278
10.2.2 Hive 279
10.2.3 HBase 282
10.2.4 Mahout 290
10.3 NoSQL 292
10.4 總結 293
10.5 練習 294
參考書目 294
第11章 高級分析技術與工具:數據庫內分析 297
11.1 SQL基本要素 298
11.1.1 連接 299
11.1.2 set運算符 301
11.1.3 grouping擴展 303
11.2 數據庫內的文本分析 307
11.3 高級SQL技術 311
11.3.1 窗口函數 311
11.3.2 用戶定義函數與聚合 315
11.3.3 排序聚合 318
11.3.4 MABlib 319
11.4 總結 323
11.5 練習 323
參考書目 323
第12章 結尾 324
12.1 溝通和實施一個分析項目 325
12.2 創建最終可交付成果 327
12.2.1 為多個受眾群體創建核心材料 329
12.2.2 項目目標 330
12.2.3 主要發現 331
12.2.4 方法 333
12.2.5 模型描述 334
12.2.6 有數據支持的關鍵論點 335
12.2.7 模型細節 336
12.2.8 建議 337
12.2.9 關于最終演示文檔的額外提示 338
12.2.10 提供技術規范和代碼 339
12.3 數據可視化基礎 340
12.3.1 有數據支持的要點 341
12.3.2 圖的演進 342
12.3.3 通用表示方法 348
12.3.4 如何清理圖形 349
12.3.5 額外考慮 353
12.4 總結 355
12.5 練習 355
12.6 參考文獻與擴展閱讀 355
參考書目 356
序: