-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
10/8 新書到! 10/1 新書到! 9/24 新書到! 9/18 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

大數據是這樣計算的:XLab實例入門

( 簡體 字)
作者:楊旭類別:1. -> 程式設計 -> 大數據
譯者:
出版社:電子工業出版社大數據是這樣計算的:XLab實例入門 3dWoo書號: 43827
詢問書籍請說出此書號!

有庫存
NT售價: 395

出版日:3/1/2016
頁數:340
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121282317
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

推薦序一
阿里云副總裁
周靖人
阿里巴巴的大數據算法平臺作為支持天貓、淘寶和支付寶等各種業務的基石,每天有數千名的阿里工程師在平臺上處理各式各樣的海量數據。作者多年來一直從事阿里巴巴的大數據算法平臺的研發,致力于幫助工程師更快捷、更高效地挖掘大數據,進行復雜多樣的數據分析。作者根據自己在阿里大數據計算方面的所見所聞,結合多個具體的案例分析,將大數據分析計算的脈絡直觀、清晰地展現給讀者。
本書集中在大數據分析實戰上,精選了不同行業和領域的數據集,重點講解大數據的分析方法和算法。本書的每一個章節都圍繞一個實際數據集,從數據探索入手,根據數據自身的特點選取相應的分析方法,并對相關算法和方法進行簡要介紹,便于讀者理解掌握。同時,本書注重計算結果的分析,使讀者對算法的效果有具體的印象,加強對算法的理解。它是大數據領域一本難得的實用好書!
推薦序二
螞蟻金服副總裁、首席數據科學家
漆遠
本書立足于阿里巴巴成熟的大數據算法平臺,讀者在分析實例時,可以直接關注思路和算法,省去了如何編寫復雜的分布式代碼實現一個常用算法的困擾。本書的學習門檻低,讀者如果用過MATLAB、SAS、R或Excel等任何一款數據分析軟件,就可以輕松讀懂本書。
作者是阿里巴巴一個核心MPI大數據算法平臺的主要建設者和領頭人,其開發的算法平臺在阿里巴巴和螞蟻金服集團都廣泛使用,很好地支持了數據分析師和工程師的工作。作者結合自身的豐富經驗,通過具體案例全面地解析數據探索過程,講解思路、具體算法的使用及技巧,實戰性強:面對具體的數據,引入適合的算法,有簡明的算法原理介紹;通過算法應用到數據后的效果展示,讀者能感性地了解該算法的作用。
本書可以幫助對大數據分析感興趣的初學者了解該領域,提高自己在該領域的知識積累。本書所討論的十多個數據集,涉及不同的場景,用到了各種統計分析和機器學習的算法,可以幫助正在從事該領域的專業人士擴寬知識面,增強大數據實戰能力。
看完這本書,也許你會揭下大數據神秘的“面紗”,然后發現它很有意思、很有用!
前言
隨著大數據分析方法的發展、分析工具的改進,大數據分析的門檻降低了。基于大數據算法平臺,數據分析師們已經不再被數據的“大”所困擾,他們可以輕松地探索大數據,挖掘大數據的價值。
本書希望將最新的、常用的大數據分析方法和算法介紹給讀者。在內容的組織上,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,我們會更加了解各種方法和算法的長處和局限。本書的實例都運行在大數據算法平臺XLab上。
XLab是阿里巴巴集團內部最大的大數據算法平臺,集統計、機器學習、數據分析、挖據和處理于一體,致力于幫助用戶享受最新的算法研究成果,使其無須關注算法的底層實現和性能調優,專注數據探索和算法嘗試,從而快速地進行業務調整,搭建線上業務。在阿里集團外,大家也有機會接觸到XLab,參加2014年阿里巴巴大數據競賽的幾百支高校學生隊伍,正是使用XLab來進行大數據分析預測的;面對淘寶商家的數據開發平臺,“御膳房”(http://clouddata.taobao.com/)便使用了XLab的分布式算法庫XLib。
本書每章一個實例,每個實例各有特點,每章所用的方法也各有側重,我簡單歸納如下,希望能幫助讀者把握本書脈絡,選擇閱讀重點。
第1章
圍繞著人口普查數據,演示了一些常用的方法,譬如:對數據進行可視化,計算常用統計量,進行多維對應分析,根據數據建立模型判斷年收入水平等,希望讀者能體會到:大數據分析還是很簡單、自然的。
第2章
概略介紹XLab的功能,希望大家能對大數據算法平臺有個總體了解。
第3章
分析全球機場信息數據,亮點是地理位置信息(經度、緯度、海拔高度)可視化。
第4章
圍繞紐約證券交易所的25家上市公司的股票價格,進行數據預處理、趨勢顯示和主成分分析。
第5章
分析標準普爾500指數,展示如何通過散布圖矩陣,快速發現各數據列間的線性關系;如何將擴展直方圖與方差、變異系數等統計量相結合,探尋規律;本章還會將標準普爾500指數與前一章的主成分分析結果進行對比。
第6章
針對鳶尾花數據集,講解聚類分析中常用的兩種方法:K-Means聚類和EM聚類,通過在鳶尾花數據上的實驗效果,讀者能了解這兩種方法擅長處理的情況;在本章后半部分,實驗、對比了各種分類算法在該數據集上的效果。
第7章
MovieLens數據集記錄了電影信息和觀眾對電影的打分記錄。首先,計算得到各種排行榜,進一步對影片進行關聯分析,即如果知道某個觀眾看了影片A和B,我們可以推測該觀眾可能還看過哪部其他影片?
第8章
關于汽車評價數據集,重點關注:使用對應分析的方法,將各個屬性值間的關系圖示化;如何將數據所描述的規則,轉換為更為形象和易用的樹形決策過程。
第9章
關于Twitter數據,首先嘗試不同的統計方法,一起發現些有意思的現象;還可以針對Twitter的關注關系構成的網絡,實驗信息傳播的速度;最后,使用PageRank等方法,我們可以排出這個網絡中最重要的人物。
第10章
展示如何生成大規模的隨機數據,并演示了兩個神奇的例子。
第11章
為新浪網頁數據,本章的重點是處理自然語言數據,介紹常用的算法:歸一化、分詞、TF-IDF值、選擇特征等;主題模型是本章的重點,發掘眾多文檔后面的主題,找出相似的文檔;最后介紹奇妙的Word2Vec算法。
第12章
針對2014年阿里巴巴大數據競賽的賽題數據,展示了完整的大數據問題分析、數據預處理、特征構造、數據集劃分、模型訓練、預測評估過程。
另外,如果讀者對XLab底層算法的實現感興趣,建議參考我的另一本書《重構大數據統計》。面對海量數據,即使是基本的統計計算,考慮到計算時間和資源消耗,也不能簡單地將教科書上的算法并行化,而是要在計算理論和計算方法上進行創新。
因作者水平有限,書中難免有不妥或疏漏之處,敬請廣大專家和讀者批評、指正!我的電子郵件地址為:yangxu@alibaba-inc.com。
最后,感謝一起做XLab的各位阿里同事!感謝家人的理解和支持!
楊旭
2016年3月
內容簡介:

隨著大數據分析方法的發展,分析工具的改進,大數據分析的門檻降低了。基于大數據算法平臺,數據分析師們已經不再被數據的“大”所困擾,可以輕松地探索大數據,挖掘大數據的價值。
本書側重介紹大數據分析方法和算法的應用,適合對大數據分析感興趣的讀者閱讀。在內容的組織上,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,讀者會更加了解各種方法和算法的長處和局限。本書的實例都運行在大數據算法平臺XLab上。

目錄:

第1章 入門 1
1.1 打開大數據之門 1
1.2 接觸大數據 2
1.3 數據初探索 4
1.4 進一步分析 10
1.5 訓練和預測 17
第2章 簡介 23
2.1 主界面介紹 23
2.1.1 工具欄 24
2.1.2 數據列表 26
2.1.3 窗口管理器 28
2.1.4 工作界面 28
2.2 數據查看、運行 29
2.2.1 文本顯示 31
2.2.2 復制部分數據 31
2.2.3 顯示/隱藏列 32
2.3 腳本編輯、運行 33
2.4 如何獲得幫助信息 37
2.4.1 查看幫助手冊 37
2.4.2 界面上的幫助信息 38
2.4.3 腳本函數的幫助信息 40
2.5 執行SQL語句 44
第3章 全球機場信息 46
3.1 數據可視化 47
3.2 統計分析 58
3.3 大中型機場的分析 62
3.4 海拔高度排行 64
3.5 數據的關聯關系 68
第4章 股票價格 73
4.1 數據處理 74
4.2 數據探索 78
4.3 數據展開 81
4.3.1 組合使用基本函數進行變換 83
4.3.2 利用專門函數一步到位 84
4.4 各股趨勢比較 85
4.5 總體趨勢 87
第5章 標準普爾500指數 91
5.1 數據類型轉換 92
5.2 各指標間的線性關系 93
5.3 按時間變化趨勢 96
5.4 數據對比 100
第6章 鳶尾花數據集 107
6.1 屬性間的關系 108
6.2 聚類 110
6.2.1 K-Means聚類 111
6.2.2 EM聚類 120
6.3 二分類數據子集 124
6.3.1 使用訓練、預測窗體 125
6.3.2 調用訓練、預測腳本 131
第7章 MovieLens數據集 136
7.1 數據變換 137
7.2 統計 138
7.3 排行榜 145
7.4 分類排行榜 147
7.5 影片關聯分析 149
7.6 屬性擴展 157
第8章 汽車評價數據集 161
8.1 數據圖示化 162
8.2 對比分析 165
8.3 決策樹 169
第9章 Twitter數據 174
9.1 用戶信息分析 175
9.2 用戶粉絲數量的情況 184
9.3 粉絲的情況 192
9.4 “粉”與“被粉” 197
9.5 信息傳播速度 204
9.6 哪些用戶更重要 208
9.6.1 粉絲最多的用戶 209
9.6.2 用戶排名 211
第10章 隨機數據 215
10.1 數據生成 215
10.2 計算π值 217
10.3 中心極限定理 222
第11章 新浪網頁數據 230
11.1 分詞 232
11.2 有區分度的單詞 234
11.3 選擇特征 235
11.3.1 卡方檢驗 236
11.3.2 信息增益 238
11.4 主題模型 242
11.4.1 潛在語義分析 242
11.4.2 概率潛在語義分析 253
11.4.3 LDA模型 272
11.5 單詞映射為向量 289
第12章 2014年阿里巴巴大數據競賽 294
12.1 試題介紹 294
12.2 數據 296
12.3 思路 298
12.3.1 用戶和品牌的各種特征 298
12.3.2 二分類模型訓練 300
12.3.3 比賽考核目標 301
12.4 計算訓練數據集 302
12.4.1 原始數據劃分 303
12.4.2 計算特征 304
12.4.3 數據預處理標識 304
12.4.4 用戶-品牌聯合特征 308
12.4.5 用戶特征 313
12.4.6 品牌特征 317
12.4.7 整合訓練數據的特征 322
12.4.8 計算標簽 323
12.5 二分類模型訓練 324
12.5.1 正負樣本配比 324
12.5.2 樸素貝葉斯算法 325
12.5.3 邏輯回歸算法 326
12.5.4 隨機森林算法 327
12.6 提交預測結果 328
序: