大數據時代小數據分析( 簡體 字) | |
作者:屈澤中 | 類別:1. -> 程式設計 -> 大數據 |
出版社:電子工業出版社 | 3dWoo書號: 41969 詢問書籍請說出此書號! 有庫存 NT售價: 345 元 |
出版日:7/1/2015 | |
頁數:360 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121264696 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章 知己知彼,百戰不殆——風險與預測分析 1
1.1 預測從世界杯開始 2 1.2 手機綁定消費的秘密 5 1.3 筆記本電腦出國冒險記 25 1.4 慧眼識分布 36 1.5 分布72變 47 1.6 做最優秀的面包店長 74 第2章 運籌帷幄,決勝千里——效益最大化 101 2.1 換個思路來數雞 102 2.2 做一個精明的農場主 128 2.3 見識LINGO與Crystal Ball的威力 146 第3章 圖個明白,精彩展現——JMP精彩圖表 192 3.1 圖個明白——常用圖形 194 3.2 圖個明白——樹圖 208 3.3 圖個明白—— SPC圖 214第4章 抽絲剝繭,明察秋毫——相關分析 227 4.1 假設檢驗——大膽假設,小心求證 228 4.1.1 小心求證—均值檢驗 235 4.1.2 小心求證—比例檢驗 252 4.1.3 小心求證—非參數檢驗 261 4.2 相關與回歸分析 272 4.2.1 相關性與第三方變量 272 4.2.2 收入與支出關系—簡單線性回歸 280 4.2.3 最佳口感食品配方—多元線性回歸 283 4.2.4 咖啡好喝,不能多喝—非線性回歸 290 4.2.5 預防心血管疾病從減肥開始—二值Logistic回歸分析 295 4.3 人以類聚,物以群分——聚類分析 300 4.3.1 美好一天從早餐開始—觀測值聚類分析 302 4.3.2 海拔是否影響血壓—變量聚類分析 305 4.3.3 為熊貓分類—K均值聚類分析 307 第5章 要里子,也要面子——數據展現的藝術 311 5.1 哪種水果更好賣 314 5.2 書店利潤最大化 327 5.3 非誠勿擾——最佳男友模型 337 本書是一本大數據時代下進行小數據分析的入門級教材,通過數據分析的知識點,將各類分析工具進行串聯和對比,例如:在進行線性規劃的時候可以選擇使用Excel或LINGO或Crystal Ball。工具的應用難易結合,讓讀者循序漸進地學習相關工具。JMP和Mintab用來分析數據,分析的結果使用Excel、LINGO、Crystal Ball來建立數據模型,最后使用Xcelsius來動態展示數據分析的結果。書中以兩個人的對話為敘述方式,場景描寫多,容易進入學習狀態,完全是用生動的故事和實用的案例盡可能地貼近生活和工作,讓數據分析生動有趣,基本上有高中數學知識就可以理解線性規劃等數據分析內容。
本書不僅介紹Excel而且介紹使用其他工具軟件進行數據分析,可用來拓展互聯網公司、傳統企業、電商企業、管理咨詢公司等各行各業從事數據分析工作的分析師和管理者對數據分析的認知,也適合初中級數據分析師或者想進入數據分析行業的有志之士參考閱讀。 筆者自2008年的一個偶然機會第1次接觸“數據挖掘”(Data Mining)這個新名詞以來,在數據挖掘應用相關領域度過了6年。筆者的專業是化工,整天應該與塔、釜、換熱器、化學反應和物料守恒等打交道。開始接觸這個專業的目的是為了利用數據分析的一些功能來優化生產運營,讓企業以更高的效率、更低的成本和更好的質量運營,為此需要數據積累、數據分析和數據模型。
2008年,國內企業在數據挖掘應用中摸索起步,遠不如現在大數據火熱。如今大數據最火的商業應用主要集中在互聯網、銀行和電信等領域。基于行業應用限制,筆者無法接觸到真正的大數據挖掘,但是幸運的是還是碰到了職業和興趣的重合點。 這幾年的摸索是筆者職業生涯中很重要的一段時光,因此有必要將自己一路走來的心得與體會、感悟和挫折整理出來,一則是對自己的這段職業生涯做一個交代,特別是對一路引導、鼓勵和支持筆者的師友和家人;二則是合理地引導類似筆者半道出家的學習者,對數據分析有興趣卻沒有深厚的統計學知識和IT功底人士,筆者相信本書的內容對于廣大對數據分析應用感興趣的初學者來說都是一種寶貴經驗。在學習數據分析的道路上筆者深刻認識到一個道理,即一個成功的數據分析實踐的核心因素不是數據分析技術,而是對業務理解和分析思路。這也是當初學習數據分析的初衷,初學者切不可為數據分析而分析數據。 大數據挖掘需要精通數據庫、計算機編程和深厚的統計學基礎,有的甚至涉及運籌學范疇,是一門復合型的應用科學。大數據的案例現在是一抓一大把,如國外典型的“啤酒與尿布”的案例,在了解數據分析之前不妨來看看幾個有趣的應用案例。 (1)數據新聞讓英國撤軍 2010年10月23日《衛報》利用維基解密的數據做了一篇“數據新聞”,即將伊拉克戰爭中所有的人員傷亡情況均標注于地圖之上,地圖上一個紅點代表一次死傷事件。用鼠標單擊紅點后彈出的窗口則有詳細的說明,包括傷亡人數、時間和造成傷亡的具體原因。密布的紅點多達39萬個,顯得格外觸目驚心,如圖0-1所示。此新聞一經刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊的決定。 圖0-1 伊拉克戰爭中所有的人員傷亡情況 (2)大數據與喬布斯癌癥治療 喬布斯是世界上第1個對自身所有DNA和腫瘤DNA進行排序的人,為此他支付了高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數據文檔。醫生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了幾年的生命。 (3)Google成功預測冬季流感 2009年,Google通過分析5 000萬條美國人最頻繁檢索的詞匯將其和美國疾病中心在2003—2008年間季節性流感傳播時期的數據進行比較。并建立了一個特定的數學模型,最終成功預測了2009冬季流感的傳播,甚至可以具體到特定的地區和州。 (4)奢侈品銷售 PRADA在紐約的旗艦店中每件衣服上都有RFID碼,每當一個顧客拿起一件PRADA進入試衣間,RFID會被自動識別;同時數據會傳至PRADA總部。每一件衣服在哪個城市、哪個旗艦店、什么時間被拿進試衣間和停留多長時間,數據都被存儲起來加以分析。如果一件衣服銷量很低,以往的做法是直接收回;如果RFID傳回的數據顯示這件衣服雖然銷量低,但進試衣間的次數多,則說明這件衣服的下場會截然不同,或者在某個細節的微小改變就會重新制造出一件非常流行的產品。 除了國外這些經常用于商業培訓課程的案例外,數據分析其實并不遙遠,在國內也不乏應用。例如,共和國的開國元帥林彪就曾經依靠敏銳的數據嗅覺和軍事天賦成功搗毀敵營總部。 目前國內的大部分高校還沒有開設數據挖掘這門專業課程,大數據分析需要依靠龐大的數據庫,即需要各專業的人士通力合作,是一個團隊作業。類似筆者這種半道出家的個人學習者在不具備團隊協作的條件下,可以在樣本數據的分析下工夫,樣本數據也可以稱為“小數據”,因此本書的名稱定為《大數據時代的小數據分析》。 本書主要介紹應用數據分析的一系列工具,如:Excel、LINGO、Crystal Ball、JMP、Minitab和Xcelsius等,涉及的分析有預測、風險分析、優化求解、假設檢驗、相關分析、回歸分析和聚類分析等。但所有這些軟件都不是最新版本,如Excel使用2010版;Minitab使用的V15版。在使用軟件時最重要的不是版本的最新,而是理解其功能和特點,靈活地運用。即使是Excel 2003版本,只要運用得當,同樣能發揮強大的功能。很多不同功能的軟件都可以完成,本書主要結合不同軟件的不同特點介紹其應用。 書中涉及一些專業名詞和原理,如標準差和假設檢驗等,本書沒有給出生澀難懂的定義,而只是通俗地解釋這些名詞。這樣做原因有二:一則作為半道出家的筆者不愿,也不會定義這些理論;二則定義這些名詞或原理只會讓本來就讓人頭疼的數據分析顯得更加枯燥。如果讀者需要準確理解這些專業名詞,可以參考其他資料。 本書中列舉的一些應用都是盡可能地貼近生活和工作,讓數據分析看起來盡可能有趣一些,在排列各章節的順序時也盡量遵循軟件的功能之間的邏輯關系。 本書在每一章均會應用一些有趣的案例引出討論的重點,其中兩人按照師徒問答的形式模擬實際工作中的場景循序漸進地學習分析工具,讓枯燥的數據分析顯得生動一些。 本書適合的讀者如下。 (1)對數據分析應用有興趣的人士。 (2)對統計、數學和碼農等深奧理論不感興趣者。(3)想嘗試自身專業的數據分析,提高技能者。 (4)想嘗試數據分析工作并尋找切入點者。 本書不適合的讀者如下。 (1)喜歡拍腦袋和胸脯者。 (2)見了數據就想嘔吐者。 (3)愛好SAS/R/Python等豪門軟件的狂熱者。 (4)統計、數學和IT專業的大牛。 (5)對數據有深刻理解的科學家。 筆者是從化工這個與數據分析無關的專業開始學習數據分析的,相信只要讀者能靜心地讀完本書也會有所收獲。但是不能指望數據分析能解決所有的問題,它不是萬能的。一個成功的數據分析實踐的核心因素不是數據分析技術,而是對業務的理解和分析思路。 全書的原理講解和工具操作同步,即在操作軟件的同時理解其原理;列舉的案例涵蓋多個行業,根據案例引出所需要討論的知識點;然后根據知識點舉一反三,串聯盡可能多的數據分析入門知識;同時將介紹其適合的分析工具。 在編寫本書之前筆者與人大經濟論壇(http://bbs.pinggu.org/)合作開發過相關的視頻培訓課件,其中部分工具與本書中介紹的工具相同,有需要視頻課件的讀者可以試聽(前3節免費)。 (1)Crystal Ball初中級課程:http://www.peixun.net/view/208.html。 (2)Crystal Ball高級課程:http://www.peixun.net/view/216.html。 (3)LINGO初級課程:http://www.peixun.net/view/251.html。 (4)Minitab初級課程:http://www.peixun.net/view/281.html。 由于筆者的水平有限,對數據分析的理解不夠透徹,加之編寫時間倉促,因此書中難免會出現一些錯誤或不準確之處,懇請讀者批評指正。 |