New Internet:大數據挖掘( 簡體 字) | |
作者:譚磊 | 類別:1. -> 程式設計 -> 大數據 |
出版社:電子工業出版社 | 3dWoo書號: 35121 詢問書籍請說出此書號! 有庫存 NT售價: 345 元 |
出版日:3/1/2013 | |
頁數:376 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121196706 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章 緒論——從淘金客到礦山主 1
1.1 大數據時代的“四V” 2 1.2 什么是大數據挖掘 5 1.2.1 從數據分析到數據挖掘 6 1.2.2 Web挖掘 9 1.2.3 大數據挖掘之“大” 10 1.3 大數據挖掘的國內外發展 12 1.3.1 數據挖掘的應用發展 12 1.3.2 數據挖掘研究發展 17 1.4 本書內容 19 第2章 一小時了解數據挖掘 23 2.1 數據挖掘是如何解決問題的 23 2.1.1 尿不濕和啤酒 23 2.1.2 Target和懷孕預測指數 24 2.1.3 電子商務網站流量分析 25 2.2 分類:從人臉識別系統說起 27 2.2.1 分類算法的應用 29 2.2.2 數據挖掘分類技術 33 2.2.3 分類算法的評估 37 2.3 一切為了商業 40 2.3.1 什么是商業智能(Business Intelligence) 40 2.3.2 數據挖掘的九大定律 43 2.4 數據挖掘很糾結 44 2.5 數據挖掘的基本流程 45 2.5.1 數據挖掘的一般步驟 45 2.5.2 幾個數據挖掘中常用的概念 47 2.5.3 CRISP-DM 51 2.5.4 數據挖掘的評估 53 2.5.5 數據挖掘結果的知識表示 55 2.6 本章相關資源 59 第3章 數據倉庫——數據挖掘的基石 60 3.1 存放數據的倉庫 60 3.1.1 數據倉庫的定義 61 3.1.2 數據倉庫和數據庫 63 3.2 傳統的數據倉庫介紹 64 3.3 數據倉庫基本結構 67 3.4 OLAP聯機分析處理 69 3.5 云存儲上的數據倉庫 71 3.5.1 Google公司的云架構 71 3.5.2 開源的分布式系統Hadoop 77 3.5.3 Facebook的數據倉庫 85 3.5.4 NoSQL 86 3.6 本章相關資源 89 第4章 數據挖掘算法及原理 91 4.1 數據挖掘中的算法 91 4.2 數據挖掘十大經典算法 92 4.3 分類算法(Classification) 96 4.4 聚類算法(Clustering) 99 4.5 關聯算法 102 4.5.1 關聯算法中的概念 103 4.5.2 關聯規則數據挖掘過程 105 4.5.3 關聯規則的分類 106 4.5.4 Apriori算法的執行實例 107 4.5.5 關聯規則挖掘算法的研究與優化 108 4.6 序列挖掘(Sequence Mining) 113 4.7 數據挖掘建模語言PMML 115 4.8 本章相關資源 117 第5章 在進行數據挖掘之前 120 5.1 數據集成 121 5.2 為何要做數據預處理 122 5.3 數據預處理 124 5.3.1 數據清理 124 5.3.2 數據轉換 129 5.3.3 數據規約 132 5.4 本章相關資源 134 第6章 R語言和其他數據挖掘工具 136 6.1 R語言的歷史 136 6.1.1 R語言的特點 142 6.1.2 R語言和數據挖掘 149 6.2 其他數據挖掘工具 152 6.2.1 MATLAB 153 6.2.2 其他商用數據挖掘工具 155 6.2.3 開源數據挖掘工具Weka 159 6.3 數據挖掘和云 160 6.4 本章相關資源 162 第7章 互聯網上的日志分析 164 7.1 網站日志簡介 165 7.2 網站日志處理 175 7.2.1 Web日志預處理 175 7.2.2 Web日志分析和數據挖掘 181 7.3 郵件日志 183 7.4 本章相關資源 184 第8章 數據挖掘和電子郵件 186 8.1 郵件營銷與垃圾郵件過濾 186 8.2 數據挖掘和郵件營銷 189 8.2.1 如何有效地進行郵件營銷 189 8.2.2 郵件營銷案例分享之一 195 8.2.3 郵件營銷案例分享之二 200 8.2.4 運用數據挖掘RFM模型提高郵件營銷效果 203 8.3 數據挖掘和垃圾郵件過濾 208 8.3.1 垃圾郵件 209 8.3.2 垃圾郵件過濾技術 209 8.3.3 垃圾郵件過濾案例 215 8.4 本章相關資源 218 第9章 數據挖掘和互聯網廣告 219 9.1 互聯網廣告 219 9.2 廣告作弊行為 223 9.3 網站聯盟廣告 225 9.4 網站聯盟廣告上的數據挖掘 226 9.4.1 數據助力網盟廣告 227 9.4.2 如何應對網盟廣告作弊 236 9.5 本章相關資源 241 第10章 數據挖掘和電子商務 242 10.1 中國電子商務現狀 242 10.2 在互聯網上賣米 248 10.3 用數據來掌握客戶 250 10.3.1 客戶何時來、從哪來 253 10.3.2 客戶最喜歡哪種商品 257 10.3.3 競爭與反競爭分析 260 10.3.4 客戶還會買什么 261 10.3.5 哪些客戶是我們需要的 264 10.4 電子商務案例 265 10.4.1 電子商務企業案例一 266 10.4.2 電子商務企業案例二 279 10.5 本章相關資源 286 第11章 數據挖掘和Web挖掘 288 11.1 互聯網上的個性化–Like 289 11.1.1 Like=像 289 11.1.2 Like=喜歡 290 11.2 Web挖掘和SNS 295 11.2.1 SNS上的數據價值 295 11.2.2 SNS上的數據關聯關系 297 11.2.3 SNS上的用戶關系 299 11.3 數據挖掘和隱私 302 11.4 本章相關資源 307 第12章 數據挖掘和移動互聯網 308 12.1 移動互聯網的特殊性 308 12.1.1 鎖定用戶的數據價值 309 12.1.2 移動互聯網上數據的形式 310 12.1.3 移動互聯網地理位置信息的價值 312 12.2 數據挖掘和LBS 314 12.2.1 用PU學習算法做文本挖掘 315 12.2.2 用相似匹配算法做地點挖掘 318 12.3 移動互聯網數據面臨的問題 320 12.4 本章相關資源 322 附錄1 技術詞匯表 323 附錄2 英語參考文獻表 335 附錄3 中文參考文獻表 347 附錄4 微博 350 附錄5 博客和其他網址 351 本書全面地介紹了如何使用數據挖掘技術從各種結構的(數據庫)或非結構(Web)的海量數據中提取和產生業務知識。作者梳理了各種數據挖掘常用算法和信息采集技術,系統地描述了實際應用時如何在互聯網日志分析、電子郵件營銷、互聯網廣告和電子商務上進行數據挖掘,著重介紹了數據挖掘的原理和算法在互聯網海量數據挖掘中的應用。
本書主要特點:全面介紹了數據挖掘和大數據的基本概念和技術;大量采用了實際案例,實用性強;詳細介紹了大數據挖掘領域最新的商業應用。 序一
讀畢譚磊(Raymond)賢弟的《New Internet——大數據挖掘》原稿后,意猶未盡,又繼續再讀一遍,皆因內容實在太充實,笨拙的吾一次閱覽未能完全消化。 自從懵懵懂懂進入廣告傳播這個行業后,便與數據這位“性感”魔鬼形影不離,每次執行項目如果沒有數據便如同得了愛情單思病,茶飯不思、坐立不安、輾轉難眠。 本書內容安排得井井有條,艱深的理論下筆深入簡出,令吾不知不覺墜入黃金屋,整個周末“狠狠”地消化完Raymond的杰作。 數據不單只是性感,數據更是神圣的,神圣的數據能夠提供充分的信息給各行各業,使這些企業能有所依據地及時優化其產品、服務、渠道、傳播、研發等。 數據不是深不可測的,可以這樣來簡單理解——如同我們日常使用信用卡的數據,當我們將一個時段的數據歸納后,便可以了解自己的消費規律。將各式不同規律的消費者數據歸納后,企業便能洞察自己的產品、服務,以及用戶的年齡、性別、國籍、地理位置等的規律。如何發現和運用這些性感數據的規律,便是各門各派的奪寶妙方。 這本書做了大量的資料研究,參考過豐富的素材,選納眾多案例并加以仔細分析,令吾讀來得心應手,實乃學習或研究大數據的優秀參考資料,感謝Raymond的貢獻! 鄧廣梼 互動通控股集團總裁 北京大學客座教授 序二 首悉數據之說,還是1997年在星傳時領導說,要注意收集數據,包括消費者接觸的目的、習慣、聯想等。現在想來,顯示這些數據的采集來源更值得推敲,有些可能不符合數據來源的真實性。 1999 年在電通,為了數據,啟用市調公司,做調查,看報告。之后想來,當時設計的大多的問題已經設計了供選擇的答案,而答案的指向又是我們的主觀認識,所以獲取的數據可能不符合客觀事實性要求。 之后在奧美,強調活動時的數據收集。于是用Word制作了大量的數據收集卡,現場填或發禮品換,在多個地方用了多種方法。現在想來,可能不符合數據的全面性。 再之后在寶潔,基礎數據自然很多,要用數個只有幾兆容量的U盤儲存。但有時多了也很苦惱。因為,有需要索引時,怎么分析呢?有時免不了一個個地查,搜索關鍵字。現在想來,自己真的沒學到一個好的數據檢索方法。 2005年去了一家網游公司。作為當時國內最大的幾個游戲公司之一,數據已經多到要用幾個移動硬盤儲存了。網游公司又歷來強調數據的挖錄,比如登錄、消費頻次、道具購買力、喜好度,等等。但總覺得挖掘得不夠深。現在想來是因為數據在收集開始時,就已經是被填寫后的才被收集,跟蹤也是滯后的,所以缺乏主動性。 以后,因為投資了家互聯網廣告公司,所以知道數據該如何收集,如何分析,如何跟蹤……但似乎還缺乏些什么。問自己,到底是什么,竊以為是缺乏對數據的甄選方法,白白浪費了很多眼前無關,但實則有用的數據。這個算是缺乏數據收集的全面性吧。 此次有幸看了譚磊兄的《New Internet——大數據挖掘》一書,此書非純理論之書,且立意頗高,并有許多案例,而且見解獨到。 想真正了解何為數據,如何對其進行采集、分析、挖掘與應用,請看此書。 火山Volcano 天使投資人 序三 認識作者Raymond已經很多年了。與Raymond認識、熟悉,再深入的交流,他給我的印象是思維敏銳,執行力強。自在微軟工作開始,與Raymond便有很多交流。之后我們先后離開了微軟回國創業。 自在微軟時,我們就經常討論國內互聯網的發展方向,其實我們當初對于國內互聯網企業的核心競爭力的意見并不一致,但有一點我們是達成共識的,就是未來互聯網企業的競爭力不僅是“爭奪”用戶的能力,而且是“挖掘”用戶價值的能力。我們都認為,挖掘用戶價值的實質就是以大數據挖掘為核心的技術和運用。在這點上,中國互聯網公司需要更加注重手里的數據資源,深挖出更大的信息價值,才能進一步提升用戶價值或者是單用戶的平均產出值(ARPU值)。 Big Data作為業界在2012年討論得最多的話題,受到的重視程度很高,也因而有了不少相關的文章和書籍。在此之前,講述大數據和數據挖掘的書雖然很多,但是大多比較偏理論,給實際應用者的幫助并不大。而Raymond的這本《New Internet——大數據挖掘》則從一個全新的角度講述了在數據挖掘領域的大數據,給予數據挖掘和運營人員很好的實戰指導。 大數據挖掘這個課題涉及的學科很多,要寫好關于數據挖掘的書既要有豐富的實踐經驗做基礎,還需要有扎實的理論知識。我很高興地看到,Raymond在這本新書中把他之前的實踐和理論知識有機地結合起來了。 陶闖Vincent Tao PPTV CEO,Ph.D. 作者的話 從接到俠少的約稿到現在已經四個月了,但對大數據挖掘的關注是遠不止四個月的。很感謝俠少給我這個機會,在寫書的過程中我對于大數據挖掘的理解也上升了一個臺階,因為當你試圖給第二個人解釋你自以為很了解的概念時會發現自己了解的深度還遠遠不夠。第一次寫完之后自己再讀又發現新的需要修改的內容,如此反復多次,終于大致成稿。現在的版本中一定還有用詞不恰當的地方,請各位讀者海涵。 數據對于人們到底意味著什么?我在寫書的過程中一直在思考這個問題。數據挖掘并不是一門嶄新的學科,而是綜合了統計分析、機器學習、數據庫等多方面研究成果的應用學科。而近年來的大數據又使得數據挖掘有了革命性的發展。 諸行無常,諸法無我。在大數據的環境中唯一不變的是變化,我們在本書中講述的理論和概念很可能過了兩年甚至一年就會發生變化,這也是互聯網時代的本質特征。 竊認為,寫一本書,即便是教科書,也不能停留在理論層面。如果一本書寫成陽春白雪那是非常失敗的。自有計算機這個專業以來,做計算機理論研究和做計算機應用之間就有一道鴻溝。比如作者讀書時在Machine Learning期刊上發表的PAC Learning Axis-aligned Rectangles with Respect to Product Distributions from Multiple-Instance Examples一文,雖然提出了一個很美麗的PAC學習算法,但是這個算法的實現性僅僅停留在理論層面。本書的初衷就是把“大數據挖掘”寫成“最炫民族風”,所以書中所舉的實例基本都是切實可行的實際案例,限于商業原因,我們不能詳細描述全部的具體實施過程,如果讀者有疑問,歡迎隨時和我交流。 而一本書也一定不能只是信息資料和概念的堆砌。本書在陳述大數據的事實和概念的同時,也盡量揭示在這些事實和概念背后的原理和實際運用。 這本書不是一個人的戰斗。在這本書的寫作過程中,我得到了很多人的幫助。首先要感謝的是互動通HdtMedia的Michael和Clarence兩位前輩對我的大力支持和鼓勵,讓我有力量可以寫完這本書。我要感謝Microsoft總部云平臺的首席開發經理陳眾同學、Microsoft亞洲研究院的周禮棟博士和微軟搜索技術部首席開發經理劉欣同學給本書的結構提出的修改意見。感謝復旦大學的黃萱菁博導和微軟亞洲研究院的謝幸博導,他們除了在百忙之中給本書寫了書評之外,還提出了寶貴的修改建議。 還要感謝江峰、韓冬、曹曉波、王海、荷鐵勇、樓建強、李嘉驊、吳浩苗等同學幫我查找數據挖掘相關資料,鮑佳、劉曉鵬、俞舒、李悌開、戴霖和匙柟等同學幫我校驗一些章節。特別要感謝董雅楠同學多次通讀全書,挑出的錯別字和語法問題令我汗顏,讓我覺得全國普通話考試還是有必要的。 思美傳媒的江山同學、淘寶開放平臺的馮光同學、UTC的于振偉同學、車鄰網的呂筍同學、火花無線的吳國鴻同學、聚流電商的周為同學和首正信息的羅俊峰同學為本書提供了大量精彩的案例和數據,在此一并表示特別的謝意。 Raymond @CarelessWhisper 2012年10月28日 |