-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

探尋數據背后的邏輯:R語言數據挖掘之道

( 簡體 字)
作者:宋云生,張堅洪,黎新年類別:1. -> 程式設計 -> R語言
譯者:
出版社:電子工業出版社探尋數據背后的邏輯:R語言數據挖掘之道 3dWoo書號: 49610
詢問書籍請說出此書號!

缺書
NT售價: 445

出版日:7/1/2018
頁數:432
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121338618
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

前言
什么是規范化的數據挖掘流程


人總是被自己日常從事的工作所蒙蔽雙眼,看不到事態發展的整體面貌,為了手里的工作而工作,這就是所謂的迷失吧。一個數據挖掘項目不僅僅是數據挖掘工程師手中的一部分工作(雖然它是工作的核心),作為一個力求向上的人,要跳出來看看項目的全貌。只有對項目全程有了足夠的了解,才能更加有效地使用數據挖掘、機器學習、數據分析的工具。
數據挖掘項目一般可以分為問題邊界、清洗整理、數據探索、算法評估、結果提升、結果報告、系統集成和系統測試8個主要的模塊。一般而言,可以盡量將這些模塊合并,但無論怎么合并,它們在項目中都是不可或缺的(當然,有些項目并沒有其中某些模塊的需求,比如市場研究項目,它們可能就不需要系統集成)。從右圖中可以看到數據清洗、數據探索、算法評估占據了項目的大部分時間,這也說明它們是項目的核心內容,缺了這3項,就不能再稱為是數據挖掘項目了。
數據挖掘項目流程如下圖所示。

問題邊界
問題邊界一般是項目的開頭部分,可以分為4點。首先要和業務部門細致溝通,從業務背景中提煉出對業務問題的描述,限定項目要解決的問題,便于組織力量集中對這些問題設計解決方案。然后根據解決構想將業務問題轉換為數據語言,限定將要使用的數據界限,搞清楚要牽涉哪些數據。之后為了吸引業務部門必須整理出業務效用,告訴業務部門如果解決這些問題能夠得到哪些改善,完成業務部門哪些具體目標。最后要將以上問題整理成一個可行的解決方案。很多人忽略了這個階段,其后果就是業務部門覺得挖掘出來的結果不是他們想要的,或者節外生枝補充各種相關的或不相關的業務問題,最終扭曲了項目本身,使工作反復無常。所以,在項目實施之前,非常仔細地溝通并制定一個完善的問題邊界非常重要。
清洗整理
清洗整理是數據挖掘工程師非常熟悉的工作,但是,很少有人認識到這是項目中花費時間最多的部分,很多人會以為算法評估部分才會花費最多的時間。其實不然,如果數據清洗進行得不順利,則將直接影響后面的工作和模型的效果。首先要設計暢通、高效的數據抽取程序,將數據從各種數據平臺抽取出來供數據挖掘工具使用,然后進行數據清洗,將數據轉化為數據挖掘工具便于處理的對象類型(在R里指list、data.frame、arrary等),再進行質量清洗,包括處理缺失值、異常值、其他污點(在文本挖掘中多如牛毛)等。之后要對數據整形,包括一些統計變化,例如中心化、標準化、降維等,更重要的是數據形狀的變化。
還有一項就是數據抽樣,面對大數據,在數據處理階段就要進行抽樣,不能因為要清洗一個點就清洗全量的數據,那樣會花費大量的時間。不如抽取小樣本進行測試,等進行完數據清洗程序后,再進行全量數據的整體清理,這樣反而更加省時省事,這里的樣本量需要盡量保證抽到足夠多的問題數據,同時要讓程序運行起來非常輕松、高效。
數據探索
數據探索要完成兩個目標:變量轉換和變量篩選。其中變量轉換既包括變量的重新計算變形,也包括概念變量的構建,比如,在客戶流失預警項目中要定義什么樣的客戶是流失客戶,就會產生出一個新的變量。如果這個變量的定義不能用業務進行合理解釋,那么下面的工作就是“瞎子點燈白費油”了。有些變量不僅不會對模型產生正向的影響,而且除了影響速度,還會降低模型的效果。顯然進行變量篩選就非常重要了。谷歌預測流感模型篩選變量足以證明數據探索多么重要,而且在大數據環境下,數據探索已不再是一件輕而易舉就能完成的事情了。
算法評估
算法評估是數據挖掘項目的靈魂。算法評估首先要求我們充分了解算法或模型的參數意義,然后需要預留測試數據集。模型評估不是僅僅比較模型結果的準確性是否存在差異(別忘了統計學教導我們比較差異時要判斷差異的顯著水平),所以,模型比較是對不同模型準確性均值的比較。算法篩選完成后,工作就告一段落了,這時要和業務部門一起對結果進行業務解釋,不能進行業務解釋的數據挖掘結果就是為了數據挖掘而數據挖掘,這顯然就是迷失在了項目中,遺忘了項目要解決的問題邊界。最后要對結果進行完整的評估報告。評估報告是必需的,因為除了將它給領導看,更重要的是它能幫助你總結發現這個過程中可以改善的節點。
結果提升
首先要判斷是否需要調整算法或模型,包括更換算法或調整參數。如果模型調整沒有必要,那么就要考慮使用模型融合提高模型效率。模型融合的方法包括裝袋(Bagging)和提升(Boosting)等,有些方式可能用業務解釋起來比較困難,這也是數據挖掘工程師要考慮的問題之一,顯然,有些問題選擇可解釋模型比較好。在項目中對一些極端情況最好另做處理。
結果報告
“丑媳婦也要見公婆,”分析結果報告最終要給業務部門的同事學習,教他們如何使用數據挖掘的結果進行業務分析和部署,其中主要成果要突出,吸引他們的眼球,一定要聯系業務具體的困境或具體的業務情景,即所謂的對癥下藥。規律和結果必須通過易讀的方式傳達給受眾,充滿技巧的數據可視化是不二之選,將美妙的可視化圖表嵌入具體的應用情景中進行宣講,往往能達到事半功倍的效果,因此,在此處無論多么努力都不為過。SWOT分析是業務部門最喜歡的分析方式,我們當然不能放過,以對方熟悉的方式表達自己的訴求,是交流的法寶。
模塊固化這一步工作的快慢取決于之前的工作,如果之前已經考慮到后面要進行模塊固化,那么就會將代碼寫得比較規范、注釋良好,這種情況下就很容易將數據清洗、數據整形、變量轉換、模型構建、結果輸出等模塊的內容固定下來,成為一個數據有進口及有出口的腳本文件。
系統集成
將固化下來的模塊按照一定的秩序集成在一起,就成為一個分析的腳本體系。在這個體系中,有輸入就有產出,中間不需要人工干預,是一個有序的自動化腳本體系。這一步考驗數據挖掘工程師對每一步任務的理解。良好的模塊集成可以提升整個系統的速度,減少后期維護的時間和次數。
模塊集成后要與其他系統集成在一起,首先要和數據平臺(數據庫、Hive、Hadoop)對接,為分析模塊提供數據來源和存儲分析結果,同時要和前臺展示對接,將結果可視化,讓結果真正接觸受眾,即所謂的為決策者提供支持。
系統測試
這么一個“五臟俱全”的系統需要維護在所難免,總有一些極端情況會導致數據分析模塊宕機,所以,代碼一定要寫得盡量規范,注釋要盡量清晰,否則在維護時會有一種再造系統的感覺。關于規范請參看Google’s R Style Guide。

序言
提綱挈領式心訣:一名數據挖掘工程師的成長之路



我的學習之路
不知不覺畢業兩年多了,有一些大音如霜工作室的讀者總想了解一下我是怎么學習數據挖掘、數據分析的,下面就綜合大家常見的問題分享一下自己的經歷、經驗。
我不是學數學的,也不是學計算機的,研究生的專業是植物學,而且方向是植物分類,可以說很難和數據挖掘、市場研究等領域扯上關系。唯一能扯上關系的也就是我的舍友是做生物信息學研究的。
說一句丟人的話,在讀本科時上的SPSS課我都不知道在講什么。那時沒考過計算機等級考試,原因是我每分鐘打漢字的速度都不過關,講這么多,只是為了告訴讀者,我的基礎并不扎實。
需要說明的是,我的英語還不錯,在大一和大二分別通過了英語四、六級考試(而其他科目則學得比較一般,因為我每學期只有一兩個主要學習目標),在大四我讀了很多英文文獻。因為在讀研究生期間需要查閱大量文獻,我需要給這些文章建立一個數據庫,于是年少無知的我就選擇了Access。選擇Access的原因并不是我比較熟悉它,而是我的老師用它,我至今也不會太多的操作。這應該算是我開始接觸數據分析了。
使用高級語言時,記不住函數不要緊,但是你要有很強的搜索能力。
之所以講這一段經歷,不是為了說明我起步晚,而是為了說明建立Access文獻數據庫鍛煉了我的英文搜索能力。我一碰到問題,就在Google里搜索,很快就能找到答案。于是Google幾乎成了我的眼睛,真正做到了用Google搜索、發郵件、社交、閱讀和寫作。在公司里曾經傳說,如果是連我都搜不到的內容,那么別人更不可能搜到。有些年輕人就怕英文,我并不是崇洋媚外,客觀地想一想,現在的很多知識都是從歐美起源的,如果你連這門世界語言都不掌握,那么你獲得的資料永遠都是二手資料。另外,無論你是找函數還是找包、模塊,抑或是為問題尋找答案,使用Google進行英文搜索會為你節省很多時間。掌握這門語言并不需要你聽、說、讀、寫樣樣精通,而是將其作為一種工具,應用起來比較方便就可以了。
要善用英文搜索,原因很簡單,你所用的編程語言或軟件大多是外國人構建的,并且在國外已經普及,相關的問答社區早已完善,你碰到的問題可能早就有人解決了。
在搜索文獻的過程中,我喜歡上了《經濟學人》的Graphic Details欄目,發現其繪制的圖表非常漂亮、專業,于是我就開始學習Excel,盡自己所能將Excel圖表做得更漂亮、更專業,這些經歷為我日后做數據可視化打下了堅實的基礎:我知道了商務色彩搭配及圖表要簡潔、易讀等原則,我知道怎么使自己的圖表特色鮮明。后來看了大前研一先生的著作,了解了專業精神,我曾經寫下這樣一句話,以勉勵自己:
所謂專業,即每一個細節都經得起推敲。
有一天,舍友看到我用Excel作圖,嘲笑我孤陋寡聞,推薦我學習R語言,然后我就開始搜尋一些R語言入門讀物進行閱讀,慢慢地知道了關于這門語言的粗淺知識。
這個時候已經到研二下半學期了,我需要為自己未來的工作做打算了:是步入園林行業還是就此轉行?必須做一個決斷。我發現自己真的對植物分類不感興趣,而我做家教的學生的媽媽是星空傳媒的一個經理,平時待我很好,她說畢業可以介紹我去做市場研究。我了解了一下市場研究,發現其中涉及一些數據分析的內容(現在看起來很簡單),于是,我從此決定踏上數據分析這條“不歸路”。
為了快速上手、熟悉統計學知識,我并沒有馬上深入地學習R語言,而是像以往一樣懶懶散散地學習(后悔當時沒有實戰學習)。我通過搜索發現,市場研究的崗位大多將熟練使用SPSS作為硬性要求,偶爾也會要求熟悉R語言,但SPSS對我來說更容易上手,于是就開始學習SPSS。SPSS幫助我鞏固了統計學知識,當學習完簡單的統計學知識后,我發現SPSS不夠靈活,很多功能不夠用,做出的圖表很難看(這對于我來說是無法忍受的),因此,網絡上有一些人鄙視SPSS,但很推崇R語言。于是我決定要深入地學習R語言。我先將SPSS的功能在R中做了一遍,有了一些自己的理解后,我開始在自己的論文里做一些數據分析的內容。
現在想來,如果我直接在實戰中學習可能會節省更多的時間。
實戰更能鍛煉技能水平。
研二快結束了,開始找工作了。我找工作的目的很明確,如果工作不是做數據分析、數據研究的,那么我寧愿放棄這個工作的機會。非數據研究的崗位我也不去面試,這樣又省下了大量的時間學習。
在工作中學習
2013年畢業后,我去了一家醫藥市場研究公司,當時的工作并不太忙,我有大量的時間學習。但這時也暴露了我的弱點,公司的數據并不是很規整(raw data)的,往往需要標準化等,而且數據規模也不再是之前練習時那么小,在面對這些臟數據、大一點的數據時,我的數據清洗水平顯得捉襟見肘。周圍的人都是Excel高手,如果跟著他們學,估計也能成為高手,但是我一定要在R中做數據清洗整理,反正公司的工作不是很多,我就一點點地學習和積累,這樣我的數據處理能力就逐漸扎實起來了。其間我用兩天讀完了《異類》這本書,感觸很深,閱讀經歷已經寫成一篇文章在我們的公眾號里分享了。
任何一個工具在剛開始學習時都會覺得它很糟糕,其實這并不是工具的問題,而是自己的知識體系跟不上節奏,或者是它的很多方法與自己原有的認知相反,這時不要急于否定它,而是要深入地學習它。知識體系是一個積累過程,為自己準備一萬個小時計劃吧。
我們公司當時在做BI(商業智能),于是我接觸了市面上常見的BI工具,包括Tableau、QV等,我熟悉它們的優、劣勢,也熟悉它們的數據可視化效果。因為需要將R語言的頁面融入BI中,所以我熟悉了shiny包,做了一些頁面,但我漸漸看到R語言在做這些通用語言的工作時所暴露的缺點,于是開始接觸Python。
后來,我們的合作公司的總經理聽說我比較熟悉R語言,就向我請教,我們一起討論了R語言和數據挖掘。得知他們在做文本挖掘,于是在我閑暇時間開始學習中文文本挖掘的內容。沒有成型的數據和書,我就看帖子,去一個個地實現,然后積累經驗,這時我對R的操作算得上非常熟練了,從實現到速度優化(并行計算等)等也已經非常熟練,積累的代碼也非常多了。
后來,那個經理找我做醫院處方數據挖掘工作,之后,他請我去負責法院文本數據挖掘,我沒去,但成了他們的外援,仍然沒收過錢,他們搭建的一臺服務器也幫助我了解了不少Linux的知識。
剛開始,鍛煉自己的機會遠遠比錢重要,反正自己閑著也是閑著,但是這種情況只適用于剛開始。
后來,我們公司推出了微信公眾號平臺,我開始給公司的公眾號寫文章。其間我為公司的公眾號寫了多篇關于綜合排名的文章,閱讀量最高達到4萬多人次,當時公眾號的粉絲才2 000人左右。后來我又制作了評價醫院市場趨勢的綜合指標體系,現在公司也一直在沿用這套指標,這些工作中的小點子都是我在公交車上想出來的。
除要把工作當成一種謀生手段外,還必須有極大的興趣,要么不做,要么做好。
另外,我在公交車上讀完了Data Mining with R learning by case studies、Machine Learning for Hackers、R Graphics Cookbook等書籍,之所以提這三本書,是因為我不止讀過一遍,這三本書很有特色,第一本幫助我學習了各種算法,第二本幫助我接觸了實際應用中的知識,第三本幫我熟練了ggplot的函數及圖表元素結構。我開始學會利用零散的時間,堅持積累,也開始學習高度自律。
古之成大事者,不唯有超世之才,亦必有堅韌不拔之志。
——蘇軾
其實,我一直幻想著有一個自己想寫什么就寫什么的平臺,于是,我和小伙伴們開通了微信公眾號,直到現在,我們更注重文章的可讀性、趣味性,而不僅僅是技術,但是每一篇文章都可以作為一個小項目讓希望學習數據分析的讀者能鍛煉一下自己的技能。
經常有讀者問學數據分析就一定要學編程嗎?以及為什么要看英文資料?針對這兩個問題,我寫下了這樣一段對話,希望你能在對話中找到答案。
為什么學習數據分析?
賺錢!
什么樣的人容易賺錢?
技能比別人高的!
英語是不是一般人的難關?是不是大家都想學習傻瓜式操作軟件?
是!
那么如果大家都這么想,你應該怎么做?
很明顯,你要做其他人不愿意做的事情,才能賺到別人不能賺的錢!
作為數據分析師,一定要將自己和技術區分開,分析數據、挖掘數據本質上是探尋數據背后的人心,挖掘人們的欲望、需求、態度等,所以數據分析師還要盡量拓寬自己的視野和知識結構,盡自己所能博覽群書。
我的經歷大體如此,中間會有各種迷茫、各種蒼白無力,但是如果你缺少什么,就去搜集資料,做出判斷,努力去爭取,這一點總不會錯,千萬不要一味地否定你不了解的東西,這也是我對待未知領域的態度。
作為一名技術人員,要讓自己的知識時刻在進步!這是一種宿命。
內容簡介:

數據分析、數據挖掘的本質是探尋數據背后的邏輯,挖掘人們的欲望、需求、態度等。本書不僅僅教會讀者如何掌握數據挖掘相關技能,更教會讀者如何從數據挖掘結果中分析出更深層次的邏輯。本書主要介紹使用R語言進行數據挖掘的過程。具體內容包括R軟件的安裝及R語言基礎知識、數據探索、數據可視化、回歸預測分析、時間序列分析、算法選擇流程及十大算法介紹、數據抓取、社交網絡關系分析、情感分析、話題模型、推薦系統,以及數據挖掘在生物信息學中的應用。另外,本書還介紹了R腳本優化相關內容,使讀者的數據挖掘技能更上一層樓。本書適合從事數據挖掘、數據分析、市場研究的工作者及學生群體,以及對數據挖掘和數據分析感興趣的初級讀者。

目錄:

第1章 萬事不只開頭難 1
1.1 工欲善其事,必先利其器:安裝 1
1.1.1 安裝R和RStudio 1
1.1.2 安裝數據包 3
1.1.3 數據包加載、卸載、升級,查看幫助文檔 5
1.1.4 什么樣的R包值得相信 7
1.2 了解R的對象 8
1.2.1 如何進行常見的算術運算 8
1.2.2 R語言的三大數據類型 10
1.2.3 向量及其運算 12
1.2.4 因子變量鮮有人知的秘密 15
1.2.5 矩陣相關運算及神奇的特征值 17
1.2.6 數據框及其篩選、替換、添加、排序、去重 18
1.2.7 與數組(array)相比,表單(list)的用處更加廣泛 22
1.2.8 如何進行數據結構之間的轉化 23
1.3 R語言的重器:函數 26
1.3.1 自編函數 26
1.3.2 有用的R字符串函數 29
1.4 控制流在R語言里只是一種輔助工具 31
1.4.1 判斷 32
1.4.2 循環 33
1.5 數據的讀入與輸出 35
1.5.1 常見數據格式的輸入/輸出(CSV、TXT、RDATA、XLSX) 35
1.5.2 數據庫連接:Oracle、MySQL及Hive 37
1.5.3 亂碼就像馬賽克一樣讓人討厭 39
第2章 數據探索,招招都是利器 41
2.1 不要在工作后才認識“臟數據” 41
2.1.1 以老板信服的方式處理缺失數據 42
2.1.2 異常值預警 48
2.1.3 字符處理正則表達式不再是天書 49
2.2 數據透視、數據整形、關聯融合與批量處理 50
2.2.1 還忘不掉Excel的數據透視表嗎 50
2.2.2 你能給數據做整形手術嗎:long型和wide型 52
2.2.3 關聯合并表 54
2.2.4 數據批處理:R語言里最重要的一個函數家族:*pply 55
2.3 一招完成數據探索報告 58
2.4 拯救你的很多時候是基礎理論 61
2.4.1 參數檢驗及非參檢驗 62
2.4.2 學了很多算法卻忘了方差分析 68
2.4.3 多因素方差分析及協方差作用 70
2.4.4 很多熟悉的數據處理方法已經成笑話,工具箱該換了 73
第3章 從商務氣質的數據可視化說起 84
3.1 說說數據可視化的專業素養 84
3.1.1 數據可視化歷史上有多少背影等你仰望 84
3.1.2 商務圖表應該具有哪些素質 87
3.1.3 那些你不知道的圖表誤導性伎倆 94
3.1.4 如何快速解構著名雜志的圖表 98
3.2 ggplot2包:一個價值8萬美元的態度 103
3.2.1 一張圖學會ggplot2包的繪圖原理 105
3.2.2 基礎繪圖科學:ggplot2包的主題函數繼承關系圖(關系網絡圖) 127
3.2.3 基礎圖表一網打盡 132
3.2.4 古老的地圖煥發新顏 151
3.3 將靜態圖轉為D3交互圖表:plotly 156
3.4 從基礎到進階的變形圖表 157
3.4.1 馬賽克圖(分類變量描述性分析) 157
3.4.2 Sankey圖和chordDiagram圖 158
第4章 分位數回歸模擬股票指數風險通道 163
4.1 用線性回歸預測醫院的藥品銷售額 163
4.2 多項式回歸及常見回歸方程的書寫 168
4.3 Lasso回歸和回歸評價的常見指標 170
4.4 分位數回歸擬合上證指數風險通道 175
第5章 時間序列分析 181
5.1 時間序列分析:分析帶有時間屬性的數列 181
5.2 不是所有序列都叫時間序列 181
5.3 時間序列三件寶:趨勢、周期、隨機波動 183
5.3.1 趨勢 183
5.3.2 周期 184
5.3.3 隨機波動 186
5.4 預測分析 186
5.4.1 指數平滑法 186
5.4.2 ARIMA模型預測 188
第6章 選擇什么算法也有一套流程 192
6.1 重新審視一下這幾個模型 192
6.1.1 Logistic回歸 192
6.1.2 我要的不是一棵樹,而是整座森林:隨機森林 195
6.1.3 神奇的神經網絡 196
6.2 銀行信用卡評估模型之變量篩選 197
6.2.1 變量構建 197
6.2.2 Logistic回歸變量篩選 198
6.2.3 隨機森林變量篩選 203
6.2.4 人工神經網絡建模 204
6.3 必須面對的模型評估 204
第7章 深入淺出十大算法 208
7.1 C5.0算法 208
7.1.1 一個重要的概念:信息熵 208
7.1.2 非列變量選擇的實例 209
7.1.3 C5.0算法的R實現 210
7.2 K-means算法 212
7.2.1 K-means算法的R實現 212
7.2.2 怎么確定聚類數 213
7.3 支持向量機(SVM)算法 213
7.3.1 通俗理解SVM 214
7.3.2 SVM的R實現 216
7.4 Apriori算法 216
7.4.1 舉例說明Apriori 217
7.4.2 Apriori算法的R實現 219
7.5 EM算法 220
7.5.1 舉例說明EM算法 221
7.5.2 EM算法的R實現 222
7.6 PageRank算法 223
7.7 AdaBoost算法 224
7.8 KNN算法與K-means算法有什么不同 226
7.9 Naive Bayes(樸素貝葉斯)算法 227
7.10 CART算法 228
第8章 數據抓取 231
8.1 數據挖掘工程師不可抱怨“巧婦難為無米之炊” 231
8.2 抓取股市龍虎榜數據,碰碰運氣 232
8.2.1 了解XML和Html樹狀結構,才能庖丁解牛 233
8.2.2 了解RCurl包和網頁解析函數 234
8.2.3 抓取股票龍虎榜 235
8.2.4 資金流入分析 237
8.3 抓取某家醫藥信息網站全站藥品銷售數據 240
8.3.1 所有醫藥公司名稱一網打盡 240
8.3.2 為什么抓取數據時可以使用For循環 242
8.3.3 不要把代碼寫復雜 244
8.3.4 用Sankey數據流描繪醫藥市場份額流動 248
第9章 不可不說的社交網絡關系 254
9.1 社交網絡圖 254
9.1.1 社交網絡圖告訴你和誰交朋友 254
9.1.2 這幾個基本概念你需要抓牢 256
9.1.3 還有比本章任務更有趣的數據挖掘嗎 259
9.2 你還要裝備幾個評價指標 260
9.2.1 社交網絡大小 260
9.2.2 社交網絡關系的完備性 261
9.2.3 節點實力評價 262
9.3 全球某貨物貿易中的親密關系 263
9.3.1 全球某貨物貿易數據整合清洗 263
9.3.2 分組和社交網絡中心 267
9.3.3 全球某貨物交易圈:尋找各自的小伙伴 270
9.4 中國電影演藝圈到底有沒有“圈” 276
9.4.1 數據清洗與整形 276
9.4.2 看看演藝圈長什么樣 279
9.4.3 誰才是演藝圈的“關系戶” 281
9.4.4 用Apriori算法查查演藝圈合作的“朋友”關系 283
9.4.5 給范冰冰推薦合作伙伴 284
第10章 情感分析:一種準確率高達90%的新方法? 287
10.1 情感分析及其應用:這是老生常談 287
10.1.1 情感分析的用途 287
10.1.2 情感分析的方法論 288
10.1.3 有關情感分析的一些知識和方向 289
10.2 文本分析的基本武器:R 290
10.2.1 RJava包配置 290
10.2.2 Rwordseg包安裝 291
10.2.3 jieba分詞包安裝 291
10.3 基于詞典的情感分析的效果好過瞎猜嗎 292
10.3.1 數據整理及詞典構建 292
10.3.2 分詞整理 297
10.3.3 情感指數計算 299
10.3.4 方法評價:優、缺點分析 300
10.4 監督式情感分析:挑選訓練數據集是所有人心中的痛 301
10.4.1 TFIDF指標 301
10.4.2 構建語料庫 302
10.4.3 隨機森林模型 304
10.4.4 算法評估:隨機森林應該建多少棵樹 308
10.5 一種準確率高達90%的新方法 316
10.5.1 拿來主義的啟示 316
10.5.2 情感詞典和規則構建 317
10.5.3 樸素貝葉斯情感分析器 329
10.5.4 支持向量機(SVM)、決策樹等情感分析器 330
10.5.5 如何選擇支持SVM的核函數 339
10.5.6 情感分類器方法評價 343
10.6 談談情感分析的下一步思考 344
第11章 話題模型:很多牛人過不去的坎兒 346
11.1 話題模型與文案文本集 346
11.1.1 任務仍然是以處理dirty data 開始 347
11.1.2 數據清洗 348
11.2 話題模型中幾個重要的數據處理步驟 350
11.2.1 中文分詞 350
11.2.2 數據整型 352
11.2.3 怎樣設定“閾值” 353
11.3 上帝有多少個色子:話題數量估計 356
11.3.1 通俗地說一遍話題模型 356
11.3.2 主題數估計與交叉檢驗 357
11.3.3 如何使用復雜度、對數似然值確定主題數 362
11.4 LDA話題模型竟然能輸出這么多關系 368
11.4.1 輸出主題——詞匯及其概率矩陣 368
11.4.2 輸出主題——文檔歸屬及其概率矩陣 369
11.5 話題之間也有社交(衍生)關系嗎 370
11.6 話題模型的幾個強大衍生品 372
11.6.1 話題模型提取特征詞 372
11.6.2 三種方法確定聚類的類數和文本層次聚類 373
11.6.3 漂亮的文本聚類樹和批量繪制大類詞云圖 375
第12章 排名就是簡單的推薦系統嗎? 378
12.1 全球宜居城市綜合實力排行 378
12.1.1 綜合實力排行:專家法VS數據驅動法 379
12.1.2 怎么比較兩個排名結果 382
12.2 協同過濾推薦系統 383
12.2.1 基于商品的協同過濾系統(ItemCF) 386
12.2.2 基于用戶的系統過濾系統(UserCF) 388
12.2.3 推薦系統效果評比 390
第13章 生物信息學中的數據挖掘案例 392
13.1 生物信息學與R語言 392
13.2 生物信息學中常用的軟件包 392
13.2.1 軟件包簡介 392
13.2.2 數據表示方式——對象類(class) 393
13.2.3 生物信息學R包簡介:Bioconductor和CRAN 393
13.2.4 ape包 394
13.2.5 讀懂你的對象 404
13.2.6 修改工具包中的函數以適應新情況 407
第14章 產品化:關于內存、速度和自動化 411
14.1 不同終端調用、自動化執行R腳本及參數傳遞 411
14.2 與速度、內存、并行相關的程序優化 414
序: