3dwoo大學簡體電腦書店
Python數據挖掘:概念、方法與實踐
( 簡體 字)
作者:[美] 梅甘·斯夸爾類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 數據挖掘
出版社:機械工業出版社Python數據挖掘:概念、方法與實踐 3dWoo書號: 46754
詢問書籍請說出此書號!
有庫存
NT售價: 295
出版日:5/1/2017
頁數:194
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787111565482 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
譯者序
關于審稿人
前言
第1章 擴展你的數據挖掘工具箱1
1.1 什么是數據挖掘2
1.2 如何進行數據挖掘4
1.2.1 Fayyad等人的KDD過程4
1.2.2 韓家煒等人的KDD過程4
1.2.3 CRISP-DM過程5
1.2.4 六步過程6
1.2.5 哪一種數據挖掘方法最好6
1.3 在數據挖掘中使用哪些技術7
1.4 如何建立數據挖掘工作環境9
1.5 小結14
第2章 關聯規則挖掘16
2.1 什么是頻繁項集16
2.1.1 都市傳奇“尿布與啤酒”17
2.1.2 頻繁項集挖掘基礎知識18
2.2 邁向關聯規則19
2.2.1 支持度20
2.2.2 置信度20
2.2.3 關聯規則21
2.2.4 包含數據的示例21
2.2.5 附加值—修復計劃中的漏洞22
2.2.6 尋找頻繁項集的方法24
2.3 項目—發現軟件項目標簽中的關聯規則25
2.4 小結38
第3章 實體匹配39
3.1 什么是實體匹配40
3.1.1 數據合并42
3.1.2 匹配技術45
3.1.3 基于屬性的相似度匹配45
3.1.4 屬性匹配方法46
3.1.5 利用不相交數據集48
3.1.6 基于上下文的相似度匹配48
3.1.7 基于機器學習的實體匹配49
3.1.8 實體匹配技術的評估50
3.2 實體匹配項目53
3.2.1 軟件項目匹配的難度53
3.2.2 兩個例子53
3.2.3 根據項目名稱匹配55
3.2.4 根據人名匹配55
3.2.5 根據URL匹配55
3.2.6 按照主題和描述關鍵詞匹配56
3.2.7 數據集57
3.2.8 代碼58
3.2.9 結果63
3.3 小結66
第4章 網絡分析68
4.1 什么是網絡68
4.2 網絡計量71
4.2.1 網絡的度數71
4.2.2 網絡直徑72
4.2.3 網絡中的通路、路徑和跡72
4.2.4 網絡的成分73
4.2.5 圖的中心性73
4.3 圖數據的表示76
4.3.1 鄰接矩陣76
4.3.2 邊表和鄰接表77
4.3.3 圖數據結構之間的差別77
4.3.4 將數據導入圖結構中78
4.4 真實項目84
4.4.1 探索數據84
4.4.2 生成網絡文件89
4.4.3 以網絡的形式理解數據91
4.5 小結107
第5章 文本情緒分析109
5.1 什么是情緒分析110
5.2 情緒分析基礎知識111
5.2.1 觀點的結構111
5.2.2 文檔級和句子級分析112
5.2.3 觀點的重要特征113
5.3 情緒分析算法114
5.4 情緒挖掘應用116
5.4.1 項目動機117
5.4.2 數據準備117
5.4.3 聊天消息的數據分析120
5.4.4 電子郵件消息的數據分析124
5.5 小結130
第6章 文本中的命名實體識別131
6.1 為什么尋找命名實體?131
6.2 命名實體識別技術134
6.3 NER系統的構建與評估137
6.3.1 NER和部分匹配137
6.3.2 處理部分匹配138
6.4 命名實體識別項目140
6.5 小結149
第7章 自動化文本摘要150
7.1 什么是自動化文本摘要151
7.2 文本摘要工具151
7.2.1 使用NTLK的簡單文本摘要152
7.2.2 使用Gensim的文本摘要155
7.2.3 使用Sumy的文本摘要157
7.3 小結163
第8章 文本中的主題建模164
8.1 什么是主題建模164
8.2 潛在狄利克雷分配166
8.3 Gensim主題建模167
8.3.1 理解Gensim LDA主題169
8.3.2 理解Gensim LDA的遍數170
8.3.3 對新文檔應用Gensim LDA模型172
8.3.4 序列化Gensim LDA對象172
8.4 用于更大項目的Gensim LDA174
8.5 小結176
第9章 挖掘數據異常178
9.1 什么是數據異常178
9.1.1 缺失數據179
9.1.2 修復缺失數據181
9.1.3 數據錯誤184
9.1.4 離群值186
9.2 小結194
在本書中,你將深入許多數據挖掘中常被忽視的領域,包括關聯規則挖掘、實體匹配、網絡挖掘、情緒分析、命名實體識別、文本摘要、主題建模和異常檢測。對于每種數據挖掘技術,我們將在比較解決每種問題所用的各種策略之前,研究目前新的佳實踐。然后,將用來自軟件工程領域的實際數據,實現示例解決方案,并學習理解和解讀所得結果的方法。
pagetop