SPSS Modeler+Weka數據挖掘從入門到實戰 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

SPSS Modeler+Weka數據挖掘從入門到實戰
( 簡體字)

作者：經管之家類別：1. -> 工具書、軟體 -> 統計軟體

譯者：

出版社：電子工業出版社 3dWoo書號： 51265
詢問書籍請說出此書號！
【缺書】
NT售價： 345 元

出版日：5/1/2019

頁數：284

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787121319112

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
前言
感謝您選擇《SPSS Modeler+Wake 數據挖掘從入門到實戰》。本書內容源于李御璽教授的數據挖
掘相關課程講義，講義歷經多次修改，逐漸適合作為數據挖掘實用教材，并在獲得學員們的高度評
價后再被編輯成書。本書的另一位作者常國珍也長期活躍在數據挖掘的項目實施和培訓中，2014 年
其與李教授相識，并與李教授對出版本書之事一拍即合。
讀者對象
本書的撰寫采取了算法與軟件實操雙向并行的策略。在理論上，本書盡量用例子來說明數據挖
掘算法背后的理論及意義，避免艱澀的數學公式，以求讀者能用最簡單的方式理解理論的精髓。在
軟件實操上，本書以各領域的實用案例為基礎，逐步地將軟件的功能引出，以求讀者能了解軟件功
能的使用場景。有了堅實的理論基礎及軟件操作能力，再輔之以眾多的實用案例，本書的讀者就能
逐步進入多姿多彩的數據挖掘世界。本書是以讀者第一次接觸數據挖掘為前提來撰寫的。讀者若有
數據庫、統計及計算機基礎，則學習起來會較為輕松。
工具介紹
IBM SPSS Modeler 可謂商業數據挖掘領域的“重型武器”，其功能全面、算法安全可靠、追求執
行效率與操作上的簡單易用，并被廣泛運用于許多企業中。其缺點是缺乏前沿的分析模塊及很難與
現有的信息系統結合，而開源軟件Weka 恰能彌補其不足。Weka 簡單好用，擁有許多前沿的分析模
塊并易于與現有的信息系統整合。其缺點是在數據預處理部分，便利性不如IBM SPSS Modeler 簡單、
易用。這兩個軟件對初入數據分析領域的讀者而言是很好的入門工具。
閱讀指南
本書分為15 章。第1 章介紹數據挖掘的起源及應用。同時說明如何建立一個SPSS Modeler 及
Weka 的項目。第2 章介紹數據挖掘的方法論CRIPS-DM。同時說明如何將數據匯入SPSS Modeler
及Weka 的項目中，并做初步的數據探索。第3 章介紹基本的數據挖掘技術。同時說明如何利用SPSS
Modeler 及Weka 建立KNN 模型并進行分類預測。第4 章介紹數據挖掘的進階技術、數據挖掘技術
的績效增益及兩個重要的數據挖掘網站。第5 章詳細介紹數據預處理技術，同時說明如何利用SPSS
Modeler，針對銀行的信用風險評估數據，進行數據預處理。第6 章介紹如何有效地挖掘對項目有幫
助的關鍵變量。同時說明如何利用SPSS Modeler 及Weka，挖掘有效變量。第7 至15 章則為數據挖
掘模型的介紹。這些模型均為熱門且應用最為廣泛的模型。對于每個模型的介紹，先以實例說明其
理論，隨后以實用的案例介紹如何在SPSS Modeler 及Weka 中操作，讓每個讀者充分了解每個模型
的實際運用效果。
如果時間允許，則讀者可以采取通讀本書內容并按照示例進行操作的方式，但是這樣效率可能
不高。更高效的方法是結合工作中遇到的問題，先集中精力把書上的示例操練好，然后帶入工作中
的實際數據實現同樣的算法，最后修改部分設置，以滿足工作中的特定需求。
本書特點
本書作為市場上為數不多的理論與軟件實操相結合并面向商業數據挖掘的書籍，和其他統計軟
件圖書有很大的不同，本書結構新穎，案例貼近實際，講解深入透徹。
場景式設置
本書從銀行、電信、零售、醫療等行業中精心歸納、提煉出各類數據挖掘案例，方便讀者搜尋
與實際工作相似的問題。
啟發式描述
本書注重培養讀者解決問題的思路，以最樸實的思維方式結合啟發式的描述，幫助讀者發現規
律、總結規律和運用規律，從而啟發讀者快速找出問題的解決方法。
售后服務
盡管作者們對書中的案例精益求精，但疏漏之處在所難免，如果發現書中的錯誤或某個案例有
更好的解決方案，則敬請與本書作者聯系。
學習方法
只有對數據分析的流程熟悉了，才能實現從模仿到靈活運用。在產品質量管理方面，對流程的
掌控是成功的關鍵，在數據挖掘項目中，流程同樣是重中之重。數據挖掘是一個先后銜接的過程，
一個步驟的失誤會帶來完全錯誤的結果。數據挖掘的流程大致包括抽樣、數據清洗、數據轉換、建
模和模型評估這幾個步驟。如果在抽樣中的取數邏輯不正確，就有可能使因果關系倒置，得到完全
相反的結論。數據轉換方法如果選擇不正確，模型就難以得到預期的結果。而且，數據挖掘是一個
反復試錯的過程，每一步都要求有詳細的記錄和操作說明，否則分析人員很可能迷失方向。
學習數據挖掘最好的方法就是動手做一遍。本書語言通俗，但高度凝練，很少涉及公式，這會
讓讀者大意，如果讀者不動手做一遍，則很難體會到書中表述的思想。本書提供了相應的演練數據，
也同時給出了相關方面的參考資料，供學員學習。
致謝
本叢書從策劃到出版，張慧敏主編傾注了大量心血，經管之家的董事長趙堅毅先生提供了多方
面的支持，特在此表示衷心的感謝！
為保證叢書的質量，使其更貼近讀者，我們邀請了北京大學的殷子涵進行試讀和修改完善。感
謝各位預讀員的辛勤、耐心與細致，使得本書能以更加完善的面目與各位讀者見面。還要感謝劉莎
莎參與本?的編寫工作。
再次感謝您的支持！
作者

內容簡介：
內容簡介本書是一本面向商業數據挖掘建模分析人員的教材，從具體的商業數據分析案例入手，幫助讀者掌握數據挖掘的目的、方法、工具與分析步驟。本書所采用的分析工具為目前頗受好評的IBM SPSS Modeler及開源軟件Weka。IBM SPSS Modeler有很好的用戶接口，也有不錯的分析功能，但缺乏比較前沿的分析模塊，以及很難與現有的信息系統結合，而Weka恰能彌補其缺憾。同時，這兩個軟件都不需要編程，適合初學者。本書具體內容由四位活躍在數據挖掘教學和項目開發一線的人員完成，內容側重軟件的實際操作。力圖將復雜的技術以淺顯的方式進行解釋，盡量避免涉及過多的數學內容。

目錄：
第1 篇理論篇
第1 章數據挖掘簡介 ........... 1
1.1 數據挖掘的起源、定義及目標 ........... 2
1.2 數據挖掘的發展歷程 ............. 2
1.3 SPSS Modeler 和Weka 基礎操作 .......... 4
1.3.1 SPSS Modeler 軟件簡介 ........... 4
1.3.2 建立一個SPSS Modeler 項目 .......... 5
1.3.3 Weka 軟件環境簡介 ........... 8
1.3.4 Weka 簡單操作實例 ........... 9

第2 章數據挖掘方法論 .......... 15
2.1 數據挖掘方法論 ............. 16
2.1.1 CRISP-DM ............ 16
2.1.2 SEMMA .............. 16
2.2 數據庫中的知識挖掘步驟 ........... 17
2.2.1 字段選擇 ............. 17
2.2.2 數據清洗 ............. 18
2.2.3 字段擴充 ............. 18
2.2.4 數據編碼 ............. 19
2.2.5 數據挖掘 ............. 20
2.2.6 結果呈現 ............. 21
2.3 案例：運用SPSS Modeler 和Weka 做客戶的信用風險評分模型 ..... 22
2.3.1 案例說明 ............. 22
2.3.2 案例實操 ............. 23
2.3.3 運用SPSS Modeler 進行初步的數據挖掘 ........ 28
2.3.4 運用Weka 進行數據匯入 .......... 34
2.3.5 Weka 自有數據存儲格式arff 簡介 ......... 36

第3 章基本的數據挖掘技術 ........ 38
3.1 描述性統計 ............. 39
3.1.1 案例：通過數據判斷客戶是否需要新增電話線路 ..... 39
3.1.2 案例：運用描述性統計分析雜志社的客戶特征 ..... 40
3.2 可視化技術 ............. 42
3.3 KNN 原理及實例 ............. 44
3.3.1 KNN（K 最近鄰）算法 ........... 44
3.3.2 使用KNN 算法計算距離 .......... 45
3.3.3 案例：使用KNN 算法向用戶推薦電影 ....... 49
3.4 案例：運用Weka 的KNN 算法對診斷結果進行預測 ....... 52
3.4.1 案例說明 ............. 52
3.4.2 運用Weka 中的IBk 模型進行預測 ........ 53
3.5 案例：運用SPSS Modeler 的KNN 算法預測客戶是否接受人壽保險推銷 ... 58
3.5.1 案例說明 ............. 58
3.5.2 案例實操 ............. 59

第4 章數據挖掘進階技術 .......... 68
4.1 數據挖掘的功能分類 ............. 69
4.1.1 描述型數據挖掘（無監督數據挖掘） ....... 69
4.1.2 預測型數據挖掘（有監督數據挖掘） ....... 70
4.2 數據挖掘的績效增益 ............. 72
4.2.1 數據挖掘模型評估指標：正確率、響應率、查全率、F 值 .... 72
4.2.2 數據挖掘模型評估指標：Gain Chart ........ 74
4.2.3 數據挖掘模型評估指標：Lift Chart ......... 75
4.2.4 數據挖掘模型評估指標：Profit Chart ........ 76
4.3 數據挖掘網站 ............. 77
4.3.1 KDnuggets ............. 77
4.3.2 Kaggle ............. 80
4.4 案例：評估新產品的促銷活動效果 ......... 82
4.4.1 案例說明 ............. 83
4.4.2 數據及字段描述 ........... 83
4.4.3 效能評估方式 ............. 85
4.4.4 比賽結果排名 ............. 85

第2 篇準備篇
第5 章數據預處理 ........... 87
5.1 字段選擇 ............... 88
5.1.1 數據整合 ............. 88
5.1.2 數據過濾 ............. 88
5.1.3 案例：運用SPSS Modeler 過濾數據 ........ 89
5.2 數據清洗 ............... 92
5.2.1 錯誤值的檢測及處理 ........... 92
5.2.2 案例：運用SPSS Modeler 進行錯誤值的檢測及處理 .... 92
5.2.3 離群值的檢測及處理 ........... 96
5.2.4 案例：運用SPSS Modeler 進行離群值的檢測及處理 .... 96
5.2.5 缺失值的檢測及處理 ........... 100
5.2.6 案例：運用SPSS Modeler 進行缺失值的檢測及處理 .... 101
5.3 字段擴充 ..............110
5.3.1 案例說明 ............110
5.3.2 案例：運用SPSS Modeler 進行字段擴充及評估對效能的提升 ... 111
5.4 數據編碼 ..............118
5.4.1 數據轉換 ............118
5.4.2 數據精簡 ............. 128
5.4.3 數據集的切割 ........... 129

第6 章關鍵變量挖掘技術 ........ 137
6.1 無效變量 ............... 138
6.2 統計方式的變量選擇 ........... 138
6.2.1 卡方檢驗 ............. 138
6.2.2 方差分析（ANOVA 檢驗）及t 檢驗 ....... 138
6.2.3 案例：運用SPSS Modeler 進行關鍵變量挖掘 ...... 139
6.3 模型方式的變量選擇 ........... 141
6.3.1 決策樹 ............. 141
6.3.2 Logistic 回歸 ............. 141

第7 章貝葉斯網絡 ........... 143
7.1 樸素貝葉斯 ............. 144
7.1.1 獨立性假設 ............. 145
7.1.2 概率的離散化 ........... 147
7.2 什么是貝葉斯網絡 ............. 147

第8 章線性回歸 .......... 150
8.1 簡單線性回歸 ............. 151
8.2 多元回歸 ............... 152
8.3 相關系數 ............... 152
8.4 回歸分析案例 ............. 153
8.5 線性回歸模型評估 ............. 156
8.5.1 線性回歸模型評估指標：MAE、MSE 和RMSE ..... 156
8.5.2 線性回歸模型評估指標：R2 ......... 156
8.6 案例：運用SPSS Modeler 建立線性回歸模型 ........ 157
8.6.1 案例說明 ............. 157
8.6.2 案例實操 ............. 157

第9 章決策樹 .......... 161
9.1 ID3 決策樹模型 ............ 162
9.2 ID3 算法.............. 165
9.2.1 ID3 算法的字段選擇方式 .......... 165
9.2.2 使用決策樹進行分類 ........... 168
9.2.3 決策樹與決策規則之間的關系 ......... 168
9.2.4 ID3 算法的缺點 ............ 169
9.3 C5.0 算法 .............. 170
9.3.1 C5.0 算法的字段選擇方式 .......... 170
9.3.2 C5.0 算法的數值型字段處理方式 ........ 170
9.3.3 C5.0 算法的剪枝方法 .......... 172
9.4 CART 算法 ............. 173
9.4.1 分類樹與回歸樹 ........... 174
9.4.2 CART 分類樹的字段選擇方式 ........ 174
9.4.3 CART 分類樹的剪枝作法 .......... 177
9.5 CHAID 算法 ............. 177
9.6 案例：運用SPSS Modeler 和Weka 建立決策樹模型 ...... 177
9.6.1 案例說明 ............. 177
9.6.2 案例實操 ............. 178
9.6.3 運用SPSS Modeler 建立交互式分類樹模型 ...... 179
9.6.4 運用Weka 建立交互式分類樹模型 ........ 180
9.7 CART 回歸樹算法 ............. 186
9.7.1 CART 回歸樹的字段選擇方式 ........ 186
9.7.2 利用模型樹提升CART 回歸樹的效率 ....... 187
9.8 案例：運用SPSS Modeler 和Weka 建立回歸樹模型 ...... 188
9.8.1 案例說明 ............. 188
9.8.2 案例實操 ............. 188
9.8.3 使用Weka 對比“剪枝”前后的模型 ........ 189

第10 章神經網絡 .......... 194
10.1 BP 神經網絡模型 ............. 195
10.1.1 BP 神經網絡模型的概念 ......... 195
10.1.2 BP 神經網絡模型的架構方式 ......... 195
10.2 神經元的組成 ............. 198
10.3 神經網絡模型如何傳遞信息 ........... 199
10.4 修正神經網絡模型的權重值及常數項 ......... 200
10.5 BP 神經網絡模型與Logistic 回歸、線性回歸及非線性回歸之間的關系 ... 201
10.6 案例：運用SPSS Modeler 建立類神經網絡模型 ...... 202

第11 章 Logistic 回歸 ......... 208
11.1 Logistic 回歸與BP 神經網絡的關系 ........ 210
11.2 Logistic 回歸的字段選擇方式 ..........211
11.2.1 前向法 ............211
11.2.2 后向法 ............. 212
11.2.3 逐步法 ............. 212
11.3 案例：運用SPSS Modeler 建立Logistic 回歸模型 ...... 213
11.3.1 案例說明 ............. 213
11.3.2 案例實操 ............. 213

第12 章支持向量機 ......... 215
12.1 數據是線性可分的支持向量機 ......... 217
12.2 數據是線性不可分的支持向量機 ......... 219
12.3 案例：運用SPSS Modeler 建立SVM 模型 ....... 221

第3 篇關系篇
第13 章聚類分析 .......... 230
13.1 相似性度量 ............. 232
13.1.1 二元變量的相似性度量 ......... 232
13.1.2 類別型變量的相似性度量 ........ 234
13.1.3 數值型變量的相似性度量 ......... 234
13.2 聚類算法 ............. 234
13.2.1 互斥聚類與非互斥聚類算法 ......... 234
13.2.2 分層聚類算法 ........... 235
13.2.3 分割式聚類算法 ........... 236
13.3 分層聚類算法 ............. 236
13.3.1 單一連接法 ........... 236
13.3.2 完全連接法 ........... 237
13.3.3 平均連接法 ........... 238
13.3.4 中心法 ............. 238
13.3.5 Ward’s 法（華德法）.......... 239
13.4 分割式聚類算法 ............. 240
13.4.1 K-Means 算法 ........... 240
13.4.2 K-Medoids 算法 ............ 243
13.4.3 SOM 算法 ............. 243
13.4.4 兩步法 ............. 243
13.5 集群判斷 ............. 244
13.5.1 集群判斷方法：R2 ........... 244
13.5.2 集群判斷方法：半徑R2 .......... 245
13.5.3 集群判斷方法：均方根標準差（RMSSTD） ..... 245
13.6 案例：運用SPSS Modeler 建立聚類模型 ........ 246
13.6.1 案例說明 ............. 246
13.6.2 案例實操 ............. 246

第14 章關聯規則 .......... 252
14.1 關聯規則的概念 ............. 253
14.2 關聯規則的評估指標 ........... 253
14.2.1 支持度 ............. 253
14.2.2 置信度 ............. 254
14.3 Apriori 算法 .............. 254
14.3.1 暴力法的問題 ........... 254
14.3.2 Apriori 算法的理論基礎 .......... 255
14.4 Apriori 算法實例說明 ............ 255
14.4.1 候選項目組合的產生 ........... 255
14.4.2 候選項目組合的刪除 ........... 256
14.5 再談評估指標 ............. 256
14.5.1 支持度與置信度的問題 ......... 256
14.5.2 提升度指標 ........... 257
14.6 關聯規則的延伸 ............. 257
14.6.1 虛擬商品的加入 ........... 257
14.6.2 負向關聯規則 ........... 257
14.7 案例：運用SPSS Modeler 建立關聯規則模型 ........ 258
14.7.1 案例說明 ............. 258
14.7.2 案例實操 ............. 258

第15 章序列模型 .......... 263
15.1 序列模型的概念 ............. 264
15.2 案例：運用SPSS Modeler 建立序列模型 ........ 266
15.2.1 案例說明 ............. 266
15.2.2 案例實操 ............. 266

序：