小白學數據挖掘與機器學習——SPSS Modeler案例篇 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

小白學數據挖掘與機器學習——SPSS Modeler案例篇
( 簡體字)

作者：張浩彬類別：1. -> 工具書、軟體 -> 統計軟體

譯者：

出版社：電子工業出版社 3dWoo書號： 49226
詢問書籍請說出此書號！
【缺書】
NT售價： 395 元

出版日：6/1/2018

頁數：240

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787121338434

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
浩彬老撕（作者網名），一個有趣的人。
數據挖掘與機器學習，一件好玩的事情。
IBM SPSS Modeler，一套有用的工具。

在日常生活和工作中，筆者經常會遇到有朋友面帶難色地咨詢：怎么做數據挖掘?怎么學習數據挖掘？筆者發現，大家都認識到，在這個大數據時代，數據挖掘是一項非常有用的技能，但與此同時，他們往往又會覺得學習數據挖掘與機器學習非常難，因為必須要花費大量的時間去重新學習數學知識以及各種編程技能。

對于這些困難，筆者當然理解，而且，隨著大數據的興起，市面上也出現了越來越多關于數據挖掘與機器學習方面的書籍。這些書籍固然都寫得很好，但是很多都是一上來就介紹統計理論和模型算法，未免又增加了初學者的畏難情緒。

就筆者看來，從海量數據中挖掘出有用的知識本來是一件很好玩的事情，而且看上去晦澀難懂的算法，其實也有接地氣的一面，只要找對學習方法和案例，數據挖掘與機器學習也可以像聽故事一樣有趣。也是基于這一點，筆者開始了個人公眾號以及本書的寫作，希望可以用生活中一些常見的例子和一些有趣的插圖及通俗的語言故事，把這些看上去晦澀的數據挖掘與機器學習知識通俗易懂的方式分享給讀者，希望讓讀者從入門學習階段就發現，原來數據挖掘與機器學習這件事情不但有用，而且還真的有趣。
本書采用IBM SPSS Modeler（以下簡稱SPSS Modeler）作為案例實踐工具。SPSS Modeler是業界公認的數據挖掘利器，它依據CRISP-DM 方法論，內置了豐富的數據挖掘算法，同時作為一款以“圖形化語法”的數據挖掘工具，它的最大優點就是在保證專業性的同時，很好地兼顧了易用性，相信讀者使用SPSS Modeler作為數據挖掘與機器學習入門工具，將能夠很快掌握實際的應用技巧。

本書特色
本書從結構上看，首先介紹了數據挖掘的基本概念以及數據挖掘方法論，接下來介紹了SPSS Modeler工具的基本使用、數據探索、統計檢驗、回歸分析、分類算法、聚類算法、關聯規則、神經網絡以及集成學習。全書內容循序漸進，完整覆蓋了數據挖掘與機器學習的主要知識點。

特別地，在每一章中都會以漫畫形式介紹一些日常小例子作為切入點，并用通俗的語言為讀者介紹具體的算法理論，同時在每章最后都附上應用案例，希望以這樣的形式幫助讀者更輕松地閱讀本書并掌握對應的算法和實踐操作。

致謝
感謝圖標網站，本書的插圖大部分來源于對這些原始素材的再創作。
感謝公眾號“探數尋理”的讀者的關注與支持。感謝IBM大中華區分析事業部周偉珠等多位同事的幫助和建議，是你們的建議讓本書變得更加完善。感謝柯內特環保大數據研究院院長龍力輝等多位書評作者，感謝你們能夠在百忙之中抽出時間閱讀書稿，并提出寶貴的建議。感謝電子工業出版社博文視點王靜老師的大力支持和辛勤工作，讓本書能夠順利出版。最后感謝我的家人和徐小白同學，也因為你們的支持和理解，本書才能順利出版。
聯系方式和電子資源
由于筆者水平有限，本書難免會出現一些紕漏和不足之處，懇請各位讀者批評、指正。如果有任何意見和想法，歡迎掃描下方的二維碼或在微信中搜索“wetalkdata”，關注“探數尋理”公眾號，與筆者進行互動溝通，衷心感謝各位讀者的意見和建議。
讀者可以通過關注公眾號，回復“SPSS”獲取軟件試用版下載鏈接以及回復“案例數據”獲取本書所有章節對應的數據文件，以及數據模型文件。

內容簡介：
本書用生活中常見的例子、有趣的插圖和通俗的語言，把看上去晦澀難懂的數據挖掘與機器學習知識以通俗易懂的方式分享給讀者，讓讀者從入門學習階段就發現，原來數據挖掘與機器學習不但有用，還很有趣。本書以IBM SPSS Modeler作為案例實踐工具，首先介紹了數據挖掘的基本概念及數據挖掘方法，然后介紹了IBM SPSS Modeler工具的基本使用、數據探索、統計檢驗、回歸分析、分類算法、聚類算法、關聯規則、神經網絡以及集成學習。每一章都會以漫畫形式介紹一些日常小例子并作為切入點，用通俗的語言介紹具體的算法理論，同時在每章最后都附上應用案例，讓讀者更輕松地閱讀本書并掌握對應的算法和實踐操作。全書內容循序漸進，完整覆蓋了數據挖掘與機器學習的主要知識點，適合數據挖掘與機器學習入門讀者閱讀。

目錄：
第 1 章數據挖掘那些事兒 1
1.1 當我們在談數據挖掘時，其實在討論什么 2
1.2 從 CRISP-DM 開啟數據挖掘實踐 7

第 2 章數據挖掘之利器：SPSS Modeler 17
2.1 SPSS Modeler 簡介 18
2.2 SPSS Modeler 的下載與安裝 21
2.3 SPSS Modeler 的主界面及基本操作 23
2.3.1 SPSS Modeler 主界面介紹 23
2.3.2 鼠標基本操作 31
2.4 將 SPSS Modeler 連接到服務器端 31

第 3 章巧婦難為無米之炊：數據，數據！ 34
3.1 數據的身份 35
3.1.1 變量的測量級別 35
3.1.2 變量的角色 36
3.2 數據的讀取 37
3.2.1 讀取 Excel 文件數據 37
3.2.2 讀取變量文件數據 38
3.2.3 讀取 SPSS Statistics（.sav）文件數據 40
3.2.4 讀取數據庫數據 42
3.3 數據的基本設定 45
3.3.1 變量角色的設定 45
3.3.2 字段的篩選及命名 46
3.4 數據的集成 47
3.4.1 數據的變量集成：合并節點 47
3.4.2 數據的記錄集成：追加節點 50

第 4 章一點都不簡單的描述性統計分析 53
4.1 分類變量的基本分析： “矩陣”節點 54
4.2 連續變量的基本分析：數據審核節點 57
4.2.1 連續變量基本分析指標介紹 57
4.2.2 “數據審核”節點 63

第 5 章何為足夠大的差異：常用的統計檢驗 67
5.1 假設檢驗 68
5.1.1 假設檢驗的基本原理 68
5.1.2 假設檢驗的一般步驟 69
5.2 連續變量與分類變量之間的關系： t 檢驗 70
5.2.1 兩組獨立樣本均值比較 71
5.2.2 兩組配對樣本均值比較 72
5.2.3 使用 t 檢驗的前提條件 73
5.2.4 案例：使用均值比較分析電信客戶的流失情況 73
5.3 兩個連續變量之間的關系：相關分析 75
5.3.1 相關分析理論 76
5.3.2 案例：使用相關分析研究居民消費水平與國內生產總值的相關關系 77
5.4 兩個分類變量之間的關系：卡方檢驗 80
5.4.1 卡方檢驗的原理 80
5.4.2 卡方檢驗的前提條件 82
5.4.3 案例：使用卡方檢驗研究兩個分類字段之間的關系 82

第 6 章從身高和體重的關系談起：回歸分析 84
6.1 一元線性回歸分析 85
6.1.1 分析因變量與自變量的關系，構建回歸模型 85
6.1.2 估計模型系數，求解回歸模型 87
6.1.3 對模型系數進行檢驗，確認模型有效性 88
6.1.4 擬合優度檢驗，判斷模型解釋能力 89
6.1.5 借助回歸模型進行預測 90
6.2 多元線性回歸分析 90
6.2.1 估計模型系數，求解回歸模型 91
6.2.2 對模型參數進行檢驗，確認模型有效性 92
6.2.3 擬合優度檢驗，判斷模型解釋能力 94
6.2.4 模型的變量選擇 95
6.3 使用線性回歸分析的注意事項 97
6.4 案例：使用回歸分析研究影響房屋價格的重要因素 98

第 7 章回歸豈止這么簡單：回歸模型的進一步擴展 102
7.1 曲線回歸 103
7.2 Logistic 回歸 110
7.2.1 Logistic 回歸理論 110
7.2.2 案例：使用 Logistic 回歸模型分析個人收入水平影響因素 112

第 8 章模型評估那些事兒：過擬合與欠擬合 117
8.1 過擬合與欠擬合 118
8.2 留出法與交叉驗證 122
8.2.1 留出法與分層抽樣 122
8.2.2 交叉驗證 124

第 9 章從看電影的思考到決策樹的生成 126
9.1 決策樹概述 127
9.2 決策樹生成 129
9.2.1 從 ID3 算法到 C5.0 算法 131
9.2.2 CART 算法 134
9.3 決策樹的剪枝 136
9.3.1 預剪枝策略 137
9.3.2 后剪枝策略 137
9.3.3 代價敏感學習 138
9.4 案例：用決策樹分析客戶違約情況 140
9.5 關于信息熵的擴展 147

第 10 章人工神經網絡：從人腦神經元開始 151
10.1 從人腦神經元到人工神經網絡 152
10.2 感知機 154
10.3 人工神經網絡 159
10.3.1 隱藏層的作用 159
10.3.2 人工神經網絡算法 160
10.4 案例：利用人工神經網絡分析某電信運營商的客戶流失情況 164

第 11 章物以類聚，人以群分：聚類分析 172
11.1 聚類思想的概述 173
11.2 聚類方法的關鍵：距離 175
11.3 K-Means 算法 176
11.3.1 K-Means 算法原理 176
11.3.2 輪廓系數（Silhouette coefficient） 177
11.4 案例：利用 K-Means 算法對不同型號汽車的屬性進行聚類分群研究 179

第 12 章啤酒+尿布=關聯分析？ 186
12.1 一個關于關聯分析的傳說 187
12.2 關聯分析的基本概念 188
12.3 關聯規則的有效性指標 190
12.4 Apriori 算法 192
12.4.1 生成頻繁項集 193
12.4.2 生成關聯規則 195
12.5 案例：利用 Apriori 算法對顧客的個人信息及購買記錄進行關聯分析 195

第 13 章三個臭皮匠，賽過諸葛亮：集成學習算法 199
13.1 集成學習算法概述 200
13.2 3 種不同的集成學習算法 201
13.2.1 Bagging 算法 201
13.2.2 Boosting 算法 203
13.2.3 隨機森林 204
13.3 集成學習算法實踐 205
13.3.1 Bagging 算法和 Boosting 算法 205
13.3.2 隨機森林 211
13.3.3 集成學習算法結果比較 214

序：