數據挖掘:商業數據分析技術與實踐 ( 簡體 字) |
作者:[美]蓋麗特·徐茉莉(Galit Shmueli) 彼得·布魯斯(Peter C. Bruce)米婭·斯蒂芬斯(Mia L. Stephens)尼廷·帕特爾(Nitin | 類別:1. -> 程式設計 -> 數據挖掘 |
譯者: |
出版社:清華大學出版社 | 3dWoo書號: 49317 詢問書籍請說出此書號!【缺書】 NT售價: 590 元 |
出版日:6/1/2018 |
頁數:400 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787302497660 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:無論你選擇什么職業或工作地點,你的未來肯定會被數據所包圍。現代世界由幾 十億個鍵盤和數萬億個卡片刷頭所發出的數據脈沖所構成,這些數據來自于電子設備和 系統的各種操作,并且能夠在全球范圍內迅速傳播。數據量是難以用數量來衡量的。但 這并不在于你擁有多少數據,而是你用它做什么。把握住這個凌亂的數據世界并很好地 利用它,將會成為組織運作良好和職業生涯成功的關鍵,它不僅僅存在于硅谷、谷歌、 Facebook這些地方,也存在于保險公司、銀行、汽車制造商、航空公司、醫院等地方, 甚至可以說它幾乎無處不在。
這就是本書(《數據挖掘:商業數據分析技術與實踐》)所能給讀者提供的。 Shmueli教授同她的合著者為學生們提供了這樣一個非常有用的學習指南,其中涉及與復 雜數據集相關的重要概念和方法。本書作者具有多年的教學經驗,為了跟上本科及研究 生商業分析課程中的變化,我們已經對早期的版本進行修訂。最重要的是,新版本集成 了SAS研究所用于處理和分析數據的統計工具JMP Pro.。學習分析方法的最終目的是通 過數據生成一些見解。通過強大的統計工具訓練學習者敏捷的思維,是學習過程中必不 可少的關鍵一步。
如果你把目光放在引領數字世界,那么本書將會是你為未來做準備的開始。
Michael Rappa
高級分析研究所
北卡羅來納州立大學
|
內容簡介:本書采用SAS公司的統計軟件包JMP Pro進行實踐性應用,使用引人入勝的實際案例來構建關鍵數據挖掘方法(尤其是分類和預測的預測模型)的理論及其實踐理解。本書所討論的主題包括數據可視化、降維、聚類、線性和邏輯回歸、分類和回歸樹、判別分析、樸素貝葉斯、人工神經網絡、增量模型、集成算法以及時間序列預測等。 |
目錄:第一部分預備知識 1導論002 1.1什么是商業分析?002 1.2什么是數據挖掘?004 1.3數據挖掘及相關用語004 1.4大數據005 1.5數據科學006 1.6為什么會有這么多不同的方法?007 1.7術語和符號007 1.8本書框架009 2數據挖掘概述·013 2.1引言013 2.2數據挖掘的核心思想014 2.3數據挖掘步驟016 2.4初步步驟018 2.5預測能力和過擬合024 2.6用JMPPro建立預測模型029 2.7用JMPPro進行數據挖掘036 2.8自動化數據挖掘解決方案037
第二部分數據探索與降維 3數據可視化046 3.1數據可視化的用途046 3.2數據實例047 3.3基本圖形:條形圖、折線圖和散點圖049 3.4多維可視化056 3.5特殊可視化068 3.6基于數據挖掘目標的主要可視化方案和操作概要072 4降維076 4.1引言076 4.2維度災難077 4.3實際考慮077 4.4數據匯總078 4.5相關分析082 4.6減少分類變量中的類別數量082 4.7將分類型變量轉換為連續型變量084 4.8主成分分析084 4.9利用回歸模型降維094 4.10利用分類和回歸樹降維094 第三部分性能評估 5評估預測效果·098 5.1引言098 5.2評價預測性能099
5.3評判分類效果101 5.4評判分類性能112 5.5過采樣115 第四部分預測與分類方法 6多元線性回歸·122 6.1引言122 6.2解釋模型與預測模型123 6.3估計回歸方程和預測124 6.4線性回歸中的變量選擇129 7k近鄰法142 7.1k-NN分類(分類型結果變量)142 7.2數值型結果變量下的k-NN方法·147 7.3k-NN算法的優點和缺點149 8樸素貝葉斯分類器153 8.1引言153 8.2使用完全(精確)貝葉斯分類器155 8.3樸素貝葉斯方法的優點和缺點163 9分類和回歸樹·168 9.1引言168 9.2分類樹169 9.3生成樹172 9.4評估分類樹的效果176 9.5避免過擬合178
9.6樹中的分類準則181 9.7多分類的分類樹182 9.8回歸樹182 9.9樹的優點和缺點184 9.10預測方法的提高:組合多棵樹186 9.11不純度的提取和度量188 10邏輯回歸193 10.1引言·193 10.2邏輯回歸模型·195 10.3評價分類性能·202 10.4完整分析案例:預測航班延誤·205 10.5附錄:邏輯回歸的概括·214 11神經網絡225 11.1引言·225 11.2神經網絡的概念和結構·226 11.3擬合數據·226 11.4JMPPro用戶輸入·240 11.5探索預測變量和響應變量的關系·242 11.6神經網絡的優點和缺陷·243 12判別分析247 12.1引言·247 12.2觀測值到類的距離·249 12.3從距離到傾向和分類·251 12.4判別分析的分類性能·254 12.5先驗概率·255 12.6多類別分類·256 12.7優點和缺點·258
13組合方法:集成算法和增量模型263 13.1集成算法·263 13.2增量(說服)模型·268 13.3總結·274 第五部分挖掘記錄之間的關系 14聚類分析280 14.1引言·280 14.2定義兩個觀測值之間的距離·284 14.3定義兩個類之間的距離·288 14.4系統(凝聚)聚類·290 14.5非系統聚類:k-means算法·299 第六部分時間序列預測 15時間序列處理·310 15.1引言·310 15.2描述性與預測性建模·311 15.3商業中的主流預測方法·312 15.4時間序列的構成·312 15.5數據分割和性能評價·316 16回歸預測模型·321 16.1趨勢模型·321 16.2季節模型·327 16.3趨勢和季節模型·330
16.4自相關和ARIMA模型331 17平滑法·350 17.1引言·350 17.2移動平均法·351 17.3簡單指數平滑法·355 17.4高級指數平滑法·358 第七部分案例 18案例·372 18.1查爾斯圖書俱樂部·372 18.2德國信貸·378 18.3太古軟件編目·382 18.4政治說教·385 18.5出租車訂單取消·388 18.6浴皂的消費者細分·390 18.7直郵籌款·393 18.8破產預測·395 18.9時間序列案例:預測公共交通需求·398
|
序: |