-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

實用預測分析

( 簡體 字)
作者:[美]拉爾夫·溫特斯(Ralph Winters)類別:1. -> 程式設計 -> 機器學習
譯者:
出版社:機械工業出版社實用預測分析 3dWoo書號: 49543
詢問書籍請說出此書號!

有庫存
NT售價: 445

出版日:7/17/2018
頁數:366
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111603351
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書詳細講述了預測分析的原理、技術及實現,并深入討論了大數據。重點著眼于掌握提高開發、實行預測分析所需的6項關鍵實用技能。本書還提供了來自市場、醫療和零售等行業的真實案例,有助于讀者針對產品實現自己的預測分析。
目錄:

譯者序
關于作者
關于審校者
前言
第1章預測分析入門 1
1.1許多行業中都有預測分析 2
1.1.1市場營銷中的預測分析 2
1.1.2醫療中的預測分析 2
1.1.3其他行業中的預測分析 3
1.2技能和角色在預測分析中都很重要 3
1.3預測分析軟件 4
1.3.1開源軟件 5
1.3.2閉源軟件 5
1.3.3和平共處 5
1.4其他有用的工具 5
1.4.1超越基礎知識 6
1.4.2數據分析/研究 6
1.4.3數據工程 6
1.4.4管理 7
1.4.5數據科學團隊 7
1.4.6看待預測分析的兩種不同方式 7
1.5R 8
1.5.1CRAN 8
1.5.2安裝R語言 8
1.5.3其他安裝R語言的方法 8
1.6預測分析項目是如何組織的 9
1.7圖形用戶界面 10
1.8RStudio入門 11
1.8.1重新布局以保持和示例一致 11
1.8.2部分重要面板的簡要描述 12
1.8.3創建新項目 13
1.9R語言控制臺 14
1.10源代碼窗口 15
1.11第一個預測模型 16
1.12第二個腳本 18
1.12.1代碼描述 19
1.12.2predict函數 20
1.12.3檢驗預測誤差 21
1.13 R語言包 22
1.13.1stargazer包 22
1.13.2安裝stargazer包 23
1.13.3保存工作 24
1.14參考資料 24
1.15本章小結 24
第2章 建模過程 25
2.1結構化方法的優點 25
2.2分析過程方法 26
2.2.1CRISP-DM和SEMMA 27
2.2.2CRISP-DM和SEMMA的圖表 27
2.2.3敏捷過程 28
2.2.4六西格瑪和根本原因 28
2.2.5是否需要數據抽樣 28
2.2.6使用所有數據 29
2.2.7比較樣本與群體 29
2.3第一步:理解業務 30
2.4第二步:理解數據 36
2.4.1衡量尺度 36
2.4.2單變量分析 38
2.5第三步:數據準備 43
2.6第四步:建模 44
2.6.1具體模型說明 45
2.6.2邏輯回歸 46
2.6.3支持向量機 47
2.6.4決策樹 47
2.6.5降維技術 51
2.6.6主成分 51
2.6.7聚類 52
2.6.8時間序列模型 52
2.6.9樸素貝葉斯分類器 53
2.6.10文本挖掘技術 54
2.7第五步:評估 57
2.7.1模型驗證 58
2.7.2曲線下面積 59
2.7.3樣本內和樣本外測試、前進測試 60
2.7.4訓練/測試/驗證數據集 60
2.7.5時間序列驗證 61
2.7.6最佳冠軍模型的基準測試 61
2.7.7專家意見:人與機器 61
2.7.8元分析 61
2.7.9飛鏢板方法 61
2.8第六步:部署 62
2.9參考資料 62
2.10本章小結 62
第3章 輸入和探索數據 64
3.1數據輸入 64
3.1.1文本文件輸入 65
3.1.2數據庫表格 66
3.1.3電子表格文件 67
3.1.4XML和JSON數據 67
3.1.5生成你自己的數據 68
3.1.6處理大型文件的技巧 68
3.1.7數據整理 68
3.2連接數據 69
3.2.1使用sqldf函數 69
3.2.2生成數據 70
3.2.3檢查元數據 71
3.2.4使用內部連接和外部連接來合并數據 72
3.2.5識別有多個購買記錄的成員 73
3.2.6清除冗余記錄 74
3.3探索醫院數據集 74
3.3.1str(df)函數的輸出 74
3.3.2View函數的輸出 75
3.3.3colnames函數 75
3.3.4summary函數 76
3.3.5在瀏覽器中打開文件 77
3.3.6繪制分布圖 77
3.3.7變量的可視化繪圖 78
3.4轉置數據幀 80
3.5缺失值 84
3.5.1建立缺失值測試數據集 84
3.5.2缺失值的不同類型 85
3.5.3糾正缺失值 87
3.5.4使用替換過的值運行回歸 90
3.6替換分類變量 91
3.7異常值 91
3.7.1異常值為什么重要 91
3.7.2探測異常值 92
3.8數據轉換 96
3.8.1生成測試數據 97
3.8.2Box-Cox轉換 97
3.9變量化簡/變量重要性 98
3.9.1主成分分析法 98
3.9.2全子集回歸 102
3.9.3變量重要性 104
3.10參考資料 106
3.11本章小結 106
第4章 回歸算法導論 107
4.1監督學習模型和無監督學習模型 108
4.1.1監督學習模型 108
4.1.2無監督學習模型 108
4.2回歸技術 109
4.3廣義線性模型 110
4.4邏輯回歸 110
4.4.1比率 111
4.4.2邏輯回歸系數 111
4.4.3示例:在醫療中使用邏輯回歸來預測疼痛閾值 112
4.4.4GLM模型擬合 114
4.4.5檢驗殘差項 115
4.4.6添加變量的分布圖 116
4.4.7p值及其效應量 117
4.4.8p值及其影響范圍 118
4.4.9變量選擇 119
4.4.10交互 121
4.4.11擬合優度統計量 123
4.4.12置信區間和Wald統計 124
4.4.13基本回歸診斷圖 124
4.4.14分布圖類型描述 124
4.4.15擬合優度:Hosmer-Lemeshow檢驗 126
4.4.16正則化 127
4.4.17示例:ElasticNet 128
4.4.18選擇一個正確的Lambda 128
4.4.19基于Lambda輸出可能的系數 129
4.5本章小結 130
第5章決策樹、聚類和SVM導論 131
5.1決策樹算法 131
5.1.1決策樹的優點 131
5.1.2決策樹的缺點 132
5.1.3決策樹的基本概念 132
5.1.4擴展樹 132
5.1.5不純度 133
5.1.6控制樹的增長 134
5.1.7決策樹算法的類型 134
5.1.8檢查目標變量 135
5.1.9在rpart模型中使用公式符號 135
5.1.10圖的解釋 136
5.1.11輸出決策樹的文本版本 137
5.1.12修剪 138
5.1.13渲染決策樹的其他選項 139
5.2聚類分析 140
5.2.1聚類分析應用于多種行業 140
5.2.2什么是聚類 140
5.2.3聚類的類型 141
5.2.4k均值聚類算法 141
5.2.5測量聚類之間的距離 143
5.2.6聚類的肘形圖 146
5.3支持向量機 151
5.3.1映射函數的簡單說明 152
5.3.2使用SVM分析消費者投訴數據 153
5.3.3將非結構化數據轉換為結構化數據 154
5.4參考資料 157
5.5本章小結 157
第6章使用生存分析來預測和分析客戶流失 158
6.1什么是生存分析 158
6.1.1依賴時間的數據 159
6.1.2刪失 159
6.2客戶滿意度數據集 160
6.2.1利用概率函數生成數據 161
6.2.2創建矩陣圖表 166
6.3劃分訓練和測試數據 167
6.4通過創建生存對象來設置階段 168
6.5檢查生存曲線 170
6.5.1更好的繪圖 172
6.5.2對比生存曲線 173
6.5.3檢驗生存曲線之間的性別差異 174
6.5.4檢驗生存曲線之間的教育程度差異 174
6.5.5繪制客戶滿意度和服務電話數量曲線 175
6.5.6添加性別來改進教育程度生存曲線 176
6.5.7把服務電話轉換成二進制變量 178
6.5.8檢驗打過和沒打過服務電話的客戶 179
6.6cox回歸建模 179
6.6.1我們的第一個模型 180
6.6.2檢查cox回歸的輸出 182
6.6.3比例風險測試 182
6.6.4比例風險繪圖 183
6.6.5獲取cox生存曲線 184
6.6.6繪制曲線 184
6.6.7偏回歸繪圖 184
6.6.8檢查子集的生存曲線 186
6.6.9比較性別差異 187
6.6.10驗證模型 188
6.6.11決定一致性 191
6.7基于時間的變量 191
6.7.1改變數據以反映第二次調查 192
6.7.2survSplit的工作原理 192
6.7.3調整記錄來模擬一次干預 193
6.7.4運行基于時間的模型 195
6.8比較模型 197
6.9變量選擇 197
6.9.1合并交互作用項 199
6.9.2比較各個備選模型的AIC 199
6.10本章小結 200
第7章使用購物籃分析作為推薦系統引擎 201
7.1什么是購物籃分析 201
7.2檢查雜貨明細 202
7.3示例購物籃 203
7.4關聯規則算法 204
7.5先例和后果 205
7.6評估規則的準確性 205
7.6.1支持度 206
7.6.2計算支持度 206
7.6.3置信度 206
7.6.4提升度 206
7.7準備原始數據文件進行分析 207
7.7.1讀取交易文件 207
7.7.2capture.output函數 208
7.8分析輸入文件 208
7.8.1分析發票日期 209
7.8.2繪制日期 210
7.9凈化和清洗數據 211
7.9.1移除不必要的字符空格 211
7.9.2簡化描述 212
7.10 自動移除顏色 212
7.10.1 colors()函數 212
7.10.2 清洗顏色 213
7.11 過濾單個商品交易 214
7.12 將結果合并到原始數據中 216
7.13 使用camelcase壓縮描述 217
7.13.1自定義函數映射到camelcase 217
7.13.2提取最后一個單詞 218
7.14創建測試和訓練數據集 219
7.14.1保存結果 220
7.14.2加載分析文件 220
7.14.3確定后續規則 221
7.14.4替換缺失值 222
7.14.5制作最后的子集 222
7.15創建購物籃交易文件 223
7.16方法1:強制將數據幀轉換為交易文件 223
7.16.1檢查交易文件 225
7.16.2獲取topN購買商品 225
7.16.3尋找關聯規則 226
7.16.4檢驗規則摘要 228
7.16.5檢驗規則質量并觀察最高支持度 228
7.16.6置信度和提升度指標 229
7.16.7過濾大量規則 229
7.16.8生成大量規則 232
7.16.9繪制大量規則 232
7.17方法2:創建一份物理交易文件 233
7.17.1再次讀取交易文件 234
7.17.2繪制規則 237
7.17.3創建規則的子集 237
7.17.4文本聚類 239
7.18轉換為一個文獻術語相關矩陣 240
7.18.1移除稀疏術語 241
7.18.2找出頻繁術語 242
7.19術語的k均值聚類 243
7.19.1研究聚類1 243
7.19.2研究聚類2 244
7.19.3研究聚類3 244
7.19.4研究聚類4 244
7.19.5研究聚類5 245
7.20預測聚類分配 245
7.20.1使用flexclust預測聚類分配 245
7.20.2運行k均值生成聚類 246
7.20.3創建測試DTM 247
7.21在聚類中運行apriori算法 249
7.22總結指標 250
7.23參考資料 250
7.24本章小結 251
第8章將醫療注冊數據作為時間序列探索 252
8.1時間序列數據 252
8.2健康保險覆蓋率數據集 253
8.3準備工作 253
8.4讀入數據 253
8.5從各列提取子集 254
8.6數據的描述 254
8.7目標時間序列變量 255
8.8保存數據 256
8.9確定所有子集組 256
8.10將匯總數據合并回原始數據 257
8.11檢查時間間隔 258
8.12按平均人數挑選最高級別的群體 259
8.13使用lattice繪制數據 259
8.14使用ggplot繪制數據 260
8.15將輸出發送到外部文件 261
8.16檢查輸出 262
8.17檢測線性趨勢 262
8.18自動化回歸 263
8.19對系數進行排序 264
8.20將分數合并回原始的數據幀 265
8.21用趨勢線繪制數據 265
8.22繪制一個圖表上的全部類別 268
8.23使用ets函數執行一些自動預測 269
8.24使用移動平均線來使數據平滑 269
8.25簡單移動平均線 270
8.26驗證SMA的計算值 271
8.27指數移動平均線 271
8.27.1使用函數計算EMA 272
8.27.2選擇平滑因子 273
8.28使用ets函數 273
8.29使用ALL AGES做預測 274
8.30繪制預測值和實際值 275
8.31forecast(fit)方法 276
8.32用置信帶來繪制未來的值 276
8.33修改模型以包含趨勢組件 277
8.34對所有類別迭代運行ets函數 279
8.35onestep生成的精度指標 280
8.36比較UNDER 18 YEARS組的測試和訓練 281
8.37精度指標 282
8.38參考資料 283
8.39本章小結 283
第9章Spark 284
9.1關于Spark 284
9.2Spark環境 285
9.2.1聚類計算 285
9.2.2并行計算 286
9.3SparkR 286
9.4構建第一個Spark數據幀 287
9.5導入相同的筆記本 288
9.6創建一個新的筆記本 289
9.7從小開始變大 289
9.8運行代碼 290
9.9運行初始化代碼 291
9.10解壓縮皮馬印第安人糖尿病數據集 291
9.10.1檢查輸出 291
9.10.2比較結果 293
9.10.3檢查缺失值 294
9.10.4輸入缺失值 294
9.10.5檢查替換值(讀者練習) 295
9.10.6缺失值處理完成 296
9.10.7計算相關性矩陣 296
9.10.8計算各列的均值 298
9.11仿真數據 299
9.11.1使用哪些相關性 299
9.11.2檢查對象類型 300
9.12仿真糖尿病陰性結果的情況 301
9.13運行匯總統計 302
9.14保存你的工作 303
9.15本章小結 303
第10章用Spark探索大型數據集 304
10.1對陽性數據進行一些探索性分析 304
10.1.1 顯示Spark數據幀的內容 305
10.1.2 用本地繪圖特性來繪圖 305
10.1.3 直接對一個Spark數據幀運行兩兩相關性計算 306
10.2清理和緩存內存中的表格 307
10.3一些探索數據時有用的Spark函數 307
10.3.1count和groupby 307
10.3.2協方差和相關性函數 308
10.4創建新列 309
10.5構建一個交叉表 310
10.6構建直方圖 310
10.7使用ggplot繪圖 312
10.8Spark SQL 312
10.8.1注冊表格 313
10.8.2通過R接口發布SQL 313
10.8.3用SQL來檢查潛在異常值 314
10.8.4創建一些匯總 314
10.8.5用第三個查詢選出一些潛在異常值 315
10.8.6變成SQL API 315
10.8.7SQL:用case語句計算一個新列 316
10.8.8基于年齡段評估結果變量 317
10.8.9計算所有變量的均值 318
10.9從Spark回到R來探索數據 319
10.10 運行本地R包 320
10.10.1 使用pairs函數(在基本包中提供) 320
10.10.2 生成一個相關性圖形 320
10.11 一些關于使用Spark的技巧 321
10.12 本章小結 321
第11章Spark機器學習:回歸和聚類模型 322
11.1關于本章/你將學到什么 322
11.1.1讀取數據 322
11.1.2運行數據幀的摘要并保存對象 323
11.2將數據分割成訓練和測試數據集 324
11.2.1 生成訓練數據集 324
11.2.2 生成測試數據集 325
11.2.3 關于并行處理的說明 325
11.2.4 將誤差引入測試數據集 325
11.2.5 生成分布的直方圖 326
11.2.6 生成有誤差的新測試數據 326
11.3使用邏輯回歸的Spark機器學習 327
11.3.1檢查輸出 327
11.3.2正則化模型 328
11.3.3預測結果 329
11.3.4繪制結果 330
11.4運行測試數據的預測 331
11.5合并訓練和測試數據集 331
11.6將這三個表提供給SQL 333
11.7驗證回歸結果 333
11.8計算擬合度的好壞 333
11.9測試組的混淆矩陣 334
11.10 在Spark以外繪圖 337
11.10.1 收集結果的樣本 337
11.10.2 按outcome的值檢查分布 337
11.10.3 注冊一些額外的表 338
11.11 創建一些全局視圖 338
11.11.1 用戶練習 338
11.11.2 聚類分析 339
11.11.3 準備進行分析的數據 339
11.11.4 從全局視圖讀取數據 339
11.11.5 輸入以前計算的平均值和標準偏差 340
11.11.6 連接平均值和訓練數據的標準偏差 340
11.11.7 連接平均值和測試數據的標準偏差 341
11.12 歸一化數據 342
11.12.1 顯示輸出 342
11.12.2 運行k均值模型 343
11.12.3 將模型擬合到訓練數據 344
11.12.4 將模型擬合到測試數據 344
11.12.5 以圖形方式顯示聚類分配 345
11.13 通過聚類的平均值來描述它們的特征 347
11.14 本章小結 348
第12章Spark模型:基于規則的學習 349
12.1加載盤查(停止和搜身)數據集 349
12.2讀取表格 351
12.2.1運行第一個單元 351
12.2.2將整個文件讀取到內存中 351
12.2.3將變量轉化為整數 352
12.3發現重要特征 353
12.3.1消除級別過多的因子 354
12.3.2測試和訓練數據集 354
12.3.3檢查分級數據 355
12.4運行OneR模型 356
12.4.1理解輸出 356
12.4.2構建新變量 358
12.4.3在測試樣本上運行預測 358
12.5另一個OneR例子 359
12.6使用rpart構建決策樹 361
12.6.1首先收集樣本 361
12.6.2使用rpart的決策樹 361
12.6.3繪制樹 362
12.7運行Python中的另一種模型 363
12.7.1運行Python決策樹 363
12.7.2讀取盤查表格 363
12.8索引分類特征 364
12.8.1映射到RDD 366
12.8.2指定決策樹模型 366
12.8.3生成更大的樹 367
12.8.4可視化樹 368
12.8.5比較訓練決策樹和測試決策樹 368
12.9本章小結 370
序: