-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

R語言實戰:編程基礎、統計分析與數據挖掘寶典

( 簡體 字)
作者:李倩星類別:1. -> 程式設計 -> R語言
   2. -> 程式設計 -> 數據挖掘
譯者:
出版社:電子工業出版社R語言實戰:編程基礎、統計分析與數據挖掘寶典 3dWoo書號: 43583
詢問書籍請說出此書號!

缺書
NT售價: 375

出版日:3/1/2016
頁數:424
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121281150
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

前.言

R語言是如今最熱門的編程語言之一,它由統計學家開發,在解決數據分析問題時具有先天優勢。R語言是一門新興的語言,掌握它,就是掌握了一門高效的數據分析軟件。隨著大數據概念的普及, R語言能夠實現的功能越來越豐富,越來越多的數據分析從業人員產生了對學習 R語言的需求。本書迎合時代潮流,講解了大數據時代下 R語言滲透最廣泛的幾個領域,全面介紹了如何使用 R語言完成數據挖掘工作。對 R語言編程人員來說,本書是一本不可或缺的工具書。
本書特色
1. 通俗易懂,實用性強,適合各層次讀者學習

本書對讀者的數學基礎或編程基礎不做任何要求。在講解知識點時,本書采用了通俗易懂的語言,對每一個疑難點都加以詳細解釋。此外,本書以實用為主旨,秉承“看得懂、學得會、用得上”的編寫原則,精心選取了流行于行業前沿的 18個主題,在通俗易懂之余,確保讀者所學的知識具有實際應用價值。通過閱讀本書,任何讀者都能迅速掌握 R語言的編程技巧及相關的數據分析知識,并在實際工作中立刻應用它們。

2. 條理清晰,結構巧妙,全面盤點數據分析常用算法


數據分析是一個涉及多領域的交叉學科, R軟件的觸角同樣也能伸展到多個領域。本書選取了統計分析、機器學習、人工智能等多個學科的流行算法作為主題,講解了如何使用 R語言實現它們。這些算法有些偏重數學思維,有些偏重編程技巧,本書主要遵循由易到難的順序排列主題,并盡量把起源于同一學科的算法放在一起。讀者可以按照順序閱讀本書,也可以優先選擇感興趣的部分。此外,本書還穿插介紹了與 R軟件相關
的一些其他編程主題,這些主題共同形成知識網絡,幫助讀者迅速成長為能夠獨當一面
的數據科學家。
3. 知識點豐富,可拓展性強,滿足讀者的多重需求
本書涉及多個學科,全面介紹了 R軟件能夠實現的多種算法,滿足了讀者的三大需求:首先,使用通俗易懂的語言介紹 R軟件,幫助讀者實現零基礎入門;其次,囊括多種數據分析算法,帶領讀者全面認識 R軟件的強大之處,幫助讀者成長為合格的數據科學家;最后,本書具備較強的可拓展性,從事任何行業的讀者都能夠從本書中獲取適合其行業的知識。本書還給出了 R語言進階的線索,無論想向哪一方面進階,本書都能為讀者打造最堅實的基礎。
本書內容及體系結構
本書分為 18章,分別為 R的基本介紹、原始數據的探索與預處理、 R的數據可視化、 R中參數的估計和檢驗、 R中的方差分析、 R中的相關分析和回歸分析、更高級的數據可視化、 R中的聚類分析和判別分析、 R中的主成分分析和因子分析、 R中的廣義線性回歸模型、 R中的時間序列模型、 R中的最優化問題、使用 R繪制地理信息圖形、使用 R構建支持向量機、實現更高效的流程控制和高級循環、 R代碼的調試與優化、構建電影評分預測模型、貝葉斯垃圾郵件過濾器模型。這 18章進一步又分為五部分。
第一部分為本書的前 6章。其中前 3章展示了 R軟件的一些入門功能,如數據預處理和數據可視化等,后 3章則介紹了三種基礎的統計分析方法,即參數的估計和檢驗、方差分析、相關分析、回歸分析。這 6個章節圍繞初級的統計方法展開,是數據分析師必備的基本知識。
第二部分為本書的第 7~11章,這 5個章節介紹了更高級的統計方法。其中第 7章為第 3章的延伸,介紹了數據可視化的高級方法,第 8章至第 11章則介紹了 6種高級統計分析方法,這部分的內容與第一部分互為補充。
第三部分為本書的第 12~14章,這部分內容圍繞機器學習展開。第 12章的主題為最優化,是機器學習的基本理論。第 13章介紹了如何使用矢量化的思想繪制地圖。第 14章則介紹了支持向量機,它是最典型的機器學習算法之一。這部分講解了更高深的 R語言編程技巧,討論了一些 R軟件能夠解決的最高難度問題。
第 15、16章可視為本書的第四部分。這兩章圍繞如何優化 R代碼展開,系統地討論了如何寫出錯誤較少的、運行速度較快的代碼。這部分內容幫助讀者建立良好的編程習慣,以及與其他 R用戶更好地協同工作。
第 17、18章則為本書的最后一部分,這兩章分別討論了一個完整的數據挖掘項目。其中電影評分預測的案例著重于表現數據挖掘的完整流程,包括繁復的數據預處理與反復的模型比較等工作;垃圾郵件過濾的案例則引出 R軟件能夠處理的另一個主題——文本分析。
上述劃分方法僅為一個參考,本書的 18個章節互相聯系又彼此獨立,讀者可按照上述劃分方法閱讀本書,也可優先閱讀某些章節,如將第 3章、第 7章、第 13章等與數據可視化相關的三個章節放在一起閱讀。
本書讀者對象

想要了解 R語言的數據分析從業人員。


統計學、金融學、計算機技術與科學等專業的學生。


想要提高 R語言編程能力的數據分析師。


希望系統學習統計分析方法的從業人員。


其他對 R語言有興趣的各類人員。
內容簡介:

本書是一本優秀的R語言入門讀物,旨在幫助讀者迅速構建起與數據分析相關的知識體系,并學習如何使用 R軟件實現數據分析方法。無論有無編程基礎或數學基礎,本書都能幫助讀者成長為一名合格的數據分析師。 本書全面介紹了來自統計分析、機器學習、人工智能等領域的多種數據分析算法,在講解與之相關的 R代碼時,還討論了這些算法的原理、優缺點與適用背景。本書按照由易到難的原則組織章節主題,讀者將獲得最好的閱讀體驗。 通過閱讀本書,讀者將對 R語言在數據分析領域的應用有一個全面的認識。這種認識不被特定行業所局限,任何行業的讀者都能利用本書介紹的數據分析方法解決本行業的數據分析問題。

目錄:

目.錄

第 1章R的基本介紹 ……………………1
1.1 強大的 R ………………………… 1
1.2 R的安裝與啟動 ……………………… 2
1.2.1 安裝并啟動 R ……………………… 3
1.2.2 安裝并啟動一個 IDE …………………… 5
1.3 R的向量、矩陣和數組 …………………… 6
1.3.1 向量的操作方法和固有屬性 ………………… 6
1.3.2 矩陣的操作和運算 ………………… 9
1.3.3 數組中的維度函數 ………………… 12
1.4 R的列表和數據框 …………………… 14
1.4.1 列表的特性和編輯方法 ………………… 14
1.4.2 數據框的創建和基本操作 ……………… 18
1.5 R數據文件的載入和載出 ………………… 20
1.5.1 結構化純文本文件的讀取和輸出 …………… 21
1.5.2 其他文件的讀取和輸出 ………………… 23
1.6 向 R中安裝包 ………………………… 25
第 2章原始數據的探索與預處理 ……………… 29
2.1 度量數據集的集中程度 …………………… 29
2.2 度量數據集的分散程度 …………………… 31
2.2.1 極值、方差和標準差 …………………… 31
2.2.2 標準誤和偏度系數、峰度系數 ……………… 33
2.3 創建一個數值摘要表 ……………………… 35
2.4 異常值的觀測與說明 ……………………… 37
2.4.1 利用箱線圖觀測異常值并處理 ……………… 38
2.4.2 異常值檢測的其他情況和說明 ……………… 40
2.5 缺失值的填補與處理 ……………………… 42
2.5.1 刪除缺失值或對其進行簡單填補 …………… 42
2.5.2 按照相關性對空缺值進行填補 ……………… 45
第 3章R的數據可視化 …………………… 47
3.1 plot()函數和常用的圖形參數 ………………… 47
3.1.1 設置 plot()函數中的參數 ……………… 47
3.1.2 修改散點圖的坐標并加入標注 ……………… 51
3.2 經典的基礎圖形及用途 …………………… 54
3.2.1 線圖 ……………………… 54
3.2.2 直方圖 ………………………… 59
3.2.3 箱線圖和莖葉圖 …………………… 63
3.3 將圖形組合起來 ……………………… 66
3.4 更多的高水平作圖函數 …………………… 69
3.5 更多的常用作圖命令 ……………………… 72
第 4章R中參數的估計和檢驗 ………………… 75
4.1 使用 R進行點估計和區間估計 ………………… 75
4.1.1 簡單的點估計和區間估計 ……………… 75
4.1.2 估計單側置信區間 ………………… 79
4.2 與正態總體有關的參數檢驗 …………………… 83
4.3 列聯表與獨立性檢驗 ……………………… 87
4.4 幾種檢驗數據分布的函數 ………………… 89
4.5 對非正態總體的區間估計和檢驗 ……………… 92
4.5.1 非正態總體的區間估計 ………………… 92
4.5.2 非參數檢驗中的符號檢驗 ……………… 94
4.5.3 非參數檢驗中的秩檢驗 ………………… 96
第 5章R中的方差分析 …………………… 99
5.1 方差分析模型的建立 ……………………… 99
5.2 單因素方差分析 …………………… 100
5.2.1 單因素方差分析的數學思想與模型 …………… 101
5.2.2 檢驗樣本是否滿足方差分析的假設條件 …………… 102
5.2.3 構建單因素方差分析模型 ………………… 105
5.3 多因素方差分析 …………………… 108
5.3.1 多因素方差分析的數學思想與模型 …………… 108
5.3.2 不考慮交互作用的雙因素方差分析 …………… 110
5.3.3 考慮交互作用的雙因素方差分析 ……………… 112
5.4 秩檢驗和協方差分析 …………………… 114
5.4.1 對控制變量應用秩檢驗方法 ……………… 114
5.4.2 協方差分析的假設與應用 ………………… 116
第 6章R中的相關分析和回歸分析 ……………118
6.1 多種相關系數的度量和分析 ………………… 118
6.1.1 簡單相關系數的計算和檢驗 ……………… 118
6.1.2 散布矩陣圖和偏相關系數 ………………… 121
6.1.3 典型相關分析 …………………… 123
6.2 線性回歸分析及其常規參數 ………………… 125
6.2.1 對數據進行預處理 …………………… 126
6.2.2 構建第一個回歸模型 ………………… 127
6.2.3 修正方程并檢驗殘差 ………………… 129
6.3 使用逐步回歸篩選自變量 …………………… 132
6.3.1 逐步回歸的思想與分類 ……………… 132
6.3.2 構建逐步回歸模型 …………………… 133
6.4 啞變量和邏輯回歸 ……………………… 135
6.4.1 啞變量和邏輯回歸的思想 ………………… 135
6.4.2 向線性回歸模型中納入啞變量 …………… 137
第 7章更高級的數據可視化 ………………140
7.1 基礎圖形的拓展與延伸 ………………… 140
7.1.1 繪制分類散點圖并添加圖標 ……………… 140
7.1.2 繪制含多種類別的密度分布圖 …………… 143
7.1.3 復合條形圖和堆棧條形圖 ………………… 146
7.2 有關多元分布函數的特殊圖形 ……………… 149
7.2.1 星圖和臉譜圖 …………………… 150
7.2.2 輪廓圖 ……………………… 153
7.2.3 調和曲線圖 ……………………… 155
7.3 建立最簡單的 3D圖形 ………………… 157
7.4 如何讓圖形更美觀 ……………………… 160
7.5 更多的繪圖包和系統 …………………… 162
第 8章R中的聚類分析和判別分析 ……………164
8.1 幾種聚類分析的異同 …………………… 164
8.2 使用 R實現 KNN聚類 ………………… 165
8.2.1 KNN算法的思想和模型 ………………… 165
8.2.2 使用 R實現 KNN聚類 ……………… 167
8.3 使用 R實現系統聚類 …………………… 170
8.3.1 系統聚類的思想和模型 ……………… 170
8.3.2 使用 R實現系統聚類 ……………… 171
8.4 使用 R實現快速聚類 …………………… 174
8.4.1 快速聚類的思想和模型 ……………… 174
8.4.2 使用 R實現快速聚類 ……………… 176
8.5 幾種判別分析模型綜述 ………………… 178
8.5.1 距離判別模型 …………………… 179
8.5.2 Fisher判別模型 ………………… 182
第 9章R中的主成分分析和因子分析 ………………186
9.1 主成分分析的實現與應用 …………………… 186
9.1.1 主成分分析的模型假設和數據處理 …………… 186
9.1.2 構造一個主成分分析模型 ………………… 189
9.1.3 計算主成分的綜合得分 ……………… 191
9.2 因子分析的初次構建與完善 ………………… 193
9.2.1 構造一個簡單的因子分析模型 …………… 194
9.2.2 計算因子得分并分析 ………………… 196
9.3 對因子分析模型進行修正 …………………… 198
9.3.1 修改因子分析模型中的因子個數 ……………… 198
9.3.2 基于主成分法和主軸因子法進行因子分析 ………… 200
9.4 在降維分析的基礎上進行回歸分析和聚類分析 …………… 202
9.4.1 在降維分析的基礎上進行回歸分析 …………… 202
9.4.2 在降維分析的基礎上進行聚類分析 …………… 206
第 10章R中的廣義線性回歸模型………………209
10.1 一般的廣義線性回歸模型 ………………… 209
10.1.1 使用二次函數擬合線性回歸模型 …………… 209
10.1.2 擬合更多的廣義線性模型 ……………… 212
10.1.3 比較線性模型的優劣 ……………… 214
10.2 Logistic線性回歸模型 ………………… 217
10.2.1 Logistic模型的原理與構建方…………… 217
10.2.2 Logistic模型的顯著性檢驗和優勢比………… 220
10.2.3 修正被警告的 Logistic模型 …………… 221
10.3 泊松回歸分析模型 …………………… 224
10.3.1 擬合第一個泊松回歸模型 ……………… 224
10.3.2 泊松回歸模型的過散布檢驗 …………… 228
10.4 廣義線性模型的交叉驗證 ………………… 230
第 11章R中的時間序列模型 ………………233
11.1 將數據轉換為時間序列格式 ……………… 233
11.1.1 使用 ts()函數轉換數據格式并繪制時間序列曲線 …… 233
11.1.2 使用 zoo()函數轉換數據格式并繪制時間序列曲線…… 236
11.2 分解時間序列并檢驗時間序列的自相關性 ………… 239
11.2.1 使用經典方法分解時間序列 …………… 239
11.2.2 使用 STL方法分解時間序列 …………… 241
11.3 探究時間序列的自相關性 ………………… 243
11.3.1 使用月圖和季度圖探究自相關性 …………… 243
11.3.2 使用散點圖探究自相關性 ……………… 245
11.4 構建時間序列并預測 ………………… 248
11.4.1 均值預測、單純預測和漂移 …………… 248
11.4.2 不考慮長期趨勢和季節波動的簡單指數平滑 ………… 251
11.4.3 在指數平滑中加入長期趨勢和季節波動 ………… 253
11.4.4 自回歸移動平均模型 ……………… 256
第 12章R中的最優化問題…………………259
12.1 最優化問題簡述 ……………………… 259
12.2 黃金分割法 ……………………… 260
12.2.1 黃金分割法和局部最優解 ……………… 261
12.2.2 使用 R實現黃金分割法 ………………… 263
12.3 牛頓最優化方法 ……………………… 265
12.3.1 牛頓方法的算法原理 ……………… 265
12.3.2 在一維情形下實現牛頓迭代法 ……………… 267
12.3.3 在多維情形下實現牛頓迭代法 ……………… 270
12.4 最快上升法 ……………………… 272
12.4.1 利用梯度求解上升最快的相鄰點 …………… 272
12.4.2 構建最快上升法函數并檢驗 …………… 274
12.5 R中的最優化函數……………………… 276
第 13章使用 R繪制地理信息圖形 ……………279
13.1 繪制世界、國家、省市地圖 ……………… 279
13.1.1 使用 map()函數繪制地圖 ……………… 279
13.1.2 另一種繪制地圖的方法 ………………… 281
13.1.3 分省市繪制地圖 …………………… 284
13.2 向地圖中添加顏色 …………………… 288
13.2.1 向地圖中添加顏色前的準備工作 …………… 288
13.2.2 在地圖上添加顏色 ………………… 290
13.3 向地圖中添加標簽和線條 ………………… 292
13.3.1 向地圖中添加標簽前的準備工作 …………… 293
13.3.2 在地圖上添加標簽 ………………… 295
13.3.3 在地圖上添加線條 ………………… 298
13.4 使用其他格式的文件優化地圖 ………………… 300
第 14章使用 R構建支持向量機 ………………305
14.1 構建一個簡單的支持向量機 ……………… 305
14.1.1 支持向量機的算法原理 ………………… 305
14.1.2 構建一個簡單的支持向量機 …………… 308
14.1.3 使用其他核函數構建支持向量機 …………… 311
14.2 優化支持向量機的參數 …………………… 315
14.2.1 優化參數 degree …………………… 315
14.2.2 優化參數 cost ………………… 318
14.2.3 優化參數 gamma …………………… 321
14.3 比較支持向量機與 Logistic回歸的優劣 ……………… 325
14.4 比較支持向量機和 KNN聚類算法的優劣 …………… 329
第 15章實現更高效的流程控制和高級循環 ……………332
15.1 R中的流程控制…………………… 332
15.1.1 if語句的多種實現方法 ………………… 332
15.1.2 ifelse語句與花括號的結合 ……………… 334
15.1.3 適合多分支情況的 switch語句 ……………… 336
15.2 R中的 for循環、while循環和 repeat循環 ………… 339
15.2.1 R中的 for循環和 while循環 …………… 339
15.2.2 R中的 repeat循環 ………………… 341
15.3 apply家族中的循環函數 …………………… 344
15.3.1 R中的 apply()函數 ………………… 344

15.3.2 R中的 lapply()函數和 sapply()函數 ………… 348
15.3.3 R中的 tapply()函數………………… 351
15.3.4 R中的 mapply()函數 ……………… 354
15.4 更多的高級循環函數 ………………… 357

15.4.1 R中的 replicate()函數和 sweep()函數 …………… 357
15.4.2 R中的 aggregate()函數 ………………… 360
第 16章R代碼的調試與優化………………364
16.1 R代碼的常見信息與警告…………………… 364
16.1.1 R代碼的正常信息與警告 ……………… 364
16.1.2 R代碼中的警告處理方法 ……………… 366
16.2 R代碼中的錯誤與錯誤處理方……………… 369
16.2.1 使用 try()函數處理錯誤信息 …………… 369
16.2.2 將 try()函數與循環相結合 ……………… 371
16.3 調試 R代碼 ……………………… 373
16.3.1 查看調用棧或暫停代碼 ………………… 373
16.3.2 修改 error選項 ………………… 375
16.4 向量化編程方法 ……………………… 377
16.4.1 向量化編程思想 …………………… 377
16.4.2 比較循環和向量的運行速度 …………… 378
第 17章構建電影評分預測模型 ………………381
17.1 獲取數據并探索 ……………………… 381

17.2 利用 recommenderlab包處理數據 ……………… 384
17.3 建立模型并評估 ……………………… 387
17.3.1 模型的選擇與建立 ………………… 387
17.3.2 模型之間的比較和評估 ………………… 389
第 18章貝葉斯垃圾郵件過濾器模型 ………………393
18.1 貝葉斯模型中的條件概率 ………………… 393
18.2 復雜的數據預處理過程 …………………… 395
18.2.1 利用 for循環讀入多封郵件正文 …………… 395
18.2.2 利用 tm包進一步轉換數據格式……………… 397
18.2.3 將 TDM轉換成真正有用的數據框 ………… 399
18.3 利用 occurrece值構造分類器 ……………… 402
18.3.1 完成理論準備并處理測試郵件和普通郵件 ……… 402
18.3.2 創建一個函數用于比較概率 …………… 405
序: