3dwoo大學簡體電腦書店
R數據加工與分析呈現寶典
( 簡體 字)
作者:[美] 喬納森·卡羅爾 (Jonathan Carroll)著 類別:1. -> 程式設計 -> R語言
譯者:蒲成 譯
出版社:清華大學出版社R數據加工與分析呈現寶典 3dWoo書號: 51879
詢問書籍請說出此書號!
有庫存
NT售價: 340
出版日:9/1/2019
頁數:315
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787302534860 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1章數據與R語言介紹1
1.1什么是數據、數據在哪里以及如何處理數據2
1.1.1什么是數據2
1.1.2將周圍的一切都視為數據源2
1.1.3數據再加工4
1.1.4使用處理得當的數據可以做些什么4
1.1.5數據就是資產8
1.1.6可重復的研究和版本控制9
1.2R語言介紹11
1.2.1R的起源12
1.2.2R能夠以及不能完成哪些工作13
1.3R的運行機制14
1.4RStudio介紹17
1.4.1在RStudio中使用R17
1.4.2內置插件包(數據和函數)22
1.4.3內置文檔23
1.4.4簡介24
1.5親自嘗試24
1.6專業術語25
1.7本章小結25
第2章了解R數據類型27
2.1數據類型28
2.1.1數字28
2.1.2文本(字符串)31
2.1.3類別(因子)33
2.1.4日期和時間35
2.1.5邏輯值37
2.1.6缺失值38
2.2存儲值(賦值)38
2.2.1命名數據(變量)39
2.2.2固定不變的數據44
2.2.3賦值運算符(<-與=的對比)45
2.3指定數據類型47
2.4告知R忽略某些內容51
2.5親自嘗試52
2.6專業術語53
2.7本章小結53
第3章生成新數據值55
3.1基礎數學算法55
3.2運算符優先順序58
3.3字符串串聯(連接)59
3.4比較61
3.5自動轉換(強制)65
3.6親自嘗試67
3.7專業術語68
3.8本章小結68
第4章理解將要使用的工具:
函數69
4.1函數69
4.1.1表象之下72
4.1.2函數模板74
4.1.3參數77
4.1.4多個參數79
4.1.5默認參數82
4.1.6參數名稱匹配83
4.1.7部分匹配86
4.1.8作用域87
4.2插件包92
4.2.1安裝插件包93
4.2.2R如何獲知這個函數96
4.2.3名稱空間97
4.3消息、警告和錯誤98
4.3.1創建消息、警告和
錯誤99
4.3.2診斷消息、警告和
錯誤101
4.4測試103
4.5項目:泛化一個函數104
4.6親自嘗試105
4.7專業術語106
4.8本章小結106
第5章組合數據值107
5.1簡單集合107
5.1.1強制轉換109
5.1.2缺失值110
5.1.3屬性111
5.1.4名稱112
5.2序列113
5.2.1向量函數118
5.2.2向量數學運算119
5.3矩陣121
5.4列表124
5.5data.frame127
5.6class屬性131
5.6.1tibble類133
5.6.2將結構用作函數參數137
5.7親自嘗試138
5.8專業術語139
5.9本章小結139
第6章選取數據值141
6.1文本處理142
6.1.1文本匹配142
6.1.2子字符串144
6.1.3文本替換145
6.1.4正則表達式145
6.2從結構中選取組成部分148
6.2.1向量148
6.2.2列表151
6.2.3矩陣155
6.3值的替換157
6.4data.frame和dplyr161
6.4.1dplyr動詞162
6.4.2非標準計算164
6.4.3管道166
6.4.4以困難方式對data.frame取子集169
6.5替換NA172
6.6條件式選取173
6.7匯總值176
6.8一個行之有效的示例:
Excel與R的對比179
6.9親自嘗試181
6.10專業術語183
6.11本章小結183
第7章對大量數據進行處理185
7.1整潔數據原則185
7.1.1工作目錄187
7.1.2存儲數據格式189
7.1.3將數據讀入R中190
7.1.4抓取數據193
7.1.5檢查數據197
7.1.6處理數據中奇怪的值
(警示值)200
7.1.7轉換成整潔數據201
7.2合并數據205
7.3寫出R中的數據210
7.4親自嘗試214
7.5專業術語214
7.6本章小結214
第8章根據條件進行處理:控制結構217
8.1循環217
8.1.1向量化218
8.1.2整潔的重復:使用purrr進行循環219
8.1.3for循環224
8.2更大或更小的循環作用域227
8.3條件式執行229
8.3.1if條件229
8.3.2ifelse條件233
8.4親自嘗試236
8.5專業術語237
8.6本章小結238
第9章數據可視化:繪圖239
9.1數據準備239
9.1.1再次介紹整潔數據240
9.1.2數據類型的重要性240
9.2ggplot2240
9.2.1通用構造241
9.2.2添加數據點244
9.2.3樣式美學246
9.2.4添加線條250
9.2.5添加柱狀圖253
9.2.6其他圖表類型258
9.2.7刻度261
9.2.8切面268
9.2.9額外的選項272
9.3作為對象的圖表275
9.4保存圖表278
9.5親自嘗試278
9.6專業術語279
9.7本章小結279
第10章借助擴展插件包對數據進行更多的處理281
10.1編寫自己的插件包282
10.1.1創建一個最小化的插件包282
10.1.2文檔283
10.2對插件包進行分析287
10.2.1單元測試287
10.2.2剖析290
10.3接下來做什么291
10.3.1回歸分析291
10.3.2聚類分析294
10.3.3使用地圖297
10.3.4與API進行交互300
10.3.5插件包共享302
10.4更多資源303
10.5專業術語303
10.6本章小結304
附錄A安裝R305
附錄B安裝RStudio307
附錄CbaseR中的圖形309
主要內容
● 如何使用R和RStudio開始編程
● 理解和實現重要的R結構與運算符
● 安裝和使用R包
● 對數據進行整潔化、提煉和繪制處理
數據無處不在,并且它們被以這樣或那樣的方式用于幾乎每一個行業。其中一種最常見的與數字或文本數據進行交互的方式是電子表格軟件。這種方式提供了幾種有用的特性:以表格視圖呈現數據,允許使用那些值執行計算,以及生成數據匯總。而電子表格往往無法提供的是以可重復、可重現或者編程方式執行這些處理的方法(不需要單擊或復制粘貼)。電子表格對于展示數據(包括有限的數據匯總)而言是很好的;不過當我們希望對數據進行一些真正高級的處理時,需要借助一種編程語言來實現。
數據再加工——處理原始數據——是數據科學的基石。再加工技術包括清洗、排序、分析、過濾,以及讓數據變得真正有用所需要做的其他一切處理。人們常說,90%的數據科學工作都是在準備數據,而其余的10%才是對數據進行實際處理。不要低估仔細準備數據的重要性;分析結果取決于這一步是否正確。
使用編程語言來執行數據再加工意味著對數據進行的處理會被記錄下來,可以從原始數據源中再現,并且后續可以被檢查分析——甚至在需要的時候可以對其進行修改。嘗試在電子表格中這樣做意味著要么記錄下何時要按下哪個按鈕,要么輸出和輸入之間會聯系不上。
我喜歡使用R,它在許多方面都是很有用的。我從未想過一門語言可以如此靈活,以至于它在某個時間可以計算t檢驗,然后接下來又去請求Uber接口。《R數據加工與分析呈現寶典》的每一個單詞都已經被R代碼處理過,每一行結果都是由實際的R代碼生成的,并且使用第三方R包(knitr)將這些處理放在了一起。我將R用于我的絕大部分工作中,數據再加工和分析工作都用到了它,而這些工作在這么多年里已經從評估漁業資源變成癌癥藥物試驗中的遺傳因素評估。如果我受限于在電子表格程序中開展工作,則無法完成這些任務中的任何一個。
閱讀完《R數據加工與分析呈現寶典》之后,讀者將了解到足夠多的R編程語言的來龍去脈,從而能夠將感興趣的數據放入R中并且得到一項超越電子表格所能完成的分析。
注意:在這里提醒一下手頭有《R數據加工與分析呈現寶典》盜版版本的那些讀者。侵犯版權的通常理由都是由那些從中獲利的人打著“沒人會有任何損失”的旗號而提出來的。“沒人會有任何損失”這句話沒有錯,不過僅有侵權者獲得了利益。《R數據加工與分析呈現寶典》的編寫和出版耗費了大量的精力,如果沒有從正規途徑購買《R數據加工與分析呈現寶典》,那么這些讀者從閱讀《R數據加工與分析呈現寶典》中所得到的獲益將不為人所注意和感激。如果讀者手頭有《R數據加工與分析呈現寶典》的非官方副本并且發現這《R數據加工與分析呈現寶典》很有用,那么請考慮購買一本正版書,這樣一來,無論是對于讀者自身還是對于可能從正版銷售行為中受益的人而言都是有好處的。
pagetop