-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
10/8 新書到! 10/1 新書到! 9/24 新書到! 9/18 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

R統計數據清洗及應用

( 簡體 字)
作者:[荷蘭]馬克·范德魯(Mark van der Loo) 埃德溫·德榮格(Edwin de Jonge) 著 楊小冬 譯類別:1. -> 程式設計 -> R語言
譯者:
出版社:清華大學出版社R統計數據清洗及應用 3dWoo書號: 51521
詢問書籍請說出此書號!

有庫存
NT售價: 400

出版日:6/1/2019
頁數:284
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302526629
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

在數據分析中,數據清洗往往是最為耗時的部分。在“官方統計”(Official Statistics)社區,很久以前就已經開始將數據清洗作為一個單獨的學科進行研究(在該社區,數據清洗被稱為“數據編輯”)。此外,在研究中還引入了數據庫的相關知識,盡管如此,針對大型統計社區的文獻著作還是非常有限。正是因為這個原因,當出版方邀請我們對之前為useR!2013大會編寫的《R數據清洗簡介》教程進行擴展,進而編纂成一《R統計數據清洗及應用》時,我們毫不猶豫就答應了,這也是我們的心聲。一方面,我們認為,過去50年中在“官方統計”社區發布的一些方法應該為更多的用戶所了解和使用,而《R統計數據清洗及應用》或許可以為此助一臂之力。另一方面,我們正在從基于調查的數據源過渡到管理型“大”數據源,希望《R統計數據清洗及應用》能夠幫助為“官方統計”社區增加一些(通常是預先存在的)相關技術。
對于我們來說,通過編寫《R統計數據清洗及應用》也可以幫助我們系統地梳理相關知識,進一步完善之前針對這一主題所編寫的軟件。回過頭來看,我們最終不僅成功完成了《R統計數據清洗及應用》的編寫,還重新開發并普及了很多之前編寫的數據清洗R軟件包。為什么要這樣做呢?其中一個原因是,我們發現了一些很好的方法,能夠普及和擴展我們的軟件和方法;另一個原因就是,我們希望將最近出現的“tidyverse”接口風格與R功能聯系起來。
《R統計數據清洗及應用》包含的內容
《R統計數據清洗及應用》包含一系列精選的主題,我們認為這些主題對于開發數據清洗(也稱為數據編輯)系統非常有用。主題范圍非常廣泛,與計算機科學、數字方法、技術標準、統計以及數據建模和編程等相關的主題,全部涵蓋其中。
《R統計數據清洗及應用》涵蓋“技術數據清洗”方面的主題,包括數字、文本和日期類型的轉換和解釋。同時對與這些數據類型相關的技術標準也做了較為詳細的介紹。在對象的數據內容方面,相關主題包括數據驗證(數據檢查)、錯誤定位、各種錯誤校正方法以及缺失值插補方法。
對于《R統計數據清洗及應用》中討論的理論知識,為了便于用戶理解,我們會盡可能地提供可執行的R代碼進行舉例說明。此外,我們還提供了相應的練習,希望可以指導讀者進一步加強對軟件和對應方法的理解。
廣泛的主題既反映出這一課題涵蓋范圍之廣,同時也體現了作者廣博的專業知識。當然,還有很多主題并未在書中進行介紹,其中,最重要的主題可能要算清洗時間序列對象和離群值檢測。
《R統計數據清洗及應用》面向的讀者
《R統計數據清洗及應用》的讀者應該對數學和統計學有基本的了解,同時還應該具備一定的編程經驗。我們假定讀者已經了解期望值、方差、基礎微積分和線性代數方面的知識。如果具備一定的R語言知識,那么對理解《R統計數據清洗及應用》中的內容會有很大的幫助,因為《R統計數據清洗及應用》就是使用R語言進行說明介紹的。不過,為了便于讀者理解和參考,我們還是利用一章內容簡要介紹了相關的基礎知識。
致謝
《R統計數據清洗及應用》最終能夠順利出版,離不開很多人的辛勤工作。在這里,我們要感謝荷蘭統計局的同事們,他們在百忙之中抽出時間與我們就數據驗證、插補和錯誤定位進行了卓有成效的討論,為我們提供了很多真知灼見。《R統計數據清洗及應用》中的部分章節參考了合著者所發表的論文和報告。我們要感謝Jeroen Pannekoek、Sander Scholtus和Jacco Daalmans的幫助,沒有你們的密切合作,就沒有《R統計數據清洗及應用》的成功出版。此外,R核心團隊、軟件包開發人員也為我們提供了非常大的幫助,當然,還有R社區的大力支持,在此,一并表示感謝。
最后,還要感謝我們的家人,感謝他們的關愛與支持。


2017年6月
Mark和Edwin
內容簡介:

■重點關注數據清洗方法的自動化,既包括理論知識,也包括使用R語言編寫的應用。
■使讀者能夠設計數據清洗過程,用于進行一次性分析或者設置生產系統以便定期進行數據清洗。
■探索各種統計技術,以便解決諸如不完整、矛盾和離群等方面的問題,更好地進行數據清洗組件的集成和質量監控。
■圖書配套網站提供特征數據和R范例代碼。
目錄:

第1章數據清洗1
1.1統計價值鏈1
1.1.1原始數據2
1.1.2輸入數據2
1.1.3有效數據3
1.1.4統計數據3
1.1.5輸出3
1.2《R統計數據清洗及應用》使用的表示法和約定3
第2章R語言簡介5
2.1命令行中的R語言5
2.2向量7
2.2.1向量計算9
2.2.2數組和矩陣10
2.3數據幀11
2.3.1公式-數據接口12
2.3.2選擇行和列,布爾運算符13
2.3.3使用索引進行選擇13
2.3.4數據幀操縱:dplyr軟件包15
2.4特殊值16
2.5在R中導入和導出數據19
2.5.1R中的文件路徑20
2.5.2軟件包提供的格式20
2.5.3從數據庫讀取數據21
2.5.4處理R外部的數據21
2.6函數22
2.6.1使用函數22
2.6.2編寫函數23
2.7《R統計數據清洗及應用》中使用的軟件包24
第3章數據的技術表示27
3.1數值數據28
3.1.1整數28
3.1.2R中的整數30
3.1.3實數31
3.1.4雙精度數31
3.1.5機器精度的概念33
3.1.6處理浮點數的不良結果34
3.1.7處理不良結果35
3.1.8R中的數值數據37
3.2文本數據38
3.2.1術語和編碼38
3.2.2Unicode39
3.2.3一些常見的編碼方案40
3.2.4R中的文本數據:character類的對象43
3.2.5R中的編碼方案45
3.2.6使用非本地編碼方案進行數據的讀取和寫入46
3.2.7檢測編碼方案48
3.2.8排序規則和排序49
3.3時間和日期51
3.3.1TAI、UTC以及POSIX從Epcoch開始的秒數51
3.3.2時間和日期表示法52
3.3.3R中的時間和日期存儲54
3.3.4R中的時間和日期轉換55
3.3.5閏日、時區和夏令時57
3.4區域設置注意事項58
第4章數據結構61
4.1簡介61
4.2表格數據61
4.2.1data.frame對象62
4.2.2數據庫62
4.2.3dplyr64
4.3矩陣數據65
4.4時間序列66
4.5圖表數據68
4.6Web數據70
4.6.1網頁爬取70
4.6.2WebAPI70
4.7其他數據73
4.8整理表格數據73
4.8.1每列變量75
4.8.2單個觀測值存儲在多個表中75
第5章清洗文本數據77
5.1字符規范化78
5.1.1編碼轉換和Unicode規范化78
5.1.2字符轉換和音譯80
5.2使用正則表達式進行模式匹配82
5.2.1基本正則表達式82
5.2.2實用的正則表達式85
5.2.3在R中生成正則表達式93
5.3R中的常見字符串處理任務94
5.4近似文本匹配99
5.4.1字符串指標101
5.4.2R中的字符串指標和近似文本匹配110
第6章數據驗證121
6.1簡介121
6.2初識validate軟件包122
6.2.1使用check_that快速檢查122
6.2.2基本工作流程:validator和confront124
6.2.3validate和DSL背景簡介126
6.3定義數據驗證127
6.3.1數據驗證的正式定義128
6.3.2驗證函數的運算130
6.3.3驗證和缺失值132
6.3.4驗證函數的結構133
6.3.5界定validate中的驗證規則134
6.4數據驗證函數的形式類型135
6.4.1深入了解測量135
6.4.2驗證規則的分類137
6.5使用validate軟件包驗證數據139
6.5.1控制臺和validator對象中的驗證規則139
6.5.2在管道中驗證141
6.5.3拋出錯誤或警告141
6.5.4測試線性方程式的公差142
6.5.5設置和重置選項143
6.5.6從文件導入驗證規則/將驗證規則導出到文件144
6.5.7檢查變量類型和元數據146
6.5.8檢查值范圍和代碼列表147
6.5.9檢查記錄中一致性規則148
6.5.10檢查跨記錄驗證規則150
6.5.11檢查函數依賴151
6.5.12跨數據集驗證152
6.5.13宏、變量組、鍵153
6.5.14分析輸出:validation對象154
6.5.15輸出維度和輸出選擇156
第7章在數據記錄中定位錯誤159
7.1錯誤定位159
7.2使用R進行錯誤定位162
7.3以MIP問題的形式進行錯誤定位164
7.3.1錯誤定位和混合整數規劃165
7.3.2線性限制166
7.3.3分類限制167
7.3.4混合類型限制169
7.4數值穩定性問題171
7.4.1解決MIP問題172
7.4.2縮放數值記錄174
7.4.3設置數值閾值174
7.5實際問題176
7.5.1設置可靠性權重176
7.5.2簡化條件驗證規則177
7.6結論181
第8章規則集的維護和簡化185
8.1驗證規則的質量185
8.1.1完備性185
8.1.2多余的規則和不可行性186
8.2以邏輯語言表述規則186
8.3規則集問題188
8.3.1不可行規則集188
8.3.2固定值190
8.3.3冗余規則191
8.3.4非松弛子句191
8.3.5非約束子句191
8.4檢測和簡化過程192
8.4.1混合整數規劃193
8.4.2檢測可行性193
8.4.3查找導致不可行的規則193
8.4.4檢測沖突規則194
8.4.5檢測部分不可行性194
8.4.6檢測固定值194
8.4.7檢測非松弛子句195
8.4.8檢測非約束子句195
8.4.9檢測冗余規則195
8.5結論196
第9章基于領域知識模型的方法197
9.1使用數據修改規則進行校正197
9.1.1修改函數198
9.1.2針對數值數據的一類修改函數202
9.2使用dcmodify進行基于規則的校正206
9.2.1從文件中讀取規則207
9.2.2修改規則語法208
9.2.3缺失值209
9.2.4順序執行和與順序無關的執行209
9.2.5選項設置管理210
9.3演繹校正210
9.3.1校正數值數據中的鍵入錯誤211
9.3.2使用線性限制進行演繹插補214
第10章插補和調整221
10.1缺失數據221
10.1.1缺失數據機制221
10.1.2使用R可視化和測試缺失數據中的模式222
10.2基于模型的插補226
10.3R中基于模型的插補228
10.3.1使用simputation指定插補方法228
10.3.2基于線性回歸的插補229
10.3.3M估計231
10.3.4Lasso回歸、嶺回歸和彈性網絡回歸233
10.3.5分類和回歸樹233
10.3.6隨機森林236
10.4使用R進行賦值元素插補237
10.4.1隨機和順序熱卡插補238
10.4.2k最近鄰和預測均值匹配239
10.5simputation軟件包中的其他方法240
10.6基于EM算法的插補241
10.6.1EM算法242
10.6.2假定多變量正態分布情況下的EM插補244
10.7插補下的抽樣方差245
10.8多重插補246
10.8.1基于EM算法的多重插補249
10.8.2Amelia軟件包249
10.8.3基于鏈式方程的多變量插補253
10.8.4使用mice軟件包進行插補254
10.9用于估計插補方差的分析方法257
10.10選擇插補方法257
10.11約束值調整260
10.11.1形式化描述260
10.11.2對插補數據的應用263
10.11.3使用rspa軟件包調整插補值263
第11章示例:一個小型數據清洗系統265
11.1設置266
11.1.1確定性方法267
11.1.2錯誤定位268
11.1.3插補269
11.1.4調整插補數據271
11.2監控數據更改273
11.2.1數據差異(Daff)273
11.2.2匯總單元格更改275
11.2.3按照驗證規則匯總更改276
11.2.4使用lumberjack自動跟蹤數據更改278
11.3集成和自動化282
11.3.1使用RScript282
11.3.2docopt軟件包283
11.3.3自動化數據清洗283
序: