R統計數據清洗及應用 ( 簡體 字) |
作者:[荷蘭]馬克·范德魯(Mark van der Loo) 埃德溫·德榮格(Edwin de Jonge) 著 楊小冬 譯 | 類別:1. -> 程式設計 -> R語言 |
譯者: |
出版社:清華大學出版社 | 3dWoo書號: 51521 詢問書籍請說出此書號!【有庫存】 NT售價: 400 元 |
出版日:6/1/2019 |
頁數:284 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787302526629 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:在數據分析中,數據清洗往往是最為耗時的部分。在“官方統計”(Official Statistics)社區,很久以前就已經開始將數據清洗作為一個單獨的學科進行研究(在該社區,數據清洗被稱為“數據編輯”)。此外,在研究中還引入了數據庫的相關知識,盡管如此,針對大型統計社區的文獻著作還是非常有限。正是因為這個原因,當出版方邀請我們對之前為useR!2013大會編寫的《R數據清洗簡介》教程進行擴展,進而編纂成一《R統計數據清洗及應用》時,我們毫不猶豫就答應了,這也是我們的心聲。一方面,我們認為,過去50年中在“官方統計”社區發布的一些方法應該為更多的用戶所了解和使用,而《R統計數據清洗及應用》或許可以為此助一臂之力。另一方面,我們正在從基于調查的數據源過渡到管理型“大”數據源,希望《R統計數據清洗及應用》能夠幫助為“官方統計”社區增加一些(通常是預先存在的)相關技術。 對于我們來說,通過編寫《R統計數據清洗及應用》也可以幫助我們系統地梳理相關知識,進一步完善之前針對這一主題所編寫的軟件。回過頭來看,我們最終不僅成功完成了《R統計數據清洗及應用》的編寫,還重新開發并普及了很多之前編寫的數據清洗R軟件包。為什么要這樣做呢?其中一個原因是,我們發現了一些很好的方法,能夠普及和擴展我們的軟件和方法;另一個原因就是,我們希望將最近出現的“tidyverse”接口風格與R功能聯系起來。 《R統計數據清洗及應用》包含的內容 《R統計數據清洗及應用》包含一系列精選的主題,我們認為這些主題對于開發數據清洗(也稱為數據編輯)系統非常有用。主題范圍非常廣泛,與計算機科學、數字方法、技術標準、統計以及數據建模和編程等相關的主題,全部涵蓋其中。 《R統計數據清洗及應用》涵蓋“技術數據清洗”方面的主題,包括數字、文本和日期類型的轉換和解釋。同時對與這些數據類型相關的技術標準也做了較為詳細的介紹。在對象的數據內容方面,相關主題包括數據驗證(數據檢查)、錯誤定位、各種錯誤校正方法以及缺失值插補方法。 對于《R統計數據清洗及應用》中討論的理論知識,為了便于用戶理解,我們會盡可能地提供可執行的R代碼進行舉例說明。此外,我們還提供了相應的練習,希望可以指導讀者進一步加強對軟件和對應方法的理解。 廣泛的主題既反映出這一課題涵蓋范圍之廣,同時也體現了作者廣博的專業知識。當然,還有很多主題并未在書中進行介紹,其中,最重要的主題可能要算清洗時間序列對象和離群值檢測。 《R統計數據清洗及應用》面向的讀者 《R統計數據清洗及應用》的讀者應該對數學和統計學有基本的了解,同時還應該具備一定的編程經驗。我們假定讀者已經了解期望值、方差、基礎微積分和線性代數方面的知識。如果具備一定的R語言知識,那么對理解《R統計數據清洗及應用》中的內容會有很大的幫助,因為《R統計數據清洗及應用》就是使用R語言進行說明介紹的。不過,為了便于讀者理解和參考,我們還是利用一章內容簡要介紹了相關的基礎知識。 致謝 《R統計數據清洗及應用》最終能夠順利出版,離不開很多人的辛勤工作。在這里,我們要感謝荷蘭統計局的同事們,他們在百忙之中抽出時間與我們就數據驗證、插補和錯誤定位進行了卓有成效的討論,為我們提供了很多真知灼見。《R統計數據清洗及應用》中的部分章節參考了合著者所發表的論文和報告。我們要感謝Jeroen Pannekoek、Sander Scholtus和Jacco Daalmans的幫助,沒有你們的密切合作,就沒有《R統計數據清洗及應用》的成功出版。此外,R核心團隊、軟件包開發人員也為我們提供了非常大的幫助,當然,還有R社區的大力支持,在此,一并表示感謝。 最后,還要感謝我們的家人,感謝他們的關愛與支持。
2017年6月 Mark和Edwin |
內容簡介:■重點關注數據清洗方法的自動化,既包括理論知識,也包括使用R語言編寫的應用。 ■使讀者能夠設計數據清洗過程,用于進行一次性分析或者設置生產系統以便定期進行數據清洗。 ■探索各種統計技術,以便解決諸如不完整、矛盾和離群等方面的問題,更好地進行數據清洗組件的集成和質量監控。 ■圖書配套網站提供特征數據和R范例代碼。 |
目錄:第1章數據清洗1 1.1統計價值鏈1 1.1.1原始數據2 1.1.2輸入數據2 1.1.3有效數據3 1.1.4統計數據3 1.1.5輸出3 1.2《R統計數據清洗及應用》使用的表示法和約定3 第2章R語言簡介5 2.1命令行中的R語言5 2.2向量7 2.2.1向量計算9 2.2.2數組和矩陣10 2.3數據幀11 2.3.1公式-數據接口12 2.3.2選擇行和列,布爾運算符13 2.3.3使用索引進行選擇13 2.3.4數據幀操縱:dplyr軟件包15 2.4特殊值16 2.5在R中導入和導出數據19 2.5.1R中的文件路徑20 2.5.2軟件包提供的格式20 2.5.3從數據庫讀取數據21 2.5.4處理R外部的數據21 2.6函數22 2.6.1使用函數22 2.6.2編寫函數23 2.7《R統計數據清洗及應用》中使用的軟件包24 第3章數據的技術表示27 3.1數值數據28 3.1.1整數28 3.1.2R中的整數30 3.1.3實數31 3.1.4雙精度數31 3.1.5機器精度的概念33 3.1.6處理浮點數的不良結果34 3.1.7處理不良結果35 3.1.8R中的數值數據37 3.2文本數據38 3.2.1術語和編碼38 3.2.2Unicode39 3.2.3一些常見的編碼方案40 3.2.4R中的文本數據:character類的對象43 3.2.5R中的編碼方案45 3.2.6使用非本地編碼方案進行數據的讀取和寫入46 3.2.7檢測編碼方案48 3.2.8排序規則和排序49 3.3時間和日期51 3.3.1TAI、UTC以及POSIX從Epcoch開始的秒數51 3.3.2時間和日期表示法52 3.3.3R中的時間和日期存儲54 3.3.4R中的時間和日期轉換55 3.3.5閏日、時區和夏令時57 3.4區域設置注意事項58 第4章數據結構61 4.1簡介61 4.2表格數據61 4.2.1data.frame對象62 4.2.2數據庫62 4.2.3dplyr64 4.3矩陣數據65 4.4時間序列66 4.5圖表數據68 4.6Web數據70 4.6.1網頁爬取70 4.6.2WebAPI70 4.7其他數據73 4.8整理表格數據73 4.8.1每列變量75 4.8.2單個觀測值存儲在多個表中75 第5章清洗文本數據77 5.1字符規范化78 5.1.1編碼轉換和Unicode規范化78 5.1.2字符轉換和音譯80 5.2使用正則表達式進行模式匹配82 5.2.1基本正則表達式82 5.2.2實用的正則表達式85 5.2.3在R中生成正則表達式93 5.3R中的常見字符串處理任務94 5.4近似文本匹配99 5.4.1字符串指標101 5.4.2R中的字符串指標和近似文本匹配110 第6章數據驗證121 6.1簡介121 6.2初識validate軟件包122 6.2.1使用check_that快速檢查122 6.2.2基本工作流程:validator和confront124 6.2.3validate和DSL背景簡介126 6.3定義數據驗證127 6.3.1數據驗證的正式定義128 6.3.2驗證函數的運算130 6.3.3驗證和缺失值132 6.3.4驗證函數的結構133 6.3.5界定validate中的驗證規則134 6.4數據驗證函數的形式類型135 6.4.1深入了解測量135 6.4.2驗證規則的分類137 6.5使用validate軟件包驗證數據139 6.5.1控制臺和validator對象中的驗證規則139 6.5.2在管道中驗證141 6.5.3拋出錯誤或警告141 6.5.4測試線性方程式的公差142 6.5.5設置和重置選項143 6.5.6從文件導入驗證規則/將驗證規則導出到文件144 6.5.7檢查變量類型和元數據146 6.5.8檢查值范圍和代碼列表147 6.5.9檢查記錄中一致性規則148 6.5.10檢查跨記錄驗證規則150 6.5.11檢查函數依賴151 6.5.12跨數據集驗證152 6.5.13宏、變量組、鍵153 6.5.14分析輸出:validation對象154 6.5.15輸出維度和輸出選擇156 第7章在數據記錄中定位錯誤159 7.1錯誤定位159 7.2使用R進行錯誤定位162 7.3以MIP問題的形式進行錯誤定位164 7.3.1錯誤定位和混合整數規劃165 7.3.2線性限制166 7.3.3分類限制167 7.3.4混合類型限制169 7.4數值穩定性問題171 7.4.1解決MIP問題172 7.4.2縮放數值記錄174 7.4.3設置數值閾值174 7.5實際問題176 7.5.1設置可靠性權重176 7.5.2簡化條件驗證規則177 7.6結論181 第8章規則集的維護和簡化185 8.1驗證規則的質量185 8.1.1完備性185 8.1.2多余的規則和不可行性186 8.2以邏輯語言表述規則186 8.3規則集問題188 8.3.1不可行規則集188 8.3.2固定值190 8.3.3冗余規則191 8.3.4非松弛子句191 8.3.5非約束子句191 8.4檢測和簡化過程192 8.4.1混合整數規劃193 8.4.2檢測可行性193 8.4.3查找導致不可行的規則193 8.4.4檢測沖突規則194 8.4.5檢測部分不可行性194 8.4.6檢測固定值194 8.4.7檢測非松弛子句195 8.4.8檢測非約束子句195 8.4.9檢測冗余規則195 8.5結論196 第9章基于領域知識模型的方法197 9.1使用數據修改規則進行校正197 9.1.1修改函數198 9.1.2針對數值數據的一類修改函數202 9.2使用dcmodify進行基于規則的校正206 9.2.1從文件中讀取規則207 9.2.2修改規則語法208 9.2.3缺失值209 9.2.4順序執行和與順序無關的執行209 9.2.5選項設置管理210 9.3演繹校正210 9.3.1校正數值數據中的鍵入錯誤211 9.3.2使用線性限制進行演繹插補214 第10章插補和調整221 10.1缺失數據221 10.1.1缺失數據機制221 10.1.2使用R可視化和測試缺失數據中的模式222 10.2基于模型的插補226 10.3R中基于模型的插補228 10.3.1使用simputation指定插補方法228 10.3.2基于線性回歸的插補229 10.3.3M估計231 10.3.4Lasso回歸、嶺回歸和彈性網絡回歸233 10.3.5分類和回歸樹233 10.3.6隨機森林236 10.4使用R進行賦值元素插補237 10.4.1隨機和順序熱卡插補238 10.4.2k最近鄰和預測均值匹配239 10.5simputation軟件包中的其他方法240 10.6基于EM算法的插補241 10.6.1EM算法242 10.6.2假定多變量正態分布情況下的EM插補244 10.7插補下的抽樣方差245 10.8多重插補246 10.8.1基于EM算法的多重插補249 10.8.2Amelia軟件包249 10.8.3基于鏈式方程的多變量插補253 10.8.4使用mice軟件包進行插補254 10.9用于估計插補方差的分析方法257 10.10選擇插補方法257 10.11約束值調整260 10.11.1形式化描述260 10.11.2對插補數據的應用263 10.11.3使用rspa軟件包調整插補值263 第11章示例:一個小型數據清洗系統265 11.1設置266 11.1.1確定性方法267 11.1.2錯誤定位268 11.1.3插補269 11.1.4調整插補數據271 11.2監控數據更改273 11.2.1數據差異(Daff)273 11.2.2匯總單元格更改275 11.2.3按照驗證規則匯總更改276 11.2.4使用lumberjack自動跟蹤數據更改278 11.3集成和自動化282 11.3.1使用RScript282 11.3.2docopt軟件包283 11.3.3自動化數據清洗283 |
序: |