|
-- 會員 / 註冊 --
|
|
|
|
R語言數據分析 ( 簡體 字) |
作者:蓋爾蓋伊·道羅齊 | 類別:1. -> 程式設計 -> R語言 |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 45332 詢問書籍請說出此書號!【缺書】 NT售價: 345 元 |
出版日:10/9/2016 |
頁數:279 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111547952 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:本書共分為14章,重點探討了數據預處理的方法,包括數據獲取、篩選、重構、建模、平滑以及降維,本書還介紹了分類和聚類等幾種主要的數據分析方法,最后探討了網絡數據、時序數據、空間數據及社交媒體數據等一些特殊類型數據的分析處理。 |
目錄:第1章 你好,數據! 1 1.1 導入一個大小合適的文本文件 2 1.2 文本文件編譯測試平臺 5 1.3 導入文本文件的子集 6 1.4 從數據庫中導入數據 8 1.4.1 搭建測試環境 9 1.4.2 MySQL和MariaDB 11 1.4.3 PostgreSQL 15 1.4.4 Oracle數據庫 17 1.4.5 訪問ODBC數據庫 22 1.4.6 使用圖形化用戶面連接數據庫 23 1.4.7 其他數據庫后臺 24 1.5 從其他統計系統導入數據 25 1.6 導入Excel電子表格 26 1.7 小結 26 第2章 從Web獲取數據 28 2.1 從Internet導入數據集 29 2.2 其他流行的在線數據格式 32 2.3 從HTML表中讀取數據 37 2.4 從其他在線來源獲取數據 39 2.5 使用R包與數據源API交互 42 2.5.1 Socrata的開源數據API 43 2.5.2 金融API 44 2.5.3 使用Quandl獲取時序數據 45 2.5.4 Google文檔和統計數據 46 2.5.5 在線搜索的發展趨勢 47 2.5.6 天氣歷史數據 48 2.5.7 其他在線數據源 49 2.6 小結 49 第3章 數據篩選和匯總 50 3.1 去掉多余的數據 50 3.1.1 快速去掉多余數據 52 3.1.2 快速去掉多余數據的其他方法 53 3.2 聚集 54 3.2.1 使用基礎的R命令實現快速聚集 55 3.2.2 方便的輔助函數 56 3.2.3 高性能的輔助函數 57 3.2.4 使用data.table完成聚集 59 3.3 測試 59 3.4 匯總函數 62 3.5 小結 64 第4章 數據重構 65 4.1 矩陣轉置 65 4.2 基于字符串匹配實現數據篩選 66 4.3 數據重排序 67 4.4 dplyr包和data.table包的比較 70 4.5 創建新變量 70 4.5.1 內存使用分析 71 4.5.2 同時創建多個變量 72 4.5.3 采用dplyr包生成新變量 73 4.6 數據集合并 74 4.7 靈活地實現數據整形 76 4.7.1 將寬表轉換為長表 77 4.7.2 將長表轉換為寬表 78 4.7.3 性能調整 80 4.8 reshape包的演變 80 4.9 小結 81 第5章 建模 82 5.1 多元模型的由來 83 5.2 線性回歸及連續預測變量 83 5.2.1 模型解釋 83 5.2.2 多元預測 85 5.3 模型假定 87 5.4 回歸線的擬合效果 90 5.5 離散預測變量 92 5.6 小結 95 第6章 線性趨勢直線外的知識 96 6.1 工作流建模 96 6.2 邏輯回歸 97 6.2.1 數據思考 100 6.2.2 模型擬合的好處 101 6.2.3 模型比較 102 6.3 計數模型 102 6.3.1 泊松回歸 103 6.3.2 負二項回歸 107 6.3.3 多元非線性模型 107 6.4 小結 115 第7章 非結構化數據 116 7.1 導入語料庫 116 7.2 清洗語料庫 118 7.3 展示語料庫的高頻詞 121 7.4 深度清洗 121 7.4.1 詞干提取 122 7.4.2 詞形還原 124 7.5 詞條關聯說明 124 7.6 其他一些度量 125 7.7 文檔分段 126 7.8 小結 128 第8章 數據平滑 129 8.1 缺失值的類型和來源 129 8.2 確定缺失值 130 8.3 忽略缺失值 131 8.4 去掉缺失值 134 8.5 在分析前或分析中篩選缺失值 136 8.6 填補缺失值 136 8.6.1 缺失值建模 138 8.6.2 不同填補方法的比較 140 8.6.3 不處理缺失值 141 8.6.4 多重填補 141 8.7 異常值和孤立點 141 8.8 使用模糊方法 144 8.9 小結 146 第9章 從大數據到小數據 147 9.1 充分性測試 148 9.1.1 正態性 148 9.1.2 多元變量正態性 149 9.1.3 變量間的依賴關系 152 9.1.4 KMO和Barlett檢驗 154 9.2 主成分分析 157 9.2.1 PCA算法 158 9.2.2 確定成分數 159 9.2.3 成分解釋 161 9.2.4 旋轉方法 164 9.2.5 使用PCA檢測孤立點 167 9.3 因子分析 170 9.4 主成分分析和因子分析 172 9.5 多維尺度分析 173 9.6 小結 176 第10章 分類和聚類 177 10.1 聚類分析 178 10.1.1 層次聚類 178 10.1.2 確定簇的理想個數 181 10.1.3 k均值聚類 183 10.1.4 可視化聚類 185 10.2 潛類別模型 186 10.2.1 潛類別分析 187 10.2.2 LCR模型 189 10.3 判別分析 189 10.4 邏輯回歸 192 10.5 機器學習算法 194 10.5.1 k近鄰算法 195 10.5.2 分類樹 197 10.5.3 隨機森林 200 10.5.4 其他算法 201 10.6 小結 203 第11章 基于R的社會網絡分析 204 11.1 裝載網絡數據 204 11.2 網絡中心性度量 206 11.3 網絡數據的展現 207 11.3.1 交互網絡圖 210 11.3.2 繪制層次圖 211 11.3.3 使用R包來解釋包的依賴關系 212 11.4 更多網絡分析資源 212 11.5 小結 213 第12章 時序數據分析 214 12.1 創建時序對象 214 12.2 展現時序數據 215 12.3 季節性分解 217 12.4 Holt-Winters篩選 218 12.5 自回歸積分滑動平均模型 220 12.6 孤立點檢測 221 12.7 更復雜的時序對象 224 12.8 高級時序數據分析 225 12.9 小結 225 第13章 我們身邊的數據 226 13.1 地理編碼 226 13.2 在空間中展示數據點 228 13.3 找出數據點的多邊形重疊區域 230 13.4 繪制主題圖 232 13.5 圍繞數據點繪制多邊形 233 13.5.1 等高線 234 13.5.2 馮洛諾伊圖 236 13.6 衛星圖 237 13.7 交互圖 238 13.7.1 查詢Google地圖 238 13.7.2 Java腳本地圖庫 240 13.8 其他繪圖方法 242 13.9 空間數據分析 244 13.10 小結 246 第14章 分析R社區 247 14.1 R創始團隊的成員 247 14.2 R開發包的維護人員 249 14.3 R-help郵件列表 253 14.3.1 R-help郵件列表的規模 256 14.3.2 預測未來的郵件規模 258 14.4 分析用戶列表的重疊部分 260 14.5 社交媒體內的R用戶數 262 14.6 社交媒體中與R相關的貼子 263 14.7 小結 266 附錄 267
|
序: |
|