數據科學實戰手冊 第2版( 簡體 字) | |
作者:[印度]普拉罕·塔塔(Prabhanjan Tattar) [美]托尼·奧赫達( | 類別:1. -> 程式設計 -> 綜合 |
出版社:人民郵電出版社 | 3dWoo書號: 50481 詢問書籍請說出此書號! 有庫存 NT售價: 345 元 |
出版日:1/1/2019 | |
頁數:303 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787115499257 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第 1章 準備數據科學環境 1
1.1 理解數據科學管道 2 1.1.1 操作流程 2 1.1.2 工作原理 3 1.2 在Windows、Mac OS X和Linux上安裝R 4 1.2.1 準備工作 4 1.2.2 操作流程 4 1.2.3 工作原理 6 1.3 在R和RStudio中安裝擴展包 6 1.3.1 準備工作 6 1.3.2 操作流程 6 1.3.3 工作原理 8 1.3.4 更多內容 8 1.4 在Linux和Mac OS X上安裝Python 9 1.4.1 準備工作 9 1.4.2 操作流程 9 1.4.3 工作原理 9 1.5 在Windows上安裝Python 10 1.5.1 操作流程 10 1.5.2 工作原理 11 1.6 在Mac OS X和Linux上安裝Python數據庫 11 1.6.1 準備工作 11 1.6.2 操作流程 12 1.6.3 工作原理 12 1.6.4 更多內容 13 1.7 安裝更多Python包 13 1.7.1 準備工作 14 1.7.2 操作流程 14 1.7.3 工作原理 15 1.7.4 更多內容 15 1.8 安裝和使用virtualenv 15 1.8.1 準備工作 16 1.8.2 操作流程 16 1.8.3 工作原理 18 1.8.4 更多內容 18 第 2章 基于R的汽車數據可視化分析 19 2.1 簡介 19 2.2 獲取汽車燃料效率數據 20 2.2.1 準備工作 20 2.2.2 操作流程 20 2.2.3 工作原理 21 2.3 為你的第 一個分析項目準備好R 21 2.3.1 準備工作 21 2.3.2 操作流程 21 2.3.3 更多內容 22 2.4 將汽車燃料效率數據導入R 22 2.4.1 準備工作 22 2.4.2 操作流程 22 2.4.3 工作原理 24 2.4.4 更多內容 24 2.5 探索并描述燃料效率數據 25 2.5.1 準備工作 25 2.5.2 操作流程 25 2.5.3 工作原理 27 2.5.4 更多內容 28 2.6 分析汽車燃料效率數據隨時間的變化情況 29 2.6.1 準備工作 29 2.6.2 操作流程 29 2.6.3 工作原理 37 2.6.4 更多內容 38 2.7 研究汽車的品牌和型號 38 2.7.1 準備工作 39 2.7.2 操作流程 39 2.7.3 工作原理 41 2.7.4 更多內容 41 第3章 基于Python的稅收數據應用導向分析 42 3.1 簡介 42 3.2 高收入數據分析的準備工作 44 3.2.1 準備工作 44 3.2.2 操作流程 44 3.2.3 工作原理 45 3.3 導入并探索性地分析世界高收入數據集 45 3.3.1 準備工作 45 3.3.2 操作流程 45 3.3.3 工作原理 51 3.3.4 更多內容 52 3.4 分析并可視化美國高收入數據 53 3.4.1 準備工作 53 3.4.2 操作流程 53 3.4.3 工作原理 59 3.5 進一步分析美國高收入群體 60 3.5.1 準備工作 60 3.5.2 操作流程 60 3.5.3 工作原理 64 3.6 使用Jinja2匯報結果 64 3.6.1 準備工作 64 3.6.2 操作流程 64 3.6.3 工作原理 69 3.6.4 更多內容 69 3.7 基于R的數據分析再實現 70 3.7.1 準備工作 70 3.7.2 操作流程 70 3.7.3 更多內容 74 第4章 股市數據建模 75 4.1 簡介 75 4.2 獲取股市數據 76 4.3 描述數據 78 4.3.1 準備工作 78 4.3.2 操作流程 78 4.3.3 工作原理 79 4.3.4 更多內容 79 4.4 清洗并探索性地分析數據 80 4.4.1 準備工作 80 4.4.2 操作流程 80 4.4.3 工作原理 85 4.5 生成相對估值 85 4.5.1 準備工作 86 4.5.2 操作流程 86 4.5.3 工作原理 89 4.6 篩選股票并分析歷史價格 90 4.6.1 準備工作 90 4.6.2 操作流程 90 4.6.3 工作原理 95 第5章 就業數據可視化探索 96 5.1 簡介 96 5.2 分析前的準備工作 97 5.2.1 準備工作 97 5.2.2 操作流程 97 5.2.3 工作原理 98 5.3 將就業數據導入R 99 5.3.1 準備工作 99 5.3.2 操作流程 99 5.3.3 工作原理 99 5.3.4 更多內容 100 5.4 探索就業數據 101 5.4.1 準備工作 101 5.4.2 操作流程 101 5.4.3 工作原理 102 5.5 獲取、合并附加數據 103 5.5.1 準備工作 103 5.5.2 操作流程 103 5.5.3 工作原理 105 5.6 添加地理信息 105 5.6.1 準備工作 106 5.6.2 操作流程 106 5.6.3 工作原理 108 5.7 提取州和縣級水平的薪資及就業信息 109 5.7.1 準備工作 109 5.7.2 操作流程 110 5.7.3 工作原理 111 5.8 可視化薪資的地理分布 112 5.8.1 準備工作 112 5.8.2 操作流程 113 5.8.3 工作原理 115 5.9 分行業探索就業機會的地理分布 115 5.9.1 操作流程 116 5.9.2 工作原理 117 5.9.3 更多內容 117 5.10 繪制地理時間序列的動畫地圖 118 5.10.1 準備工作 118 5.10.2 操作流程 118 5.10.3 工作原理 122 5.10.4 更多內容 122 5.11 函數基本性能測試 122 5.11.1 準備工作 123 5.11.2 操作流程 123 5.11.3 工作原理 125 5.11.4 更多內容 125 第6章 汽車數據可視化(基于Python) 126 6.1 簡介 126 6.2 IPython入門 127 6.2.1 準備工作 127 6.2.2 操作流程 127 6.2.3 工作原理 130 6.3 熟悉Jupyter Notebook 130 6.3.1 準備工作 130 6.3.2 操作流程 130 6.3.3 工作原理 132 6.3.4 更多內容 132 6.4 為分析汽車燃料效率做好準備 133 6.4.1 準備工作 133 6.4.2 操作流程 133 6.4.3 工作原理 134 6.4.4 更多內容 134 6.5 用Python探索并描述汽車燃料效率數據 135 6.5.1 準備工作 135 6.5.2 操作流程 135 6.5.3 工作原理 138 6.5.4 更多內容 138 6.6 用Python分析汽車燃料效率隨時間變化的情況 139 6.6.1 準備工作 139 6.6.2 操作流程 139 6.6.3 工作原理 144 6.6.4 更多內容 145 6.7 用Python研究汽車的品牌和型號 146 6.7.1 準備工作 146 6.7.2 操作流程 146 6.7.3 工作原理 149 第7章 社交網絡分析(基于Python) 151 7.1 簡介 151 7.2 準備用Python進行社交網絡的分析工作 153 7.2.1 準備工作 153 7.2.2 操作流程 154 7.2.3 工作原理 154 7.2.4 更多內容 154 7.3 導入網絡 155 7.3.1 準備工作 155 7.3.2 操作流程 155 7.3.3 工作原理 156 7.4 探索英雄網絡的子圖 157 7.4.1 準備工作 157 7.4.2 操作流程 158 7.4.3 工作原理 160 7.4.4 更多內容 160 7.5 找出強關聯 160 7.5.1 準備工作 161 7.5.2 操作流程 161 7.5.3 工作原理 163 7.5.4 更多內容 164 7.6 找出關鍵人物 164 7.6.1 準備工作 164 7.6.2 操作流程 164 7.6.3 工作原理 168 7.6.4 更多內容 168 7.7 探索全網特征 174 7.7.1 準備工作 174 7.7.2 操作流程 174 7.7.3 工作原理 175 7.8 社交網絡中的聚類和社群發現 175 7.8.1 準備工作 176 7.8.2 操作流程 176 7.8.3 工作原理 179 7.8.4 更多內容 179 7.9 可視化圖 180 7.9.1 準備工作 180 7.9.2 操作流程 180 7.9.3 工作原理 181 7.10 R中的社交網絡分析 182 7.10.1 準備工作 182 7.10.2 操作流程 183 7.10.3 工作原理 188 第8章 大規模電影推薦(基于Python) 189 8.1 簡介 189 8.2 對偏好建模 191 8.2.1 操作流程 191 8.2.2 工作原理 191 8.3 理解數據 192 8.3.1 準備工作 192 8.3.2 操作流程 193 8.3.3 工作原理 194 8.3.4 更多內容 194 8.4 提取電影評分數據 195 8.4.1 準備工作 195 8.4.2 操作流程 195 8.4.3 工作原理 197 8.5 尋找高評分電影 199 8.5.1 準備工作 199 8.5.2 操作流程 199 8.5.3 工作原理 200 8.5.4 更多內容 201 8.6 改善電影評分系統 201 8.6.1 準備工作 201 8.6.2 操作流程 201 8.6.3 工作原理 202 8.6.4 更多內容 203 8.7 計算用戶在偏好空間中的距離 203 8.7.1 準備工作 204 8.7.2 操作流程 204 8.7.3 工作原理 205 8.7.4 更多內容 206 8.8 計算用戶之間的相關性 206 8.8.1 準備工作 206 8.8.2 操作流程 207 8.8.3 工作原理 208 8.8.4 更多內容 208 8.9 為用戶尋找最佳影評人 208 8.9.1 準備工作 209 8.9.2 操作流程 209 8.9.3 工作原理 210 8.10 預測用戶電影評分 211 8.10.1 準備工作 211 8.10.2 操作流程 211 8.10.3 工作原理 212 8.11 基于物品的協同過濾 213 8.11.1 準備工作 214 8.11.2 操作流程 214 8.11.3 工作原理 215 8.12 建立非負矩陣分解模型 216 8.12.1 操作流程 217 8.12.2 工作原理 217 8.13 將數據集載入內存 219 8.13.1 準備工作 219 8.13.2 操作流程 219 8.13.3 工作原理 220 8.13.4 更多內容 221 8.14 導出SVD模型到硬盤 221 8.14.1 操作流程 222 8.14.2 工作原理 223 8.15 訓練SVD模型 223 8.15.1 操作流程 223 8.15.2 工作原理 225 8.15.3 更多內容 225 8.16 測試SVD模型 226 8.16.1 操作流程 226 8.16.2 工作原理 226 8.16.3 更多內容 227 第9章 獲取和定位Twitter數據(基于Python) 228 9.1 簡介 228 9.2 創建Twitter應用 229 9.2.1 準備工作 229 9.2.2 操作流程 230 9.2.3 工作原理 232 9.3 了解Twitter API v1.1 232 9.3.1 準備工作 233 9.3.2 操作流程 233 9.3.3 工作原理 234 9.3.4 更多內容 235 9.4 獲取粉絲和好友信息 236 9.4.1 準備工作 236 9.4.2 操作流程 236 9.4.3 工作原理 238 9.4.4 更多內容 238 9.5 獲取Twitter用戶信息 239 9.5.1 準備工作 239 9.5.2 操作流程 239 9.5.3 工作原理 240 9.5.4 更多內容 240 9.6 避免Twitter速度限制 241 9.6.1 準備工作 241 9.6.2 操作流程 241 9.6.3 工作原理 242 9.7 存儲JSON數據至硬盤 242 9.7.1 準備工作 242 9.7.2 操作流程 242 9.7.3 工作原理 243 9.8 搭建MongoDB存儲Twitter數據 243 9.8.1 準備工作 244 9.8.2 操作流程 244 9.8.3 工作原理 245 9.8.4 更多內容 245 9.9 利用PyMongo存儲用戶信息到MongoDB 246 9.9.1 準備工作 246 9.9.2 操作流程 246 9.9.3 工作原理 247 9.10 探索用戶地理信息 247 9.10.1 準備工作 248 9.10.2 操作流程 248 9.10.3 工作原理 249 9.10.4 更多內容 250 9.11 利用Python繪制地理分布圖 250 9.11.1 準備工作 250 9.11.2 操作流程 250 9.11.3 工作原理 251 9.11.4 更多內容 252 第 10章 預測新西蘭的海外游客 254 10.1 簡介 254 10.2 時間序列(ts)對象 255 10.2.1 準備工作 256 10.2.2 操作流程 256 10.2.3 工作原理 257 10.3 可視化時間序列數據 257 10.3.1 準備工作 258 10.3.2 操作流程 258 10.3.3 工作原理 260 10.4 簡單的線性回歸模型 261 10.4.1 準備工作 261 10.4.2 操作流程 261 10.4.3 工作原理 265 10.5 ACF和PACF 265 10.5.1 準備工作 266 10.5.2 操作流程 266 10.5.3 工作原理 267 10.6 ARIMA模型 267 10.6.1 準備工作 268 10.6.2 操作流程 268 10.6.3 工作原理 275 10.7 精確性評估 275 10.7.1 準備工作 276 10.7.2 操作流程 276 10.7.3 工作原理 276 10.8 擬合季節性ARIMA模型 277 10.8.1 準備工作 277 10.8.2 操作流程 277 10.8.3 工作原理 279 10.8.4 更多內容 279 第 11章 德國信用數據分析 280 11.1 簡介 280 11.2 簡單數據轉換 281 11.2.1 準備工作 281 11.2.2 操作流程 281 11.2.3 工作原理 283 11.2.4 更多內容 283 11.3 可視化分類數據 283 11.3.1 準備工作 284 11.3.2 操作流程 284 11.3.3 工作原理 286 11.4 判別分析 286 11.4.1 準備工作 287 11.4.2 操作流程 287 11.4.3 工作原理 290 11.5 劃分數據和ROC 290 11.5.1 準備工作 292 11.5.2 操作流程 292 11.6 擬合邏輯回歸模型 293 11.6.1 準備工作 293 11.6.2 操作流程 293 11.6.3 工作原理 297 11.7 決策樹和決策規則 298 11.7.1 準備工作 298 11.7.2 操作流程 298 11.7.3 工作原理 301 11.8 德國信用數據決策樹 301 11.8.1 準備工作 301 11.8.2 操作流程 301 11.8.3 工作原理 304 本書對想學習數據分析的人來說是一本非常實用的參考書,書中有多個真實的數據分析案例,幾乎是以手把手的方式教你一步一步地完成從數據分析的準備到分析結果報告的整個流程。無論是數據分析工作的從業者,還是有志于未來從事數據分析工作的在校大學生,都能從本書中獲取一些新知識、新思想。
同時,本書也是一本學習和提高R及Python編程的參考書。很多人有這樣的感觸,單純地學習編程語言是很枯燥的過程,但利用本書學習R和Python語言可以很好地解決這個問題,生動實用的數據集以及非常有意思的分析結果會極大地激發讀者學習的興趣。 本書案例包括汽車數據分析、稅收數據分析、就業數據分析、股市數據分析、社交網絡分析、大規模電影推薦、Twitter數據分析、新西蘭海外游客預測分析以及德國信用數據分析等。 |