數據科學實戰手冊 R+Python ( 簡體 字) |
作者:[美] Tony Ojeda ( 托尼·奧杰德 ) ,Sean Patrick Murphy ( 肖恩·派特里克·墨菲 ) ,Benjamin Bengfort ( 本杰明·班福特 ) ,Abhijit Dasgupta ( 阿布吉特·達斯古普塔 ) | 類別:1. -> 程式設計 -> R語言 2. -> 程式設計 -> Python |
譯者: |
出版社:人民郵電出版社 | 3dWoo書號: 44764 詢問書籍請說出此書號!【有庫存】 NT售價: 295 元 |
出版日:8/1/2016 |
頁數:326 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787115426758 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介: 這本書是基于R和Python的數據科學項目案例集錦,內容涵蓋了基于數據科學的所有要素,包括數據采集、處理、清洗、分析、建模、可視化以及數據產品的搭建。案例包含了汽車數據分析、股票市場建模、社交網絡分析、推薦系統、地理信息分析,以及Python代碼的計算優化。通過手把手的案例解析,令讀者知其然并知其所以然。業界的數據分析師、數據挖掘工程師、數據科學家都可以讀一讀。想要了解實際工作中如何用數據產生價值的在校學生,或者對數據科學感興趣的人也值得一讀。 |
目錄:第1章 準備你的數據科學環境 1 簡介 1 理解數據科學管道 3 處理流程 3 工作原理 3 在Windows、Mac OS X、Linux上安裝R 5 準備工作 5 處理流程 5 工作原理 7 參考資料 7 在R和RStudio中安裝擴展包 7 準備工作 8 處理流程 8 工作原理 9 更多內容 10 參考資料 10 在Linux和Mac OS X上安裝Python 10 準備工作 11 處理流程 11 工作原理 11 更多內容 11 參考資料 12 在Windows上安裝Python 12 處理流程 13 工作原理 13 參考資料 14 在Mac OS X和Linux上安裝Python數據分析庫 14 準備工作 14 處理流程 14 工作原理 15 更多內容 16 參考資料 16 安裝更多Python包 17 準備工作 17 處理流程 17 工作原理 18 更多內容 18 參考資料 18 安裝和使用virtualenv 19 準備工作 19 處理流程 19 工作原理 21 更多內容 21 參考資料 22 第2章 汽車數據的可視化分析(R) 23 簡介 23 獲取汽車燃料效率數據 24 準備工作 24 處理流程 25 工作原理 25 為了你的第一個項目準備好R 26 準備工作 26 處理流程 26 工作原理 26 參考資料 26 將汽車燃料效率數據導入R 27 準備工作 27 處理流程 27 工作原理 28 更多內容 29 參考資料 30 探索和描述燃料效率數據 30 準備工作 30 處理流程 30 工作原理 32 更多內容 33 進一步分析汽車燃料效率數據 34 準備工作 34 處理流程 34 工作原理 43 參考資料 44 研究汽車的產量以及車型 44 準備工作 44 處理流程 44 工作原理 46 更多內容 47 參考資料 47 第3章 模擬美式橄欖球比賽數據(R) 48 簡介 48 準備工作 49 獲取和清洗美式橄欖球比賽數據 49 準備工作 50 處理流程 50 工作原理 53 參考資料 53 分析和理解美式橄欖球比賽數據 53 準備工作 53 處理流程 53 工作原理 61 更多內容 61 參考資料 62 構建度量攻防能力的指標 62 準備工作 62 處理流程 62 工作原理 64 參考資料 65 模擬單場由程序決定勝負的比賽 65 準備工作 65 處理流程 65 工作原理 68 模擬多場由計算決定勝負的比賽 68 準備工作 68 處理流程 69 工作原理 73 更多內容 74 第4章 建模分析股票市場數據(R) 75 簡介 75 準備工作 76 獲取股票市場數據 76 處理流程 77 描述數據 78 準備工作 79 工作原理 80 更多內容 81 清洗和研究數據 82 準備工作 82 處理流程 82 工作原理 87 參考資料 87 形成相對估值法 87 準備工作 87 處理流程 88 工作原理 91 分析歷史價格篩選股票 92 準備工作 92 處理流程 92 工作原理 98 第5章 就業數據的可視化探索(R) 99 簡介 99 分析前的準備 100 準備工作 101 處理流程 101 工作原理 102 參考資料 102 將就業數據導入R 103 準備工作 103 處理流程 103 工作原理 104 更多內容 104 參考資料 105 就業數據探究 105 準備條件 105 處理流程 105 工作原理 107 參考資料 107 獲取和合并添加附加信息 107 準備工作 107 處理流程 108 工作原理 109 添加地理信息 110 準備工作 110 處理流程 110 工作原理 113 參考資料 114 獲取州和縣級水平的薪資和就業信息 114 準備工作 114 處理流程 114 工作原理 116 參考資料 117 可視化薪資的地理分布特性 117 準備工作 118 處理流程 118 工作原理 120 參考資料 121 探究各行業工作的地理分布情況 121 處理流程 122 工作原理 123 更多內容 124 參考資料 124 繪制地理空間的時間序列地圖 124 準備工作 124 處理流程 125 工作原理 128 更多內容 128 函數性能測試和比較 128 準備工作 129 處理流程 129 工作原理 131 更多內容 132 參考資料 132 第6章 運用稅務數據進行應用導向的數據分析(Python) 133 簡介 133 應用導向方法簡介 134 準備高收入數據集的分析 135 準備工作 135 處理流程 135 工作原理 136 導入并熟悉世界各國高收入數據集 136 準備工作 137 處理流程 137 工作原理 143 更多內容 144 參考資料 144 分析并可視化美國的高收入數據集 144 準備工作 144 處理流程 145 工作原理 151 進一步分析美國的高收入階層 152 準備工作 152 處理流程 152 工作原理 156 用Jinja2匯報結果 157 準備工作 157 處理流程 157 工作原理 162 更多內容 162 參考資料 163 第7章 運用汽車數據進行可視化分析(Python) 164 簡介 164 IPython入門 165 準備工作 165 處理流程 165 工作原理 167 參考資料 167 熟悉IPython Notebook 167 準備工作 168 處理流程 168 工作原理 170 更多內容 170 參考資料 171 準備分析汽車油耗 171 準備工作 171 處理流程 171 工作原理 173 更多內容 173 參考資料 174 用Python熟悉并描述汽車油耗數據 174 準備工作 174 處理流程 174 工作原理 177 更多內容 177 參考資料 177 用Python分析汽車油耗隨時間變化趨勢 177 準備工作 177 處理流程 178 工作原理 183 更多內容 184 參考資料 185 用Python調查汽車的制造商和型號 185 準備工作 185 處理流程 185 工作原理 189 參考資料 189 第8章 社交網絡分析(Python) 190 簡介 190 理解圖和網絡 191 準備用Python進行社交網絡的分析工作 192 準備工作 192 處理流程 193 工作原理 193 更多內容 193 導入網絡 194 準備工作 194 處理流程 194 工作原理 196 探索英雄網絡的子圖 196 準備工作 197 處理流程 197 工作原理 199 更多內容 199 找出強關聯 200 準備工作 201 處理流程 201 工作原理 203 更多內容 204 找出關鍵人物 204 準備工作 205 處理流程 205 工作原理 208 更多內容 209 調查全網的特征 215 準備工作 216 處理流程 216 工作原理 217 社交網絡中的聚類和發現社群 217 準備工作 217 處理流程 218 工作原理 221 更多內容 221 可視化圖 222 準備工作 222 處理流程 222 工作原理 224 第9章 大規模電影推薦(Python) 225 簡介 226 對偏好建模 227 處理流程 227 工作原理 228 理解數據 229 準備工作 229 處理流程 229 工作原理 231 更多內容 231 加載電影評分數據 231 準備工作 231 處理流程 232 工作原理 234 尋找高評分電影 235 準備工作 236 處理流程 236 工作原理 237 更多內容 238 參考資料 238 提升電影評分系統 238 準備工作 238 處理流程 238 工作原理 239 更多內容 240 參考資料 240 計算用戶在偏好空間中的距離 240 準備工作 241 處理流程 241 工作原理 243 更多內容 243 參考資料 243 計算用戶相關性 244 準備工作 244 處理流程 244 工作原理 245 更多內容 246 為特定用戶尋找最好的影評人 246 準備工作 246 處理流程 246 工作原理 247 預測用戶評分 249 準備工作 249 處理流程 249 工作原理 250 基于物品的協同過濾 251 準備工作 251 處理流程 252 工作原理 253 建立非負矩陣分解模型 254 處理流程 255 工作原理 255 參考資料 256 將數據集載入內存 256 準備工作 257 處理流程 257 工作原理 258 更多內容 258 導出SVD模型至硬盤 259 處理流程 259 工作原理 260 訓練SVD模型 261 處理流程 261 工作原理 262 更多內容 263 測試SVD模型 264 處理流程 264 工作原理 264 更多內容 264 第10章 獲取和定位Twitter數據(Python) 266 簡介 266 創建Twitter應用 267 準備工作 268 處理流程 268 工作原理 271 參考資料 271 了解Twitter API v1.1 271 準備工作 272 處理流程 272 工作原理 273 更多內容 274 參考資料 275 獲取粉絲和朋友信息 275 準備工作 275 處理流程 275 工作原理 277 更多內容 277 參考資料 278 提取Twitter用戶檔案 278 準備工作 278 處理流程 278 工作原理 279 更多內容 279 參考資料 280 避免Twitter速度限制 280 準備工作 280 處理流程 280 工作原理 281 存儲JSON數據至硬盤 281 準備工作 282 處理流程 282 工作原理 282 安裝MongoDB 283 準備工作 283 處理流程 283 工作原理 284 更多內容 284 參考資料 285 利用PyMongo將用戶信息存入MongoDB 285 準備工作 285 處理流程 285 工作原理 286 探索用戶地理信息 287 準備工作 287 處理流程 287 工作原理 289 更多內容 290 參考資料 290 利用Python繪制地理分布圖 290 準備工作 290 處理流程 291 工作原理 292 更多內容 293 參考資料 294 第11章 利用NumPy和SciPy優化數值計算(Python) 295 簡介 295 了解優化的步驟 297 處理流程 297 工作原理 297 更多內容 298 識別代碼中常見性能瓶頸 298 處理流程 299 工作原理 299 通讀代碼 301 準備工作 302 處理流程 302 工作原理 302 參考資料 304 利用Unix time函數剖析Python代碼 305 準備工作 305 處理流程 305 工作原理 306 參考資料 306 利用Python內建函數剖析Python代碼 306 準備工作 306 處理流程 306 工作原理 307 參考資料 308 利用IPython %timeit函數剖析Python代碼 308 處理流程 308 工作原理 309 利用line_profiler剖析Python代碼 309 準備工作 310 處理流程 310 工作原理 311 更多內容 312 參考資料 312 摘取低處的(經過優化的)果實 312 準備工作 312 處理流程 312 工作原理 314 測試NumPy帶來的性能提升 315 準備工作 315 處理流程 315 工作原理 316 更多內容 317 參考資料 317 用NumPy重寫函數 317 準備工作 317 處理流程 318 工作原理 320 用NumPy優化最內層循環 322 準備工作 322 處理流程 322 工作原理 324 更多內容 325
|
序: |