Python數據分析實戰( 簡體 字) | |
作者:[印尼]伊凡·伊德里斯 | 類別:1. -> 程式設計 -> Python |
出版社:機械工業出版社 | 3dWoo書號: 47549 詢問書籍請說出此書號! 有庫存 NT售價: 395 元 |
出版日:8/22/2017 | |
頁數:329 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787111576402 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
譯者序
前 言 第1章為可重復的數據分析奠定基礎 1 1.1 簡介 1 1.2 安裝Anaconda 2 1.3 安裝數據科學工具包 3 1.4 用virtualenv和virtualenvwrapper創建Python虛擬環境 5 1.5 使用Docker鏡像沙盒化Python應用 6 1.6 在IPython Notebook中記錄軟件包的版本和歷史 8 1.7 配置IPython 11 1.8 學習為魯棒性錯誤校驗記錄日志 13 1.9 為你的代碼寫單元測試 16 1.10 配置pandas 18 1.11 配置matplotlib 20 1.12為隨機數生成器和NumPy打印選項設置種子 23 1.13使報告、代碼風格和數據訪問標準化 24 第2章 創建美觀的數據可視化 28 2.1 簡介 28 2.2 圖形化安斯庫姆四重奏 28 2.3 選擇Seaborn的調色板 31 2.4 選擇matplotlib的顏色表 33 2.5 與IPython Notebook部件交互 35 2.6 查看散點圖矩陣 38 2.7通過mpld3使用d3.js進行可視化 40 2.8 創建熱圖 41 2.9把箱線圖、核密度圖和小提琴圖組合 44 2.10 使用蜂巢圖可視化網絡圖 45 2.11 顯示地圖 47 2.12 使用類ggplot2圖 49 2.13 使用影響圖高亮數據 51 第3章 統計數據分析和概率 53 3.1 簡介 53 3.2 將數據擬合到指數分布 53 3.3 將聚合數據擬合到伽馬分布 55 3.4 將聚合計數擬合到泊松分布 57 3.5 確定偏差 59 3.6 估計核密度 61 3.7確定均值、方差和標準偏差的置信區間 64 3.8 使用概率權重采樣 66 3.9 探索極值 68 3.10使用皮爾遜相關系數測量變量之間的相關性 71 3.11使用斯皮爾曼等級相關系數測量變量之間的相關性 74 3.12使用點二列相關系數測量二值變量和連續變量的相關性 77 3.13評估變量與方差分析之間的關系 78 第4章 處理數據和數值問題 81 4.1 簡介 81 4.2 剪輯和過濾異常值 81 4.3 對數據進行縮尾處理 84 4.4 測量噪聲數據的集中趨勢 85 4.5 使用Box-Cox變換進行歸一化 88 4.6 使用冪階梯轉換數據 90 4.7 使用對數轉換數據 91 4.8 重組數據 93 4.9 應用logit()來變換比例 95 4.10 擬合魯棒線性模型 97 4.11 使用加權最小二乘法考慮方差 99 4.12 使用任意精度進行優化 101 4.13 使用任意精度的線性代數 103 第5章網絡挖掘、數據庫和大數據 107 5.1 簡介 107 5.2 模擬網頁瀏覽 108 5.3 網絡數據挖掘 110 5.4處理非ASCII文本和HTML實體 112 5.5 實現關聯表 114 5.6 創建數據庫遷移腳本 117 5.7 在已經存在的表中增加一列 117 5.8 在表創建之后添加索引 118 5.9 搭建一個測試Web服務器 120 5.10實現具有事實表和維度表的星形模式 121 5.11 使用Hadoop分布式文件系統 126 5.12 安裝配置Spark 127 5.13 使用Spark聚類數據 128 第6章 信號處理和時間序列 132 6.1 簡介 132 6.2 使用周期圖做頻譜分析 132 6.3使用Welch算法估計功率譜密度 134 6.4 分析峰值 136 6.5 測量相位同步 138 6.6 指數平滑法 140 6.7 評估平滑法 142 6.8 使用Lomb-Scargle周期圖 145 6.9 分析音頻的頻譜 146 6.10 使用離散余弦變換分析信號 149 6.11 對時序數據進行塊自舉 151 6.12 對時序數據進行動態塊自舉 153 6.13 應用離散小波變換 155 第7章利用金融數據分析選擇股票 159 7.1 簡介 159 7.2 計算簡單收益率和對數收益率 159 7.3使用夏普比率和流動性對股票進行排名 161 7.4使用卡瑪和索提諾比率對股票進行排名 162 7.5 分析收益統計 164 7.6 將個股與更廣泛的市場相關聯 166 7.7 探索風險與收益 169 7.8 使用非參數運行測試檢驗市場 170 7.9 測試隨機游走 173 7.10 使用自回歸模型確定市場效率 175 7.11 為股票價格數據庫建表 177 7.12 填充股票價格數據庫 178 7.13 優化等權重雙資產組合 183 第8章 文本挖掘和社交網絡分析 186 8.1 簡介 186 8.2 創建分類的語料庫 186 8.3 以句子和單詞標記化新聞文章 189 8.4詞干提取、詞形還原、過濾和TF-IDF得分 189 8.5 識別命名實體 193 8.6 提取帶有非負矩陣分解的主題 194 8.7 實現一個基本的術語數據庫 196 8.8 計算社交網絡密度 200 8.9 計算社交網絡接近中心性 201 8.10 確定中介中心性 202 8.11 評估平均聚類系數 203 8.12 計算圖的分類系數 204 8.13 獲得一個圖的團數 205 8.14 使用余弦相似性創建文檔圖 206 第9章 集成學習和降維 209 9.1 簡介 209 9.2 遞歸特征消除 210 9.3 應用主成分分析來降維 211 9.4 應用線性判別分析來降維 213 9.5 多模型堆疊和多數投票 214 9.6 學習隨機森林 217 9.7使用RANSAC算法擬合噪聲數據 220 9.8 使用Bagging來改善結果 222 9.9 用于更好學習的Boosting算法 224 9.10 嵌套交叉驗證 227 9.11 使用joblib重用模型 229 9.12 層次聚類數據 231 9.13 Theano之旅 232 第10章評估分類器、回歸器和聚類 235 10.1 簡介 235 10.2 直接使用混淆矩陣分類 235 10.3 計算精度、召回率和F1分數 237 10.4檢測接收器操作特性和曲線下的面積 240 10.5 可視化擬合優度 242 10.6計算均方誤差和中值絕對誤差 243 10.7 用平均輪廓系數評估聚類 245 10.8 將結果與偽分類器進行比較 247 10.9確定平均絕對百分誤差和平均百分誤差 250 10.10 與偽回歸器進行比較 252 10.11 計算平均絕對誤差和殘差平方和 254 10.12 檢查分類的kappa系數 256 10.13 運用Matthews相關系數 258 第11章 圖像分析 261 11.1 簡介 261 11.2 安裝OpenCV 261 11.3應用尺度不變特征變換(SIFT) 264 11.4 使用加速魯棒特征檢測特征 265 11.5 量化顏色 267 11.6 圖像降噪 269 11.7 提取圖像區域 270 11.8 使用Haar級聯進行面部識別 272 11.9 搜索明亮的星星 275 11.10 從圖像中提取元數據 278 11.11 從圖像中提取紋理特征 280 11.12 對圖像應用層次聚類 282 11.13 使用光譜聚類分割圖像 283 第12章 并行和性能 285 12.1 簡介 285 12.2 使用Numba做即時編譯 286 12.3使用Numexpr加速數值表達式 288 12.4 使用線程模塊運行多線程 289 12.5使用concurrent.futures模塊啟動多任務 291 12.6使用asyncio模塊異步訪問資源 294 12.7 使用execnet做分布式處理 297 12.8 分析內存使用情況 299 12.9計算平均值、方差、偏度和峰度 300 12.10 使用最近最少使用算法進行 緩存 304 12.11 緩存HTTP請求 306 12.12 使用Count-min sketch進行流式 統計 308 12.13 充分利用GPU和OpenGL 310 附錄A 術語表 313 附錄B 函數參考 317 附錄C 在線資源 323 附錄D命令行和其他工具的一些提示和技巧 326 數據分析是一個快速發展的領域,而Python已經演變成數據科學的主要語言,廣泛應用于數據分析、可視化和機器學習等領域。本書從數據分析的基礎內容入手,比如matplotlib、NumPy和Pandas庫,介紹如何通過選擇色彩圖和調色板來創建可視化,之后深入統計數據分析,將幫助你掌握Spark和HDFS,為網絡挖掘創建可遷移腳本。本書還詳細闡述如何評價股票,檢測市場有效性,使用指標和聚類等,并且還將使用多線程實現并行性,并加速你的代碼。在本書結束時,讀者將能夠運用各種Python中的數據分析技術,并針對問題場景設計解決方案。
|