|
-- 會員 / 註冊 --
|
|
|
|
Python數據分析 活用Pandas庫 ( 簡體 字) |
作者:[美] 丹尼爾·陳(Daniel Y. Chen) | 類別:1. -> 程式設計 -> Python |
譯者: |
出版社:人民郵電出版社 | 3dWoo書號: 52422 詢問書籍請說出此書號!【缺書】 NT售價: 445 元 |
出版日:1/1/2020 |
頁數:312 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787115529114 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:本書是Python數據分析入門書,每個概念都通過簡單實例來闡述,便于讀者理解與上手。具體內容包括:Python及Pandas基礎知識,加載和查看數據集,Pandas的DataFrame對象和Series對象,使用matplotlib、seaborn和Pandas提供的繪圖方法為探索性數據分析作圖,連接與合并數據集,處理缺失數據,清理數據,轉換數據類型,處理字符串,應用函數,分組操作,擬合及評估模型,正則化方法與聚類技術等。 |
目錄:獻詞 iii 序 iv 前言 v 致謝 xi 關于作者 xiv 第 一部分 簡介 1 第 1章 Pandas DataFrame基礎知識 2 1.1 簡介 2 1.2 加載數據集 3 1.3 查看列、行、單元格 5 1.3.1 取列子集 6 1.3.2 取行子集 7 1.3.3 混合 11 1.4 分組和聚合計算 16 1.4.1 分組方式 17 1.4.2 分組頻率計數 21 1.5 基本繪圖 21 1.6 小結 22 第 2章 Pandas數據結構 23 2.1 簡介 23 2.2 創建數據 24 2.2.1 創建Series 24 2.2.2 創建DataFrame 25 2.3 Series 26 2.3.1 類似于ndarray的Series 27 2.3.2 布爾子集:Series 29 2.3.3 操作自動對齊和向量化(廣播) 31 2.4 DataFrame 34 2.4.1 布爾子集:DataFrame 34 2.4.2 操作自動對齊和向量化(廣播) 35 2.5 更改Series和DataFrame 36 2.5.1 添加列 36 2.5.2 直接更改列 37 2.5.3 刪除值 39 2.6 導出和導入數據 40 2.6.1 保存數據 40 2.6.2 CSV 42 2.6.3 Excel 42 2.6.4 feather文件格式 43 2.6.5 其他數據輸出格式 43 2.7 小結 44 第3章 繪圖入門 45 3.1 簡介 45 3.2 matplotlib 46 3.3 使用matplotlib繪制統計圖 51 3.3.1 單變量 52 3.3.2 雙變量 53 3.3.3 多變量數據 54 3.4 seaborn 56 3.4.1 單變量 56 3.4.2 雙變量數據 59 3.4.3 多變量數據 67 3.5 Pandas對象 75 3.5.1 直方圖 75 3.5.2 密度圖 76 3.5.3 散點圖 77 3.5.4 蜂巢圖 77 3.5.5 箱線圖 79 3.6 seaborn主題和樣式 79 3.7 小結 81 第二部分 數據處理 83 第4章 數據組合 84 4.1 簡介 84 4.2 整理數據 84 4.3 連接 85 4.3.1 添加行 85 4.3.2 添加列 89 4.3.3 不同索引下的連接操作 90 4.4 合并多個數據集 93 4.4.1 一對一合并 94 4.4.2 多對一合并 95 4.4.3 多對多合并 95 4.5 小結 97 第5章 缺失數據 98 5.1 簡介 98 5.2 何為NaN值 98 5.3 缺失值從何而來 100 5.3.1 加載數據 100 5.3.2 合并數據 101 5.3.3 用戶輸入值 103 5.3.4 重建索引 103 5.4 處理缺失數據 105 5.4.1 查找和統計缺失數據 105 5.4.2 清理缺失數據 106 5.4.3 缺失值計算 109 5.5 小結 110 第6章 整理數據 111 6.1 簡介 111 6.2 包含值而非變量的列 112 6.2.1 固定一列 112 6.2.2 固定多列 114 6.3 包含多個變量的列 115 6.3.1 單獨拆分和添加列(簡單方法) 116 6.3.2 在單個步驟中進行拆分和組合(簡單方法) 118 6.3.3 在單個步驟中進行拆分和組合(復雜方法) 118 6.4 行與列中的變量 119 6.5 一張表中多個觀測單元(歸一化) 121 6.6 跨多張表的觀測單元 123 6.6.1 使用循環加載多個文件 125 6.6.2 使用列表推導加載多個文件 126 6.7 小結 127 第三部分 數據整理 129 第7章 數據類型 130 7.1 簡介 130 7.2 數據類型 130 7.3 類型轉換 131 7.3.1 轉換為字符串對象 131 7.3.2 轉換為數值類型 132 7.4 分類數據 136 7.4.1 轉換為category類型 137 7.4.2 操作分類數據 137 7.5 小結 138 第8章 字符串和文本數據 139 8.1 簡介 139 8.2 字符串 139 8.2.1 取子串和字符串切片 139 8.2.2 獲取字符串的最后一個字符 141 8.3 字符串方法 143 8.4 更多字符串方法 144 8.4.1 join方法 144 8.4.2 splitlines方法 144 8.5 字符串格式化 145 8.5.1 自定義字符串格式 146 8.5.2 格式化字符串 146 8.5.3 格式化數字 146 8.5.4 C printf格式化風格 147 8.5.5 Python 3.6+中的格式化字符串 148 8.6 正則表達式 148 8.6.1 匹配模式 149 8.6.2 查找模式 152 8.6.3 模式替代 152 8.6.4 編譯模式 153 8.7 regex庫 154 8.8 小結 154 第9章 應用 155 9.1 簡介 155 9.2 函數 155 9.3 使用函數 156 9.3.1 Series的apply方法 157 9.3.2 DataFrame的apply方法 158 9.4 apply高級用法 160 9.4.1 按列應用 162 9.4.2 按行應用 164 9.5 向量化函數 166 9.5.1 使用NumPy 167 9.5.2 使用numba 168 9.6 lambda函數 168 9.7 小結 170 第 10章 分組操作:分割-應用-組合 171 10.1 簡介 171 10.2 聚合 171 10.2.1 基本的單變量分組聚合 172 10.2.2 Pandas內置的聚合方法 173 10.2.3 聚合函數 174 10.2.4 同時傳入多個函數 176 10.2.5 在agg/aggregate中使用字典 177 10.3 轉換 178 10.4 過濾器 182 10.5 pandas.core.groupby.DataFrameGroupBy對象 183 10.5.1 分組 183 10.5.2 涉及多個變量的分組計算 184 10.5.3 選擇分組 184 10.5.4 遍歷分組 184 10.5.5 多個分組 186 10.5.6 平鋪結果 187 10.6 使用多重索引 188 10.7 小結 191 第 11章 datetime數據類型 192 11.1 簡介 192 11.2 Python的datatime對象 192 11.3 轉換為datetime 193 11.4 加載包含日期的數據 196 11.5 提取日期的各個部分 196 11.6 日期運算和Timedelta 198 11.7 datetime方法 200 11.8 獲取股票數據 202 11.9 基于日期取數據子集 203 11.9.1 DatetimeIndex對象 203 11.9.2 TimedeltaIndex對象 204 11.10 日期范圍 205 11.10.1 頻率 206 11.10.2 偏移量 207 11.11 移動 207 11.12 重采樣 213 11.13 時區 214 11.14 小結 215 第四部分 數據建模 217 第 12章 線性模型 218 12.1 簡介 218 12.2 簡單線性回歸 218 12.2.1 使用統計模型庫 218 12.2.2 使用sklearn庫 220 12.3 多元回歸 222 12.3.1 使用statsmodels庫 222 12.3.2 使用statsmodels和分類變量 222 12.3.3 使用sklearn庫 224 12.3.4 使用sklearn和分類變量 225 12.4 保留sklearn的索引標簽 226 12.5 小結 226 第 13章 廣義線性模型 227 13.1 簡介 227 13.2 邏輯回歸 227 13.2.1 使用statsmodels 229 13.2.2 使用sklearn 230 13.3 泊松回歸 232 13.3.1 使用statsmodels 232 3.3.2 負二項回歸 233 13.4 更多GLM 234 13.5 生存分析 235 13.6 小結 238 第 14章 模型診斷 239 14.1 簡介 239 14.2 殘差 239 14.3 比較多個模型 243 14.3.1 比較線性模型 243 14.3.2 比較GLM 246 14.4 k折交叉驗證 248 14.5 小結 251 第 15章 正則化 252 15.1 簡介 252 15.2 何為正則化 252 15.3 LASSO回歸 254 15.4 嶺回歸 255 15.5 彈性網 256 15.6 交叉驗證 258 15.7 小結 260 第 16章 聚類 261 16.1 簡介 261 16.2 k均值聚類 261 16.3 層次聚類 267 16.3.1 最長距離法 267 16.3.2 最短距離法 267 16.3.3 平均距離法 268 16.3.4 重心法 268 16.3.5 手動設置閾值 269 16.4 小結 270 第五部分 終章 271 第 17章 Pandas之外 272 17.1 科學計算棧 272 17.2 性能 272 17.2.1 測試代碼運行時間 272 17.2.2 分析代碼 274 17.3 規模更大、速度更快 274 第 18章 寫給自學者 275 18.1 不可閉門造車 275 18.2 本地聚會 275 18.3 參加會議 275 18.4 互聯網 276 18.5 播客 276 18.6 小結 276 第六部分 附錄 附錄A 安裝 278 附錄B 命令行 280 附錄C 項目模板 282 附錄D Python代碼編寫工具 283 附錄E 工作目錄 285 附錄F 環境 287 附錄G 安裝包 289 附錄H 導入庫 291 附錄I 列表 293 附錄J 元組 294 附錄K 字典 295 附錄L 切片 297 附錄M 循環 299 附錄N 推導式 300 附錄O 函數 301 附錄P 范圍和生成器 305 附錄Q 多重賦值 307 附錄R NumPy ndarray 309 附錄S 類 311 附錄T 變形器odo 313 版權聲明 314 |
序: |
|