從零開始學Python數據分析:視頻教學版 ( 簡體 字) |
作者:羅攀 編著 | 類別:1. -> 程式設計 -> Python |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 49771 詢問書籍請說出此書號!【有庫存】 NT售價: 345 元 |
出版日:8/1/2018 |
頁數:255 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111606468 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: 互聯網的飛速發展伴隨著海量信息的產生,而海量信息的背后對應的則是海量數據。如何從這些海量數據中獲取有價值的信息來供人們學習和工作使用,這就不得不用到大數據挖掘和分析技術。數據分析作為大數據技術的核心一環,其重要性不言而喻。
在數據分析領域,Python語言以其簡單易用,并提供了優秀、好用的第三方庫和數據分析的完整框架而深受數據分析人員的青睞。可以說,Python已經當仁不讓地成為了數據分析人員的一把“利器”。程序員想要進入數據分析行業,首先要掌握Python數據分析技術,只有這樣才能在嚴峻的就業市場中具有較強的競爭力。
目前圖書市場上關于Python數據分析的圖書主要是幾本翻譯圖書,其定位相對高端,而且翻譯質量參差不齊,案例數據不方便下載,閱讀難度系數較大,初學者不容易上手,故不適合初學者學習;而國內的幾本原創Python數據分析圖書質量也良莠不齊,不成系統,也不適合初學者閱讀。可以說,圖書市場上還鮮見一本通俗易懂且適合“小白”閱讀的Python數據分析入門圖書,基于此,筆者編寫了本書。本書從Python數據分析的基礎知識入手講解,然后結合大量的數據分析案例,系統地介紹了Python數據分析的方法和流程,手把手帶領讀者掌握Python數據分析的相關知識,并提高讀者的項目實踐能力。
本書特色
1.視頻教學,高效、直觀
為了便于讀者高效、直觀地學習,筆者專門為本書的重點內容錄制了配套教學視頻,讀者可以一邊看書,一邊結合教學視頻進行學習,以取得更好的學習效果。
2.內容全面,講解系統
本書不但全面介紹了從Numpy到pandas,從matplotlib到pyecharts的數據分析必學技術,而且還系統地講解了從數據讀取到數據清洗,從數據處理到數據可視化的詳細步驟。
3.給出了數據分析環境的安裝和配置步驟
本書詳細介紹了Python數據分析集成環境Anaconda的安裝步驟和使用方法,可以大大降低初學者學習Python數據分析的門檻,從而讓讀者快速跨進Python數據分析的大門。
4.詳細介紹了數據分析的流程
本書從一開始便對數據分析的流程進行了詳細介紹,而且在講解中結合了多個實用性很強的數據分析項目案例,帶領讀者掌握Python數據分析的相關知識,以解決實際工作中的數據分析問題。
5.提供了9個有較高應用價值的項目案例,有很強的實用性
本書提供了9個實用性很強的數據分析項目案例,這些案例從不同的分析角度切入進行講解,具有較高的應用價值。讀者通過實際操練,可以更加透徹地理解數據分析的相關知識。
6.提供教學PPT,方便教學和學習
筆者專門為本書制作了專業的教學PPT,以方便相關院校的教學人員授課時使用;讀者也可以通過教學PPT,提綱挈領地掌握書中的內容脈絡。
本書內容
第1章 Python環境搭建與使用
本章介紹了如何搭建和使用Python數據分析環境,并介紹了如何使用Jupyter Notebook進行數據分析編程。
第2章 NumPy入門和實戰
本章首先介紹了Numpy的基本數據結構——多維數組;然后介紹了多維數組的創建和基本屬性、數組的切片和索引方法,以及數組的運算與存取;最后通過綜合案例,演示了如何實現圖像的變換功能。
第3章 pandas入門和實戰
本章首先介紹了pandas中兩種基礎數據結構的創建和使用方法;然后詳細講解了DataFrame的選取和操作,同時介紹了其算術運算、函數的使用和pandas的可視化方法;最后結合案例,介紹了數據分析流程。
第4章 外部數據的讀取與存儲
本章主要介紹了如何利用pandas庫讀取外部數據為DataFrame數據格式,并介紹了通過Python進行數據處理后如何將DataFrame類數據存儲到相應的外部數據文件中。
第5章 數據清洗與整理
本章主要介紹了如何使用pandas進行多源數據的清洗和整理,并給出了針對多源數據的合并和連接方法,以及數據的重塑方法,最后通過一個綜合案例演示了數據分析中的數據清洗過程。
第6章 數據分組與聚合
本章涵蓋的主要內容有:GroupBy的原理和使用方法;聚合函數的使用;分組運算中transform和apply方法的使用;通過pandas創建數據透視表;通過綜合案例,鞏固數據分組統計的使用。
第7章 matplotlib可視化
本章涵蓋的主要內容有:利用matplotlib進行圖表繪制;學會使用自定義設置,個性化繪制圖表;通過綜合案例,鞏固matplotlib可視化的方法和技巧。
第8章 seaborn可視化
本章涵蓋的主要內容有:使用seaborn繪圖;學會seaborn樣式和分布圖繪制;通過綜合案例泰坦尼克號的生還者數據,鞏固seaborn的可視化方法和技巧。
第9章 pyecharts可視化
本章涵蓋的主要內容有:安裝pyecharts庫;學會使用pyecharts庫繪制基本圖表;學會繪制其他圖表;通過綜合案例,鞏固pyecharts的繪制方法和技巧。
第10章 時間序列
本章涵蓋的主要內容有:時間序列的構造和使用方法;時間序列的頻率轉換與重采樣;通過綜合案例,鞏固時間序列數據的處理與分析方法。
第11章 綜合案例——網站日志分析
本章通過一個綜合案例,介紹了如何通過Python的第三方庫解析網站日志;如何利用pandas對網站日志數據進行預處理;結合前面介紹的數據分析和數據可視化技術對網站日志數據進行分析。
本書配套資源獲取方式
本書提供以下配套資源:
* 本書配套教學視頻;
* 超值電子書(地圖繪制技術);
* 本書相關素材文件;
* 本書源代碼文件;
* 本書教學PPT。
這些配套資源需要讀者自行下載。請登錄機械工業出版社華章公司網站www.hzbook.com,在該網站上搜索到本書,然后單擊“資料下載”按鈕即可找到“配書資源”下載鏈接。
適合閱讀本書的讀者
* 數據分析初學者;
* 數據分析愛好者;
* 數據分析從業人員;
* 數據分析培訓學員;
* 高校相關專業的學生。
本書由羅攀主筆編寫,蔣仟、陳瑞滕和潘丹三位小伙伴也參與了部分章節的編寫工作,在此對他們表示特別的感謝!
由于作者水平所限,加之寫作時間有限,書中可能還存在一些疏漏和不足之處,敬請各位讀者斧正。聯系我們請發電子郵件到。
羅攀 |
內容簡介:網絡中的信息是很龐大的。如何提取這些信息?如何分析這些信息?這都需要用到數據分析技術。而數據分析技術的首選語言是Python,而本書便是一本適合“小白”學習Python數據分析的入門圖書,書中不僅有各種分析框架的使用技巧,而且也有各類數據圖表的繪制方法。本書通過講解多個案例,讓讀者體驗數據背后的樂趣。
本書共11章,核心內容包括Python數據分析環境安裝、NumPy基礎、pandas基礎、外部數據讀取與存儲、數據清洗與整理、數據分組與聚合、matplotlib可視化、seaborn可視化、pyecharts可視化、時間序列、網站日志分析綜合案例等。
本書適合Python數據分析的初學者和愛好者閱讀,也適合作為各類院校相關專業的教學用書,同時還適合相關社會培訓機構作為Python數據分析的培訓教材或者參考書。 |
目錄:前言 第1章 Python環境搭建與使用 1 1.1 Anaconda的安裝和使用 1 1.1.1 Anaconda的安裝 1 1.1.2 Anaconda的使用 3 1.2 Jupyter Notebook的使用 5 1.2.1 更改工作空間 5 1.2.2 界面介紹與使用 7 第2章 NumPy入門和實戰 9 2.1 ndarray多維數組 9 2.1.1 創建ndarray數組 9 2.1.2 ndarray對象屬性 12 2.1.3 ndarray數據類型 13 2.1.4 數組變換 15 2.1.5 NumPy的隨機數函數 18 2.2 數組的索引和切片 20 2.2.1 數組的索引 21 2.2.2 數組的切片 23 2.2.3 布爾型索引 24 2.2.4 花式索引 26 2.3 數組的運算 26 2.3.1 數組和標量間的運算 26 2.3.2 通用函數 27 2.3.3 條件邏輯運算 28 2.3.4 統計運算 30 2.3.5 布爾型數組運算 31 2.3.6 排序 32 2.3.7 集合運算 33 2.3.8 線性代數 34 2.4 數組的存取 34 2.4.1 數組的存儲 35 2.4.2 數組的讀取 35 2.5 綜合示例——圖像變換 35 第3章 pandas入門和實戰 38 3.1 pandas數據結構 38 3.1.1 創建Series數據 38 3.1.2 創建DataFrame數據 40 3.1.3 索引對象 43 3.2 pandas索引操作 44 3.2.1 重新索引 45 3.2.2 更換索引 46 3.2.3 索引和選取 48 3.2.4 操作行和列 52 3.3 pandas數據運算 53 3.3.1 算術運算 54 3.3.2 函數應用和映射 55 3.3.3 排序 56 3.3.4 匯總與統計 57 3.3.5 唯一值和值計數 58 3.4 層次化索引 59 3.4.1 層次化索引簡介 59 3.4.2 重排分級順序 60 3.4.3 匯總統計 61 3.5 pandas可視化 61 3.5.1 線形圖 61 3.5.2 柱狀圖 63 3.5.3 直方圖和密度圖 66 3.5.4 散點圖 67 3.6 綜合示例——小費數據集 68 3.6.1 數據分析流程 68 3.6.2 數據來源 68 3.6.3 定義問題 69 3.6.4 數據清洗 69 3.6.5 數據探索 70 第4章 外部數據的讀取與存儲 73 4.1 文本數據的讀取與存儲 73 4.1.1 CSV文件的讀取 73 4.1.2 TXT文件的讀取 80 4.1.3 文本數據的存儲 81 4.2 JSON和Excel數據的讀取與存儲 82 4.2.1 JSON數據的讀取與存儲 82 4.2.2 Excel數據的讀取與存儲 85 4.3 數據庫的讀取與存儲 87 4.3.1 連接數據庫 87 4.3.2 讀取數據庫 88 4.3.3 存儲數據庫 90 4.4 Web數據的讀取 90 4.4.1 讀取HTML表格 90 4.4.2 網絡爬蟲 92 第5章 數據清洗與整理 95 5.1 數據清洗 95 5.1.1 處理缺失值 95 5.1.2 移除重復數據 99 5.1.3 替換值 101 5.1.4 利用函數或映射進行數據轉換 101 5.1.5 檢測異常值 102 5.1.6 虛擬變量 103 5.2 數據合并和重塑 104 5.2.1 merge合并 105 5.2.2 concat連接 110 5.2.3 combine_first合并 113 5.2.4 數據重塑 114 5.3 字符串處理 116 5.3.1 字符串方法 117 5.3.2 正則表達式 118 5.4 綜合示例——Iris數據集 118 5.4.1 數據來源 118 5.4.2 定義問題 119 5.4.3 數據清洗 119 5.4.4 數據探索 123 第6章 數據分組與聚合 125 6.1 數據分組 125 6.1.1 GroupBy簡介 125 6.1.2 按列名分組 128 6.1.3 按列表或元組分組 130 6.1.4 按字典分組 130 6.1.5 按函數分組 131 6.2 聚合運算 132 6.2.1 聚合函數 132 6.2.2 多函數應用 134 6.3 分組運算 136 6.3.1 transform方法 137 6.3.2 apply方法 138 6.4 數據透視表 139 6.4.1 透視表 140 6.4.2 交叉表 140 6.5 綜合實例——巴爾的摩公務員工資數據集 142 6.5.1 數據來源 142 6.5.2 定義問題 143 6.5.3 數據清洗 143 6.5.4 數據探索 144 第7章 matplotlib可視化 148 7.1 線形圖 148 7.1.1 基本使用 148 7.1.2 顏色與線形 149 7.1.3 點標記 151 7.2 柱狀圖 152 7.2.1 基本使用 152 7.2.2 刻度與標簽 155 7.2.3 圖例 156 7.3 其他基本圖表 158 7.3.1 散點圖 158 7.3.2 直方圖 159 7.4 自定義設置 159 7.4.1 圖表布局 159 7.4.2 文本注解 162 7.4.3 樣式與字體 163 7.5 綜合示例——星巴克店鋪數據集 164 7.5.1 數據來源 164 7.5.2 定義問題 166 7.5.3 數據清洗 166 7.5.4 數據探索 168 第8章 seaborn可視化 172 8.1 樣式與分布圖 172 8.1.1 seaborn樣式 172 8.1.2 坐標軸移除 174 8.1.3 單變量分布圖 175 8.1.4 多變量分布圖 178 8.2 分類圖 181 8.2.1 分類散點圖 181 8.2.2 箱線圖與琴形圖 183 8.2.3 柱狀圖 186 8.3 回歸圖與網格 187 8.3.1 回歸圖 187 8.3.2 網格 190 8.4 綜合示例——泰坦尼克號生還者數據 191 8.4.1 數據來源 191 8.4.2 定義問題 192 8.4.3 數據清洗 192 8.4.4 數據探索 195 第9章 pyecharts可視化 202 9.1 基礎圖表 202 9.1.1 pyecharts安裝 202 9.1.2 散點圖 203 9.1.3 折線圖 204 9.1.4 柱狀圖 206 9.2 其他圖表 209 9.2.1 餅圖 210 9.2.2 箱線圖 212 9.3 綜合示例——糗事百科用戶數據 213 9.3.1 數據來源 214 9.3.2 定義問題 214 9.3.3 數據清洗 215 9.3.4 數據探索 217 第10章 時間序列 224 10.1 datetime模塊 224 10.1.1 datetime構造 224 10.1.2 數據轉換 225 10.2 時間序列基礎 228 10.2.1 時間序列構造 228 10.2.2 索引與切片 229 10.3 日期 231 10.3.1 日期范圍 231 10.3.2 頻率與移動 233 10.4 時期 235 10.4.1 時期基礎 235 10.4.2 頻率轉換 236 10.4.3 時期數據轉換 237 10.5 頻率轉換與重采樣 238 10.5.1 重采樣 238 10.5.2 降采樣 239 10.5.3 升采樣 240 10.6 綜合示例——自行車租賃數據 241 10.6.1 數據來源 241 10.6.2 定義問題 242 10.6.3 數據清洗 242 10.6.4 數據探索 244 第11章 綜合案例——網站日志分析 248 11.1 數據來源 248 11.1.1 網站日志解析 248 11.1.2 日志數據清洗 251 11.2 日志數據分析 252 11.2.1 網站流量分析 252 11.2.2 狀態碼分析 255 11.2.3 IP地址分析 258 |
序: |