-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python數據分析入門——從數據獲取到可視化

( 簡體 字)
作者:沈祥壯類別:1. -> 程式設計 -> Python
譯者:
出版社:電子工業出版社Python數據分析入門——從數據獲取到可視化 3dWoo書號: 48711
詢問書籍請說出此書號!

缺書
NT售價: 295

出版日:3/1/2018
頁數:260
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121336539
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

Python作為一門優秀的編程語言,近年來受到很多編程愛好者的青睞。一是因為Python本身具有簡捷優美、易學易用的特點;二是由于互聯網的飛速發展,我們正迎來大數據的時代,而Python無論是在數據的采集與處理方面,還是在數據分析與可視化方面都有獨特的優勢。我們可以利用Python便捷地開展與數據相關的項目,以很低的學習成本快速完成項目的研究。本書本著實用性的目的,著眼于整個數據分析的流程,介紹了從數據采集到可視化的大致流程。希望借此為Python初學者打開數據分析領域的大門,初窺數據分析的奧秘。
本書的主要內容
第1章主要講解了在Ubuntu和Windows系統下,Python集成開發環境的搭建。考慮到初學者容易為安裝第三方庫犯難,又介紹了三種簡單實用的方法來安裝這些常見的庫。接著對幾個后面要用到的高級語法進行了簡單介紹,為之后的應用打下基礎。
第2章集中講解了數據采集的流程,即網絡爬蟲程序的設計與實現。首先本章沒有拘泥于使用Python的內置庫urllib庫進行實現,而是直接介紹了requests和其他更加簡捷強大的庫來完成程序的設計。在進階內容中,對常見的編碼問題、異常處理、代理IP、驗證碼、機器人協議、模擬登錄,以及多線程等相關問題給出了解決的方案。
第3章講解數據的清洗問題。在具體講解清洗數據之前,先介紹了TXT、XLSX、JSON、CSV等各種文件的導入和導出的方法,并介紹了Python與MySQL數據庫交互的方式。接著介紹了NumPy和pandas庫的基本使用方法,這是我們用于數據處理和科學計算的兩個強大的工具。最后綜合以上的學習介紹了數據的去重、缺失值的填補等經典的數據清洗方法。
第4章首先講解探索性數據分析的應用,并且簡單介紹了機器學習基本知識。然后演示如何應用sklearn庫提供的決策樹和最鄰近算法來處理分類問題,并嘗試根據算法原理手動實現最鄰近算法。最后介紹如何使用pandas、matplotlib和seaborn這三個庫來實現數據的可視化。
第5章是綜合性學習的章節,講解了三個小項目的完整實現過程,旨在通過操作生活中真正的數據來強化前面基礎內容的學習。
本書的讀者對象
本書面向想從事數據工作的Python初學者。由于本書并不對Python的基礎語法做詳細的講解,所以希望讀者有一定的語法基礎。
測試環境及代碼
我們使用的語法是基于Python 3的,具體是Python 3.6,用到的第三方庫也已經全面支持此版本,所以讀者不必擔心相關的版本問題;測試環境為Ubuntu 16.04 LTS 64-Bit。本書中使用的全部代碼及相關數據已經托管至Github。
聯系作者
雖然本書只是入門級圖書,但是限于筆者水平有限,難免會存在一些錯誤,有些地方的表述可能也不是那么準確。非常歡迎讀者指出本書的不當之處或提出建設性的意見。筆者的電子郵件地址是。
致謝
在本書的撰寫過程中受到過很多人的幫助,這里特別感謝劉松學長,感謝學長對筆者本人長久以來的幫助,從他那里我學到了很多關于Python語言、機器學習以及計算機視覺等相關知識。另外,特別感謝IT工作者謝滿銳先生對本書的細心審校,也感謝他為本書的進一步修改提出建設性意見。同時,感謝電子工業出版社石倩、楊嘉媛編輯的幫助。最后,本書參閱了大量的國內外的文獻,這里對有關作者表示衷心的感謝。
內容簡介:

本書作為數據分析的入門圖書,以Python語言為基礎,介紹了數據分析的整個流程。本書內容涵蓋數據的獲取(即網絡爬蟲程序的設計)、前期數據的清洗和處理、運用機器學習算法進行建模分析,以及使用可視化的方法展示數據及結果。首先,書中不會涉及過于高級的語法,不過還是希望讀者有一定的語法基礎,這樣可以更好地理解本書的內容。其次,本書重點在于應用Python來完成一些數據分析和數據處理的工作,即如何使用Python來完成工作而非專注于Python語言語法等原理的講解。本書的目的是讓初學者不論對數據分析流程本身還是Python語言,都能有一個十分直觀的感受,為以后的深入學習打下基礎。最后,讀者不必須按順序通讀本書,因為各個章節層次比較分明,可以根據興趣或者需要來自行安排。例如第5章介紹了一些實戰的小項目,有趣且難度不大,大家可以在學習前面內容之余來閱讀這部分內容。

目錄:

1 準備 1
1.1 開發環境搭建 2
1.1.1 在Ubuntu系統下搭建Python集成開發環境 2
1.1.2 在Windows系統下搭建Python集成開發環境 13
1.1.3 三種安裝第三方庫的方法 16
1.2 Python基礎語法介紹 19
1.2.1 if__name__==’__main__’ 20
1.2.2 列表解析式 22
1.2.3 裝飾器 23
1.2.4 遞歸函數 26
1.2.5 面向對象 27
1.3 The Zen of Python 28
參考文獻 30
2 數據的獲取 31
2.1 爬蟲簡介 31
2.2 數據抓取實踐 33
2.2.1 請求網頁數據 33
2.2.2 網頁解析 38
2.2.3 數據的存儲 46
2.3 爬蟲進階 50
2.3.1 異常處理 50
2.3.2 robots.txt 58
2.3.3 動態UA 60
2.3.4 代理IP 61
2.3.5 編碼檢測 61
2.3.6 正則表達式入門 63
2.3.7 模擬登錄 69
2.3.8 驗證碼問題 74
2.3.9 動態加載內容的獲取 84
2.3.10 多線程與多進程 93
2.4 爬蟲總結 101
參考文獻 102
3 數據的存取與清洗 103
3.1 數據存取 103
3.1.1 基本文件操作 103
3.1.2 CSV文件的存取 111
3.1.3 JSON文件的存取 116
3.1.4 XLSX文件的存取 121
3.1.5 MySQL數據庫文件的存取 137
3.2 NumPy 145
3.2.1 NumPy簡介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas簡介 158
3.3.2 Series與DataFrame的使用 159
3.3.3 布爾值數組與函數應用 169
3.4 數據的清洗 174
3.4.1 編碼問題 174
3.4.2 缺失值的檢測與處理 175
3.4.3 去除異常值 181
3.4.4 去除重復值與冗余信息 183
3.4.5 注意事項 185
參考文獻 187
4 數據的分析及可視化 188
4.1 探索性數據分析 189
4.1.1 基本流程 189
4.1.2 數據降維 197
4.2 機器學習入門 199
4.2.1 機器學習簡介 200
4.2.2 決策樹——機器學習算法的應用 202
4.3 手動實現KNN算法 205
4.3.1 特例——最鄰近分類器 205
4.3.2 KNN算法的完整實現 213
4.4 數據可視化 215
4.4.1 高質量作圖工具——matplotlib 215
4.4.2 快速作圖工具——pandas與matplotlib 223
4.4.3 簡捷作圖工具——seaborn與matplotlib 226
4.4.4 詞云圖 230
參考文獻 232
5 Python與生活 234
5.1 定制一個新聞提醒服務 234
5.1.1 新聞數據的抓取 235
5.1.2 實現郵件發送功能 237
5.1.3 定時執行及本地日志記錄 239
5.2 Python與數學 241
5.2.1 估計π值 242
5.2.2 三門問題 245
5.2.3 解決LP與QP問題(選讀) 247
5.3 QQ群聊天記錄數據分析 251
參考文獻 256
序: