-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python 3爬蟲、數據清洗與可視化實戰

( 簡體 字)
作者:零一,韓要賓,黃園園類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 網路爬蟲
譯者:
出版社:電子工業出版社Python 3爬蟲、數據清洗與可視化實戰 3dWoo書號: 48782
詢問書籍請說出此書號!

缺書
NT售價: 245

出版日:3/1/2018
頁數:212
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121333590
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

Python 是軍刀型的開源工具,被廣泛應用于Web 開發、爬蟲、數據清洗、自然語言處理、機器
學習和人工智能等方面,而且Python 的語法簡潔易讀,這讓許多編程入門者不再望而卻步,因此
Python 在最近幾年非常受歡迎,各行各業的技術人員都開始使用Python。
本書內容來自筆者在高校授課的內容,主要介紹如何運用Python 工具獲取電商平臺的頁面數據,
并對數據進行清洗和存儲。本書簡化了Python 基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗
的內容。
本書采用的版本是Python 3.6.2,是筆者寫書時的最新版本,而且筆者習慣用的操作平臺是
Windows 系統。雖然目前一些高校和開發者在使用Python 2.7,但是Python 團隊將在2020 年停止對
Python 2.7 的支持更新,Python 2.X 轉向Python 3.X 是大勢所趨。
本書第1 章簡單介紹Python 和相關的IDE,如果讀者完全沒有Python 基礎,那么建議選購一本
基礎書作為輔助。第2∼6 章介紹爬蟲的實例,實現從最簡單的爬蟲到相對比較復雜的爬蟲。鑒于實
例的限制,本書的爬蟲內容沒有涉及代理服務器和驗證碼處理等問題。第7 章介紹在Python 中如何
連接并操作數據庫。第8 章介紹了NumPy 及其用法。第9 章詳細介紹pandas 的功能,pandas 是Python
數據清洗和建模中非常重要的庫。第10 章用兩個完整案例展示了從爬蟲到建模的過程。第11 章介
紹Python 的可視化,選用的庫是matplotlib 和pyecharts,這里詳細介紹了pyecharts。
鑒于作者的水平有限,不足之處請讀者不吝指教。
內容簡介:

本書內容來自筆者在浙江某高校授課內容,主要介紹運用Python工具獲取電商平臺的頁面數據,并對數據做清洗和存儲。本書簡化了Python基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗的內容,對于Python基礎,建議新手可以選購對應的基礎書籍配合本書一起學習。

目錄:

第1 章 Python 基礎 ........... 1
1.1 安裝Python 環境.............. 1
1.1.1 Python 3.6.2 安裝與配置 .......... 1
1.1.2 使用IDE 工具——PyCharm .......... 4
1.1.3 使用IDE 工具——Anaconda ........... 4
1.2 Python 操作入門 .............. 6
1.2.1 編寫第一個Python 代碼 .......... 6
1.2.2 Python 基本操作 ............. 9
1.2.3 變量 .............. 10
1.3 Python 數據類型 ............ 10
1.3.1 數字 .............. 10
1.3.2 字符串 ...............11
1.3.3 列表 .............. 13
1.3.4 元組 .............. 14
1.3.5 集合 .............. 15
1.3.6 字典 .............. 15
1.4 Python 語句與函數 ............. 16
1.4.1 條件語句 .............. 16
1.4.2 循環語句 .............. 16
1.4.3 函數 .............. 17
第2 章 寫一個簡單的爬蟲 .......... 18
2.1 關于爬蟲的合法性 ............. 18
2.2 了解網頁 ............... 20
2.2.1 認識網頁結構 ............ 21
2.2.2 寫一個簡單的HTML ........... 21
2.3 使用requests 庫請求網站 ............ 23
Python 3 爬蟲、數據清洗與可視化實戰

2.3.1 安裝requests 庫 ............. 23
2.3.2 爬蟲的基本原理 ............ 25
2.3.3 使用GET 方式抓取數據 .......... 26
2.3.4 使用POST 方式抓取數據 .......... 27
2.4 使用Beautiful Soup 解析網頁 ........... 30
2.5 清洗和組織數據 ............. 34
2.6 爬蟲攻防戰 ............. 35
第3 章 用API 爬取天氣預報數據 ....... 38
3.1 注冊免費API 和閱讀技術文檔 ........... 38
3.2 獲取API 數據 .............. 40
3.3 存儲數據到MongoDB ........... 45
3.3.1 下載并安裝MongoDB ............ 45
3.3.2 在PyCharm 中安裝Mongo Plugin ......... 46
3.3.3 將數據存入MongoDB ............ 49
3.4 MongoDB 數據庫查詢 ........... 52
第4 章 大型爬蟲案例:抓取某電商網站的商品數據 ..... 55
4.1 觀察頁面特征和解析數據 ........... 55
4.2 工作流程分析 ............. 64
4.3 構建類目樹 ............. 65
4.4 獲取產品列表 ............. 68
4.5 代碼優化 ............... 70
4.6 爬蟲效率優化 ............. 74
4.7 容錯處理 ............... 77
第5 章 Scrapy 爬蟲 ........... 78
5.1 Scrapy 簡介 ............. 78
5.2 Scrapy 安裝 ............. 79
5.3 案例:用Scrapy 抓取股票行情 .......... 80
第6 章 Selenium爬蟲 .......... 88
6.1 Selenium 簡介 ............. 88
6.2 案例:用Selenium 抓取電商網站數據 ........ 90

第7 章 數據庫連接和查詢 ........ 100
7.1 使用PyMySQL ............ 100
7.1.1 連接數據庫 ............ 100
7.1.2 案例:某電商網站女裝行業TOP100 銷量數據 ....... 102
7.2 使用SQLAlchemy ............ 104
7.2.1 SQLAlchemy 基本介紹 ........... 104
7.2.2 SQLAlchemy 基本語法 ........... 105
7.3 MongoDB .............. 107
7.3.1 MongoDB 基本語法 ............ 107
7.3.2 案例:在某電商網站搜索“連衣裙”的商品數據 ...... 107
第8 章 NumPy ........... 109
8.1 NumPy 簡介 .............. 109
8.2 一維數組 ..............110
8.2.1 數組與列表的異同 ...........110
8.2.2 數組的創建 ............. 111
8.3 多維數組 .............. 111
8.3.1 多維數組的高效性能 ...........112
8.3.2 多維數組的索引與切片 ...........113
8.3.3 多維數組的屬性 .............113
8.4 數組的運算 ..............115
第9 章 pandas 數據清洗 .......... 117
9.1 數據讀寫、選擇、整理和描述 ..........117
9.1.1 從CSV 中讀取數據 ...........119
9.1.2 向CSV 寫入數據 ............ 120
9.1.3 數據選擇 .............. 120
9.1.4 數據整理 .............. 122
9.1.5 數據描述 .............. 123
9.2 數據分組、分割、合并和變形 ........... 124
9.2.1 數據分組 .............. 124
9.2.2 數據分割 .............. 127
9.2.3 數據合并 .............. 128
9.2.4 數據變形 .............. 134
9.2.5 案例:旅游數據的分析與變形 .......... 136
Python 3 爬蟲、數據清洗與可視化實戰

9.3 缺失值、異常值和重復值處理 ........... 140
9.3.1 缺失值處理 ............ 140
9.3.2 檢測和過濾異常值 ............ 144
9.3.3 移除重復數據 ............ 147
9.3.4 案例:旅游數據的值檢查與處理 ........ 149
9.4 時序數據處理 ............. 152
9.4.1 日期/時間數據轉換 ........... 152
9.4.2 時序數據基礎操作 ............ 153
9.4.3 案例:天氣數據分析與處理 .......... 155
9.5 數據類型轉換 ............. 158
9.6 正則表達式 ............. 160
9.6.1 元字符與限定符 ............ 161
9.6.2 案例:用正則表達式提取網頁文本信息 ........ 162
第10 章 綜合應用實例 ......... 164
10.1 按性價比給用戶推薦旅游產品 ......... 164
10.1.1 數據采集 .............. 165
10.1.2 數據清洗、建模 ............ 169
10.2 通過熱力圖分析為用戶提供出行建議 ......... 172
10.2.1 某旅游網站熱門景點爬蟲代碼(qunaer_sights.py) ..... 175
10.2.2 提取CSV 文件中經緯度和銷量信息 ........ 178
10.2.3 創建景點門票銷量熱力地圖HTML 文件 ....... 179
第11 章 數據可視化 ......... 182
11.1 matplotlib .............. 183
11.1.1 畫出各省份平均價格、各省份平均成交量柱狀圖 ...... 183
11.1.2 畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖 .... 184
11.1.3 畫出價格與成交量的散點圖 .......... 185
11.2 pyecharts .............. 186
11.2.1 Echarts 簡介 ............. 186
11.2.2 pyecharts 簡介 ............. 187
11.2.3 初識pyecharts,玫瑰相送 .......... 187
11.2.4 pyecharts 基本語法 ............ 188
11.2.5 基于商業分析的pyecharts 圖表繪制 ......... 190
11.2.6 使用pyecharts 繪制其他圖表 ......... 199
11.2.7 pyecharts 和Jupyter ........... 203
序: