-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python 3 爬蟲、數據清洗與可視化實戰(第2版)

( 簡體 字)
作者:零一,韓要賓,黃園園類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 網路爬蟲
譯者:
出版社:電子工業出版社Python 3 爬蟲、數據清洗與可視化實戰(第2版) 3dWoo書號: 53012
詢問書籍請說出此書號!

缺書
NT售價: 345

出版日:7/1/2020
頁數:260
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121391187
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

Python 是軍刀型的開源工具,被廣泛應用于Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方面,而且Python 的語法簡潔易讀,這讓許多編程入門者不再望而卻步,因此,Python 在最近幾年非常受歡迎,各行各業的技術人員都開始使用Python。
本書內容來自筆者在高校授課的內容,主要介紹如何運用Python 工具獲取電商平臺的頁面數據,并對數據進行清洗和存儲。本書簡化了Python 基礎部分,從而保證有足夠的篇幅來介紹爬蟲、數據清洗和可視化的內容。
本書第1版自出版以來受到各界人士的青睞,為了給讀者更好的體驗,第2 版的代碼和數據都保存在Gitee 上,讀者可通過訪問筆者的Gitee 主頁獲取資料。第2 版在內容上新增了習題、手機App 數據的采集方法和Selenium 的基礎操作,其中習題包含選擇題、判斷題、填空題、實操題和應用題。
本書采用的Python 版本是Python 3.6.2。雖然目前一些高校和開發者在使用Python 2.7,但是Python 團隊在2020 年1 月1 日停止了對Python 2.7 的支持、更新,因此Python 2.X 轉向Python 3.X是大勢所趨。
本書第1 章簡單介紹Python 和相關的IDE,如果讀者完全沒有Python 基礎,那么建議選購一本基礎書作為輔助。第2∼7 章介紹爬蟲的實例,實現從最簡單的爬蟲到相對較復雜的爬蟲,涉及的爬蟲包有requests、Scrapy 和Selenium,采集對象有PC 網頁和手機App。鑒于實例的限制,本書的爬蟲內容沒有涉及代理服務器和驗證碼處理等問題。第8 章介紹了4 個知名網站的采集案例。
第9 章介紹在Python 中如何連接并操作數據庫。第10 章介紹了NumPy 及其用法。第11 章詳細介紹了pandas 的功能,pandas 是Python 數據清洗和建模中非常重要的庫。第12 章用兩個完整的案例展示了從爬蟲到建模的過程。第13 章介紹了Python 的數據可視化,選用的庫是matplotlib 和pyecharts,其中詳細介紹了pyecharts。鑒于筆者水平有限,書中不足之處請讀者不吝指教。
說明
網絡爬蟲作為一項技術,更應該服務于社會。在使用該技術的過程中,應遵守Robots 協議。同時,需要注意對數據所涉及的知識產權和隱私信息進行保護。另外,在采集數據時,需要注意禮貌,即不頻繁地請求網頁,以防止給數據提供者的服務器造成不良影響。在使用所采集的數據時,需要注意是否涉及商業利益和相關法律。本書中所使用的案例皆為測試案例,僅供讀者學習使用,本書中的URL 均做了處理。
內容簡介:

本書是一本通過實戰教初學者學習爬取數據、清洗和組織數據進行分析和可視化的Python 讀物。書中案例均經過實戰檢驗,筆者在實踐過程中深感采集數據、清洗和組織數據的重要性,作為一名數據行業的“碼農”,數據就是沃土,沒有數據,我們將無田可耕。本書共13 章,包括6 個核心主題,其一是Python 基礎入門,包括環境配置、基本操作、數據類型、語句和函數;其二是Python 爬蟲的構建,包括網頁結構解析、爬蟲流程設計、代碼優化、爬蟲效率優化、無線端的數據采集、容錯處理、反防爬蟲、表單交互和模擬頁面點擊;其三是Python數據庫應用,包括MongoDB、MySQL 在Python 中的連接與應用;其四是數據清洗和組織,包括NumPy 數組知識,以及pandas 數據的讀寫、分組、變形,缺失值、異常值和重復值處理,時序數據處理和正則表達式的使用等;其五是綜合應用實例,幫助讀者貫穿爬蟲、數據清洗與組織的過程;最后是數據可視化,包括matplotlib 和pyecharts 兩個庫的使用,涉及餅圖、柱形圖、線圖、詞云圖等圖形,幫助讀者進入可視化的殿堂。本書以實戰為主,適合Python 初學者及高等院校相關專業的學生閱讀,也適合Python 培訓機構作為實驗教材。
目錄:

第1 章 Python 語言基礎 1
1.1 安裝Python 環境 1
1.1.1 Python 3.6.2 安裝與配置 1
1.1.2 使用IDE 工具——PyCharm 4
1.1.3 使用IDE 工具——Anaconda 4
1.2 Python 操作入門 5
1.2.1 編寫第一個Python 代碼 5
1.2.2 Python 基本操作 . 8
1.2.3 變量 . 10
1.3 Python 數據類型 . 10
1.3.1 數字 . 10
1.3.2 字符串 11
1.3.3 列表 . 14
1.3.4 元組 . 15
1.3.5 集合 . 15
1.3.6 字典 . 15
1.4 Python 語句與函數 16
1.4.1 條件語句 16
1.4.2 循環語句 16
1.4.3 函數 . 17
1.5 習題 18

第2 章 數據采集的基本知識 . 25
2.1 關于爬蟲的合法性 25
2.2 了解網頁 . 27
2.2.1 認識網頁結構 28
2.2.2 寫一個簡單的HTML 28
2.3 使用requests 庫請求網站 . 30
2.3.1 安裝requests 庫 30
2.3.2 爬蟲的基本原理 32
2.3.3 使用GET 方式抓取數據 . 33
2.3.4 使用POST 方式抓取數據 .. 34
2.4 使用Beautiful Soup 解析網頁 37
2.5 清洗和組織數據 . 41
2.6 爬蟲攻防戰 42
2.7 關于什么時候存儲數據 . 45
2.8 習題 45

第3 章 用API 爬取天氣預報數據 . 48
3.1 注冊免費API 和閱讀技術文檔 . 48
3.2 獲取API 數據 50
3.3 存儲數據到MongoDB 55
3.3.1 下載并安裝MongoDB . 55
3.3.2 在PyCharm 中安裝Mongo Plugin . 56
3.3.3 將數據存入MongoDB 中 59
3.4 MongoDB 數據庫查詢 61
3.5 習題 64

第4 章 大型爬蟲案例:抓取某電商網站的商品數據 . 65
4.1 觀察頁面特征和解析數據. 65
4.2 工作流程分析 74
4.3 構建類目樹 75
4.4 獲取景點產品列表 78
4.5 代碼優化 . 80
4.6 爬蟲效率優化 .. 84
4.7 容錯處理 . 87
4.8 習題 87

第5 章 采集手機App 數據 . 89
5.1 模擬器及抓包環境配置 . 89
5.2 App 數據抓包 .. 93
5.3 手機App 數據的采集 95
5.4 習題 96

第6 章 Scrapy 爬蟲 . 98
6.1 Scrapy 簡介 98
6.2 安裝Scrapy 99
6.3 案例:用Scrapy 抓取股票行情 . 100
6.4 習題 . 108

第7 章 Selenium 爬蟲 109
7.1 Selenium 簡介 109
7.2 安裝Selenium 111
7.3 Selenium 定位及操作元素 . 111
7.4 案例:用Selenium 抓取某電商網站數據 . 114
7.5 習題 . 122

第8 章 爬蟲案例集錦 124
8.1 采集外賣平臺數據 . 124
8.1.1 采集目標 124
8.1.2 采集代碼 126
8.2 采集內容平臺數據 . 127
8.2.1 采集目標 127
8.2.2 采集代碼 129
8.3 采集招聘平臺數據 . 130
8.3.1 采集目標 130
8.3.2 采集代碼 132
8.4 采集知識付費平臺數據 .. 133
8.4.1 采集目標 133
8.4.2 采集代碼 136

第9 章 數據庫連接和查詢 137
9.1 使用PyMySQL . 137
9.1.1 連接數據庫 .. 137
9.1.2 案例:某電商網站女裝行業TOP100 銷量數據 139
9.2 使用SQLAlchemy .. 141
9.2.1 SQLAlchemy 基本介紹 . 141
9.2.2 SQLAlchemy 基本語法 . 142
9.3 MongoDB . 144
9.3.1 MongoDB 基本語法 144
9.3.2 案例:在某電商網站搜索“連衣裙”的商品數據 145
9.4 習題 . 146

第10 章 NumPy 數組操作 148
10.1 NumPy 簡介 148
10.2 一維數組 149
10.2.1 數組與列表的異同 149
10.2.2 數組的創建 150
10.3 多維數組 151
10.3.1 多維數組的高效性能 151
10.3.2 多維數組的索引與切片 152
10.3.3 多維數組的屬性和方法 153
10.4 數組的運算 .. 154
10.5 習題 155

第11 章 pandas 數據清洗 158
11.1 數據讀寫、選擇、整理和描述 . 158
11.1.1 從CSV 中讀取數據 160
11.1.2 向CSV 中寫入數據 161
11.1.3 數據選擇 . 161
11.1.4 數據整理 . 163
11.1.5 數據描述 . 164
11.2 數據分組、分割、合并和變形 . 165
11.2.1 數據分組 . 165
11.2.2 數據分割 . 168
11.2.3 數據合并 . 169
11.2.4 數據變形 . 175
11.2.5 案例:旅游數據的分析與變形 177
11.3 缺失值、異常值和重復值處理 . 181
11.3.1 缺失值處理 181
11.3.2 檢測和過濾異常值 184
11.3.3 移除重復值 187
11.3.4 案例:旅游數據值的檢查與處理 . 189
11.4 時序數據處理 . 192
11.4.1 日期/時間數據轉換 192
11.4.2 時序數據基礎操作 193
11.4.3 案例:天氣預報數據分析與處理 . 195
11.5 數據類型轉換 . 199
11.6 正則表達式 201
11.6.1 元字符與限定符 . 201
11.6.2 案例:用正則表達式提取網頁文本信息 . 202
11.7 習題 203

第12 章 綜合應用實例 206
12.1 按性價比給用戶推薦旅游產品 . 206
12.1.1 數據采集 . 207
12.1.2 數據清洗、建模 . 211
12.2 通過熱力圖分析為用戶提供出行建議 . 213
12.2.1 某旅游網站熱門景點爬蟲代碼 .. 217
12.2.2 提取CSV 文件中經緯度和銷量信息 . 220
12.2.3 創建景點門票銷量熱力圖HTML 文件 221

第13 章 數據可視化 . 224
13.1 應用matplotlib 畫圖 225
13.1.1 畫出各省份平均價格、各省份平均成交量柱狀圖 225
13.1.2 畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖 227
13.1.3 畫出價格與成交量的散點圖 228
13.2 應用pyecharts 畫圖 228
13.2.1 Echarts 簡介 228
13.2.2 pyecharts 簡介 229
13.2.3 初識pyecharts,玫瑰相送 229
13.2.4 pyecharts 基本語法 230
13.2.5 基于商業分析的pyecharts 圖表繪制 . 232
13.2.6 使用pyecharts 繪制其他圖表 . 242
13.2.7 pyecharts 和Jupyter 245
13.3 習題 246
序: