大數據爬取、清洗與可視化教程( 簡體 字) | |
作者:賈寧 | 類別:1. -> 程式設計 -> 大數據 2. -> 網路爬蟲 |
出版社:電子工業出版社 | 3dWoo書號: 54269 詢問書籍請說出此書號! 有庫存 NT售價: 280 元 |
出版日:3/1/2021 | |
頁數:308 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121407529 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章 大數據爬取、清洗與可視化概述 1
1.1 爬蟲概述 1 1.1.1 爬蟲簡介 1 1.1.2 常見爬蟲分類和工具 2 1.2 數據清洗概述 2 1.2.1 數據清洗簡介 2 1.2.2 常見數據清洗工具 3 1.3 可視化技術概述 3 1.3.1 數據可視化概述 3 1.3.2 常見可視化工具 5 1.4 相關網絡技術簡介 5 1.4.1 HTTP 5 1.4.2 HTML 7 1.4.3 XML 10 1.4.4 JSON 13 1.4.5 JavaScript 14 1.4.6 正則表達式 17 1.5 Python開發環境配置 21 1.5.1 在Windows中安裝Python 22 1.5.2 在Linux中安裝Python 24 1.5.3 Python集成開發環境 26 1.5.4 Python第三方庫管理 33 本章小結 35 習題 35 第2章 爬蟲概述 36 2.1 爬蟲基礎概述 36 2.1.1 爬蟲概念 36 2.1.2 爬蟲基本原理 37 2.2 爬蟲規范 39 2.2.1 爬蟲尺寸 39 2.2.2 Robots協議 39 2.3 爬蟲通用結構 43 2.3.1 爬蟲通用結構簡介 43 2.3.2 爬蟲基本工作流程 43 2.3.3 異常處理機制 44 2.4 爬蟲技術 46 2.4.1 urllib 3庫 46 2.4.2 網頁內容查看 51 2.4.3 XPath 56 本章小結 60 習題 60 第3章 Requests庫 62 3.1 Requests庫簡介與安裝 62 3.1.1 Requests庫簡介 62 3.1.2 Requests庫安裝 62 3.2 Requests庫基本使用 63 3.2.1 Requests庫的主要方法 63 3.2.2 發送基本請求 66 3.2.3 響應內容 66 3.2.4 訪問異常處理方案 67 3.3 Requests庫高級用法 69 3.3.1 定制請求頭部 69 3.3.2 設置超時 70 3.3.3 傳遞參數 70 3.3.4 解析JSON 72 3.4 代理設置 72 3.5 模擬登錄 73 3.5.1 保持登錄機制 73 3.5.2 使用Cookies登錄網站 74 3.5.3 登錄流程分析 77 3.5.4 Requests會話對象 78 3.5.5 登錄網站實例 80 3.6 資源下載 80 3.7 Requests庫應用實例 82 3.7.1 具體功能分析 82 3.7.2 具體代碼實現 85 本章小結 86 習題 87 第4章 BeautifulSoup爬蟲 88 4.1 BeautifulSoup簡介與安裝 88 4.1.1 BeautifulSoup簡介 88 4.1.2 BeautifulSoup4安裝方法 88 4.1.3 BeautifulSoup解析器 90 4.1.4 BeautifulSoup初探 92 4.2 BeautifulSoup對象類型 93 4.2.1 Tag 93 4.2.2 NavigableString 95 4.2.3 BeautifulSoup 96 4.2.4 Comment 96 4.3 BeautifulSoup的遍歷與搜索 97 4.3.1 遍歷文檔樹 97 4.3.2 搜索文檔樹 105 4.4 BeautifulSoup應用實例 110 4.4.1 基于BeautifulSoup的獨立數據爬取 110 4.4.2 融合正則表達式的數據爬取 112 本章小結 114 習題 115 第5章 自動化測試工具Selenium 116 5.1 Selenium簡介與安裝 116 5.1.1 Selenium簡介 116 5.1.2 Selenium安裝 116 5.2 Selenium基本用法 120 5.2.1 聲明瀏覽器對象 120 5.2.2 訪問頁面 120 5.3 元素 121 5.3.1 定位元素 121 5.3.2 交互操作元素 126 5.3.3 動作鏈 127 5.3.4 獲取元素屬性 128 5.4 Selenium高級操作 129 5.4.1 執行JavaScript 129 5.4.2 前進、后退和刷新操作 130 5.4.3 等待操作 130 5.4.4 處理Cookies 132 5.4.5 處理異常 133 5.5 Selenium實例 134 5.5.1 具體功能分析 134 5.5.2 具體代碼實現 135 本章小結 136 習題 137 第6章 中型爬蟲框架Scrapy 138 6.1 Scrapy框架簡介與安裝 138 6.1.1 Scrapy運行機制 138 6.1.2 Scrapy框架簡介 139 6.1.3 Scrapy安裝 140 6.2 Scrapy命令行工具 141 6.2.1 全局命令 142 6.2.2 Project-only命令 144 6.3 選擇器 146 6.3.1 選擇器簡介 147 6.3.2 選擇器基礎 147 6.3.3 結合正則表達式 151 6.3.4 嵌套選擇器 152 6.4 Scrapy項目開發 152 6.4.1 新建項目 153 6.4.2 定義Items 153 6.4.3 制作爬蟲 154 6.4.4 爬取數據 156 6.4.5 使用Items 160 6.5 Item Pipeline 161 6.5.1 Item Pipeline簡介 161 6.5.2 Item Pipeline應用 162 6.6 中間件 164 6.6.1 下載器中間件 164 6.6.2 爬蟲中間件 168 6.7 Scrapy實例 171 6.7.1 具體功能分析 171 6.7.2 具體代碼實現 172 本章小結 174 習題 174 第7章 數據存儲 176 7.1 數據存儲簡介 176 7.1.1 現代數據存儲的挑戰 176 7.1.2 常用工具 177 7.2 文本文件存儲 179 7.2.1 文本數據的讀寫 179 7.2.2 CSV數據的讀寫 182 7.2.3 Excel數據的讀寫 187 7.2.4 JSON對象的讀寫 193 7.3 MongoDB數據庫 197 7.3.1 MongoDB簡介 197 7.3.2 MongoDB安裝 198 7.3.3 MongoDB數據庫操作 202 7.4 數據存儲實例 207 7.4.1 具體功能分析 207 7.4.2 具體代碼實現 208 本章小結 210 習題 210 第8章 數據清洗 212 8.1 數據清洗概述 212 8.1.1 數據清洗原理 212 8.1.2 主要數據類型 212 8.1.3 常用工具 213 8.2 數據清洗方法 215 8.2.1 重復數據處理 215 8.2.2 缺失數據處理 218 8.2.3 異常數據處理 224 8.2.4 格式內容清洗 226 8.2.5 邏輯錯誤清洗 227 8.3 數據規整 228 8.3.1 字段拆分 228 8.3.2 數據分組 229 8.3.3 數據聚合 232 8.3.4 數據分割 236 8.3.5 數據合并 238 8.4 數據清洗實例 244 8.4.1 具體功能分析 244 8.4.2 具體代碼實現 245 本章小結 247 習題 247 第9章 Matplotlib可視化 249 9.1 Matplotlib簡介與安裝 249 9.1.1 Matplotlib簡介 249 9.1.2 Matplotlib安裝 250 9.2 基礎語法和常用設置 251 9.2.1 繪圖流程 251 9.2.2 布局設置 252 9.2.3 畫布創建 255 9.2.4 參數設置 256 9.3 基礎圖形繪制 258 9.3.1 折線圖 258 9.3.2 直方圖 259 9.3.3 餅狀圖 260 9.3.4 箱形圖 262 9.3.5 散點圖 264 9.3.6 三維圖 266 本章小結 269 習題 270 第10章 Pyecharts可視化 271 10.1 Pyecharts簡介與安裝 271 10.1.1 Pyecharts簡介 271 10.1.2 Pyecharts安裝 272 10.2 公共屬性設置 272 10.2.1 全局配置項 272 10.2.2 系列配置項 275 10.3 二維圖形繪制 276 10.3.1 柱狀圖 276 10.3.2 折線圖 281 10.3.3 面積圖 284 10.3.4 漣漪散點圖 285 10.3.5 餅狀圖 286 10.3.6 漏斗圖 290 10.4 三維圖形繪制 292 10.4.1 三維柱狀圖 292 10.4.2 三維散點圖 294 10.4.3 三維地圖 296 10.5 Pyecharts實例 296 10.5.1 具體功能分析 296 10.5.2 具體代碼實現 297 本章小結 298 習題 299 參考文獻 300 本書通過實踐操作介紹大數據爬取、清洗與可視化的具體實施方案,共10章,包括大數據爬取、清洗與可視化概述,爬蟲概述,Requests庫,BeautifulSoup爬蟲,自動化測試工具Selenium,中型爬蟲框架Scrapy,數據存儲,數據清洗,Matplotlib可視化,Pyecharts可視化。書中的案例均經過實踐驗證,可以幫助讀者深入理解數據信息在大數據行業中的重要應用。為方便復習和自學,各章均配備豐富的習題。本書可作為高等院校大數據相關專業的教材,也可作為有關專業技術人員的培訓教材,同時可作為大數據分析愛好者及從事網絡數據安全管理工作人員的參考書。
本書是學習大數據獲取與分析的入門教材,從大數據信息的爬取開始,逐步講述在大數據環境下,對海量信息進行爬取、預處理操作與管理的全過程。全書立足于實踐與工程能力的培養,以關鍵技術和流行應用作為引導展開全書內容,通過“做中學”與“學中做”相結合的實踐過程,從技術簡介開始,進而進行關鍵技術分析與應用案例解析,總結涉及的Python方法和第三方庫,最后給出具體功能分析和代碼實現過程。
本書重點介紹大數據爬取、清洗與可視化的具體實施方案,程序設計采用Python 3.x語言,由多年講授大數據方向相關課程、經驗豐富的一線教師編寫。全書內容循序漸進,按照初學者學習思路編排,條理性強,語言通俗,容易理解。全書共10章,包括大數據爬取、清洗與可視化概述,爬蟲概述,Requests庫,BeautifulSoup爬蟲,自動化測試工具Selenium,中型爬蟲框架Scrapy,數據存儲,數據清洗,Matplotlib可視化,Pyecharts可視化。為方便復習和自學,各章均配備豐富的習題。本書可作為高等院校大數據相關專業的教材,也可作為有關專業技術人員的培訓教材,同時可作為大數據分析愛好者及從事網絡數據安全管理工作人員的參考書。本書以實踐操作為主,涉及的待爬取數據僅供學習使用,禁止在其他場合傳播。數據爬取的權限需參考待爬取網站的Robots協議。 本書由賈寧擔任主編并統稿。具體編寫分工如下:第1~7章由賈寧編寫,第8~10章由鄭純軍編寫。 本書配有電子課件、程序源代碼、習題解答等教學資源,讀者可以登錄華信教育資源網注冊后免費下載。 本書在編寫過程中,參考了許多國內外的著作和文獻,在此對著作者致以由衷的謝意。本書的編寫得到了很多人的幫助和支持,在此對他們表示衷心的感謝。同時,感謝同事及學生對本書提出的意見和建議。 限于作者水平,書中錯誤和缺點在所難免,歡迎廣大讀者提出寶貴意見和建議,我們不勝感激。 |