|
-- 會員 / 註冊 --
|
|
|
|
Python網絡爬蟲技術 ( 簡體 字) |
作者:江吉彬 張良均 | 類別:1. -> 程式設計 -> Python 2. -> 程式設計 -> 網路爬蟲 |
譯者: |
出版社:人民郵電出版社 | 3dWoo書號: 50907 詢問書籍請說出此書號!【缺書】 NT售價: 200 元 |
出版日:4/1/2019 |
頁數:165 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787115505064 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:本書以任務為導向,較為全面地介紹了不同場景下Python爬取網絡數據的方法,包括靜態網頁、動態網頁、登錄后才能訪問的網頁、PC客戶端、App等場景。全書共7章,第1章介紹了爬蟲與反爬蟲的基本概念,以及Python爬蟲環境的配置,第2章介紹了爬取過程中涉及的網頁前端基礎,第3章介紹了在靜態網頁中爬取數據的過程,第4章介紹了在動態網頁中爬取數據的過程,第5章介紹了對登錄后才能訪問的網頁進行模擬登錄的方法,第6章介紹了爬取PC客戶端、App的數據的方法,第7章介紹了使用Scrapy爬蟲框架爬取數據的過程。本書所有章節都包含了實訓與課后習題,通過練習和操作實戰,可幫助讀者鞏固所學的內容。 |
目錄:第 1章 Python爬蟲環境與爬蟲簡介 1 任務1.1 認識爬蟲 1 1.1.1 爬蟲的概念 1 1.1.2 爬蟲的原理 2 1.1.3 爬蟲的合法性與robot.txt協議 4 任務1.2 認識反爬蟲 4 1.2.1 網站反爬蟲的目的與手段 4 1.2.2 爬取策略制定 5 任務1.3 配置Python爬蟲環境 6 1.3.1 Python爬蟲相關庫介紹與配置 7 1.3.2 配置MySQL數據庫 7 1.3.3 配置MongoDB數據庫 16 小結 20 實訓 Python爬蟲環境配置 21 課后習題 21 第 2章 網頁前端基礎 23 任務2.1 認識Python網絡編程 23 2.1.1 了解Python網絡編程Socket庫 24 2.1.2 使用Socket庫進行TCP編程 26 2.1.3 使用Socket庫進行UDP編程 28 任務2.2 認識HTTP 29 2.2.1 熟悉HTTP請求方法與過程 30 2.2.2 熟悉常見HTTP狀態碼 32 2.2.3 熟悉HTTP頭部信息 33 2.2.4 熟悉Cookie 39 小結 41 實訓 使用Socket庫連接百度首頁 41 課后習題 42 第3章 簡單靜態網頁爬取 43 任務3.1 實現HTTP請求 43 3.1.1 使用urllib 3庫實現 44 3.1.2 使用Requests庫實現 47 任務3.2 解析網頁 52 3.2.1 使用Chrome開發者工具查看網頁 52 3.2.2 使用正則表達式解析網頁 58 3.2.3 使用Xpath解析網頁 61 3.2.4 使用Beautiful Soup庫解析網頁 66 任務3.3 數據存儲 74 3.3.1 將數據存儲為JSON文件 74 3.3.2 將數據存儲到MySQL數據庫 75 小結 78 實訓 79 實訓1 生成GET請求并獲取指定網頁內容 79 實訓2 搜索目標節點并提取文本內容 79 實訓3 在數據庫中建立新表并導入數據 80 課后習題 80 第4章 常規動態網頁爬取 82 任務4.1 逆向分析爬取動態網頁 82 4.1.1 了解靜態網頁和動態網頁的區別 82 4.1.2 逆向分析爬取動態網頁 85 任務4.2 使用Selenium庫爬取動態網頁 88 4.2.1 安裝Selenium庫及下載瀏覽器補丁 88 4.2.2 打開瀏覽對象并訪問頁面 89 4.2.3 頁面等待 90 4.2.4 頁面操作 91 4.2.5 元素選取 93 4.2.6 預期條件 96 任務4.3 存儲數據至MongoDB數據庫 98 4.3.1 了解MongoDB數據庫和MySQL數據庫的區別 99 4.3.2 將數據存儲到MongoDB數據庫 100 小結 103 實訓 103 實訓1 爬取網頁“http://www.ptpress. com.cn”的推薦圖書信息 103 實訓2 爬取某網頁的Java圖書信息 104 實訓3 將數據存儲到MongoDB數據庫中 104 課后習題 104 第5章 模擬登錄 106 任務5.1 使用表單登錄方法實現模擬登錄 106 5.1.1 查找提交入口 106 5.1.2 查找并獲取需要提交的表單數據 108 5.1.3 使用POST請求方法登錄 112 任務5.2 使用Cookie登錄方法實現模擬登錄 114 5.2.1 使用瀏覽器Cookie登錄 115 5.2.2 基于表單登錄的Cookie登錄 117 小結 119 實訓 119 實訓1 使用表單登錄方法模擬登錄數睿思論壇 119 實訓2 使用瀏覽器Cookie模擬登錄數睿思論壇 120 實訓3 基于表單登錄后的Cookie模擬登錄數睿思論壇 120 課后習題 120 第6章 終端協議分析 122 任務6.1 分析PC客戶端抓包 122 6.1.1 了解HTTP Analyzer工具 122 6.1.2 爬取千千音樂PC客戶端數據 125 任務6.2 分析App抓包 126 6.2.1 了解Fiddler工具 127 6.2.2 分析人民日報App 130 小結 132 實訓 133 實訓1 抓取千千音樂PC客戶端的推薦歌曲信息 133 實訓2 爬取人民日報App的旅游模塊信息 134 課后習題 134 第7章 Scrapy爬蟲 135 任務7.1 認識Scarpy 135 7.1.1 了解Scrapy爬蟲的框架 135 7.1.2 熟悉Scrapy的常用命令 137 任務7.2 通過Scrapy爬取文本信息 138 7.2.1 創建Scrapy爬蟲項目 138 7.2.2 修改items/pipelines腳本 140 7.2.3 編寫spider腳本 143 7.2.4 修改settings腳本 148 任務7.3 定制中間件 152 7.3.1 定制下載器中間件 152 7.3.2 定制Spider中間件 156 小結 157 實訓 157 實訓1 爬取“http://www.tipdm.org”的所有新聞動態 157 實訓2 定制BdRaceNews爬蟲項目的中間件 158 課后習題 158 附錄A 160 附錄B 163 參考文獻 166 |
序: |
|