-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python網絡爬蟲技術

( 簡體 字)
作者:江吉彬 張良均類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 網路爬蟲
譯者:
出版社:人民郵電出版社Python網絡爬蟲技術 3dWoo書號: 50907
詢問書籍請說出此書號!

缺書
NT售價: 200

出版日:4/1/2019
頁數:165
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787115505064
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書以任務為導向,較為全面地介紹了不同場景下Python爬取網絡數據的方法,包括靜態網頁、動態網頁、登錄后才能訪問的網頁、PC客戶端、App等場景。全書共7章,第1章介紹了爬蟲與反爬蟲的基本概念,以及Python爬蟲環境的配置,第2章介紹了爬取過程中涉及的網頁前端基礎,第3章介紹了在靜態網頁中爬取數據的過程,第4章介紹了在動態網頁中爬取數據的過程,第5章介紹了對登錄后才能訪問的網頁進行模擬登錄的方法,第6章介紹了爬取PC客戶端、App的數據的方法,第7章介紹了使用Scrapy爬蟲框架爬取數據的過程。本書所有章節都包含了實訓與課后習題,通過練習和操作實戰,可幫助讀者鞏固所學的內容。
目錄:

第 1章 Python爬蟲環境與爬蟲簡介 1
任務1.1 認識爬蟲 1
1.1.1 爬蟲的概念 1
1.1.2 爬蟲的原理 2
1.1.3 爬蟲的合法性與robot.txt協議 4
任務1.2 認識反爬蟲 4
1.2.1 網站反爬蟲的目的與手段 4
1.2.2 爬取策略制定 5
任務1.3 配置Python爬蟲環境 6
1.3.1 Python爬蟲相關庫介紹與配置 7
1.3.2 配置MySQL數據庫 7
1.3.3 配置MongoDB數據庫 16
小結 20
實訓 Python爬蟲環境配置 21
課后習題 21
第 2章 網頁前端基礎 23
任務2.1 認識Python網絡編程 23
2.1.1 了解Python網絡編程Socket庫 24
2.1.2 使用Socket庫進行TCP編程 26
2.1.3 使用Socket庫進行UDP編程 28
任務2.2 認識HTTP 29
2.2.1 熟悉HTTP請求方法與過程 30
2.2.2 熟悉常見HTTP狀態碼 32
2.2.3 熟悉HTTP頭部信息 33
2.2.4 熟悉Cookie 39
小結 41
實訓 使用Socket庫連接百度首頁 41
課后習題 42
第3章 簡單靜態網頁爬取 43
任務3.1 實現HTTP請求 43
3.1.1 使用urllib 3庫實現 44
3.1.2 使用Requests庫實現 47
任務3.2 解析網頁 52
3.2.1 使用Chrome開發者工具查看網頁 52
3.2.2 使用正則表達式解析網頁 58
3.2.3 使用Xpath解析網頁 61
3.2.4 使用Beautiful Soup庫解析網頁 66
任務3.3 數據存儲 74
3.3.1 將數據存儲為JSON文件 74
3.3.2 將數據存儲到MySQL數據庫 75
小結 78
實訓 79
實訓1 生成GET請求并獲取指定網頁內容 79
實訓2 搜索目標節點并提取文本內容 79
實訓3 在數據庫中建立新表并導入數據 80
課后習題 80
第4章 常規動態網頁爬取 82
任務4.1 逆向分析爬取動態網頁 82
4.1.1 了解靜態網頁和動態網頁的區別 82
4.1.2 逆向分析爬取動態網頁 85
任務4.2 使用Selenium庫爬取動態網頁 88
4.2.1 安裝Selenium庫及下載瀏覽器補丁 88
4.2.2 打開瀏覽對象并訪問頁面 89
4.2.3 頁面等待 90
4.2.4 頁面操作 91
4.2.5 元素選取 93
4.2.6 預期條件 96
任務4.3 存儲數據至MongoDB數據庫 98
4.3.1 了解MongoDB數據庫和MySQL數據庫的區別 99
4.3.2 將數據存儲到MongoDB數據庫 100
小結 103
實訓 103
實訓1 爬取網頁“http://www.ptpress. com.cn”的推薦圖書信息 103
實訓2 爬取某網頁的Java圖書信息 104
實訓3 將數據存儲到MongoDB數據庫中 104
課后習題 104
第5章 模擬登錄 106
任務5.1 使用表單登錄方法實現模擬登錄 106
5.1.1 查找提交入口 106
5.1.2 查找并獲取需要提交的表單數據 108
5.1.3 使用POST請求方法登錄 112
任務5.2 使用Cookie登錄方法實現模擬登錄 114
5.2.1 使用瀏覽器Cookie登錄 115
5.2.2 基于表單登錄的Cookie登錄 117
小結 119
實訓 119
實訓1 使用表單登錄方法模擬登錄數睿思論壇 119
實訓2 使用瀏覽器Cookie模擬登錄數睿思論壇 120
實訓3 基于表單登錄后的Cookie模擬登錄數睿思論壇 120
課后習題 120
第6章 終端協議分析 122
任務6.1 分析PC客戶端抓包 122
6.1.1 了解HTTP Analyzer工具 122
6.1.2 爬取千千音樂PC客戶端數據 125
任務6.2 分析App抓包 126
6.2.1 了解Fiddler工具 127
6.2.2 分析人民日報App 130
小結 132
實訓 133
實訓1 抓取千千音樂PC客戶端的推薦歌曲信息 133
實訓2 爬取人民日報App的旅游模塊信息 134
課后習題 134
第7章 Scrapy爬蟲 135
任務7.1 認識Scarpy 135
7.1.1 了解Scrapy爬蟲的框架 135
7.1.2 熟悉Scrapy的常用命令 137
任務7.2 通過Scrapy爬取文本信息 138
7.2.1 創建Scrapy爬蟲項目 138
7.2.2 修改items/pipelines腳本 140
7.2.3 編寫spider腳本 143
7.2.4 修改settings腳本 148
任務7.3 定制中間件 152
7.3.1 定制下載器中間件 152
7.3.2 定制Spider中間件 156
小結 157
實訓 157
實訓1 爬取“http://www.tipdm.org”的所有新聞動態 157
實訓2 定制BdRaceNews爬蟲項目的中間件 158
課后習題 158
附錄A 160
附錄B 163
參考文獻 166
序: