Scrapy網絡爬蟲實戰 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

4/1 新書到！ 3/25 新書到！ 12/20新書到！ 12/13 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

Scrapy網絡爬蟲實戰
( 簡體字)

作者：東郭大貓類別：1. -> 程式設計 -> 網路爬蟲

譯者：

出版社：清華大學出版社 3dWoo書號： 51763
詢問書籍請說出此書號！
【缺書】
NT售價： 295 元

出版日：10/1/2019

頁數：238

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787302536208

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
讀懂本書
還在復制粘貼找數據？
我想要這個網站上的數據，該怎么辦？打開網站，復制，打開文本，粘貼……重復、重復、重復。
——費時、費力、錯誤多！
講解晦澀難懂？
道理我都懂，可是要怎么做？這些數據我都想要，可是要怎么開始？本書不光僅介紹Scrapy爬蟲的原理，重點是而且還通過給出實戰案例讓讀者精通應用它們。
——爬蟲的使用才是硬道理。
本書真的適合你嗎？
本書幫你從零開始學習Scrapy爬蟲技術，從基本的網絡請求原理到抓取數據的保存，從單頁面數據的下載到全站數據的爬取，從文本文檔到數據庫存儲，本書介紹了實際使用中的各種基礎知識。
——爬蟲零基礎？沒關系，本書給出了從零開始學習的新手方案。
本書涉及的技術或框架
Python
Requests
BeautifulSoup

Selenium
HTTP
JSON
XPATH
CSS
MySQL
MongoDB
PyCharm Visual Studio
Chrome瀏覽器調試

本書涉及的示例和案例
抓取知乎熱榜
名言網站抓取
博客園Python類文章抓取
深圳市社會保障局下載中心文件下載
鏈家數據保存至MongoDB
豆瓣使用Cookies登錄
抓取cnBeta科技類文章
伯樂在線訂閱源數據抓取
伯樂在線最新文章抓取保存
起點小說網站小說封面抓取
豆瓣模擬提交表單登錄
通過中間件使用代理與統計鏈家小區信息
名言網站數據統計
IT之家新聞抓取
貓眼電影top100抓取并發送郵件
SegmentFault全網用戶信息抓取

本書特點
（1）本書不論是爬蟲基礎理論知識的介紹還是實例的開發，都是從實際應用的角度出發，精心選擇典型的例子，講解細致，分析透徹。
（2）深入淺出、輕松易學，以實例為主線，激發讀者的學習興趣，讓讀者能夠真正快速學習到會Scrapy爬蟲的實用技術。
（3）技術新穎、與時俱進，結合時下實用的技術，如Requests、BeautifulSoup、Scrapy，使讀者能夠真正運用到實際工作中。
（4）貼近讀者、貼近實際，大量成熟的第三方庫和框架的使用和說明，幫助讀者快速找到問題的最優解決方案，書中很多實例來自作者常用的數據源。
示例代碼下載
本書示例代碼請掃描二維碼獲得。如果下載有問題，郵件主題為“Scrapy網絡爬蟲實戰”。

本書適用讀者
對Scrapy網絡爬蟲感興趣的人員初學者
從事Web網絡數據分析的人員
從事數據存儲類的工作人員
高校與培訓學校的教師和學生
對Crapy網絡爬蟲感興趣的人員

作者
2019年35月

內容簡介：
隨著大數據分析、大數據計算火熱興起，越來越多的企業發布了數據分析崗位，而數據分析的基礎則是海量的數據。Python中的Scrapy框架就是為了抓取數據而設計的。本書是一本Scrapy爬蟲框架零基礎起步的實戰圖書。
本書共分11章，第1~2章介紹Python環境的搭建、編輯器的使用、爬蟲的一些基礎知識（urllib、requests、Selenium、Xpath、CSS、正則表達式、BeautifulSoup庫）等。第3~8章主要介紹Scrapy框架的原理與使用。第9~11章主要介紹Scrapy的優化，包括內置服務、組件優化等，最后通過一個完整的大型示例對全書的知識點做了應用總結。
本書入門門檻低、淺顯易懂，適合所有Scrapy爬蟲和數據分析行業的入門讀者學習，也適合高等院校和培訓學校作為爬蟲入門教材和訓練手冊。

目錄：
第1章Python開發環境的搭建 1
1.1PYTHONSDK安裝 1
1.1.1在Windows上安裝Python 1
1.1.2在Ubuntu上安裝Python 2
1.2安裝開發工具PYCHARM社區版 3
1.3安裝開發工具VISUALSTUDIO社區版 5
第2章爬蟲基礎知識 6
2.1爬蟲原理 6
2.1.1爬蟲運行基本流程 6
2.1.2HTTP請求過程 8
2.2網頁分析方法1：瀏覽器開發人員工具 9
2.2.1Elements面板 10
2.2.2Network面板 11
2.3網頁分析方法2：XPATH語法 14
2.3.1XPath節點 14
2.3.2XPath語法 15
2.3.3XPath軸 17
2.3.4XPath運算符 19
2.4網頁分析方法3：CSS選擇語法 19
2.4.1元素選擇器 20
2.4.2類選擇器 21
2.4.3ID選擇器 21
2.4.4屬性選擇器 21
2.4.5后代選擇器 21
2.4.6子元素選擇器 22
2.4.7相鄰兄弟選擇器 22
2.5網頁分析方法4：正則表達式 22
2.5.1提取指定字符 23
2.5.2預定義字符集 23
2.5.3數量限定 23
2.5.4分支匹配 24
2.5.5分組 24
2.5.6零寬斷言 24
2.5.7貪婪模式與非貪婪模式 25
2.5.8Python中的正則表達式 25
2.6爬蟲常用類庫1：PYTHON中的HTTP基本庫URLLIB 30
2.6.1發送請求 30
2.6.2使用Cookie 31
2.7爬蟲常用類庫2：更人性化的第三方庫REQUESTS 33
2.7.1發送請求 34
2.7.2請求頭 35
2.7.3響應內容 35
2.7.4響應狀態碼 36
2.7.5cookies參數 37
2.7.6重定向與請求歷史 37
2.7.7超時 38
2.7.8設置代理 38
2.7.9會話對象 38
2.8爬蟲常用類庫3：元素提取利器BEAUTIFULSOUP 39
2.8.1安裝BeautifulSoup 39
2.8.2安裝解析器 40
2.8.3BeautifulSoup使用方法 41
2.8.4BeautifulSoup對象 43
2.8.5遍歷文檔樹 47
2.8.6搜索文檔樹 52
2.8.7BeautifulSoup中的CSS選擇器 57
2.9爬蟲常用類庫4：SELENIUM操縱瀏覽器 58
2.9.1安裝Selenium 59
2.9.2Selenium的基本使用方法 59
2.9.3SeleniumWebdriver的原理 61
2.9.4Selenium中的元素定位方法 61
2.9.5SeleniumWebdriver基本操作 63
2.9.6Selenium實戰：抓取拉鉤網招聘信息 64
2.10爬蟲常用類庫5：SCRAPY爬蟲框架 67
2.10.1安裝Scrapy 67
2.10.2Scrapy簡介 68
2.11基本爬蟲實戰：抓取CNBETA網站科技類文章 69
2.11.1URL管理器 70
2.11.2數據下載器 71
2.11.3數據分析器 72
2.11.4數據保存器 74
2.11.5調度器 75
第3章Scrapy命令行與Shell 78
3.1SCRAPY命令行介紹 78
3.1.1使用startproject創建項目 80
3.1.2使用genspider創建爬蟲 81
3.1.3使用crawl啟動爬蟲 82
3.1.4使用list查看爬蟲 82
3.1.5使用fetch獲取數據 83
3.1.6使用runspider運行爬蟲 84
3.1.7通過view使用瀏覽器打開URL 85
3.1.8使用parse測試爬蟲 85
3.2SCRAPYSHELL命令行 85
3.2.1ScrapyShell的用法 85
3.2.2實戰：解析名人名言網站 86
第4章Scrapy爬蟲 89
4.1編寫爬蟲 89
4.1.1scrapy.Spider爬蟲基本類 89
4.1.2start_requests()方法 90
4.1.3parse(response)方法 91
4.1.4Selector選擇器 91
4.2通用爬蟲 94
4.2.1CrawlSpider 94
4.2.2XMLFeedSpider 95
4.2.3CSVFeedSpider 96
4.2.4SitemapSpider 97
4.3爬蟲實戰 98
4.3.1實戰1：CrawlSpider爬取名人名言 98
4.3.2實戰2：XMLFeedSpider爬取伯樂在線的RSS 102
4.3.3實戰3：CSVFeedSpider提取csv文件數據 104
4.3.4實戰4：SitemapSpider爬取博客園文章 106
第5章Scrapy管道 109
5.1管道簡介 109
5.2編寫自定義管道 110
5.3下載文件和圖片 113
5.3.1文件管道 114
5.3.2圖片管道 117
5.4數據庫存儲MYSQL 121
5.4.1在Ubuntu上安裝MySQL 121
5.4.2在Windows上安裝MySQL 122
5.4.3MySQL基礎 125
5.4.4MySQL基本操作 127
5.4.5Python操作MySQL 129
5.5數據庫存儲MONGODB 131
5.5.1在Ubuntu上安裝MongoDB 132
5.5.2在Windows上安裝MongoDB 132
5.5.3MongoDB基礎 135
5.5.4MongoDB基本操作 137
5.5.5Python操作MongoDB 143
5.6實戰：爬取鏈家二手房信息并保存到數據庫 144
第6章Request與Response 157
6.1REQUEST對象 157
6.1.1Request類詳解 158
6.1.2Request回調函數與錯誤處理 160
6.2RESPONSE 162
6.2.1Response類詳解 162
6.2.2Response子類 163
第7章Scrapy中間件 165
7.1編寫自定義SPIDER中間件 165
7.1.1激活中間件 165
7.1.2編寫Spider中間件 166
7.2SPIDER內置中間件 168
7.2.1DepthMiddleware爬取深度中間件 168
7.2.2HttpErrorMiddleware失敗請求處理中間件 168
7.2.3OffsiteMiddleware過濾請求中間件 169
7.2.4RefererMiddleware參考位置中間件 169
7.2.5UrlLengthMiddleware網址長度限制中間件 170
7.3編寫自定義下載器中間件 170
7.3.1激活中間件 170
7.3.2編寫下載器中間件 171
7.4下載器內置中間件 173
7.4.1CookiesMiddleware 173
7.4.2HttpProxyMiddleware 174
7.5實戰：為爬蟲添加中間件 174
第8章Scrapy配置與內置服務 178
8.1SCRAPY配置簡介 178
8.1.1命令行選項（優先級最高） 178
8.1.2每個爬蟲內配置 179
8.1.3項目設置模塊 179
8.1.4默認的命令行配置 181
8.1.5默認全局配置（優先級最低） 182
8.2日志 182
8.3數據收集 184
8.4發送郵件 187
8.4.1簡單例子 187
8.4.2MailSender類 187
8.4.3在settings.py中對Mail進行設置 188
8.5實戰：抓取貓眼電影TOP100榜單數據 188
8.5.1分析頁面元素 189
8.5.2創建項目 189
8.5.3編寫items.py 190
8.5.4編寫管道pipelines.py 190
8.5.5編寫爬蟲文件top100.py 191
第9章模擬登錄 194
9.1模擬提交表單 194
9.2用COOKIE模擬登錄狀態 197
9.3項目實戰 198
9.3.1實戰1：使用FormRequest模擬登錄豆瓣 198
9.3.2實戰2：使用Cookie登錄 202
第10章Scrapy爬蟲優化 205
10.1SCRAPY+MONGODB實戰：抓取并保存IT之家博客新聞 205
10.1.1確定目標 205
10.1.2創建項目 206
10.1.3編寫items.py文件 207
10.1.4編寫爬蟲文件news.py 207
10.1.5編寫管道pipelines.py 209
10.1.6編寫settings.py 210
10.1.7運行爬蟲 211
10.2用BENCHMARK進行本地環境評估 212
10.3擴展爬蟲 214
10.3.1增大并發 214
10.3.2關閉Cookie 214
10.3.3關閉重試 214
10.3.4減少下載超時時間 215
10.3.5關閉重定向 215
10.3.6AutoThrottle擴展 215
第11章Scrapy項目實戰：爬取某社區用戶詳情 217
11.1項目分析 217
11.1.1頁面分析 217
11.1.2抓取流程 221
11.2創建爬蟲 221
11.2.1cookies收集器 222
11.2.2Items類 225
11.2.3Pipeline管道編寫 226
11.2.4Spider爬蟲文件 227
11.2.5Middlewars中間件編寫 235

序：