用Python寫網絡爬蟲 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

用Python寫網絡爬蟲
( 簡體字)

作者：[澳] 理查德勞森（ Richard Lawson ）類別：1. -> 程式設計 -> Python
　　　2. -> 程式設計 -> 網路爬蟲

譯者：

出版社：人民郵電出版社 3dWoo書號： 45066
詢問書籍請說出此書號！
【缺書】
【不接受訂購】

出版日：8/1/2016

頁數：157

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

【不接受訂購】
ISBN：9787115431790

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：

內容簡介：
　　《用Python寫網絡爬蟲》講解了如何使用Python來編寫網絡爬蟲程序，內容包括網絡爬蟲簡介，從頁面中抓取數據的三種方法，提取緩存中的數據，使用多個線程和進程來進行并發抓取，如何抓取動態頁面中的內容，與表單進行交互，處理頁面中的驗證碼問題，以及使用Scarpy和Portia來進行數據抓取，使用本書介紹的數據抓取技術對幾個真實的網站進行了抓取，旨在幫助讀者活學活用書中介紹的技術。
《用Python寫網絡爬蟲》適合有一定Python編程經驗，而且對爬蟲技術感興趣的讀者閱讀。

目錄：
第1章網絡爬蟲簡介 1
1.1　網絡爬蟲何時有用　1
1.2　網絡爬蟲是否合法　2
1.3　背景調研　3
1.3.1　檢查robots.txt　3
1.3.2　檢查網站地圖　4
1.3.3　估算網站大小　5
1.3.4　識別網站所用技術　7
1.3.5　尋找網站所有者　7
1.4　編寫第一個網絡爬蟲　8
1.4.1　下載網頁　9
1.4.2　網站地圖爬蟲　12
1.4.3　ID遍歷爬蟲　13
1.4.4　鏈接爬蟲　15
1.5　本章小結　22

第2章　數據抓取　23
2.1　分析網頁　23
2.2　三種網頁抓取方法　26
2.2.1　正則表達式　26
2.2.2　Beautiful Soup　28
2.2.3　Lxml　30
2.2.4　性能對比　32
2.2.5　結論　35
2.2.6　為鏈接爬蟲添加抓取回調　35
2.3　本章小結　38

第3章　下載緩存　39
3.1　為鏈接爬蟲添加緩存支持　39
3.2　磁盤緩存　42
3.2.1　實現　44
3.2.2　緩存測試　46
3.2.3　節省磁盤空間　46
3.2.4　清理過期數據　47
3.2.5　缺點　48
3.3　數據庫緩存　49
3.3.1　NoSQL是什么　50
3.3.2　安裝MongoDB　50
3.3.3　MongoDB概述　50
3.3.4　MongoDB緩存實現　52
3.3.5　壓縮　54
3.3.6　緩存測試　54
3.4　本章小結　55

第4章　并發下載　57
4.1　100萬個網頁　57
4.2　串行爬蟲　60
4.3　多線程爬蟲　60
4.3.1　線程和進程如何工作　61
4.3.2　實現　61
4.3.3　多進程爬蟲　63
4.4　性能　67
4.5　本章小結　68

第5章　動態內容　69
5.1　動態網頁示例　69
5.2　對動態網頁進行逆向工程　72
5.3　渲染動態網頁　77
5.3.1　PyQt還是PySide　78
5.3.2　執行JavaScript　78
5.3.3　使用WebKit與網站交互　80
5.3.4　Selenium　85
5.4　本章小結　88

第6章　表單交互　89
6.1　登錄表單　90
6.2　支持內容更新的登錄腳本擴展　97
6.3　使用Mechanize模塊實現自動化表單處理　100
6.4　本章小結　102

第7章　驗證碼處理　103
7.1　注冊賬號　103
7.2　光學字符識別　106
7.3　處理復雜驗證碼　111
7.3.1　使用驗證碼處理服務　112
7.3.2　9kw入門　112
7.3.3　與注冊功能集成　119
7.4　本章小結　120

第8章　Scrapy　121
8.1　安裝　121
8.2　啟動項目　122
8.2.1　定義模型　123
8.2.2　創建爬蟲　124
8.2.3　使用shell命令抓取　128
8.2.4　檢查結果　129
8.2.5　中斷與恢復爬蟲　132
8.3　使用Portia編寫可視化爬蟲　133
8.3.1　安裝　133
8.3.2　標注　136
8.3.3　優化爬蟲　138
8.3.4　檢查結果　140
8.4　使用Scrapely實現自動化抓取　141
8.5　本章小結　142

第9章　總結　143
9.1　Google搜索引擎　143
9.2　Facebook　148
9.2.1　網站　148
9.2.2　API　150
9.3　Gap　151
9.4　寶馬　153
9.5　本章小結　157

序：