3dwoo大學簡體電腦書店
從零開始學Python網絡爬蟲
( 簡體 字)
作者:羅攀 蔣仟 編著類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 網路爬蟲
出版社:機械工業出版社從零開始學Python網絡爬蟲 3dWoo書號: 47859
詢問書籍請說出此書號!
有庫存
NT售價: 295
出版日:10/1/2017
頁數:261
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787111579991 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
前言

第1章 Python零基礎語法入門 1

1.1 Python與PyCharm安裝 1

1.1.1 Python安裝(Windows、Mac和Linux) 1

1.1.2 PyCharm安裝 3

1.2 變量和字符串 3

1.2.1 變量 4

1.2.2 字符串的“加法”和“乘法” 4

1.2.3 字符串的切片和索引 5

1.2.4 字符串方法 5

1.3 函數與控制語句 7

1.3.1 函數 7

1.3.2 判斷語句 8

1.3.3 循環語句 8

1.4 Python數據結構 9

1.4.1 列表 9

1.4.2 字典 11

1.4.3 元組和集合 11

1.5 Python文件操作 11

1.5.1 打開文件 11

1.5.2 讀寫文件 12

1.5.3 關閉文件 13

1.6 Python面向對象 13

1.6.1 定義類 14

1.6.2 實例屬性 14

1.6.3 實例方法 15

1.6.4 類的繼承 16

第2章 爬蟲原理和網頁構造 17

2.1 爬蟲原理 17

2.1.1 網絡連接 17

2.1.2 爬蟲原理 18

2.2 網頁構造 21

2.2.1 Chrome瀏覽器的安裝 21

2.2.2 網頁構造 22

2.2.3 查詢網頁信息 23

第3章 我的第一個爬蟲程序 26

3.1 Python第三方庫 26

3.1.1 Python第三方庫的概念 26

3.1.2 Python第三方庫的安裝方法 27

3.1.3 Python第三方庫的使用方法 29

3.2 爬蟲三大庫 30

3.2.1 Requests庫 30

3.2.2 BeautifulSoup庫 32

3.2.3 Lxml庫 36

3.3 綜合案例1——爬取北京地區短租房信息 37

3.3.1 爬蟲思路分析 37

3.3.2 爬蟲代碼及分析 38

3.4 綜合案例2——爬取酷狗TOP500的數據 41

3.4.1 爬蟲思路分析 41

3.4.2 爬蟲代碼及分析 43

第4章 正則表達式 45

4.1 正則表達式常用符號 45

4.1.1 一般字符 45

4.1.2 預定義字符集 46

4.1.3 數量詞 46

4.1.4 邊界匹配 47

4.2 re模塊及其方法 48

4.2.1 search()函數 48

4.2.2 sub()函數 49

4.2.3 findall()函數 49

4.2.4 re模塊修飾符 51

4.3 綜合案例1——爬取《斗破蒼穹》全文小說 53

4.3.1 爬蟲思路分析 53

4.3.2 爬蟲代碼及分析 55

4.4 綜合案例2——爬取糗事百科網的段子信息 56

4.4.1 爬蟲思路分析 56

4.4.2 爬蟲代碼及分析 58

第5章 Lxml庫與Xpath語法 63

5.1 Lxml庫的安裝與使用方法 63

5.1.1 Lxml庫的安裝(Mac、Linux) 63

5.1.2 Lxml庫的使用 64

5.2 Xpath語法 68

5.2.1 節點關系 68

5.2.2 節點選擇 70

5.2.3 使用技巧 70

5.2.4 性能對比 74

5.3 綜合案例1——爬取豆瓣網圖書TOP250的數據 77

5.3.1 將數據存儲到CSV文件中 77

5.3.2 爬蟲思路分析 78

5.3.3 爬蟲代碼及分析 80

5.4 綜合案例2——爬取起點中文網小說信息 83

5.4.1 將數據存儲到Excel文件中 83

5.4.2 爬蟲思路分析 84

5.4.3 爬蟲代碼及分析 86

第6章 使用API 88

6.1 API的使用 88

6.1.1 API概述 88

6.1.2 API使用方法 89

6.1.3 API驗證 91

6.2 解析JSON數據 93

6.2.1 JSON解析庫 93

6.2.2 斯必克API調用 94

6.2.3 百度地圖API調用 96

6.3 綜合案例1——爬取PEXELS圖片 98

6.3.1 圖片爬取方法 98

6.3.2 爬蟲思路分析 99

6.3.3 爬蟲代碼及分析 100

6.4 綜合案例2——爬取糗事百科網的用戶地址信息 102

6.4.1 地圖的繪制 102

6.4.2 爬取思路分析 105

6.4.3 爬蟲代碼及分析 106

第7章 數據庫存儲 109

7.1 MongoDB數據庫 109

7.1.1 NoSQL概述 109

7.1.2 MongoDB的安裝 109

7.1.3 MongoDB的使用 115

7.2 MySQL數據庫 117

7.2.1 關系型數據庫概述 117

7.2.2 MySQL的安裝 117

7.2.3 MySQL的使用 123

7.3 綜合案例1——爬取豆瓣音樂TOP250的數據 126

7.3.1 爬蟲思路分析 126

7.3.2 爬蟲代碼及分析 127

7.4 綜合案例2——爬取豆瓣電影TOP250的數據 132

7.4.1 爬蟲思路分析 132

7.4.2 爬蟲代碼及分析 133

第8章 多進程爬蟲 139

8.1 多線程與多進程 139

8.1.1 多線程和多進程概述 139

8.1.2 多進程使用方法 140

8.1.3 性能對比 140

8.2 綜合案例1——爬取簡書網熱評文章 143

8.2.1 爬蟲思路分析 143

8.2.2 爬蟲代碼及分析 147

8.3 綜合案例2——爬取轉轉網二手市場商品信息 150

8.3.1 爬蟲思路分析 150

8.3.2 爬蟲代碼及分析 152

第9章 異步加載 159

9.1 異步加載技術與爬蟲方法 159

9.1.1 異步加載技術概述 159

9.1.2 異步加載網頁示例 159

9.1.3 逆向工程 162

9.2 綜合案例1——爬取簡書網用戶動態信息 165

9.2.1 爬蟲思路分析 165

9.2.2 爬蟲代碼及分析 171

9.3 綜合案例2——爬取簡書網7日熱門信息 173

9.3.1 爬蟲思路分析 173

9.3.2 爬蟲代碼及分析 179

第10章 表單交互與模擬登錄 182

10.1 表單交互 182

10.1.1 POST方法 182

10.1.2 查看網頁源代碼提交表單 182

10.1.3 逆向工程提交表單 185

10.2 模擬登錄 187

10.2.1 Cookie概述 187

10.2.2 提交Cookie模擬登錄 187

10.3 綜合案例1——爬取拉勾網招聘信息 188

10.3.1 爬蟲思路分析 188

10.3.2 爬蟲代碼及分析 193

10.4 綜合案例2——爬取新浪微博好友圈信息 195

10.4.1 詞云制作 195

10.4.2 爬蟲思路分析 202

10.4.3 爬蟲代碼及分析 206

第11章 Selenium模擬瀏覽器 209

11.1 Selenium和PhantomJS 209

11.1.1 Selenium的概念和安裝 209

11.1.2 瀏覽器的選擇和安裝 209

11.2 Selenium和PhantomJS的配合使用 213

11.2.1 模擬瀏覽器操作 213

11.2.2 獲取異步加載數據 215

11.3 綜合案例1——爬取QQ空間好友說說 218

11.3.1 CSV文件讀取 218

11.3.2 爬蟲思路分析 220

11.3.3 爬蟲代碼及分析 221

11.4 綜合案例2——爬取淘寶商品信息 224

11.4.1 爬蟲思路分析 224

11.4.2 爬蟲代碼及分析 226

第12章 Scrapy爬蟲框架 229

12.1 Scrapy的安裝和使用 229

12.1.1 Scrapy的安裝 229

12.1.2 創建Scrapy項目 233

12.1.3 Scrapy文件介紹 235

12.1.4 Scrapy爬蟲編寫 237

12.1.5 Scrapy爬蟲運行 239

12.2 綜合案例1——爬取簡書網熱門專題信息 240

12.2.1 爬蟲思路分析 240

12.2.2 爬蟲代碼及分析 244

12.3 綜合案例2——爬取知乎網Python精華話題 246

12.3.1 爬蟲思路分析 246

12.3.2 爬蟲代碼及分析 248

12.4 綜合案例3——爬取簡書網專題收錄文章 250

12.4.1 爬蟲思路分析 251

12.4.2 爬蟲代碼及分析 254

12.5 綜合案例4——爬取簡書網推薦信息 257

12.5.1 爬蟲思路分析 258

12.5.2 爬蟲代碼及分析 260
Python是數據分析的首選語言,而網絡中的數據和信息很多,如何從中獲取需要的數據和信息呢?最簡單、直接的方法就是用爬蟲技術來解決。本書是一本教初學者學習如何爬取網絡數據和信息的入門讀物。書中不僅有Python的相關內容,而且還有數據處理和數據挖掘等方面的內容。本書內容非常實用,講解時穿插了22個爬蟲實戰案例,可以大大提高讀者的實際動手能力。

本書共分12章,核心主題包括Python零基礎語法入門、爬蟲原理和網頁構造、我的第一個爬蟲程序、正則表達式、Lxml庫與Xpath語法、使用API、數據庫存儲、多進程爬蟲、異步加載、表單交互與模擬登錄、Selenium模擬瀏覽器、Scrapy爬蟲框架。此外,書中通過一些典型爬蟲案例,講解了有經緯信息的地圖圖表和詞云的制作方法,讓讀者體驗數據背后的樂趣。

本書適合爬蟲技術初學者、愛好者及高等院校的相關學生,也適合數據爬蟲工程師作為參考讀物,同時也適合各大Python數據分析的培訓機構作為教材使用。
隨著Internet的飛速發展,互聯網中每天都會產生大量的非結構化數據。如何從這些非結構化數據中提取有效信息,供人們在學習和工作中使用呢?這個問題促使網絡爬蟲技術應運而生。由于Python語言簡單易用,而且還提供了優秀易用的第三方庫和多樣的爬蟲框架,所以使得它成為了網絡爬蟲技術的主力軍。近年來,大數據技術發展迅速,數據爬取作為數據分析的一環也顯得尤為重要。程序員要進入與數據處理、分析和挖掘等相關的行業,就必須要掌握Python語言及其網絡爬蟲的運用,這樣才能在就業嚴峻的市場環境中有較強的職場競爭力和較好的職業前景。

  目前,圖書市場上僅有的幾本Python網絡爬蟲類圖書,要么是國外優秀圖書,但書籍翻譯隱晦,閱讀難度大,而且往往由于網絡原因,使得書中的案例不能正常使用,因此不適合初學者;要么是國內資料,但質量參差不齊,而且不成系統,同樣不適合初學者。整個圖書市場上還鮮見一本適合初學者閱讀的Python網絡爬蟲類圖書。本書便是基于這個原因而編寫。本書從Python語言基礎講起,然后深入淺出地介紹了爬蟲原理、各種爬蟲技術及22個爬蟲實戰案例。本書全部選用國內網站作為爬蟲案例,便于讀者理解和實現,同時也可以大大提高讀者對Python網絡爬蟲項目的實戰能力。

本書特色

  1.涵蓋Windows 7系統第三方庫的安裝與配置

  本書包含Python模塊源的配置、第三方庫的安裝和使用,以及PyCharm的安裝和使用。

  2.對網絡爬蟲技術進行了原理性的分析

  本書從一開始便對網絡連接和爬蟲原理做了基本介紹,并對網絡爬蟲的基本流程做了詳細講解,便于讀者理解本書后面章節中的爬蟲項目案例。

  3.內容全面,應用性強

  本書介紹了從單線程到多進程,從同步加載到異步加載,從簡單爬蟲到框架爬蟲等一系列爬蟲技術,具有超強的實用性,讀者可以隨時查閱和參考。

  4.項目案例典型,實戰性強,有較高的應用價值

  本書介紹了22個爬蟲項目實戰案例。這些案例來源于不同的網站頁面,具有很高的應用價值。而且這些案例分別使用了不同的爬蟲技術實現,便于讀者融會貫通地理解書中介紹的技術。

本書內容

  第1章 Python零基礎語法入門

  本章介紹了Python和PyCharm的安裝及Python最為簡單的語法基礎,包括簡單的流程控制、數據結構、文件操作和面向對象的編程思想。

  第2章 爬蟲原理和網頁構造

  本章通過介紹網絡連接原理,進而介紹了爬蟲的原理,講解了爬蟲的基本流程,另外還介紹了如何使用Chrome瀏覽器認識網頁構造和查詢網頁信息。

  第3章 我的第一個爬蟲程序

  本章主要介紹了安裝請求和解析網頁的Python第三方庫、Requests庫和BeautifulSoup庫的使用方法,最后通過綜合案例手把手教會讀者編寫一個簡單的爬蟲程序。

  第4章 正則表達式

  本章主要介紹了正則表達式的常用符號及Python中re模塊的使用方法,在不需要解析庫的情況下完成一個簡單的爬蟲程序。

  第5章 Lxml庫與Xpath語法

  本章主要介紹了Lxml庫在Mac和Linux環境中的安裝方法、Lxml庫的使用方法及Xpath語法知識,并且通過案例對正則表達式、BeautifulSoup和Lxml進行了性能對比,最后通過綜合案例鞏固Xpath語言的相關知識。

  第6章 使用API

  本章主要介紹了API的使用和調用方法,對API返回的JSON數據進行解析,最后通過使用API完成一些有趣的綜合案例。

  第7章 數據庫存儲

  本章主要介紹了非關系型數據庫MongoDB和關系型數據庫MySQL的相關知識,并通過綜合案例展示了Python對兩種數據庫的存儲方法。

  第8章 多進程爬蟲

  本章主要介紹了多線程及其概念,并通過案例對串行爬蟲和多進程爬蟲的性能進行了對比,最后通過綜合案例介紹了多進程爬取數據的方法和技巧。

  第9章 異步加載

  本章主要介紹了異步加載的基本概念,以及如何針對異步加載網頁使用逆向工程抓取數據,最后通過綜合案例講解了逆向工程的使用方法和常用技巧。

  第10章 表單交互與模擬登錄

  本章主要介紹了Requests庫的POST方法,通過觀測表單源代碼和逆向工程來填寫表單以獲取網頁信息,以及通過提交cookie信息來模擬登錄網站。

  第11章 Selenium模擬瀏覽器

  本章主要介紹了Selenium模塊的安裝、Selenium瀏覽器的選擇和安裝,以及Selenium模塊的使用方法,最后通過綜合案例介紹了如何對采用異步加載技術的網頁進行爬蟲。

  第12章 Scrapy爬蟲框架

  本章主要介紹了Windows 7環境中的Scrapy安裝和創建爬蟲項目的過程,并通過案例詳細講解了各個Scrapy文件的作用和使用方法,而且通過多個綜合案例講解了如何通過Scrapy爬蟲框架把數據存儲到不同類型的文件中,最后講解了如何編寫跨頁面網站的爬蟲代碼。

本書讀者對象

* 數據爬蟲初學者;

* 數據分析初級人員;

* 網絡爬蟲愛好者;

* 數據爬蟲工程師;

* Python初級開發人員;

* 需要提高動手能力的爬蟲技術人員;

* 高等院校的相關學生。

本書配套資源及獲取方式

  本書涉及的源代碼文件等配套學習資源需要讀者自行下載。請登錄機械工業出版社華章公司的網站,然后搜索到本書頁面,按照頁面上的說明進行下載即可。

本書作者

  本書由羅攀和蔣仟主筆編寫,其他參與編寫的人員有張昆、張友、趙桂芹、張金霞、張增強、劉桂珍、陳冠軍、魏春、張燕、孟春燕、頊宇峰、李楊坡、張增勝、方加青、曾桃園、曾利萍、談康太、蔣啊龍、汪春蘭、李秀、董建霞、方亞平、李文強、張梁、鄧玉前、劉麗、舒玲莉、孫敖。

  雖然我們對書中所述內容都盡量核實,并多次進行文字校對,但因時間有限,加之水平所限,書中疏漏和錯誤之處在所難免,敬請廣大讀者批評、指正。聯系我們請發E-mail。
編著者
pagetop