-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python 3.7網絡爬蟲快速入門

( 簡體 字)
作者:王啟明類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 網路爬蟲
譯者:
出版社:清華大學出版社Python 3.7網絡爬蟲快速入門 3dWoo書號: 51919
詢問書籍請說出此書號!

缺書
NT售價: 245

出版日:10/1/2019
頁數:200
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302536475
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

Python是簡練的語言
使用像Python這樣的動態類型語言編寫的代碼往往比用其他主流語言編寫的代碼更加簡短。這意味著,在編程的過程中會有更少的錄入工作,而且會更容易記住算法并真正領會算法的原理。
Python是易讀的語言
Python不時被人們指為“可執行的偽代碼”。雖然很明顯這是夸大之詞,但是它表明大多數有經驗的程序員可以讀懂Python代碼并領會代碼所要表達的意圖。
Python是易安裝的語言
要搭建Python的環境非常容易,不管是Windows、Linux還是Mac系統,只要配置好Python的環境,只需要easy_install XX或者pip install XX 就可以安裝所需要的第三方擴展包。
Python是易擴展的語言
Python附屬了很多標準庫,涉及數據函數、XML解析以及網頁下載、RSS解析、SQLLite等,可以解決現實中遇到的各種問題。
為什么用Python實現網絡爬蟲
基于上述優點,加上抓取網頁文檔的接口更簡潔;相比其他動態腳本語言,如Perl、Shell,Python的urllib2包提供了較為完整的訪問網頁文檔的API,以及抓取后的處理方法,比如篩選HTML標簽、提取文本等。Python的相關擴展可以用極短的代碼完成大部分文檔的處理。
本書涉及的技術或框架
Python基本語法 正則表達式 線程(Thread)
Python函數 XML 進程(Process)
lxml模塊 CSV 圖形識別驗證碼
XPath語法 MySQL Scrapy
BeautifulSoup PyQuery
本書涉及的范例和案例
爬取豆瓣網的內容 爬取鼠繪漫畫的圖片
爬取電影天堂網的內容 使用多線程爬取豆瓣的內容
爬取貓眼電影網的內容 使用Tesseract識別驗證碼的圖片
爬取騰訊招聘網的內容 使用Scrapy框架爬取豆瓣網的內容
使用BeautifulSoup爬取電影天堂的內容 使用PyQuery爬取微博熱搜的內容
使用正則表達式爬取糗事百科的內容
本書特點
(1)語言通俗易懂。對于沒有基礎的讀者,最忌諱的就是講一些艱深晦澀的理論,讓人難于理解。本書則盡量使用通俗易懂的語言來介紹Python,讓大家更容易理解各種知識點,從而將相應的知識變成自己的能力。
(2)結合范例程序來講解知識點。為了講明各個知識點,基本上每個知識點都通過相關的范例程序來說明。通過范例程序及實際的執行效果,讓大家學以致用,在理解領會的基礎上進一步掌握相關知識、相應模塊的方法。
(3)插圖配合教學視頻。為了保證本書的范例程序均能夠成功執行,每個范例程序不僅有相應的程序代碼,還有程序執行后的效果圖。大家可以通過效果圖來對比程序執行的結果,確保學習質量。同時每章還配有一個教學視頻供讀者自學參考。
(4)案例豐富。為了向讀者說明Python爬蟲程序的效果,書中選擇的被爬取的網站都是國內熱門的網站,比如豆瓣電影、貓眼電影、電影天堂、微博熱搜等。這些網站大家喜聞樂見。通過這些案例,大家可以輕松地掌握相關模塊的使用方法,舉一反三,將相應技術應用于其他同類的網站中。
代碼與教學視頻下載
本書示例源代碼與教學視頻下載地址請掃描右邊二維碼獲得。
如果下載有問題,請聯系,郵件主題為“Python 3.7網絡爬蟲快速入門”。
本書讀者
? 有志于學習Python爬蟲編程的初學者
? 對Python網絡爬蟲技術有興趣的開發人員
? 各類綜合信息網站的站長或技術人員
? 高校和培訓學校相關專業的師生
編 者
2019年7月
內容簡介:

Python 3.7正在成為目前流行的編程語言,而網絡爬蟲又是Python網絡應用中的重要技術,二者的碰撞產生了巨大的火花。本書在這個背景下編寫而成,詳細介紹Python 3.7網絡爬蟲技術。
本書分為11章,分別介紹Python 3.7爬蟲開發相關的基礎知識、lxml模塊、BeautifulSoup模塊、正則表達式、文件處理、多線程爬蟲、圖形識別、Scrapy框架、PyQuery模塊等。基本上每一章都配有眾多小范例程序與一個大實戰案例。作者還為每一章分別錄制教學視頻供讀者自學參考。
本書內容詳盡、示例豐富,是有志于學習Python網絡爬蟲技術初學者必備的參考書,同時也可作為Python愛好者拓寬知識領域、提升編程技術的參考書。
目錄:

第1章簡識PYTHON 1
1.1了解PYTHON 1
1.1.1Python的概念 1
1.1.2有趣的Python程序 2
1.2集成開發環境 4
1.2.1安裝Python3.7 4
1.2.2從IDLE啟動Python 6
1.3編寫自己的第一個PYTHON程序:一個簡單的問候 8
1.4小結 11
第2章PYTHON語法速覽 12
2.1數據類型與變量 12
2.1.1數據類型 12
2.1.2變量 14
2.2運算符 15
2.2.1算術運算符 16
2.2.2比較運算符 17
2.2.3賦值運算符 17
2.2.4邏輯運算符 18
2.2.5位運算符 19
2.2.6成員運算符 20
2.2.7身份運算符 21
2.2.8運算符的優先級 21
2.3使用復合類型 21
2.3.1列表 22
2.3.2元組 26
2.3.3字典 26
2.3.4集合 27
2.4流程控制結構 29
2.4.1選擇結構 29
2.4.2重復結構(循環結構) 30
2.5小結 33
第3章函數 34
3.1認識函數 34
3.1.1什么是函數 34
3.1.2創建函數 35
3.2使用函數 35
3.2.1參數 36
3.2.2返回值 38
3.2.3函數的遞歸 39
3.3實踐一下 40
3.3.1實踐一:編寫一個函數 40
3.3.2實踐二:遍歷與計數 41
3.4小結 42
第4章LXML模塊和XPATH語法 43
4.1LXML模塊 43
4.1.1什么是模塊 43
4.1.2關于lxml模塊 44
4.1.3lxml模塊的安裝 44
4.1.4lxml庫的用法 46
4.2XPATH語法 46
4.2.1基本語法 46
4.2.2基本操作 47
4.2.3lxml庫的用法 49
4.2.4XPath范例程序測試 50
4.3爬蟲LXML解析實戰 53
4.3.1爬取豆瓣網站 53
4.3.2爬取電影天堂 55
4.3.3爬取貓眼電影 58
4.3.4爬取騰訊招聘網 61
4.3.5關于HTML 63
4.4小結 63
第5章BEAUTIFULSOUP庫 64
5.1簡識BEAUTIFULSOUP4 64
5.1.1安裝與配置 64
5.1.2基本用法 66
5.2BEAUTIFULSOUP對象 67
5.2.1創建BeautifulSoup對象 67
5.2.24類對象 70
5.2.3遍歷文檔樹 74
5.2.4搜索文檔樹 78
5.3方法和CSS選擇器 81
5.3.1find類方法 81
5.3.2CSS選擇器 82
5.4爬取示范:使用BEAUTIFULSOUP爬取電影天堂 85
5.4.1基本思路 85
5.4.2實際爬取 85
5.5小結 87
第6章正則表達式 88
6.1了解正則表達式 88
6.1.1基本概念 88
6.1.2re模塊 89
6.1.3compile()方法 89
6.1.4match()方法 90
6.1.5group()和groups()方法 90
6.1.6search()方法 90
6.1.7findall()方法 92
6.1.8finditer()方法 93
6.1.9split()方法 94
6.1.10sub()方法 94
6.2抓取 95
6.2.1抓取標簽間的內容 95
6.2.2抓取tr\td標簽間的內容 98
6.2.3抓取標簽中的參數 99
6.2.4字符串處理及替換 101
6.3爬取實戰 102
6.3.1獲取數據 103
6.3.2篩選數據 104
6.3.3保存數據 107
6.3.4顯示數據 107
6.4總結 108
第7章JSON文件處理、CSV文件處理和MYSQL數據庫操作 109
7.1簡識JSON 109
7.1.1什么是JSON 109
7.1.2字典和列表轉JSON 110
7.1.3將JSON數據轉儲到文件中 111
7.1.4將一個JSON字符串加載為Python對象 111
7.1.5從文件中讀取JSON 112
7.2CSV文件處理 113
7.2.1讀取CSV文件 113
7.2.2把數據寫入CSV文件 114
7.2.3練習 115
7.3MYSQL數據庫 117
7.3.1MySQL數據庫的安裝 117
7.3.2安裝MySQL模塊 127
7.3.3連接MySQL 127
7.3.4執行SQL語句 128
7.3.5創建表 129
7.3.6插入數據 130
7.3.7查看數據 132
7.3.8修改數據 133
7.3.9刪除數據 135
7.3.10實踐操作 136
7.4小結 139
第8章多線程爬蟲 140
8.1關于多線程 140
8.1.1基本知識 140
8.1.2多線程的適用范圍 141
8.2多線程的實現 142
8.2.1使用_thread模塊創建多線程 142
8.2.2關于Threading模塊 145
8.2.3使用函數方式創建線程 146
8.2.4傳遞可調用的類的實例來創建線程 148
8.2.5派生子類并創建子類的實例 149
8.3使用多進程 150
8.3.1創建子進程 150
8.3.2將進程定義為類 151
8.3.3創建多個進程 152
8.4爬取示范:多線程爬取豆瓣電影 153
8.4.1使用多進程進行爬取 154
8.4.2使用多線程進行爬取 156
8.5小結 158
第9章圖形驗證識別技術 159
9.1圖像識別開源庫:TESSERACT 159
9.1.1安裝Tesseract 159
9.1.2設置環境變量 164
9.1.3驗證安裝 166
9.2對網絡驗證碼的識別 168
9.2.1讀取網絡驗證碼并識別 168
9.2.2對驗證碼進行轉化 169
9.3小結 170
第10章SCRAPY框架 171
10.1了解SCRAPY 171
10.1.1Scrapy框架概述 171
10.1.2安裝 173
10.2開發SCRAPY的過程 176
10.2.1Scrapy開發步驟 176
10.2.2Scrapy保存信息的格式 177
10.2.3項目中各個文件的作用 178
10.3爬蟲范例 179
10.3.1Scrapy爬取美劇天堂 179
10.3.2Scrapy爬取豆瓣網 182
10.3.3Scrapy爬取豆瓣網II 186
10.4總結 189
第11章PYQUERY模塊 190
11.1PYQUERY模塊 190
11.1.1什么是PyQuery模塊 190
11.1.2PyQuery模塊的安裝 190
11.2PYQUERY模塊用法 191
11.2.1使用字符串初始化PyQuery對象 191
11.2.2使用文件初始化PyQuery對象 192
11.2.3使用URL初始化PyQuery對象 193
11.3CSS篩選器的使用 194
11.3.1基本CSS選擇器 194
11.3.2查找節點 195
11.3.3遍歷結果并輸出 197
11.3.4獲取文本信息 198
11.4爬蟲PYQUERY解析實戰 200
11.4.1爬取貓眼票房 200
11.4.2爬取微博熱搜 201
11.5小結 202
序: