-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

自己動手寫網絡爬蟲(修訂版)

( 簡體 字)
作者:羅剛類別:1. -> 程式設計 -> 網路爬蟲
譯者:
出版社:清華大學出版社自己動手寫網絡爬蟲(修訂版) 3dWoo書號: 45075
詢問書籍請說出此書號!

缺書
NT售價: 245

出版日:9/1/2016
頁數:344
光碟數:1
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302442646
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

  當你在網上沖浪時,你是否知道還有一類特殊的網絡用戶也在互聯網上默默地工作著,它們就是網絡爬蟲。這些網絡爬蟲按照設計者預定的方式,在網絡中穿梭,同時自動收集有用的信息,進行分類和整理,將整理結果提供給用戶,以方便用戶查找他們感興趣的內容。由于網絡爬蟲的實用性,引起了很多程序員,特別是Web程序員的興趣。
  但是大多數網絡爬蟲的開發原理與技巧在專業的公司內部都秘而不宣,至今仍然缺少理論與實踐相結合的專門介紹網絡爬蟲的書籍。本書嘗試理論與實踐相結合,深入透徹地講解網絡爬蟲的原理,并且輔以相關代碼作為參考。本書相關的代碼在附帶光盤中可以找到。
  本書的兩位主要作者在搜索引擎領域都有豐富的理論和實踐經驗。同時,還有多個程序員幫忙開發或編寫了代碼實現,例如Java實現異步I/O或對PDF文件的處理等。由于作者的日常工作繁忙,做得不夠的地方敬請諒解。
  作者羅剛在參加編寫本書之前,還合作撰寫過《解密搜索引擎技術實戰》一書,但存在講解不夠細致、知識點不夠深入等問題。此次修訂,對一些過時的內容進行了更新。
  本書從基本的爬蟲原理開始講解,通過介紹優先級隊列、寬度優先搜索等內容引領讀者入門;之后根據當前風起云涌的云計算熱潮,重點講述了云計算的相關內容及其在爬蟲中的應用,以及帶偏好的爬蟲、信息抽取、鏈接分析等內容;為了能夠讓讀者更深入地了解爬蟲,本書在最后兩章還介紹了有關爬蟲的數據挖掘等內容。
  由于搜索引擎相關領域也正在快速發展中,而且由于篇幅的限制,有些不成熟的內容,沒有能夠在本書體現,例如有關"暗網"的內容。隨著技術的不斷發展,我們將在今后的版本中加入這些內容。
  本書適合需要具體實現網絡爬蟲的程序員使用,對于信息檢索等相關研究人員也有一定的參考價值,同時獵兔搜索技術團隊也已經開發出以本書為基礎的專門培訓課程和商業軟件。目前的一些網絡爬蟲軟件仍然有很多功能有待實現,作者真誠地希望通過本書把讀者帶入網絡爬蟲開發的大門并認識更多的朋友。
  感謝開源軟件和我們的家人、關心我們的老師和朋友、創業伙伴以及選擇獵兔搜索軟件的客戶多年來的支持。


編 者

內容簡介:

本書介紹了網絡爬蟲開發中的關鍵問題與Java實現。主要包括從互聯網獲取信息與提取信息和對Web信息挖掘等內容。本書在介紹基本原理的同時注重輔以具體代碼實現來幫助讀者加深理解,書中部分代碼甚至可以直接使用。
本書適用于有Java程序設計基礎的開發人員。同時也可以作為計算機相關專業本科生或研究生的參考教程。
目錄:

第1篇自己動手抓取數據

第1章全面剖析網絡爬蟲 3

1.1抓取網頁 4

1.1.1深入理解URL 4

1.1.2通過指定的URL抓取

網頁內容 6

1.1.3Java網頁抓取示例 8

1.1.4處理HTTP狀態碼 10

1.2寬度優先爬蟲和帶偏好的爬蟲 12

1.2.1圖的寬度優先遍歷 12

1.2.2寬度優先遍歷互聯網 13

1.2.3Java寬度優先爬蟲示例 15

1.2.4帶偏好的爬蟲 22

1.2.5Java帶偏好的爬蟲示例 23

1.3設計爬蟲隊列 24

1.3.1爬蟲隊列 24

1.3.2使用BerkeleyDB構建爬蟲

隊列 29

1.3.3使用BerkeleyDB構建爬蟲

隊列示例 30

1.3.4使用布隆過濾器構建

Visited表 36

1.3.5詳解Heritrix爬蟲隊列 39

1.4設計爬蟲架構 46

1.4.1爬蟲架構 46

1.4.2設計并行爬蟲架構 47

1.4.3詳解Heritrix爬蟲架構 52

1.5使用多線程技術提升爬蟲性能 55

1.5.1詳解Java多線程 55

1.5.2爬蟲中的多線程 59

1.5.3一個簡單的多線程爬蟲實現 60

1.5.4詳解Heritrix多線程結構 61

本章小結 64

第2章分布式爬蟲 69

2.1設計分布式爬蟲 70

2.1.1分布式與云計算 70

2.1.2分布式與云計算技術在

爬蟲中的應用--淺析

Google的云計算架構 72

2.2分布式存儲 72

2.2.1從Ralation_DB到key/value

存儲 72

2.2.2ConsistentHash算法 74

2.2.3ConsistentHash代碼實現 79

2.3Google的成功之道--GFS 80

2.3.1GFS詳解 80

2.3.2開源GFS--HDFS 84

2.4Google網頁存儲秘訣--BigTable 88

2.4.1詳解BigTable 88

2.4.2開源BigTable-HBase 93

2.5Google的成功之道--

MapReduce算法 98

2.5.1詳解MapReduce算法 100

2.5.2MapReduce容錯處理 101

2.5.3MapReduce實現架構 102

2.5.4Hadoop中的MapReduce

簡介 104

2.5.5wordCount例子的實現 105

2.6Nutch中的分布式 109

2.6.1Nutch爬蟲詳解 109

2.6.2Nutch中的分布式 116

本章小結 118

第3章爬蟲的"方方面面" 121

3.1爬蟲中的"黑洞" 122

3.2主題爬蟲和限定爬蟲 122

3.2.1理解主題爬蟲 122

3.2.2Java主題爬蟲 128

3.2.3理解限定爬蟲 130

3.2.4Java限定爬蟲示例 136

3.3有"道德"的爬蟲 152

本章小結 156

第2篇自己動手抽取Web內容

第4章"處理"HTML頁面 159

4.1征服正則表達式 160

4.1.1學習正則表達式 160

4.1.2Java正則表達式 163

4.2抽取HTML正文 169

4.2.1了解Jsoup 169

4.2.2使用正則表達式抽取示例 173

4.3抽取正文 177

4.4從JavaScript中抽取信息 193

4.4.1JavaScript抽取方法 193

4.4.2JavaScript抽取示例 195

本章小結 197

第5章非HTML正文抽取 199

5.1抽取PDF文件 200

5.1.1學習PDFBox 200

5.1.2使用PDFBox抽取示例 204

5.1.3提取PDF文件標題 205

5.1.4處理PDF格式的公文 206

5.2抽取Office文檔 211

5.2.1學習POI 211

5.2.2使用POI抽取Word示例 211

5.2.3使用POI抽取PPT示例 213

5.2.4使用POI抽取Excel示例 214

5.3抽取RTF 217

5.3.1開源RTF文件解析器 217

5.3.2實現一個RTF文件解析器 217

5.3.3解析RTF示例 222

本章小結 227

第6章多媒體抽取 229

6.1視頻抽取 230

6.1.1抽取視頻關鍵幀 230

6.1.2Java視頻處理框架 231

6.1.3Java視頻抽取示例 235

6.2音頻抽取 247

6.2.1抽取音頻 248

6.2.2Java音頻抽取技術 252

本章小結 254

第7章去掉網頁中的"噪聲" 255

7.1"噪聲"對網頁的影響 256

7.2利用"統計學"消除"噪聲" 257

7.2.1網站風格樹 260

7.2.2"統計學去噪"的

Java實現 268

7.3利用"視覺"消除"噪聲" 272

7.3.1"視覺"與"噪聲" 272

7.3.2"視覺去噪"的Java實現 273

本章小結 277

第3篇自己動手挖掘Web數據

第8章分析Web圖 281

8.1存儲Web"圖" 282

8.2利用Web"圖"分析鏈接 291

8.3Google的秘密--PageRank 291

8.3.1深入理解PageRank算法 291

8.3.2PageRank算法的Java實現 295

8.3.3應用PageRank進行鏈接

分析 298

8.4PageRank的兄弟HITS 299

8.4.1深入理解HITS算法 299

8.4.2HITS算法的Java實現 300

8.4.3應用HITS進行鏈接分析 311

8.5PageRank與HITS比較 312

本章小結 313

第9章去掉"重復"的文檔 315

9.1何為"重復"的文檔 316

9.2利用"語義指紋"排重 316

9.2.1理解"語義指紋" 318

9.2.2"語義指紋"排重的

Java實現 319

9.3SimHash排重 319

9.3.1理解SimHash 320

9.3.2SimHash排重的Java實現 321

9.4分布式文檔排重 328

本章小結 329

第10章分類與聚類的應用 331

10.1網頁分類 332

10.1.1收集語料庫 332

10.1.2選取網頁的"特征" 333

10.1.3使用支持向量機進行

網頁分類 336

10.1.4利用URL地址進行

網頁分類 338

10.1.5使用AdaBoost進行

網頁分類 338

10.2網頁聚類 341

10.2.1深入理解DBScan算法 341

10.2.2使用DBScan算法聚類

實例 342

本章小結 344

序: