-- 會員 / 註冊 --
 帳號:
 密碼:
  | 註冊 | 忘記密碼
站長推薦
NT售價: 495
NT售價: 395
NT售價: 345
NT售價: 160
NT售價: 190

3/22 新書到! 3/14 新書到! 3/9 新書到! 3/3 新書到!
C.G.Next購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUGRevit
PhotoShopCorelDrawIllustratorAutoCadMasterCamSolidWorksCreo
CC++Java遊戲程式Linux嵌入式PLCFPGAMatlabNuke
駭客資料庫Oracle搜索引擎影像處理FluentSPSSANSYSUnity
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
C#HadoopPythonstm32手機程式CortexLabviewAndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

解密搜索引擎技術實戰——Lucene&Java精華版(第3版)

( 簡體 字)
作者:羅剛等類別:1. -> 程式設計 -> 搜索引擎
譯者:
出版社:電子工業出版社解密搜索引擎技術實戰——Lucene&Java精華版(第3版) 3dWoo書號: 43742
詢問書籍請說出此書號!

有庫存
NT售價: 395

出版日:3/1/2016
頁數:511
光碟數:1
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121281112
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
作者序:

譯者序:

前言:

很多搜索相關的技術已經得到了初步的解決。在國內產業界也已經有很多公司掌握了基本的搜索開發技術并擁有專業的搜索技術開發人員。但是越來越多有價值的資訊對現有技術的處理能力仍然是一個挑戰。
為了方便實踐,需要有良好實現的代碼作為參考。為了節約篇幅,書中的代碼只是核心片段。本書相關代碼的完整版本在附帶光盤中可以找到。
作者羅剛在參加編寫本書之前,還獨立撰寫過《自己動手寫搜索引擎》一書,與王振東共同編寫過《自己動手寫網絡爬蟲》一書。經過10多年的技術積累以及獵兔搜索技術團隊每年若干的研發投入,相信獵兔已經能夠比以前做得更好。但越是深入接觸客戶的需求,越感覺到技術本身仍需要更多進步,才能滿足實用的需要。寫這本書也是考慮到,也許還需要更多的前進,才能使技術產生質的飛躍。
本書分為相關技術總體介紹部分、爬蟲部分、全文檢索部分、自然語言處理部分以及相關案例分析部分。
爬蟲部分從基本的爬蟲原理開始講解,通過介紹優先級隊列、寬度優先搜索等內容引領讀者入門;然后根據當前風起云涌的云計算熱潮,重點講述了云計算的基本原理及其在搜索中的應用,以及Web圖分析、信息抽取等內容;為了能夠讓讀者更深入地了解爬蟲,本書還介紹了有關爬蟲的數據挖掘的內容。
全文檢索部分重點介紹了搜索的基本原理與使用。主要介紹了開源軟件實現Lucene以及Solr。不僅介紹了如何使用這些開源軟件,而且還介紹了其中的一些實現原理。Lucene更高版本的改進指出了當前需要解決的問題,歡迎讀者在了解基本原理后進行更深入的研究。
自然語言處理部分向來是筆者關注的重點,因為系統的智能化依賴于此。開發中文搜索離不開中文分詞。開發任何自然語言的搜索也離不開對相應語言的處理。對自然語言的處理其實也可以用到對Java或C語言這樣的機器語言的處理方法,只不過處理自然語言更難一點。
雖然本書的每個章節都已經用代碼強化了實現細節,但是對于初學者來說,也許需要更多的案例來理解相關技術在真實場景中的用法。案例分析部分介紹了在地理信息系統領域和戶外活動搜索領域的應用。股票應用案例待整理完整后再加入。
本書適合需要具體實現搜索引擎的程序員使用,對于信息檢索等相關研究人員也有一定的參考價值,同時獵兔搜索技術團隊也已經開發出以本書為基礎的專門培訓課程和商業軟件。
高級開發人員也可以參加獵兔的培訓或者創業團隊。職場人員經常面臨各種壓力。選擇獵兔培訓,不是幾個月學完以后就不再見面,而是給大家提供持久的支持。當以后需要再次找工作的時候,或者需要創業時,依然可以在這里找到支持。很多商業運營的大項目失敗的代價太高,所以他們往往只招有多年開發經驗的工程師。但是為了成長就不要怕犯錯誤,在培訓時可以等學員犯了錯誤之后再告知正確答案。有經驗的工程師也可以在這里學習到完整的技術體系。
感謝開源軟件開發人員和家人、關心獵兔的老師和朋友、創業伙伴以及信賴獵兔軟件的客戶多年來的支持。參與本書編寫的有羅剛、張子憲、張繼紅、羅庭亮、高丹丹、任通通、孫寬、何淑琴、徐友峰、張進威、劉宇、石田盈,在此一并表示感謝。讓我們通過合作共贏為技術發展創造更好的生態環境。

編著者
內容簡介:

本書是獵兔搜索開發團隊的軟件研發和教學實踐的經驗匯總。本書總結搜索引擎相關理論與實際解決方案,并給出了Java實現,其中利用了流行的開源項目Lucene和Solr,而且還包括原創的實現。 本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬蟲部分介紹了網頁遍歷方法和如何實現增量抓取,并介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發,包括了中文分詞與詞性標注的理論與實現及在搜索引擎中的應用等細節,同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹,并總結了實現方法。在全文檢索部分,結合Lucene介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應用方法,包括完整的搜索實現過程:從完成索引到搜索用戶界面的實現。此外還進一步介紹了實現準實時搜索的方法,展示了Solr的用法以及實現分布式搜索服務集群的方法。最后介紹了在地理信息系統領域和戶外活動搜索領域的應用。

目錄:

第1章 搜索引擎總體結構 1
1.1 搜索引擎基本模塊 1
1.2 開發環境 2
1.3 搜索引擎工作原理 3
1.3.1 網絡爬蟲 4
1.3.2 全文索引結構與Lucene實現 4
1.3.3 搜索用戶界面 7
1.3.4 計算框架 8
1.3.5 文本挖掘 9
1.4 本章小結 9
第2章 網絡爬蟲的原理與應用 11
2.1 爬蟲的基本原理 11
2.2 爬蟲架構 14
2.2.1 基本架構 14
2.2.2 分布式爬蟲架構 16
2.2.3 垂直爬蟲架構 17
2.3 抓取網頁 18
2.3.1 下載網頁的基本方法 19
2.3.2 網頁更新 23
2.3.3 抓取限制應對方法 25
2.3.4 URL地址提取 28
2.3.5 抓取JavaScript動態頁面 28
2.3.6 抓取即時信息 31
2.3.7 抓取暗網 32
2.3.8 信息過濾 33
2.3.9 最好優先遍歷 39
2.4 存儲URL地址 40
2.4.1 BerkeleyDB 40
2.4.2 布隆過濾器 42
2.5 并行抓取 45
2.5.1 多線程爬蟲 46
2.5.2 垂直搜索的多線程爬蟲 48
2.5.3 異步I/O 49
2.6 RSS抓取 53
2.7 抓取FTP 55
2.8 下載圖片 55
2.9 圖像的OCR識別 56
2.9.1 圖像二值化 57
2.9.2 切分圖像 60
2.9.3 SVM分類 63
2.10 Web結構挖掘 67
2.10.1 存儲Web圖 67
2.10.2 PageRank算法 71
2.10.3 HITs算法 77
2.10.4 主題相關的PageRank 81
2.11 部署爬蟲 83
2.12 本章小結 83
第3章 索引內容提取 86
3.1 從HTML文件中提取文本 86
3.1.1 識別網頁的編碼 86
3.1.2 網頁編碼轉換為字符串編碼 89
3.1.3 使用正則表達式提取數據 89
3.1.4 結構化信息提取 91
3.1.5 網頁的DOM結構 94
3.1.6 使用NekoHTML提取信息 95
3.1.7 使用Jsoup提取信息 101
3.1.8 網頁去噪 105
3.1.9 網頁結構相似度計算 110
3.1.10 提取標題 112
3.1.11 提取日期 113
3.2 從非HTML文件中提取文本 113
3.2.1 提取標題的一般方法 114
3.2.2 PDF文件 118
3.2.3 Word文件 122
3.2.4 Rtf文件 123
3.2.5 Excel文件 134
3.2.6 PowerPoint文件 137
3.3 流媒體內容提取 137
3.3.1 音頻流內容提取 138
3.3.2 視頻流內容提取 140
3.4 存儲提取內容 142
3.5 本章小結 143
第4章 中文分詞的原理與實現 144
4.1 Lucene中的中文分詞 145
4.1.1 Lucene切分原理 145
4.1.2 Lucene中的Analyzer 146
4.1.3 自己寫Analyzer 148
4.1.4 Lietu中文分詞 150
4.2 查找詞典算法 151
4.2.1 標準Trie樹 151
4.2.2 三叉Trie樹 154
4.3 中文分詞的原理 159
4.4 中文分詞流程與結構 162
4.5 形成切分詞圖 164
4.6 概率語言模型的分詞方法 169
4.7 N元分詞方法 173
4.8 新詞發現 178
4.9 未登錄詞識別 179
4.10 詞性標注 180
4.10.1 隱馬爾可夫模型 183
4.10.2 基于轉換的錯誤
學習方法 191
4.11 平滑算法 193
4.12 本章小結 198
第5章 讓搜索引擎理解自然語言 199
5.1 停用詞表 200
5.2 句法分析樹 201
5.3 相似度計算 205
5.4 文檔排重 209
5.4.1 語義指紋 210
5.4.2 SimHash 213
5.4.3 分布式文檔排重 223
5.5 中文關鍵詞提取 223
5.5.1 關鍵詞提取的基本方法 223
5.5.2 HITS算法應用于
關鍵詞提取 226
5.5.3 從網頁中提取關鍵詞 228
5.6 相關搜索詞 228
5.6.1 挖掘相關搜索詞 229
5.6.2 使用多線程計算
相關搜索詞 231
5.7 信息提取 232
5.8 拼寫檢查與建議 237
5.8.1 模糊匹配問題 240
5.8.2 英文拼寫檢查 242
5.8.3 中文拼寫檢查 244
5.9 自動摘要 247
5.9.1 自動摘要技術 247
5.9.2 自動摘要的設計 247
5.9.3 Lucene中的動態摘要 254
5.10 文本分類 257
5.10.1 特征提取 259
5.10.2 中心向量法 262
5.10.3 樸素貝葉斯 265
5.10.4 支持向量機 272
5.10.5 規則方法 279
5.10.6 網頁分類 282
5.11 拼音轉換 283
5.12 概念搜索 284
5.13 多語言搜索 292
5.14 跨語言搜索 293
5.15 情感識別 295
5.15.1 確定詞語的褒貶傾向 298
5.15.2 實現情感識別 300
5.16 本章小結 301
第6章 Lucene原理與應用 303
6.1 Lucene深入介紹 304
6.1.1 常用查詢對象 304
6.1.2 查詢語法與解析 304
6.1.3 查詢原理 308
6.1.4 分析文本 309
6.1.5 使用Filter篩選搜索結果 316
6.1.6 遍歷索引庫 317
6.1.7 索引數值列 318
6.2 Lucene中的壓縮算法 322
6.2.1 變長壓縮 322
6.2.2 PForDelta 324
6.2.3 前綴壓縮 326
6.2.4 差分編碼 328
6.3 創建和維護索引庫 330
6.3.1 創建索引庫 330
6.3.2 向索引庫中添加索引文檔 331
6.3.3 刪除索引庫中的索引文檔 334
6.3.4 更新索引庫中的索引文檔 334
6.3.5 索引的合并 335
6.3.6 索引文件格式 335
6.4 查找索引庫 338
6.4.1 查詢過程 338
6.4.2 常用查詢 342
6.4.3 基本詞查詢 343
6.4.4 模糊匹配 343
6.4.5 布爾查詢 345
6.4.6 短語查詢 347
6.4.7 跨度查詢 349
6.4.8 FieldScoreQuery 353
6.5 讀寫并發控制 356
6.6 檢索模型 356
6.6.1 向量空間模型 357
6.6.2 BM25概率模型 361
6.6.3 統計語言模型 367
6.7 本章小結 369
第7章 搜索引擎用戶界面 370
7.1 實現Lucene搜索 370
7.2 實現搜索接口 372
7.2.1 編碼識別 372
7.2.2 布爾搜索 375
7.2.3 指定范圍搜索 375
7.2.4 搜索結果排序 376
7.2.5 搜索頁面的索引緩存與
更新 377
7.3 歷史搜索詞記錄 380
7.4 實現關鍵詞高亮顯示 381
7.5 實現分類統計視圖 383
7.6 實現Ajax搜索聯想詞 388
7.6.1 估計查詢詞的文檔頻率 388
7.6.2 搜索聯想詞總體結構 389
7.6.3 服務器端處理 389
7.6.4 瀏覽器端處理 390
7.6.5 服務器端改進 395
7.6.6 拼音提示 398
7.6.7 部署總結 399
7.7 集成其他功能 399
7.7.1 拼寫檢查 399
7.7.2 分類統計 400
7.7.3 相關搜索 402
7.7.4 再次查找 405
7.7.5 搜索日志 405
7.8 搜索日志分析 407
7.8.1 日志信息過濾 407
7.8.2 信息統計 409
7.8.3 挖掘日志信息 411
7.9 本章小結 412
第8章 使用Solr實現企業搜索 413
8.1 Solr簡介 413
8.2 Solr基本用法 414
8.2.1 Solr服務器端的配置與
中文支持 415
8.2.2 把數據放進Solr 421
8.2.3 刪除數據 423
8.2.4 Solr客戶端與搜索界面 424
8.2.5 Spring實現的搜索界面 425
8.2.6 Solr索引庫的查找 436
8.2.7 索引分發 440
8.2.8 Solr搜索優化 442
8.3 Solr擴展與定制 445
8.3.1 Solr中字詞混合索引 445
8.3.2 相關檢索 447
8.3.3 搜索結果去重 449
8.3.4 定制輸入輸出 453
8.3.5 分布式搜索 457
8.3.6 SolrJ查詢分析器 458
8.3.7 擴展SolrJ 466














8.3.8 擴展Solr 467
8.3.9 查詢Web圖 471
8.4 本章小結 473
第9章 地理信息系統案例分析 474
9.1 新聞提取 474
9.2 POI信息提取 479
9.2.1 提取主體 484
9.2.2 提取地區 485
9.2.3 指代消解 487
9.3 機器翻譯 489
9.3.1 詞對齊 490
9.3.2 翻譯公司名 491
9.3.3 調整語序 493
9.4 本章小結 494
第10章 戶外活動搜索案例分析 495
10.1 爬蟲 495
10.2 信息提取 497
10.3 活動分類 501
10.4 搜索 501
10.5 本章小結 502
參考資料 503
序: