-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

自然語言處理原理與技術實現

( 簡體 字)
作者:羅剛,張子憲類別:1. -> 程式設計 -> 自然語言
譯者:
出版社:電子工業出版社自然語言處理原理與技術實現 3dWoo書號: 44136
詢問書籍請說出此書號!

缺書
NT售價: 395

出版日:5/1/2016
頁數:443
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121286209
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

目前,互聯網上的信息迅速膨脹,要想從中找出需要的信息就需要使用搜索引擎,你是否知道搜索引擎的工作原理?它到底如何對諸如漢語這樣的文字進行加工、然后反饋出需要的結果?像這樣的語言處理問題都會在本書中找到答案。即使在計算機專業,也有很多人對這個學科很陌生。因此,本書借助流行的Java語言介紹自然語言處理的各個領域,希望為推動相關應用的發展做出貢獻。
本書的編者在自然語言處理教學和軟件開發過程中積累的經驗融入到本書的各個環節,讀者會因此感到原理和實際應用結合得非常緊密。編者的實踐經驗還體現在相關的其他書中,如《自己動手寫搜索引擎》《自己動手寫網絡爬蟲》《自己動手寫網絡爬蟲》《使用C#開發搜索引擎》《解密搜索引擎技術實戰》等。
有一些自然語言處理的開發原理與技巧在專業的公司內部秘而不宣。理論與實踐結合的專門講自然語言處理的書籍仍然相對較少。本書嘗試先介紹原理,接著是具體的代碼實現分析。本書相關的代碼在讀者QQ群(499526946)中的共享文件中可以找到。
國外有的基礎課程從“構建搜索引擎”開始介紹計算機科學。我們的相關培訓課程已經這樣做了。當年參加過培訓的學員,有些已經創業成功或者成為公司的技術骨干。要根據培訓經驗寫出很好的自學教程,我們還有很多工作要做。零基礎自學的讀者,可能還需要其他方式來補足。
自然語言處理開發崗位比較少。如果能夠花若干年開寫出自己的軟件產品,那么就可以合伙創業了。這個過程對很多人來說,往往太漫長。像老外那樣把冰箱放滿匹薩餅和可樂,然后就開始干活,這樣往往行不通,因為那樣吃不了幾天。可以買好能夠保存幾十年的谷子、水培可以吃若干年的韭菜。
就好像放在水里的韭菜種子,剛開始幾天根本看不到變化,學習是個循序漸進的過程。可以在讀者群中共同學習。
感謝開源軟件和我們的家人,關心我們的老師和朋友們、創業伙伴,以及選擇獵兔自然語言處理軟件的客戶多年來的支持。
特別提醒大家:經常面對電腦,容易阻塞氣血。往往并沒有免費的程序員保健師幫忙,所以需要自己多壓腿,拉伸身體。多做腹部運動,減少腹部脂肪堆積,避免脂肪肝等疾病。此外,還可以拍打身體,例如腋下、臂彎、?窩等關節凹下去的地方。
長時間對著散發藍光的電腦屏幕容易失眠。為了提高睡眠質量,可以經常吃小米、藕、蝦皮、雞蛋等,喝決明子、玉蘭花、熏衣草、絞股藍等花草茶。
內容簡介:

本書詳細介紹自然語言處理各主要領域的原理以Java 實現,包括中文分詞、詞性標注、依存句法分析等。其中詳細介紹了中文分詞和詞性標注的過程及相關算法,如隱馬爾可夫模型等。在自然語言處理的應用領域主要介紹了信息抽取、自動文摘、文本分類等領域的基本理論和實現過程,此外還有問答系統、語音識別等目前應用非常廣泛的領域。在問答系統的介紹中,本書特地介紹了聊天機器人的實現過程,從句子理解、句法分析、同義詞提取等方面揭示聊天機器人的實現原理。

目錄:

第1章 應用自然語言處理技術 1
1.1 付出與回報 2
1.1.1 如何開始 2
1.1.2 招聘人員 2
1.1.3 學習 3
1.2 開發環境 3
1.3 技術基礎 4
1.3.1 Java 4
1.3.2 規則方法 5
1.3.3 統計方法 5
1.3.4 計算框架 5
1.3.5 文本挖掘 7
1.3.6 語義庫 7
1.4 本章小結 9
1.5 專業術語 9
第2章 中文分詞原理與實現 11
2.1 接口 12
2.1.1 切分方案 13
2.1.2 詞特征 13
2.2 查找詞典算法 13
2.2.1 標準Trie樹 14
2.2.2 三叉Trie樹 18
2.2.3 詞典格式 26
2.3 最長匹配中文分詞 27
2.3.1 正向最大長度匹配法 28
2.3.2 逆向最大長度匹配法 33
2.3.3 處理未登錄串 39
2.3.4 開發分詞 43
2.4 概率語言模型的分詞方法 45
2.4.1 一元模型 47
2.4.2 整合基于規則的方法 54
2.4.3 表示切分詞圖 55
2.4.4 形成切分詞圖 62
2.4.5 數據基礎 64
2.4.6 改進一元模型 75
2.4.7 二元詞典 79
2.4.8 完全二叉樹組 85
2.4.9 三元詞典 89
2.4.10 N元模型 90
2.4.11 N元分詞 91
2.4.12 生成語言模型 99
2.4.13 評估語言模型 100
2.4.14 概率分詞的流程與結構 101
2.4.15 可變長N元分詞 102
2.4.16 條件隨機場 103
2.5 新詞發現 103
2.5.1 成詞規則 109
2.6 詞性標注 109
2.6.1 數據基礎 114
2.6.2 隱馬爾可夫模型 115
2.6.3 存儲數據 124
2.6.4 統計數據 131
2.6.5 整合切分與詞性標注 133
2.6.6 大詞表 138
2.6.7 詞性序列 138
2.6.8 基于轉換的錯誤學習方法 138
2.6.9 條件隨機場 141
2.7 詞類模型 142
2.8 未登錄詞識別 144
2.8.1 未登錄人名 144
2.8.2 提取候選人名 145
2.8.3 最長人名切分 153
2.8.4 一元概率人名切分 153
2.8.5 二元概率人名切分 156
2.8.6 未登錄地名 159
2.8.7 未登錄企業名 160
2.9 平滑算法 160
2.10 機器學習的方法 164
2.10.1 最大熵 165
2.10.2 條件隨機場 170
2.11 有限狀態機 171
2.12 地名切分 178
2.12.1 識別未登錄地名 179
2.12.2 整體流程 185
2.13 企業名切分 187
2.13.1 識別未登錄詞 188
2.13.2 整體流程 190
2.14 結果評測 190
2.15 本章小結 191
2.16 專業術語 193
第3章 英文分析 194
3.1 分詞 194
3.1.1 句子切分 194
3.1.2 識別未登錄串 197
3.1.3 切分邊界 198
3.2 詞性標注 199
3.3 重點詞匯 202
3.4 句子時態 203
3.5 本章小結 204
第4章 依存文法分析 205
4.1 句法分析樹 205
4.2 依存文法 211
4.2.1 中文依存文法 211
4.2.2 英文依存文法 220
4.2.3 生成依存樹 232
4.2.4 遍歷 235
4.2.5 機器學習的方法 237
4.3 小結 237
4.4 專業術語 238
第5章 文檔排重 239
5.1 相似度計算 239
5.1.1 夾角余弦 239
5.1.2 最長公共子串 242
5.1.3 同義詞替換 246
5.1.4 地名相似度 248
5.1.5 企業名相似度 251
5.2 文檔排重 251
5.2.1 關鍵詞排重 251
5.2.2 SimHash 254
5.2.3 分布式文檔排重 268
5.2.4 使用文本排重 269
5.3 在搜索引擎中使用文本排重 269
5.4 本章小結 270
5.5 專業術語 270
第6章 信息提取 271
6.1 指代消解 271
6.2 中文關鍵詞提取 273
6.2.1 關鍵詞提取的基本方法 273
6.2.2 HITS算法應用于關鍵詞提取 275
6.2.3 從網頁中提取關鍵詞 277
6.3 信息提取 278
6.3.1 提取聯系方式 280
6.3.2 從互聯網提取信息 281
6.3.3 提取地名 282
6.4 拼寫糾錯 283
6.4.1 模糊匹配問題 285
6.4.2 正確詞表 296
6.4.3 英文拼寫檢查 298
6.4.4 中文拼寫檢查 300
6.5 輸入提示 302
6.6 本章小結 303
6.7 專業術語 303
第7章 自動摘要 304
7.1 自動摘要技術 305
7.1.1 英文文本摘要 307
7.1.2 中文文本摘要 309
7.1.3 基于篇章結構的自動摘要 314
7.1.4 句子壓縮 314
7.2 指代消解 314
7.3 Lucene中的動態摘要 314
7.4 本章小結 317
7.5 專業術語 318
第8章 文本分類 319
8.1 地名分類 321
8.2 錯誤類型分類 321
8.3 特征提取 322
8.4 關鍵詞加權法 326
8.5 樸素貝葉斯 330
8.6 貝葉斯文本分類 336
8.7 支持向量機 336
8.7.1 多級分類 345
8.7.2 規則方法 347
8.7.3 網頁分類 350
8.8 最大熵 351
8.9 信息審查 352
8.10 文本聚類 353
8.10.1 K均值聚類方法 353
8.10.2 K均值實現 355
8.10.3 深入理解DBScan算法 359
8.10.4 使用DBScan算法聚類實例 361
8.11 本章小結 363
8.12 專業術語 363
第9章 文本傾向性分析 364
9.1 確定詞語的褒貶傾向 367
9.2 實現情感識別 368
9.3 本章小結 372
9.4 專業術語 373
第10章 問答系統 374
10.1 問答系統的結構 375
10.1.1 提取問答對 376
10.1.2 等價問題 376
10.2 問句分析 377
10.2.1 問題類型 377
10.2.2 句型 381
10.2.3 業務類型 381
10.2.4 依存樹 381
10.2.5 指代消解 383
10.2.6 二元關系 383
10.2.7 邏輯表示 386
10.2.8 問句模板 386
10.2.9 結構化問句模板 389
10.2.10 檢索方式 390
10.2.11 問題重寫 395
10.2.12 提取事實 395
10.2.13 驗證答案 398
10.2.14 無答案的處理 398
10.3 知識庫 398
10.4 聊天機器人 399
10.4.1 交互式問答 401
10.4.2 垂直領域問答系統 402
10.4.3 語料庫 405
10.4.4 客戶端 405
10.5 自然語言生成 405
10.6 依存句法 406
10.7 提取同義詞 410
10.7.1 流程 410
10.8 本章小結 411
10.9 術語表 412
第11章 語音識別 413
11.1 總體結構 414
11.1.1 識別中文 416
11.1.2 自動問答 417
11.2 語音庫 418
11.3 語音合成 419
11.3.1 歸一化 420
11.4 語音 420
11.4.1 標注 424
11.4.2 相似度 424
11.5 Sphinx 424
11.5.1 中文訓練集 426
11.6 Julius 429
11.7 本章小結 429
11.8 術語表 429
參考資源 430
后記 431
序: