-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

自然語言處理技術入門與實戰

( 簡體 字)
作者:蘭紅云類別:1. -> 程式設計 -> 自然語言
譯者:
出版社:電子工業出版社自然語言處理技術入門與實戰 3dWoo書號: 47935
詢問書籍請說出此書號!

缺書
NT售價: 295

出版日:10/1/2017
頁數:190
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121327636
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

隨著移動互聯網的飛速發展,特別是物聯網(Internet of Thing,IoT)的飛速發展,人與設備的語言交互場景也越來越多,并且越來越成為核心。這種語言的交互既包括純文字的,也包括語音的。自然語言處理(Natural Language Processing, NLP)就是以電子計算機、編程語言為工具對人類特有的書面和口頭形式的自然語言信息進行各種類型處理和加工的技術。當然,隨著技術的不斷發展,其處理領域也出現了跨形態的組合。比如通過與圖形圖像處理技術的結合,可以實現看圖說話、在線答題等應用。所以,自然語言處理是一門涉及語言學、計算機科學,當然還有數學的交叉性科學。
自然語言處理的目的是為了讓計算機能夠理解人的語言,然后做出相應的處理或者應答。根據應用場景的不同,自然語言處理可以分為如下三點:(1)信息抽取,包括自動摘要、自動檢索、輿情分析等;(2)語言理解,包括機器翻譯、人機對話、語義理解等;(3)跨形態組合,包括看圖說話、語音自動合成、輔助教學等。這些應用都是利用自然語言處理技術,對所需要處理的信息進行挖掘和分析,找出人們想要的東西,進而做出響應。而落實到具體的應用,又會衍生出很多不同的應用系統,由此衍生出來的應用系統包括但不限于:信息自動抽取系統、信息自動檢索系統、文本信息挖掘系統、機器翻譯系統、人機對話系統、圖片描述自動生成系統、語音自動識別系統、語音自動合成系統、計算機輔助教學系統,等等。
因為自然語言自身的復雜性,比如:很多歧義、結構復雜多樣、表達千變萬化,導致其處理方法紛繁復雜,要考慮非常多的情景。所以上述這些系統之間又存在交叉,或者上下關聯,或者前后依賴等復雜的關系。而這些復雜的應用對于一個初學者來說,是非常龐雜和難以掌握的,在學習的過程中難免存在因為其中某一個細節不能掌握,而影響整個進程的進度。或者是雖然理解了算法的數學原理,但是怎么在實際場景中應用,以及當前算法能解決哪些實際問題,還是不了解。在筆者學習的過程中,發現目前出版的一些書籍,或者是偏理論性的,會介紹很多自然語言處理技術發展的歷史,比如符號邏輯的發展軌跡、語義網絡的發展軌跡、語言學派和統計學派的“恩怨情仇”,會讓初學者在學習的過程中抓不住重點,有時候又感覺它們好像就是一回事;又或者介紹的內容過于技術,開篇就把其中涉及的一些數學知識全都介紹一遍,因為這其中有很多數學知識是比較高階的,比如隱馬爾科夫鏈、條件隨機場、數理邏輯推理等,在介紹數學知識的過程中,又難免會涉及相關的證明。本來其數學形式就比較復雜,再加上連環的證明就更難懂了,對于數學基礎稍微薄弱一點的讀者,就感覺沒有學習的欲望和必要了。但是在實際應用中,其實這些煩瑣的證明根本不需要,有時候只需要記住一個結論,然后根據自己數據的情況,優化模型中的參數就可以了。所以筆者就想結合自己學習過程中和實際工作中的一些經驗和教訓,從應用的角度來對自然語言處理中的一些技術進行介紹。在介紹的時候,希望盡量地避免煩瑣和突兀的數學證明,從應用的角度盡可能簡潔明了地對一個算法或者處理系統進行簡要的介紹,先讓大家對這個方法有一個直觀感性的認識,然后再深入了解其中的難點,進而深入學習和攻克難點。
本書采用以應用為主,算法和實現為輔的形式對自然語言處理中的一些技術進行介紹。對于算法數學原理的介紹,都是穿插在每一個應用的介紹中,對每一部分的數學知識進行分別介紹和講解,沒有開篇便對所涉及的數學知識進行一個全面的介紹,這樣大家就不會因為某一個部分的數學知識不完備,或者掌握起來有困難而放棄整個知識體系的學習,這樣大家就可以獨立學習和掌握。同時因為知識遺忘的必然性,筆者將數學知識融入到應用中進行介紹,就更容易讓讀者記住。否則前后脫節之后,就忘記了之前講解的數學原理,即使在應用中又要重新學習,也并不一定能夠知道具體的應用原理。
因此,筆者完全從應用的角度來進行各個內容的組織,沒有涉及太多的處理技術起源、變革、發展等歷史信息。這一方面是因為各個技術都有自己的長處和缺點,這個是理論學派爭論的焦點,但不是應用層面應該關心或者需要表明立場的地方;另一方面作為主要介紹應用實戰的書,這里更多的是想讓讀者了解對于同一個問題目前的一些處理的方法和這些方法之間的優劣,以及相互的關聯,以便找到解決問題更好的方法,這樣也更有利于整個事情的發展。所以從做事情的本身來說,我們需要關心的是事情怎么能夠做起來,沒有做起來是因為什么,所以我們更多關心的是“術”的事情,而對于“道”的層面更多的是了解,是取眾家之長,來“集大成”,而不能劍走偏鋒。
目前,隨著源工具的不斷增加,大家對底層應用的開發需求在逐漸降低,所以本書先從上層應用介紹入手,讓讀者能夠直接用起來,這樣更有利于讀者邊實踐邊學習,也可以避免大家因為學習底層技術太難而阻礙后期應用的學習。從企業的角度出發,缺的也不是底層通用的處理技術和能力,更多的是缺少對實際業務的處理能力,業務跑起來之后,整個系統便會隨著業務的發展而不斷發展。所以本書采用以應用貫串始終的方式來進行相關技術的介紹和說明。
具體來說,本書主要從以下三個方面介紹了自然語言處理中相關的一些技術。
1)語義模型詳解:主要是從應用的角度介紹自然語言處理中的一些語義處理模型,比如關鍵詞提取、計算詞距離、文本自動生成等。
2)自然語言處理系統基礎算法:這一部分主要是從基礎系統搭建的角度對相關算法進行介紹。包括分詞、詞性標注、句法分析等。這兩部分介紹的內容又分別從使用原理、實現原理、具體的代碼實現,以及對當前方法的思考這四個角度進行介紹。
3)系統案例實戰:介紹了搭建一個輿情分析和挖掘系統所要涉及的環節、各個環節的算法實現,以及部分實現代碼。
本書在寫作過程中力求普及并與實踐相結合,盡可能地照顧到不同層次不同專業的讀者。另外,本書是以應用場景來組織各個內容的,每一個章節都包含一個完整的應用解決方案:問題解決的原理、實現的算法原理、具體算法的實現,所以讀者可以根據自己的需要獨立地學習各個章節的內容。在各個章節的學習過程中,筆者強烈建議讀者在學習具體方法之前,一定要認真地理解所要解決問題的具體場景。要理解當前場景的輸入是什么、輸出是什么,為什么會是這樣的結構,只有弄明白了這些,才會對算法有更深入的理解,也才能更好地使用所學習的算法,做到舉一反三。因為算法本身是一種數據處理邏輯,所以只要具有相同處理邏輯的問題都可以用同樣的算法,比如最大熵模型發揮了巨大的作用是人們找到了其適用的場景,而不是對模型進行各種變形以讓其去適合具體的應用。
本書在寫作的過程中參考了很多國內外學者的論文和著作。如果沒有他們的出色工作,沒有他們極為寶貴的研究成果,本書是寫不出來的。在本書出版之際,謹向他們表示衷心的感謝。
在本書寫作過程中,筆者常為自己的學識不足而苦惱、自然語言處理作為一門交叉性邊緣性學科,涉及語言學、計算機科學、數學等各個方面的知識,筆者學識淺陋,論述之中倘有不當,懇請讀者批評指正。有任何意見,不勝感激。
最后,謹向幫助、支持和鼓勵我完成本書的我的家人、同事、領導、朋友以及出版社的領導、編輯致以深深的敬意和真摯的感謝!
作者
2017年9月于杭州
內容簡介:

本書主要從語義模型詳解、自然語言處理系統基礎算法和系統案例實戰三個方面,介紹了自然語言處理中相關的一些技術。對于每一個算法又分別從應用原理、數學原理、代碼實現,以及對當前方法的思考四個方面進行講解。本書面向的讀者為有志于從事自然語言處理相關工作的在校學生、企事業單位工作人員等人群。本書的結構是由淺入深地進行相關內容的介紹,以滿足不同層次讀者的學習需求。

目錄:

第1篇語義模型詳解
第1章關鍵詞抽取模型 3
1.1 TF-IDF算法實現關鍵詞抽取 4
1.2 TextRank算法實現關鍵詞抽取 11
1.3 基于語義的統計語言模型實現關鍵詞抽取 16
第2章短語抽取模型 22
2.1 基于互信息和左右信息熵實現短語抽取 23
2.2 TextRank算法實現短語抽取 28
2.3 LDA算法實現短語抽取 31
第3章自動摘要抽取模型 38
3.1 決策樹算法實現自動摘要 39
3.2 基于邏輯回歸算法實現自動摘要 44
3.3 貝葉斯算法實現自動摘要 50
第4章深度學習——計算任意詞距離模型 55
4.1 FP-Growth算法實現詞距離計算 56
4.2 N-Gram算法實現詞距離計算 61
4.3 BP算法實現詞距離計算 65
第5章拼音漢字混合識別模型 70
5.1 貝葉斯模型實現拼音漢字混合識別 71
5.2 HMM模型實現拼音漢字混合識別 75
5.3 RNN神經網絡模型實現拼音漢字混合識別 80
第6章文本自動生成模型 87
6.1 基于關鍵詞的文本自動生成模型 88
6.2 RNN模型實現文本自動生成 93
第2篇自然語言處理系統基礎算法
第7章Dijkstra算法 101
7.1 算法應用原理介紹 102
7.2 算法數學原理介紹 102
7.3 算法源碼說明 106
7.4 算法應用擴展 107
第8章AC-DoubleArrayTrie算法 108
8.1 算法應用原理介紹 109
8.2 算法數學原理介紹 111
8.3 算法應用擴展 116
第9章最大熵算法 117
9.1 算法應用原理介紹 118
9.2 算法數學原理介紹 119
9.3 算法源碼說明 124
9.4 算法應用擴展 125
第10章CRF算法 126
10.1 算法應用原理介紹 127
10.2 算法數學原理介紹 130
10.3 算法源碼說明 135
10.4 算法應用擴展 136
第11章馬爾可夫邏輯網算法 137
11.1 算法應用原理介紹 138
11.2 算法數學原理介紹 142
11.3 算法源碼說明 144
11.4 算法應用擴展 145
第12章DIPRE算法 147
12.1 算法應用原理介紹 148
12.2 算法數學原理介紹 151
12.3 算法源碼說明 152
12.4 算法應用擴展 153
第13章LSTM算法 155
13.1 算法應用原理介紹 156
13.2 算法數學原理介紹 158
13.3 算法源碼說明 163
13.4 算法應用擴展 165
第14章TransE算法 166
14.1 算法應用原理介紹 167
14.2 算法數學原理介紹 170
14.3 算法源碼說明 172
14.4 算法應用擴展 174
第3篇系統案例實戰
第15章搭建輿情分析與挖掘的系統 177
15.1 系統功能設計簡述 178
15.2 系統模塊實現詳解 181
15.3 系統實現源碼說明 186
序: