Python和NLTK自然語言處理 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

4/1 新書到！ 3/25 新書到！ 12/20新書到！ 12/13 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

Python和NLTK自然語言處理
( 簡體字)

作者：[印度] 尼天·哈登尼亞（Nitin Hardeniya）雅各布·帕金斯（Jacob Perkins）迪蒂·喬普拉（Deepti Chopra）尼什·斯喬希類別：1. -> 程式設計 -> Python
　　　2. -> 程式設計 -> 自然語言

譯者：

出版社：人民郵電出版社 3dWoo書號： 50810
詢問書籍請說出此書號！
【缺書】
NT售價： 690 元

出版日：4/1/2019

頁數：621

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787115503343

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：

內容簡介：
NLTK是自然語言處理領域中非常受歡迎和廣泛使用的Python庫。NLTK的優點在于其簡單性，其中大多數復雜的自然語言處理任務使用幾行代碼即可完成。本書旨在講述如何用Python和NLTK解決各種自然語言處理任務并開發機器學習方面的應用。本書介紹了NLTK的基本模塊，講述了采用NLTK實現自然語言處理的大量技巧，討論了一些文本處理方法和語言處理技術，展示了使用Python實現NLP項目的大量實踐經驗。本書主要內容包括文本挖掘/NLP任務中所需的所有預處理步驟，如何使用Python 3的NLTK 3進行文本處理，如何通過Python開展NLP項目。
本書適合NLP和機器學習領域的愛好者、Python程序員以及機器學習領域的研究人員閱讀。

目錄：
模塊1　NLTK基礎知識

第　1章自然語言處理簡介　3
1.1　為什么要學習NLP　4
1.2　從Python的基本知識開始　7
1.2.1　列表　7
1.2.2　自助　8
1.2.3　正則表達式　9
1.2.4　詞典　11
1.2.5　編寫函數　11
1.3　NLTK　13
1.4　試一試　18
1.5　本章小結　18
第　2章文本的整理和清洗　19
2.1　文本整理　19
2.2　文本清洗　21
2.3　句子拆分器　22
2.4　標記解析　22
2.5　詞干提取　24
2.6　詞形還原　25
2.7　停用詞刪除　26
2.8　生僻字刪除　27
2.9　拼寫校正　27
2.10　試一試　28
2.11　本章小結　28
第3章　詞性標注　30
3.1　什么是詞性標注　30
3.1.1　斯坦福標注器　33
3.1.2　深入了解標注器　34
3.1.3　序列標注器　35
3.1.4　布里爾標注器　37
3.1.5　基于標注器的機器學習　37
3.2　命名實體識別　38
3.3　試一試　40
3.4　本章小結　41
第4章　對文本的結構進行語法分析　42
4.1　淺層語法分析與深層語法
　分析　42
4.2　語法分析的兩種方法　43
4.3　為什么需要語法分析　43
4.4　不同類型的語法分析器　45
4.4.1　遞歸下降的語法分析器　45
4.4.2　移位歸約語法分析器　45
4.4.3　圖表語法分析器　45
4.4.4　正則表達式語法
分析器　46
4.5　依存分析　47
4.6　組塊化　49
4.7　信息抽取　51
4.7.1　命名實體識別　52
4.7.2　關系抽取　52
4.8　本章小結　53
第5章　NLP應用　54
5.1　構建第一個NLP應用　54
5.2　其他的NLP應用　58
5.2.1　機器翻譯　58
5.2.2　統計機器翻譯　59
5.2.3　信息檢索　59
5.2.4　語音識別　61
5.2.5　文本分類　62
5.2.6　信息提取　63
5.2.7　問答系統　64
5.2.8　對話系統　64
5.2.9　詞義消歧　64
5.2.10　主題建模　64
5.2.11　語言檢測　65
5.2.12　光學字符識別　65
5.3　本章小結　65
第6章　文本分類　66
6.1　機器學習　67
6.2　文本分類　68
6.3　采樣　70
6.3.1　樸素貝葉斯　73
6.3.2　決策樹　75
6.3.3　隨機梯度下降　76
6.3.4　邏輯回歸　77
6.3.5　支持向量機　78
6.4　隨機森林算法　79
6.5　文本聚類　79
6.6　文本的主題建模　81
6.7　參考資料　83
6.8　本章小結　83
第7章　網絡爬取　85
7.1　網絡爬蟲　85
7.2　編寫第一個爬蟲程序　86
7.3　Scrapy中的數據流　89
7.3.1　Scrapy命令行界面　89
7.3.2　項　94
7.4　站點地圖蜘蛛　96
7.5　項管道　97
7.6　外部參考　98
7.7　本章小結　99
第8章　與其他Python庫一同
使用NLTK　100
8.1　NumPy　100
8.1.1　ndarray　101
8.1.2　基本操作　102
8.1.3　從數組中提取數據　103
8.1.4　復雜的矩陣運算　103
8.2　SciPy　107
8.2.1　線性代數　108
8.2.2　特征值和特征向量　108
8.2.3　稀疏矩陣　109
8.2.4　優化　110
8.3　Pandas　111
8.3.1　讀取數據　112
8.3.2　時序數據　114
8.3.3　列轉換　115
8.3.4　噪聲數據　116
8.4　Matplotlib　117
8.4.1　subplot　118
8.4.2　添加軸　119
8.4.3　散點圖　120
8.4.4　柱狀圖　120
8.4.5　3D圖　121
8.5　外部參考　121
8.6　本章小結　121
第9章　使用Python進行社交媒體
挖掘　122
9.1　數據收集　122

9.2　數據提取　126
9.3　地理可視化　128
9.3.1　影響者檢測　129
9.3.2　Facebook　130
9.3.3　影響者的朋友　134
9.4　本章小結　135
第　10章大規模的文本挖掘　136
10.1　在Hadoop上使用Python的
　不同方法　136
10.1.1　Python的流　137
10.1.2　Hive/Pig UDF　137
10.1.3　流包裝器　137
10.2　在Hadoop上運行NLTK　138
10.2.1　UDF　138
10.2.2　Python流　140
10.3　在Hadoop上運行
Scikit-learn　141
10.4　PySpark　144
10.5　本章小結　146

模塊2　使用Python 3的NLTK 3進行文本處理

第　1章標記文本和WordNet的基礎　149
1.1　引言　149
1.2　將文本標記成句子　150
1.2.1　準備工作　150
1.2.2　工作方式　151
1.2.3　工作原理　151
1.2.4　更多信息　151
1.2.5　請參閱　152
1.3　將句子標記成單詞　152
1.3.1　工作方式　152
1.3.2　工作原理　153
1.3.3　更多信息　153
1.3.4　請參閱　154
1.4　使用正則表達式標記語句　154
1.4.1　準備工作　155
1.4.2　工作方式　155
1.4.3　工作原理　155
1.4.4　更多信息　155
1.4.5　請參閱　156
1.5　訓練語句標記生成器　156
1.5.1　準備工作　156
1.5.2　工作方式　156
1.5.3　工作原理　157
1.5.4　更多信息　158
1.5.5　請參閱　158
1.6　在已標記的語句中過濾
　停用詞　158
1.6.1　準備工作　158
1.6.2　工作方式　159
1.6.3　工作原理　159
1.6.4　更多信息　159
1.6.5　請參閱　160
1.7　查找WordNet中單詞的
　Synset　160
1.7.1　準備工作　160
1.7.2　工作方式　160
1.7.3　工作原理　161
1.7.4　更多信息　161
1.7.5　請參閱　163
1.8　在WordNet中查找詞元和
　同義詞　163
1.8.1　工作方式　163
1.8.2　工作原理　163
1.8.3　更多信息　163
1.8.4　請參閱　165
1.9　計算WordNet和Synset的
　相似度　165
1.9.1　工作方式　165
1.9.2　工作原理　165
1.9.3　更多信息　166
1.9.4　請參閱　167
1.10　發現單詞搭配　167
1.10.1　準備工作　167
1.10.2　工作方式　167
1.10.3　工作原理　168
1.10.4　更多信息　168
1.10.5　請參閱　169
第　2章替換和校正單詞　170
2.1　引言　170
2.2　詞干提取　170
2.2.1　工作方式　171
2.2.2　工作原理　171
2.2.3　更多信息　171
2.2.4　請參閱　173
2.3　使用WordNet進行詞形還原　173
2.3.1　準備工作　173
2.3.2　工作方式　173
2.3.3　工作原理　174
2.3.4　更多信息　174
2.3.5　請參閱　175
2.4　基于匹配的正則表達式替換
　單詞　175
2.4.1　準備工作　175
2.4.2　工作方式　175
2.4.3　工作原理　176
2.4.4　更多信息　177
2.4.5　請參閱　177
2.5　移除重復字符　177
2.5.1　準備工作　177
2.5.2　工作方式　178
2.5.3　工作原理　178
2.5.4　更多信息　179
2.5.5　請參閱　179
2.6　使用Enchant進行拼寫校正　180
2.6.1　準備工作　180
2.6.2　工作方式　180
2.6.3　工作原理　181
2.6.4　更多信息　181
2.6.5　請參閱　183
2.7　替換同義詞　183
2.7.1　準備工作　183
2.7.2　工作方式　183
2.7.3　工作原理　184
2.7.4　更多信息　184
2.7.5　請參閱　185
2.8　使用反義詞替換否定形式　186
2.8.1　工作方式　186
2.8.2　工作原理　187
2.8.3　更多信息　187
2.8.4　請參閱　188
第3章　創建自定義語料庫　189
3.1　引言　189
3.2　建立自定義語料庫　190
3.2.1　準備工作　190
3.2.2　工作方式　190
3.2.3　工作原理　191
3.2.4　更多信息　192
3.2.5　請參閱　192
3.3　創建詞匯表語料庫　192
3.3.1　準備工作　192
3.3.2　工作方式　193
3.3.3　工作原理　193
3.3.4　更多信息　194
3.3.5　請參閱　194
3.4　創建已標記詞性單詞的
　語料庫　195
3.4.1　準備工作　195
3.4.2　工作方式　195
3.4.3　工作原理　196
3.4.4　更多信息　196
3.4.5　請參閱　199
3.5　創建已組塊短語的語料庫　199
3.5.1　準備工作　199
3.5.2　工作方式　199
3.5.3　工作原理　201
3.5.4　更多信息　201
3.5.5　請參閱　203
3.6　創建已分類文本的語料庫　203
3.6.1　準備工作　204
3.6.2　工作方式　204
3.6.3　工作原理　204
3.6.4　更多信息　205
3.6.5　請參閱　206
3.7　創建已分類組塊語料庫
　讀取器　206
3.7.1　準備工作　206
3.7.2　工作方式　207
3.7.3　工作原理　208
3.7.4　更多信息　209
3.7.5　請參閱　213
3.8　懶惰語料庫加載　213
3.8.1　工作方式　213
3.8.2　工作原理　214
3.8.3　更多信息　214
3.9　創建自定義語料庫視圖　215
3.9.1　工作方式　215
3.9.2　工作原理　216
3.9.3　更多信息　217
3.9.4　請參閱　218
3.10　創建基于MongoDB的
　語料庫讀取器　218
3.10.1　準備工作　219
3.10.2　工作方式　219
3.10.3　工作原理　220
3.10.4　更多信息　221
3.10.5　請參閱　221
3.11　在加鎖文件的情況下編輯
　語料庫　221
3.11.1　準備工作　221
3.11.2　工作方式　221
3.11.3　工作原理　222
第4章　詞性標注　224
4.1　引言　224
4.2　默認標注　225
4.2.1　準備工作　225
4.2.2　工作方式　225
4.2.3　工作原理　226
4.2.4　更多信息　227
4.2.5　請參閱　228
4.3　訓練一元組詞性標注器　228
4.3.1　工作方式　228
4.3.2　工作原理　229
4.3.3　更多信息　230
4.3.4　請參閱　231
4.4　回退標注的組合標注器　231
4.4.1　工作方式　231
4.4.2　工作原理　232
4.4.3　更多信息　232
4.4.4　請參閱　233
4.5　訓練和組合N元標注器　233
4.5.1　準備工作　233
4.5.2　工作方式　233
4.5.3　工作原理　234
4.5.4　更多信息　235
4.5.5　請參閱　236
4.6　創建似然單詞標簽的
　模型　236
4.6.1　工作方式　236
4.6.2　工作原理　237
4.6.3　更多信息　237
4.6.4　請參閱　238
4.7　使用正則表達式標注　238
4.7.1　準備工作　238
4.7.2　工作方式　238
4.7.3　工作原理　239
4.7.4　更多信息　239
4.7.5　請參閱　239
4.8　詞綴標簽　239
4.8.1　工作方式　239
4.8.2　工作原理　240
4.8.3　更多信息　240
4.8.4　請參閱　241
4.9　訓練布里爾標注器　241
4.9.1　工作方式　241
4.9.2　工作原理　242
4.9.3　更多信息　243
4.9.4　請參閱　244
4.10　訓練TnT標注器　244
4.10.1　工作方式　244
4.10.2　工作原理　244
4.10.3　更多信息　245
4.10.4　請參閱　246
4.11　使用WordNet進行
　標注　246
4.11.1　準備工作　246
4.11.2　工作方式　247
4.11.3　工作原理　248
4.11.4　請參閱　248
4.12　標注專有名詞　248
4.12.1　工作方式　248
4.12.2　工作原理　249
4.12.3　請參閱　249
4.13　基于分類器的標注　249
4.13.1　工作方式　250
4.13.2　工作原理　250
4.13.3　更多信息　251
4.13.4　請參閱　252
4.14　使用NLTK訓練器訓練
　標注器　253
4.14.1　工作方式　253
4.14.2　工作原理　254
4.14.3　更多信息　258
4.14.4　請參閱　260
第5章　提取組塊　261
5.1　引言　261
5.2　使用正則表達式組塊和
　隔斷　262
5.2.1　準備工作　262
5.2.2　工作方式　262
5.2.3　工作原理　263
5.2.4　更多信息　265
5.2.5　請參閱　267
5.3　使用正則表達式合并和拆分
　組塊　267
5.3.1　工作方式　267
5.3.2　工作原理　269
5.3.3　更多信息　270
5.3.4　請參閱　271
5.4　使用正則表達式擴展和刪除
　組塊　271
5.4.1　工作方式　271
5.4.2　工作原理　272
5.4.3　更多信息　273
5.4.4　請參閱　273
5.5　使用正則表達式進行部分
　解析　273
5.5.1　工作方式　273
5.5.2　工作原理　274
5.5.3　更多信息　275
5.5.4　請參閱　276
5.6　訓練基于標注器的組塊器　276
5.6.1　工作方式　276
5.6.2　工作原理　277
5.6.3　更多信息　278
5.6.4　請參閱　279
5.7　基于分類的分塊　279
5.7.1　工作方式　279
5.7.2　工作原理　282
5.7.3　更多信息　282
5.7.4　請參閱　283
5.8　提取命名實體　283
5.8.1　工作方式　283
5.8.2　工作原理　284
5.8.3　更多信息　284
5.8.4　請參閱　285
5.9　提取專有名詞組塊　285
5.9.1　工作方式　286
5.9.2　工作原理　286
5.9.3　更多信息　286
5.10　提取部位組塊　287
5.10.1　工作方式　288
5.10.2　工作原理　290
5.10.3　更多信息　290
5.10.4　請參閱　290
5.11　訓練命名實體組塊器　290
5.11.1　工作方式　290
5.11.2　工作原理　292
5.11.3　更多信息　292
5.11.4　請參閱　293
5.12　使用NLTK訓練器訓練
　組塊器　293
5.12.1　工作方式　293
5.12.2　工作原理　294
5.12.3　更多信息　295
5.12.4　請參閱　299
第6章　轉換組塊與樹　300
6.1　引言　300
6.2　過濾句子中無意義的
　單詞　301
6.2.1　準備工作　301
6.2.2　工作方式　301
6.2.3　工作原理　302
6.2.4　更多信息　302
6.2.5　請參閱　303
6.3　糾正動詞形式　303
6.3.1　準備工作　303
6.3.2　工作方式　303
6.3.3　工作原理　305
6.3.4　請參閱　306
6.4　交換動詞短語　306
6.4.1　工作方式　306
6.4.2　工作原理　307
6.4.3　更多信息　307
6.4.4　請參閱　307
6.5　交換名詞基數　308
6.5.1　工作方式　308
6.5.2　工作原理　309
6.5.3　請參閱　309
6.6　交換不定式短語　309
6.6.1　工作方式　309
6.6.2　工作原理　310
6.6.3　更多信息　310
6.6.4　請參閱　310
6.7　單數化復數名詞　310
6.7.1　工作方式　310
6.7.2　工作原理　311
6.7.3　請參閱　311
6.8　鏈接組塊變換　311
6.8.1　工作方式　311
6.8.2　工作原理　312
6.8.3　更多信息　312
6.8.4　請參閱　313
6.9　將組塊樹轉換為文本　313
6.9.1　工作方式　313
6.9.2　工作原理　314
6.9.3　更多信息　314
6.9.4　請參閱　314
6.10　平展深度樹　314
6.10.1　準備工作　315
6.10.2　工作方式　315
6.10.3　工作原理　316
6.10.4　更多信息　317
6.10.5　請參閱　318
6.11　創建淺樹　318
6.11.1　工作方式　318
6.11.2　工作原理　320
6.11.3　請參閱　320
6.12　轉換樹標簽　320
6.12.1　準備工作　320
6.12.2　工作方式　321
6.12.3　工作原理　322
6.12.4　請參閱　322
第7章　文本分類　323
7.1　引言　323
7.2　詞袋特征提取　324
7.2.1　工作方式　324
7.2.2　工作原理　325
7.2.3　更多信息　325
7.2.4　請參閱　327
7.3　訓練樸素貝葉斯
　分類器　327
7.3.1　準備工作　327
7.3.2　工作方式　328
7.3.3　工作原理　329
7.3.4　更多信息　330
7.3.5　請參閱　333
7.4　訓練決策樹分類器　334
7.4.1　工作方式　334
7.4.2　工作原理　335
7.4.3　更多信息　335
7.4.4　請參閱　337
7.5　訓練最大熵分類器　337
7.5.1　準備工作　337
7.5.2　工作方式　337
7.5.3　工作原理　338
7.5.4　更多信息　339
7.5.5　請參閱　340
7.6　訓練scikit-learn
　分類器　340
7.6.1　準備工作　341
7.6.2　工作方式　341
7.6.3　工作原理　342
7.6.4　更多信息　343
7.6.5　請參閱　345
7.7　衡量分類器的精準率和
　召回率　346
7.7.1　工作方式　346
7.7.2　工作原理　347
7.7.3　更多信息　348
7.7.4　請參閱　349
7.8　計算高信息量單詞　349
7.8.1　工作方式　350
7.8.2　工作原理　351
7.8.3　更多信息　352
7.8.4　請參閱　354
7.9　使用投票組合分類器　354
7.9.1　準備工作　355
7.9.2　工作方式　355
7.9.3　工作原理　356
7.9.4　請參閱　356
7.10　使用多個二元分類器
　分類　357
7.10.1　準備工作　357
7.10.2　工作方式　357
7.10.3　工作原理　361
7.10.4　更多信息　362
7.10.5　請參閱　363
7.11　使用NLTK訓練器訓練
　分類器　363
7.11.1　工作方式　363
7.11.2　工作原理　364
7.11.3　更多信息　365
7.11.4　請參閱　371
第8章　分布式進程和大型數據集的
處理　372
8.1　引言　372
8.2　使用execnet進行分布式
　標注　372
8.2.1　準備工作　373
8.2.2　工作方式　373
8.2.3　工作原理　374
8.2.4　更多內容　375
8.2.5　請參閱　377
8.3　使用execnet進行分布式
　組塊　377
8.3.1　準備工作　377
8.3.2　工作方式　377
8.3.3　工作原理　378
8.3.4　更多內容　379
8.3.5　請參閱　379
8.4　使用execnet并行處理
　列表　379
8.4.1　工作方式　379
8.4.2　工作原理　380
8.4.3　更多內容　381
8.4.4　請參閱　381
8.5　在Redis中存儲頻率分布　382
8.5.1　準備工作　382
8.5.2　工作方式　382
8.5.3　工作原理　384
8.5.4　更多內容　385
8.5.5　請參閱　386
8.6　在Redis中存儲條件頻率
　分布　386
8.6.1　準備工作　386
8.6.2　工作方式　386
8.6.3　工作原理　387
8.6.4　更多內容　388
8.6.5　請參閱　388
8.7　在Redis中存儲有序
　字典　388
8.7.1　準備工作　388
8.7.2　工作方式　388
8.7.3　工作原理　390
8.7.4　更多內容　391
8.7.5　請參閱　392
8.8　使用Redis和execnet進行
　分布式單詞評分　392
8.8.1　準備工作　392
8.8.2　工作方式　392
8.8.3　工作原理　393
8.8.4　更多內容　396
8.8.5　請參閱　396
第9章　解析特定的數據類型　397
9.1　引言　397
9.2　使用dateutil解析日期和
　時間　398
9.2.1　準備工作　398
9.2.2　工作方式　398
9.2.3　工作原理　399
9.2.4　更多信息　399
9.2.5　請參閱　399
9.3　時區的查找和轉換　400
9.3.1　準備工作　400
9.3.2　工作方式　400
9.3.3　工作原理　402
9.3.4　更多信息　402
9.3.5　請參閱　403
9.4　使用lxml從HTML中提取
　URL　403
9.4.1　準備工作　403
9.4.2　工作方式　403
9.4.3　工作原理　404
9.4.4　更多信息　404
9.4.5　請參閱　405
9.5　清理和剝離HTML　405
9.5.1　準備工作　405
9.5.2　工作方式　405
9.5.3　工作原理　405
9.5.4　更多信息　406
9.5.5　請參閱　406
9.6　使用BeautifulSoup轉換
　HTML實體　406
9.6.1　準備工作　406
9.6.2　工作方式　406
9.6.3　工作原理　407
9.6.4　更多信息　407
9.6.5　請參閱　407
9.7　檢測和轉換字符編碼　407
9.7.1　準備工作　408
9.7.2　工作方式　408
9.7.3　工作原理　409
9.7.4　更多信息　409
9.7.5　請參閱　410
附錄A　賓州treebank詞性標簽　411

模塊3　使用Python掌握自然語言處理

第　1章使用字符串　417
1.1　標記化　417
1.1.1　將文本標記為句子　418
1.1.2　其他語言文字的標記化　418
1.1.3　將句子標記為單詞　419
1.1.4　使用TreebankWordTokenizer
　進行標記化　420
1.1.5　使用正則表達式進行
標記化　421
1.2　規范化　424
1.2.1　消除標點符號　424
1.2.2　轉化為小寫和大寫　425
1.2.3　處理停用詞　425
1.2.4　計算英語中的停用詞　426
1.3　替代和糾正標記　427
1.3.1　使用正則表達式替換
單詞　427
1.3.2　使用一個文本替換另一個
文本的示例　428
1.3.3　在標記化之前進行
替代　428
1.3.4　處理重復的字符　428
1.3.5　刪除重復字符的示例　429
1.3.6　使用單詞的同義詞替換
單詞　430
1.4　在文本上應用齊夫定律　431
1.5　相似性量度　431
1.5.1　使用編輯距離算法應用
相似性量度　432
1.5.2　使用杰卡德系數應用
相似性量度　434
1.5.3　使用史密斯-沃特曼算法
應用相似性量度　434
1.5.4　其他字符串相似性指標　435
1.6　本章小結　436
第　2章統計語言模型　437
2.1　單詞頻率　437
2.1.1　對給定文本進行最大
似然估計　441
2.1.2　隱馬爾可夫模型估計　448
2.2　在MLE模型上應用平滑　450
2.2.1　加一平滑法　450
2.2.2　古德-圖靈算法　451
2.2.3　聶氏估計　456
2.2.4　威滕貝爾估計　457
2.3　為MLE指定回退機制　457
2.4　應用數據插值獲得混合和
　匹配　458
2.5　應用困惑度評估語言模型　458
2.6　在建模語言中應用
　梅特羅波利斯-黑斯廷斯算法　459
2.7　在語言處理中應用
　吉布斯采樣　459
2.8　本章小結　461
第3章　詞語形態學—試一試　462
3.1　詞語形態學　462
3.2　詞根還原器　463
3.3　詞形還原　466
3.4　開發用于非英語語言的詞根
　還原器　467
3.5　詞語形態分析器　469
3.6　詞語形態生成器　471
3.7　搜索引擎　471
3.8　本章小結　475
第4章　詞性標注—識別單詞　476
4.1　詞性標注　476
4.2　創建POS標注的語料庫　482
4.3　選擇某個機器學習算法　484
4.4　涉及n元組方法的統計建模　486
4.5　使用POS標注的語料庫開發
　組塊器　491
4.6　本章小結　494
第5章　解析—分析訓練數據　495
5.1　解析　495
5.2　構建樹庫　496
5.3　從樹庫中提取上下文無關文法的
規則　501
5.4　從CFG中創建概率上下文無關的
文法　507
5.5　CYK圖解析算法　509
5.6　厄雷圖解析算法　510
5.7　本章小結　516
第6章　語義分析—意義重大　517
6.1　語義分析　517
6.1.1　NER簡介　521
6.1.2　使用隱馬爾可夫模型的
NER系統　525
6.1.3　使用機器學習工具包訓練
NER　530
6.1.4　使用POS標注的
NER　531
6.2　從Wordnet中生成同義詞集
　ID　534
6.3　使用Wordnet消除歧義　537
6.4　本章小結　541
第7章　情感分析—我很高興　542
7.1　情感分析　542
7.2　使用機器學習的情感分析　548
7.3　本章小結　572
第8章　信息檢索—訪問信息　573
8.1　信息檢索　573
8.1.1　停用詞刪除　574
8.1.2　利用向量空間模型進行
信息檢索　576
8.2　向量空間評分以及與查詢
　操作器交互　583
8.3　利用隱含語義索引開發IR
系統　586
8.4　文本摘要　587
8.5　問答系統　588
8.6　本章小結　589
第9章　話語分析—知識就是信仰　590
9.1　話語分析　590
9.1.1　使用定中心理論進行
話語分析　595
9.1.2　回指解析　596
9.2　本章小結　601

第　10章 NLP系統的評估—
　性能分析　602
10.1　對NLP系統進行評估的
　需求　602
10.1.1　NLP工具（POS標注器、
　詞干還原器和形態分析器）
　的評估　603
10.1.2　使用黃金數據評估
　解析器　613

10.2　IR系統的評估　614
10.3　錯誤識別的指標　614
10.4　基于詞匯匹配的指標　615
10.5　基于語法匹配的指標　619
10.6　使用淺層語義匹配的
　指標　620
10.7　本章小結　621
參考書目　622

序：