-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

NLP漢語自然語言處理原理與實踐

( 簡體 字)
作者:鄭捷類別:1. -> 程式設計 -> 自然語言
譯者:
出版社:電子工業出版社NLP漢語自然語言處理原理與實踐 3dWoo書號: 45929
詢問書籍請說出此書號!

缺書
NT售價: 490

出版日:1/1/2017
頁數:544
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121307652
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

推薦序

自然語言處理是人工智能領域的一顆明珠,現在已經成為人工智能研究中最為活躍的領域。幾十年來,隨著計算機技術和人工智能技術的發展,自然語言處理取得了長足的進步。現在,自然語言處理技術正處在一個新的歷史轉折點,隨著可獲取信息量的爆炸性增長,信息過載問題愈發嚴重,以詞法分析和詞義理解為主的傳統自然語言處理技術已經難以滿足解決實際問題的需要,句子級乃至篇章級語義理解技術即將成為人工智能技術發展的新趨勢。
自然語言處理作為人工智能與語言學的綜合學科,理應從兩個學科中汲取營養來推動自身的進步。但目前概率和數據驅動的方法在自然語言處理領域占據絕對的主流,加之近幾年深度學習的異軍突起,語言學知識在自然語言處理領域中受到的重視程度愈發不足。而以我在自然語言處理領域工作的經驗來看,越深入研究,越能感覺到語言學知識不足的掣肘。特別是深層次的語義理解,脫離了語言學知識,就會變成無源之水、無本之木。常見的自然語言處理書籍對于解決具體問題的方法講解已經足夠豐富,但對于語言學基礎理論的介紹和思考還略顯不足。一些前輩雖然一直在思考語言和認知的本質,但其發表出來的內容只限于思考結果的一鱗半爪,較少結集成書。加之現在自然語言處理領域的學習者大多是計算機背景,極少系統地學習過語言學的基礎理論。這樣造成的現狀就是從事自然語言處理的技術人員越來越多,但相互之間的討論和經驗分享多集中于具體的技術手段或算法的數學原理,而極少涉及語言學的基礎理論和語義理解的本質問題。
本書作者通過對前人語言學理論和自然語言處理技術的深入梳理,形成了自己對于語義理解,特別是漢語語義理解獨特的思考和一整套理論體系,提出了語義理解的系統解決之道。盡管如何才能讓計算機理解語義,在學術界還沒有定論,但作者系統性的思考和解決思路是非常難能可貴的。本書在內容上保證了理論和技術的平衡,在介紹術的同時,充分展示了作者對于道的思考成果。此書是自然語言處理書籍中的一股新風,希望其可以對語義理解的研究和發展起到積極的推動作用,同時引導自然語言處理領域的研究者,特別是初學者,加強對于語言學的理論的學習,更多地從問題的本源來尋求新的解決思路,而不僅僅滿足于在傳統解決思路上嘗試新的技術手段。

愿每一位有志于從事自然語言處理的研究者,都能從此書中獲得一些啟示。

賈文杰:早年在富士通研發中心,著名的1998年人民日報語料庫的研發單位之一,任高級研究員,負責情感分析,后進入360搜索引擎自然語言處理部,項目核心成員之一,主持搜索引擎分詞,糾錯等核心模塊研發工作,歷時3年,對搜索效果的提升起到重要作用。目前,轉入移動互聯領域,負責獵豹移動的自然語言處理部,任負責人。



前 言

寫作本書的動機
自然語言處理(Natural Language Processing,NLP)是人工智能和語言學領域的分支學科,主要研究如何讓計算機處理和運用自然語言。自然語言處理廣義上分為兩大部分,第一部分為自然語言理解,是指讓電腦“懂”人類的語言;第二部分為自然語言生成,是指把計算機數據轉化為自然語言。本書重點講解漢語自然語言處理方面的最新理論、技術和進展。
自然語言處理作為一個獨立的學科誕生至今,已經半個多世紀了。與絕大多數傳統學科的最大不同是,在這半個世紀中,它始終離問題的終結遙遙無期,當人們千辛萬苦地獲得一次又一次的突破后,又會被新出現的問題無情地阻攔,而再次陷入迷惘之中。在NLP中,問題好像沒有最終解決方案,甚至連最佳實踐也沒有,而只有最新現狀(State of art)。而近些年,那些歷史上的State of art 正被不斷地刷新、不斷地超越。
就在十多年前,商業化的人機交互都是人們可望而不可即的目標,但現在智能機器人正逐漸走入市場,走入人們的生活。雖然這些技術還不夠成熟,還要解決諸多問題,即便普通大眾也能意識到,我們離人工智能的終極目標越來越近了。
面對市場上諸多的人工智能系統,以及背后的各種算法理論,使我想起了一部獲獎的英國電影《模仿游戲》。這不是一部藝術上的State of art ,卻贏得了第87屆奧斯卡金像獎最佳改編劇本獎。在肯定這部作品的諸多因素中,我認為最重要的是,它宣誓了現階段人工智能的本質:模仿。這也是本書自始至終貫穿的主題:模仿→象似性→算法理論。
但從另一個角度,我們希望能夠終結一些問題,即便這些問題還未得到百分之百的解決(當然,從概率論的角度而言,沒有百分之百),否則,我們很難進入以下階段的研究,整個學科只會停滯不前。幸運的是,近些年,在序列標注上的全面突破,使我們有幸將目光放到了句子的范疇,最近提出的語義依存理論,更使漢語自然語言處理,無論理論還是實踐都迎來了新的曙光。漢語的句子分析,終于跨越了句法的誤區,走向了語義解析的道路。相信不久的將來,在語義解析的道路上,漢語NLP將會獲得更大的突破。
本書的受眾與特色
本書是一本研究漢語自然語言處理方面的基礎性、綜合性書籍,涉及NLP的語言理論、算法和工程實踐的方方面面,內容繁雜。為此,我們設定本書的讀者為如下幾種:
? 具有一定計算機編程基礎,對自然語言處理感興趣的非專業人員。
? 希望構建完整的NLP應用系統的專業工程技術人員。
? 高校計算機專業和自然語言處理專業的大學生、研究生。
? 高校自然語言處理專業的教師。
需要指出的是,本書是一本系統介紹認知語言學和算法設計相結合的中文NLP書籍,并從認知語言學的視角重新認識和分析了NLP的句法和語義相結合的數據結構。這也是本書的創新之處。
內容及體系結構
為兼顧各方面的需求,我們對全書各部分做了精心的安排。從結構上,全書分為如下三大部分。
(1)語言理論部分:涉及4個章節,第2章為漢語的發展歷史;第6章為傳統的句法理論;第7章為語料庫和知識庫的構建理論;第8章為認知語言學理論。
(2)算法部分:涉及4個章節,第3章為中文分詞算法;第4章為NLP中的概率圖模型算法體系;第6章為句法的自動分析算法,包括轉換生成語法的算法原理,以及依存句法的應用;第9章系統介紹了神經網絡到深度學習算法體系,以及使用LSTM實現序列標注和依存句法。本書介紹的算法都提供開源的代碼,具體下載地址已在每章介紹算法的時候指出,讀者可參考書籍和網址的講解內容進行調試,快速應用于實踐中。
(3)案例部分:涉及4個章節,第1章為開源NLP系統概覽及入門代碼;第5章為使用概率圖模型算法進行詞性標注、語義組塊、命名實體識別等序列標注;第9章為使用Word2Vec的訓練詞向量模型;第10章為使用SVM進行長句切分、使用語義角色標注分析漢語句子等。
基本上每段理論講解之后都辟出專門的案例講解,以加深理論認識。對于重要的理論,甚至開辟專門的章節講解其實現。案例分為兩大部分,一部分是程序代碼,讀者可以參考書中的代碼,將其直接應用到實踐中;另一部分是語料,讀者可以按書中指定的網絡鏈接下載。
內容簡介:

本書是一本研究漢語自然語言處理方面的基礎性、綜合性書籍,涉及NLP的語言理論、算法和工程實踐的方方面面,內容繁雜。 本書包括NLP的語言理論部分、算法部分、案例部分,涉及漢語的發展歷史、傳統的句法理論、認知語言學理論。需要指出的是,本書是迄今為止第一本系統介紹認知語言學和算法設計相結合的中文NLP書籍,并從認知語言學的視角重新認識和分析了NLP的句法和語義相結合的數據結構。這也是本書的創新之處。 本書適用于所有想學習NLP的技術人員,包括各大人工智能實驗室、軟件學院等專業機構。

目錄:

第1章 中文語言的機器處理 1
1.1 歷史回顧 2
1.1.1 從科幻到現實 2
1.1.2 早期的探索 3
1.1.3 規則派還是統計派 3
1.1.4 從機器學習到認知
計算 5
1.2 現代自然語言系統簡介 6
1.2.1 NLP流程與開源框架 6
1.2.2 哈工大NLP平臺及其
演示環境 9
1.2.3 Stanford NLP團隊及其
演示環境 11
1.2.4 NLTK開發環境 13
1.3 整合中文分詞模塊 16
1.3.1 安裝Ltp Python組件 17
1.3.2 使用Ltp 3.3進行中文
分詞 18
1.3.3 使用結巴分詞模塊 20
1.4 整合詞性標注模塊 22
1.4.1 Ltp 3.3詞性標注 23
1.4.2 安裝StanfordNLP并
編寫Python接口類 24
1.4.3 執行Stanford詞性
標注 28
1.5 整合命名實體識別模塊 29
1.5.1 Ltp 3.3命名實體識別 29
1.5.2 Stanford命名實體
識別 30
1.6 整合句法解析模塊 32
1.6.1 Ltp 3.3句法依存樹 33
1.6.2 Stanford Parser類 35
1.6.3 Stanford短語結構樹 36
1.6.4 Stanford依存句法樹 37
1.7 整合語義角色標注模塊 38
1.8 結語 40
第2章 漢語語言學研究回顧 42
2.1 文字符號的起源 42
2.1.1 從記事談起 43
2.1.2 古文字的形成 47
2.2 六書及其他 48
2.2.1 象形 48
2.2.2 指事 50
2.2.3 會意 51
2.2.4 形聲 53

2.2.5 轉注 54
2.2.6 假借 55
2.3 字形的流變 56
2.3.1 筆與墨的形成與變革 56
2.3.2 隸變的方式 58
2.3.3 漢字的符號化與結構 61
2.4 漢語的發展 67
2.4.1 完整語義的基本
形式——句子 68
2.4.2 語言的初始形態與
文言文 71
2.4.3 白話文與復音詞 73
2.4.4 白話文與句法研究 78
2.5 三個平面中的語義研究 80
2.5.1 詞匯與本體論 81
2.5.2 格語法及其框架 84
2.6 結語 86
第3章 詞匯與分詞技術 88
3.1 中文分詞 89
3.1.1 什么是詞與分詞規范 90
3.1.2 兩種分詞標準 93
3.1.3 歧義、機械分詞、語言
模型 94
3.1.4 詞匯的構成與未登錄
詞 97
3.2 系統總體流程與詞典結構 98
3.2.1 概述 98
3.2.2 中文分詞流程 99
3.2.3 分詞詞典結構 103
3.2.4 命名實體的詞典
結構 105
3.2.5 詞典的存儲結構 108
3.3 算法部分源碼解析 111
3.3.1 系統配置 112
3.3.2 Main方法與例句 113
3.3.3 句子切分 113
3.3.4 分詞流程 117
3.3.5 一元詞網 118
3.3.6 二元詞圖 125
3.3.7 NShort算法原理 130
3.3.8 后處理規則集 136
3.3.9 命名實體識別 137
3.3.10 細分階段與最短
路徑 140
3.4 結語 142
第4章 NLP中的概率圖模型 143
4.1 概率論回顧 143
4.1.1 多元概率論的幾個
基本概念 144
4.1.2 貝葉斯與樸素貝葉斯
算法 146
4.1.3 文本分類 148
4.1.4 文本分類的實現 151
4.2 信息熵 154
4.2.1 信息量與信息熵 154
4.2.2 互信息、聯合熵、
條件熵 156
4.2.3 交叉熵和KL散度 158
4.2.4 信息熵的NLP的
意義 159
4.3 NLP與概率圖模型 160
4.3.1 概率圖模型的幾個
基本問題 161
4.3.2 產生式模型和判別式
模型 162
4.3.3 統計語言模型與NLP
算法設計 164
4.3.4 極大似然估計 167
4.4 隱馬爾科夫模型簡介 169
4.4.1 馬爾科夫鏈 169
4.4.2 隱馬爾科夫模型 170
4.4.3 HMMs的一個實例 171
4.4.4 Viterbi算法的實現 176
4.5 最大熵模型 179
4.5.1 從詞性標注談起 179
4.5.2 特征和約束 181
4.5.3 最大熵原理 183
4.5.4 公式推導 185
4.5.5 對偶問題的極大似然
估計 186
4.5.6 GIS實現 188
4.6 條件隨機場模型 193
4.6.1 隨機場 193
4.6.2 無向圖的團(Clique)
與因子分解 194
4.6.3 線性鏈條件隨機場 195
4.6.4 CRF的概率計算 198
4.6.5 CRF的參數學習 199
4.6.6 CRF預測標簽 200
4.7 結語 201
第5章 詞性、語塊與命名實體
識別 202
5.1 漢語詞性標注 203
5.1.1 漢語的詞性 203
5.1.2 賓州樹庫的詞性標注
規范 205
5.1.3 stanfordNLP標注
詞性 210
5.1.4 訓練模型文件 213
5.2 語義組塊標注 219
5.2.1 語義組塊的種類 220
5.2.2 細說NP 221
5.2.3 細說VP 223
5.2.4 其他語義塊 227
5.2.5 語義塊的抽取 229
5.2.6 CRF的使用 232
5.3 命名實體識別 240
5.3.1 命名實體 241
5.3.2 分詞架構與專名
詞典 243
5.3.3 算法的策略——詞典
與統計相結合 245
5.3.4 算法的策略——層疊
式架構 252
5.4 結語 259
第6章 句法理論與自動分析 260
6.1 轉換生成語法 261
6.1.1 喬姆斯基的語言觀 261
6.1.2 短語結構文法 263
6.1.3 漢語句類 269
6.1.4 謂詞論元與空范疇 274
6.1.5 輕動詞分析理論 279
6.1.6 NLTK操作句法樹 280
6.2 依存句法理論 283
6.2.1 配價理論 283
6.2.2 配價詞典 285
6.2.3 依存理論概述 287
6.2.4 Ltp依存分析介紹 290
6.2.5 Stanford依存轉換、
解析 293
6.3 PCFG短語結構句法分析 298
6.3.1 PCFG短語結構 298
6.3.2 內向算法和外向
算法 301
6.3.3 Viterbi算法 303
6.3.4 參數估計 304
6.3.5 Stanford 的PCFG算法
訓練 305
6.4 結語 310
第7章 建設語言資源庫 311
7.1 語料庫概述 311
7.1.1 語料庫的簡史 312
7.1.2 語言資源庫的分類 314
7.1.3 語料庫的設計實例:
國家語委語料庫 315
7.1.4 語料庫的層次加工 321
7.2 語法語料庫 323
7.2.1 中文分詞語料庫 323
7.2.2 中文分詞的測評 326
7.2.3 賓州大學CTB簡介 327
7.3 語義知識庫 333
7.3.1 知識庫與HowNet
簡介 333
7.3.2 發掘義原 334
7.3.3 語義角色 336
7.3.4 分類原則與事件
分類 344
7.3.5 實體分類 347
7.3.6 屬性與分類 352
7.3.7 相似度計算與實例 353
7.4 語義網與百科知識庫 360
7.4.1 語義網理論介紹 360
7.4.2 維基百科知識庫 364
7.4.3 DBpedia抽取原理 365
7.5 結語 368
第8章 語義與認知 370
8.1 回顧現代語義學 371
8.1.1 語義三角論 371
8.1.2 語義場論 373
8.1.3 基于邏輯的語義學 376
8.2 認知語言學概述 377
8.2.1 象似性原理 379
8.2.2 順序象似性 380
8.2.3 距離象似性 380
8.2.4 重疊象似性 381
8.3 意象圖式的構成 383
8.3.1 主觀性與焦點 383
8.3.2 范疇化:概念的
認知 385
8.3.3 主體與背景 390
8.3.4 意象圖式 392
8.3.5 社交中的圖式 396
8.3.6 完形:壓縮與省略 398
8.4 隱喻與轉喻 401
8.4.1 隱喻的結構 402
8.4.2 隱喻的認知本質 403
8.4.3 隱喻計算的系統
架構 405
8.4.4 隱喻計算的實現 408
8.5 構式語法 412
8.5.1 構式的概念 413
8.5.2 句法與構式 415
8.5.3 構式知識庫 417
8.6 結語 420
第9章 NLP中的深度學習 422
9.1 神經網絡回顧 422
9.1.1 神經網絡框架 423
9.1.2 梯度下降法推導 425
9.1.3 梯度下降法的實現 427
9.1.4 BP神經網絡介紹和
推導 430
9.2 Word2Vec簡介 433
9.2.1 詞向量及其表達 434
9.2.2 Word2Vec的算法
原理 436
9.2.3 訓練詞向量 439
9.2.4 大規模上下位關系的
自動識別 443
9.3 NLP與RNN 448
9.3.1 Simple-RNN 449
9.3.2 LSTM原理 454
9.3.3 LSTM的Python
實現 460
9.4 深度學習框架與應用 467
9.4.1 Keras框架介紹 467
9.4.2 Keras序列標注 471
9.4.3 依存句法的算法
原理 478
9.4.4 Stanford依存解析的
訓練過程 483
9.5 結語 488
第10章 語義計算的架構 490
10.1 句子的語義和語法預處理 490
10.1.1 長句切分和融合 491
10.1.2 共指消解 496
10.2 語義角色 502
10.2.1 謂詞論元與語義
角色 502
10.2.2 PropBank簡介 505
10.2.3 CPB中的特殊
句式 506
10.2.4 名詞性謂詞的語義
角色 509
10.2.5 PropBank展開 512
10.3 句子的語義解析 517
10.3.1 語義依存 517
10.3.2 完整架構 524
10.3.3 實體關系抽取 527
10.4 結語 531
序: