3dwoo大學簡體電腦書店
自然語言處理理論與實戰
( 簡體 字)
作者:唐聃 等類別:1. -> 程式設計 -> 自然語言
出版社:電子工業出版社自然語言處理理論與實戰 3dWoo書號: 49379
詢問書籍請說出此書號!
有庫存
NT售價: 395
出版日:7/1/2018
頁數:360
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121343902 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1 章基礎入門
1.1 什么是自然語言處理
1.1.1 自然語言處理概述
1.1.2 自然語言處理的發展歷史
1.1.3 自然語言處理的工作原理
1.1.4 自然語言處理的應用前景
1.2 開發工具與環境
1.2.1 Sublime Text 和Anaconda 介紹
1.2.2 開發環境的安裝與配置
1.3 實戰:第一個小程序的誕生
1.3.1 實例介紹
1.3.2 源碼實現
第2 章快速上手Python
2.1 初識Python 編程語言
2.1.1 Python 概述
2.1.2 Python 能做什么
2.1.3 Python 的語法和特點
2.2 Python 進階
2.2.1 Hello World
2.2.2 語句和控制流
2.2.3 函數
2.2.4 List 列表
2.2.5 元組
2.2.6 set 集合
2.2.7 字典
2.2.8 面向對象編程:類
2.2.9 標準庫
2.3 Python 深入——第三方庫
2.3.1 Web 框架
2.3.2 科學計算
2.3.3 GUI
2.3.4 其他庫
第3 章線性代數
3.1 線性代數介紹
3.2 向量
3.2.1 向量定義
3.2.2 向量表示
3.2.3 向量定理
3.2.4 向量運算
3.3 矩陣
3.3.1 矩陣定義
3.3.2 矩陣表示
3.3.3 矩陣運算
3.3.4 線性方程組
3.3.5 行列式
3.3.6 特征值和特征向量
3.4 距離計算
3.4.1 余弦距離
3.4.2 歐氏距離
3.4.3 曼哈頓距離
3.4.4 明可夫斯基距離
3.4.5 切比雪夫距離
3.4.6 杰卡德距離
3.4.7 漢明距離
3.4.8 標準化歐式距離
3.4.9 皮爾遜相關系數
第4 章概率論
4.1 概率論介紹
4.2 事件
4.2.1 隨機試驗
4.2.2 隨機事件和樣本空間
4.2.3 事件的計算
4.3 概率
4.4 概率公理
4.5 條件概率和全概率
4.5.1 條件概率
4.5.2 全概率
4.6 貝葉斯定理
4.7 信息論
4.7.1 信息論的基本概念
4.7.2 信息度量
第5 章統計學
5.1 圖形可視化
5.1.1 餅圖
5.1.2 條形圖
5.1.3 熱力圖
5.1.4 折線圖
5.1.5 箱線圖
5.1.6 散點圖
5.1.7 雷達圖
5.1.8 儀表盤
5.1.9 可視化圖表用法
5.2 數據度量標準
5.2.1 平均值
5.2.2 中位數
5.2.3 眾數
5.2.4 期望
5.2.5 方差
5.2.6 標準差
5.2.7 標準分
5.3 概率分布
5.3.1 幾何分布
5.3.2 二項分布
5.3.3 正態分布
5.3.4 泊松分布
5.4 統計假設檢驗
5.5 相關和回歸
5.5.1 相關
5.5.2 回歸
5.5.3 相關和回歸的聯系
第6 章語言學
6.1 語音
6.1.1 什么是語音
6.1.2 語音的三大屬性
6.1.3 語音單位
6.1.4 記音符號
6.1.5 共時語流音變
6.2 詞匯
6.2.1 什么是詞匯
6.2.2 詞匯單位
6.2.3 詞的構造
6.2.4 詞義及其分類
6.2.5 義項與義素
6.2.6 語義場
6.2.7 詞匯的構成
6.3 語法
6.3.1 什么是語法
6.3.2 詞類
6.3.3 短語
6.3.4 單句
6.3.5 復句
第7 章自然語言處理
7.1 自然語言處理的任務和限制
7.2 自然語言處理的主要技術范疇
7.2.1 語音合成
7.2.2 語音識別
7.2.3 中文自動分詞
7.2.4 詞性標注
7.2.5 句法分析
7.2.6 文本分類
7.2.7 文本挖掘
7.2.8 信息抽取
7.2.9 問答系統
7.2.10 機器翻譯
7.2.11 文本情感分析
7.2.12 自動摘要
7.2.13 文字蘊涵
7.3 自然語言處理的難點
7.3.1 語言環境復雜
7.3.2 文本結構形式多樣
7.3.3 邊界識別限制
7.3.4 詞義消歧
7.3.5 指代消解
7.4 自然語言處理展望
第8 章語料庫
8.1 語料庫淺談
8.2 語料庫深入
8.3 自然語言處理工具包:NLTK
8.3.1 NLTK 簡介
8.3.2 安裝NLTK
8.3.3 使用NLTK
8.3.4 在Python NLTK 下使用Stanford NLP
8.4 獲取語料庫
8.4.1 國內外著名語料庫
8.4.2 網絡數據獲取
8.4.3 NLTK 獲取語料庫
8.5 綜合案例:走進大秦帝國
8.5.1 數據采集和預處理
8.5.2 構建本地語料庫
8.5.3 大秦帝國語料操作
第9 章中文自動分詞
9.1 中文分詞簡介
9.2 中文分詞的特點和難點
9.3 常見中文分詞方法
9.4 典型中文分詞工具
9.4.1 HanLP 中文分詞
9.4.2 其他中文分詞工具
9.5 結巴中文分詞
9.5.1 基于Python 的結巴中文分詞
9.5.2 結巴分詞工具詳解
9.5.3 結巴分詞核心內容
9.5.4 結巴分詞基本用法
第10 章數據預處理
10.1 數據清洗
10.2 分詞處理
10.3 特征構造
10.4 特征降維與選擇
10.4.1 特征降維
10.4.2 特征選擇
10.5 簡單實例
10.6 本章小結
第11 章馬爾可夫模型
11.1 馬爾可夫鏈
11.1.1 馬爾可夫簡介
11.1.2 馬爾可夫鏈的基本概念
11.2 隱馬爾可夫模型
11.2.1 形式化描述
11.2.2 數學形式描述
11.3 向前算法解決HMM 似然度
11.3.1 向前算法定義
11.3.2 向前算法原理
11.3.3 現實應用:預測成都天氣的冷熱
11.4 文本序列標注案例:Viterbi 算法

第12 章條件隨機場
12.1 條件隨機場介紹
12.2 簡單易懂的條件隨機場
12.2.1 CRF 的形式化表示
12.2.2 CRF 的公式化表示
12.2.3 深度理解條件隨機場
第13 章模型評估
13.1 從統計角度介紹模型概念
13.1.1 算法模型
13.1.2 模型評估和模型選擇
13.1.3 過擬合與欠擬合的模型選擇
13.2 模型評估與選擇
13.2.1 模型評估的概念
13.2.2 模型評估的評測指標
13.2.3 以詞性標注為例分析模型評估
13.2.4 模型評估的幾種方法
13.3 ROC 曲線比較學習器模型
第14 章命名實體識別
14.1 命名實體識別概述
14.2 命名實體識別的特點與難點
14.3 命名實體識別方法
14.4 中文命名實體識別的核心技術
14.5 展望
第15 章自然語言處理實戰
15.1 GitHub 數據提取與可視化分析
15.1.1 了解GitHub 的API
15.1.2 使用NetworkX 作圖
15.1.3 使用NetworkX 構建興趣圖
15.1.4 NetWorkX 部分統計指標
15.1.5 構建GitHub 的興趣圖
15.1.6 可視化
15.2 微博話題爬取與存儲分析
15.2.1 數據采集
15.2.2 數據提取
15.2.3 數據存儲
15.2.4 項目運行與分析
附錄A Python 與其他語言調用
附錄B Git 項目上傳簡易教程
參考文獻
本書分四個部分,第一部分主要介紹基礎知識,包括認識機器學習和自然語言處理、快速上手Python、線性代數、概率論和統計學;第二部分主要介紹自然語言處理技術,包括自然語言處理介紹、語料庫技術、中文分詞、數據預處理、馬爾科夫模型、條件隨機場、模型評估、剖析自然處理工具背后的原理;第三部分主要介紹機器學習技術,包括認識機器學習、常見機器學習算法、機器學習算法案例源碼實現。第四部分主要介紹工程項目實踐,包括Python項目實戰、自然語言處理項目實戰、機器學習結合自然語言處理綜合項目實戰。

本書講述自然語言處理重要的相關學科知識和理論基礎,并介紹使用這些知識的應用和工具,以及如何在實際環境中使用它們。市面上出版的自然語言處理書籍不多,且大多數討論的是其背后的深奧原理,很少涉及基礎知識和編程實現。自然語言處理是一門多學科交叉的學科,初入門的讀者難以把握知識的廣度和寬度,尤其對側重點不能全面掌握。本書針對以上情況,經過科學調研分析,選擇以理論結合實例的方式呈現知識點。首先介紹開發工具、Python語言、線性代數、概率論、統計學、語言學等工程上常用的知識,然后介紹自然語言處理的核心理論和案例解析,最后通過幾個綜合性的例子完成自然語言處理的學習和深入。本書旨在幫助讀者快速高效地學習自然語言處理和人工智能技術。
讀者對象
自然語言處理是什么?誰需要學習自然語言處理?自然語言處理在哪些地方應用?本書就是對這幾個問題的回答。自然語言處理領域主要探討:如何處理及運用自然語言;自然語言認知(讓計算機“懂”人類的語言);自然語言生成系統(將計算機數據轉化為自然語言)和自然語言理解系統(將自然語言轉化為計算機程序更易于處理的形式)。自然語言處理在我們身邊應用得非常廣泛,其中包括:語音的自動合成與識別、機器翻譯、自然語言理解、人機對話、信息檢索、文本分類、自動文摘,等等。此外,自然語言處理也是人工智能、機器學習、深度學習的基礎,重要程度不言而喻。如果讀者有一定的編程基礎,那么將有助于本書的閱讀。如果讀者不具備線性代數、概率論、統計學、語言學的知識,則可從本書中快速學習常見的工程應用知識;如果讀者具備線性代數、概率論、統計學、語言學的知識,則更利于本書的閱讀,可以對知識進行查全補充。此外,本身使用Python 語言進行編程,假設讀者具備Python 知識,則可以跳過第2 章,也更有利于本書的閱讀。本書對于具備一定編程基礎的計算機專業、軟件工程專業、通信專業、電子技術專業和自動化專業的大學二年級以上的學生都是適宜的。一些做工程應用的自然語言處理工程師,也可以通過閱讀本書補充理論知識。理論知識的最大魅力在于遇到工程難題時,可以知道其背后的原因,快速準確地解決問題。本書整體難度適宜,適合作為自學用書或課程教材。
本書結構
本書共四大部分15 章,第一部分為基礎部分,從第1 章至第6 章,主要介紹在自然語言交叉學科中,工程應用常用的學科知識,包括自然語言處理概述、Python 基礎知識和環境搭建、線性代數、概率論、統計學、語言學。第二部分為理論部分,從第7 章至第14 章,主要介紹自然語言處理常用的理論知識,包括自然語言處理任務限制、技術范疇、語料庫、中文自動分詞、數據預處理、馬爾可夫模型、條件隨機場、模型評估和命名實體識別。第三部分為實戰部分,第15 章通過GitHub 數據提取與可視化分析、微博話題爬取與存儲分析,綜合介紹網絡爬蟲、中文分詞、數據處理、模型選擇、數據分析、自然語言處理工具和數據可視化等技術點,這些技術也適用于以機器學習為代表的人工智能領域。本書各章節的具體內容介紹如下。
? 第1 章基礎入門:隨著人工智能的快速發展,自然語言處理和機器學習技術的應用愈加廣泛。然而身為初學者,要想快速入門這些前沿技術總是存在著各種各樣的困難。為使讀者對該領域的整體概況有一個系統明晰的認識,本章主要從發展歷程、研究現狀、應用前景等角度概要介紹自然語言處理及相關的機器學習技術。
? 第2 章快速上手Python:Python 作為一門簡潔優美且功能強大的語言,越來越受到編程人員的青睞,在工業界和學術界也非常受歡迎。本書的全部代碼都是通過Python 實現的,之所以選擇Python 語言,是因為其可以跨平臺跨應用開發,因此本章旨在幫助讀者快速領略Python 的概貌。如果讀者已經具備Python 基礎,則可略過此章。
? 第3 章線性代數:機器學習是計算機科學、統計學、數學和信息論等多個領域交叉的學科。線性代數又是數學的一個重要分支,對機器學習有著直接的影響。諸如算法建模、參數設置、驗證策略、識別欠擬合和過擬合,等等。讀者往往知道線性代數很有用,常常全書通讀,造成時間不足和效率較低,歸因于對線性代數在機器學習中的重點和用途不明。本章主要以簡明的方式介紹常用的線性代數知識,并使讀者知道線性代數常用于哪些方面。
? 第4 章概率論:機器學習與深度學習是多學科交叉的科學技術,其中數學尤為重要,是很多形式化模型向數學建模的必經過程。繼線性代數核心知識的介紹之后,本章著重介紹概率論的相關知識。
? 第5 章統計學:在數據科學中,統計學的地位尤為顯著。這是一門在數據分析的基礎上,研究如何測定、收集、整理、歸納和分析數據規律,以便給出正確消息的學科。通過揭示數據背后的規律和隱藏信息,給相關角色提供參照價值,以做出相應的決策。其在數據挖掘、自然語言處理、機器學習中都被廣泛應用。本章首先介紹常見的圖形可
視化的概念和使用,繼而介紹數據度量標準、概率分布、統計假設檢驗、相關和回歸,以短小精悍的篇章使讀者掌握基本的統計知識。
? 第6 章語言學:本章主要從語音、詞匯、語法三個角度對現代漢語進行一個簡單概要的勾勒,在以往傳統的語言學教材中一般還有“文字”“修辭”兩節內容,因篇幅有限、與全書關聯不強,在此刪繁就簡,未給讀者一一呈現。需要注意的是,語言學本身是一門十分龐雜的學科,知識體系與研究方法或因語言不同而有區別,或因派別主義不同而有區別。但無論是何種語言,或是何門何派,在進行自然語言處理時我們要面臨的永遠是一個個真實的語料和具體的語言現象。理論是用來指導實踐、拓寬我們研究思路的,究竟最后采用何種理論,這只是一個“白貓黑貓”的問題。
? 第7 章自然語言處理:本章開篇直擊要點,即自然語言處理的任務和限制。進而介紹其所涉及的主要技術范疇,并對這些技術方向進行介紹。在針對當前自然語言處理的難點進行詳細剖析后,最終對2017 年以后自然語言處理的發展進行展望。
? 第8 章語料庫:大數據發展的基石就是數據量的快速增加,無論是自然語言處理、數據挖掘、文本處理,還是機器學習領域,都是在此基礎上通過規則或統計方法進行模型構建的。但是不是數據量足夠大就叫大數據了呢?是不是數據量足夠多就構成語料庫了呢?帶著這些疑問,本章將帶你走進語料庫的世界,對語料知識進行一次全面而深入的了解。
? 第9 章中文自動分詞:中文分詞技術屬于自然語言處理的技術范疇,中文分詞是其他中文信息處理的基礎,搜索引擎只是中文分詞的一個應用。諸如機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對,等等。
? 第10 章數據預處理:數據預處理的整個步驟流程在自然語言處理的工程中要比其在機器學習的工程中精簡一些,最大的區別就在于數據清洗和特征構造這兩個至關重要的過程。在自然語言處理中特征構造是否良好,很大程度上取決于所構造的特征數據集的數據特性與文本內容語義吻合程度的高低。比如,文本情感分類和文本內容分類都屬于分類范疇,但對于同一種算法(參數都調整到最優),在兩個不同分類的業務下,得到的結果可能會相差很大。通過仔細分析,我們不難發現造成這種差異的根本原因就是構造出來的特征數據集的數據模式沒有很好地契合文本的真實語義,這也是自然語言處理的最大難點。
? 第11 章馬爾可夫模型:筆者最早接觸馬爾可夫模型的定義源于吳軍先生的《數學之美》一書,起初覺得深奧難懂且沒什么用處。直到學習自然語言處理時,才真正使用到馬爾可夫模型,并體會到此模型的奇妙之處。馬爾可夫模型在處理序列分類時具有強大的功能,解決諸如詞類標注、語音識別、句子切分、字素音位轉換、局部句法剖析、語塊分析、命名實體識別、信息抽取等問題。此外它還廣泛應用于自然科學、工程技術、生物科技、公用事業、信道編碼等多個領域。
? 第12 章條件隨機場:條件隨機場常用于序列標注、數據分割等自然語言處理任務中,此外在中文分詞、中文人名識別和歧義消解等任務中也有應用。本書基于筆者在做語句識別序列標注過程中對條件隨機場產生的了解。主要內容源于自然語言處理、機器學習、統計學習方法和部分網上資料對CRF 的相關介紹,最后由筆者進行大量研究整理后匯總成知識體系。本章首先介紹條件隨機場的相關概念,然后結合實例以期讓讀者深入理解條件隨機場的應用。
? 第13 章模型評估:本章源于基于HMM 模型序列標注的一個實驗,在實驗完成之后,迫切想知道采用的序列標注模型好壞,有哪些指標可以度量。于是就產生了對這一專題進度的學習總結,這樣也便于其他人參考。本章依舊簡明扼要地梳理出模型評估核心指標,以期達到實用的目的。
? 第14 章命名實體識別:命名實體識別在自然語言處理中占據著非常重要的地位,也是不可逾越的學術問題。命名實體識別的學術理論和研究方法眾多,本章側重整體介紹。首先闡述命名實體識別的背景知識和研究概況,介紹中文命名實體識別的特點與難點,輔以案例加深理解;然后對命名實體識別當前的研究方法和核心技術進行詳細介紹;最后展望其在未來人工智能方面的發展前景。
? 第15 章自然語言處理實戰:自然語言處理技術是理論與實踐相結合的一門學科,通過前面基礎理論知識的介紹,讀者對其理論有所認識,但其究竟有何用、怎么用卻不深刻。本章通過實例演練,一方面對前面幾章的知識進行復習回顧,另一方面利于加深理解研發的相關工作。本章的第一個案例以GitHub 為例,實現數據提取和可視化;第二個案例以微博話題為例,實現數據采集、提取、存儲與分析。
勘誤
由于筆者能力有限,時間倉促,書中難免有錯漏,歡迎讀者批評指正。
pagetop