3dwoo大學簡體電腦書店
Web文本挖掘技術理論與應用
( 簡體 字)
作者:何慧,陳博,張瑩類別:1. -> 程式設計 -> 數據挖掘
出版社:電子工業出版社Web文本挖掘技術理論與應用 3dWoo書號: 46990
詢問書籍請說出此書號!
有庫存
NT售價: 245
出版日:6/1/2017
頁數:112
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121298271 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1章 概論 1
1.1 研究的背景和意義 1
1.2 文本挖掘相關技術概述及研究現狀 2
1.2.1 文本分類概述及研究現狀 3
1.2.2 文本聚類概述及研究現狀 5
1.2.3 信息抽取概述及研究現狀 6
1.2.4 文本檢索概述及研究現狀 7
1.3 文本挖掘領域亟待解決的問題 8
1.4 本書的研究內容與結構安排 11
參考文獻 13
第2章 基于統計語言模型的短文本計算 18
2.1 引言 18
2.2 文本信息處理基礎知識 19
2.2.1 文本的表示 19
2.2.2 特征選擇 21
2.3 基于N-gram的特征提取和RPCL的短文本聚類算法 22
2.3.1 相關工作 23
2.3.2 算法描述 23
2.3.3 實驗及分析 28
2.4 小結 31
參考文獻 31
第3章 面向廣告推薦和情感分析的Web文本信息抽取 35
3.1 引言 35
3.2 信息抽取常用算法和模型 36
3.2.1 N-gram語言模型 36
3.2.2 隱馬爾可夫模型 37
3.2.3 最大熵模型 38
3.3 基于隱馬爾科夫模型的半監督中文復合詞抽取算法 41
3.3.1 相關工作 42
3.3.2 算法描述 42
3.3.3 實驗及分析 46
3.4 基于最大熵和LMR模板的中文情感詞抽取算法 48
3.4.1 相關工作 49
3.4.2 算法描述 50
3.4.3 實驗及分析 51
3.5 小結 55
參考文獻 55
第4章 基于監督和半監督的文本情感分類 59
4.1 引言 59
4.2 常用的監督和半監督文本分類算法 60
4.2.1 常用文本分類算法 61
4.2.2 半監督文本分類算法 63
4.3 文本情感分類的研究現狀 66
4.3.1 主客觀分類 66
4.3.2 情感極性分類 66
4.4 基于帶先驗的最大熵歌詞情感分類 68
4.4.1 相關工作 68
4.4.2 歌詞語料集統計信息 69
4.4.3 算法描述 71
4.4.4 實驗及分析 74
4.5 基于圖的半監督學習文本情感分類算法 76
4.5.1 算法描述 77
4.5.2 實驗及分析 79
4.6 小結 82
參考文獻 82
第5章 文本觀點檢索研究 89
5.1 引言 89
5.2 相關研究 89
5.3 文本觀點檢索系統設計與評測 90
5.3.1 COAE2008觀點檢索任務、數據及相關評測指標 91
5.3.2 文本觀點檢索系統 92
5.4 小結 96
參考文獻 96
第6章 總結與展望 99
6.1 本文的工作總結 99
6.2 未來的工作展望 101
隨著互聯網和通訊網的迅猛發展,網絡文本成為信息的主要載體及人們生活中不可或缺的主要信息來源,文本挖掘技術的研究意義和實用價值越來越突出。另一方面,隨著Web 2.0時代的到來,出現了越來越多的由用戶創作的網絡數字內容。用戶數字內容的大量產生和傳播使得短文本計算、Web文本信息抽取、文本情感分析等逐漸成為Web文本挖掘研究的熱點問題。本書從Web文本的信息抽取、聚類、分類、信息檢索等技術出發,與讀者分享作者多年的研究和開發經驗。

隨著互聯網和通信網的迅猛發展,網絡文本成為信息的主要載體及人們生活中不可或缺的主要信息來源,文本挖掘技術的研究意義和實用價值越來越突出。另一方面,隨著Web 2.0時代的到來,出現了越來越多的由用戶創作的網絡數字內容。用戶數字內容的大量產生和傳播使得短文本計算、Web文本信息抽取、文本情感分析等逐漸成為Web文本挖掘研究的熱點問題。
本書編著者長期從事自然語言處理的科研工作,在相關的研究成果的基礎上撰寫了本書。全書共分6章,其中,第1章為導論,第2章為基于統計語言模型的短文本計算,屬于Web文本聚類的研究問題,第3章面向廣告推薦和情感分析的Web文本信息抽取,屬于Web文本信息抽取的研究問題,第4章文本情感分類是Web文本挖掘的一個熱點問題,第5章為文本觀點檢索研究,第6章為本書小結和展望。
第1章闡述了Web文本挖掘的研究背景和意義、文本挖掘的基本概念、文本分類、聚類、信息抽取與檢索系統的結構和典型應用,以及文本挖掘領域亟待解決的問題。
第2章針對短文本包含字符少、文本語言不規范、文本數量巨大的特點,從統計語言模型的角度對短文本計算中有效語言特征提取和選擇、聚類等進行了研究和闡述。
第3章討論了面向廣告推薦和情感分析的Web文本信息抽取。由于傳統的信息抽取任務僅面向命名實體識別、實體關系抽取、指代消解和事件探測四個方面,無法滿足當前互聯網上更多的信息抽取方面的技術需求。本章針對廣告推薦中復合詞抽取問題和用戶產生內容的情感詞抽取問題,結合當前主要的信息抽取技術,提出了相應的算法。
第4章對文本情感分類問題展開研究和闡述。對現有的監督學習和半監督學習方法進行介紹,并以音樂歌詞的情感分類和電影評論的情感分類為例,討論了情感分類系統的關鍵問題以及具體實現技術。
第5章介紹文本觀點檢索。以著者2008年參加的COAE2008中的面向主題的中文文本觀點檢索任務為主線,介紹了本文參評系統PRIS-SAS。在COAE2008數據集上的評測指標表明,我們設計的文本觀點檢索系統達到了較高的性能水平。
第6章總結了本書的知識要點,并展望了未來的發展前沿。
本書的編著者為何慧、陳博和張瑩。本書的順利完成還得到了單位領導、老師、同事以及學生的大力幫助,在此一并致謝!此外,本書還引用了一些著作、論文和網上的相關資料,未能一一完全列出,對他們的相關工作表示敬意。
本書受到北京市青年英才項目“基于微博的輿情分析關鍵算法研究”(項目編號YETP0706)、中央高校基金面上項目“短文本分析關鍵算法研究”(項目編號2014MS21)、中央高校基金面上項目“基于深度學習的文本分析技術及其在電力大數據中的應用”(項目編號2017MS072)、國家自然科學基金青年項目“網絡資源的語義標識與分布式定位方法研究”(項目編號61305056)等的支持,在此對國家自然科學基金委員會、北京市教育委員會和華北電力大學表示衷心的感謝。
由于著者水平有限,加之涵蓋的內容尚在迅速發展之中,本書難免存在不足,不當甚至錯誤之處,懇請同行及廣大讀者批評指正。
pagetop