在線文本數據挖掘 算法原理與編程實現( 簡體 字) | |
作者:劉通 | 類別:1. -> 程式設計 -> 綜合 |
出版社:電子工業出版社 | 3dWoo書號: 51566 詢問書籍請說出此書號! 有庫存 NT售價: 440 元 |
出版日:8/1/2019 | |
頁數:352 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121356322 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章 概述 1
1.1 網絡運營與文本分析 1 1.1.1 互聯網運營的戰略思維 1 1.1.2 網絡運營與大數據文本分析 2 1.2 文本分析的4V特征 4 1.2.1 Volume特征 4 1.2.2 Variety特征 5 1.2.3 Value特征 6 1.2.4 Velocity特征 7 1.3 在線文本分析應用 8 1.3.1 在線文本分析的管理類應用 9 1.3.2 在線文本分析的內容類應用 12 1.4 本章小結 16 第2章 預備知識 18 2.1 文本挖掘的主要任務 18 2.2 語義分析與語法分析 20 2.3 文本的結構化分析 21 2.4 文本的標準化分析 24 2.5 機器學習的基本概念 24 2.5.1 機器學習與深度學習 25 2.5.2 機器學習的基本要素 33 2.6 機器學習的重要問題 36 2.6.1 概率圖模型 36 2.6.2 判別式模型和產生式模型 39 2.6.3 機器學習模型求解 40 2.6.4 模型過擬合 43 2.7 本章小結 45 第3章 文本建模 46 3.1 文本建模的基本概念 46 3.2 文本建模的應用場景 48 3.2.1 主體角色識別 48 3.2.2 語言風格分析 49 3.2.3 智能系統 49 3.2.4 文本表示 50 3.2.5 文本降維 50 3.2.6 話題分析 50 3.3 語言學建模概述 51 3.4 詞標注分析 52 3.5 句法分析 55 3.5.1 轉換生成語法 56 3.5.2 依存句法 56 3.6 知識庫與語義網 58 3.7 統計學建模概述 59 3.8 向量空間模型 61 3.9 LSI模型 64 3.9.1 SVD 64 3.9.2 基于SVD的降維分析 66 3.10 Unigram模型 67 3.11 pLSI模型 67 3.11.1 pLSI的模型結構 67 3.11.2 pLSI的參數估計 68 3.12 LDA主題模型 70 3.12.1 LDA的模型結構 70 3.12.2 LDA的參數估計 72 3.13 主題模型拓展 75 3.13.1 相關主題模型 76 3.13.2 層次主題模型 77 3.13.3 動態主題模型 80 3.13.4 句子主題模型 82 3.14 基于詞匯的統計學建模方法 83 3.15 本章小結 86 第4章 文本分類 88 4.1 文本分類的基本概念 88 4.2 文本分類的應用場景 89 4.2.1 文檔有用性判斷 89 4.2.2 口碑情感分析 90 4.2.3 負面信息識別 90 4.2.4 信息檢索 90 4.3 樸素貝葉斯模型 91 4.3.1 貝努利模型 91 4.3.2 多項式模型 93 4.3.3 模型參數平滑 94 4.4 向量空間模型 95 4.4.1 Rocchio方法 95 4.4.2 KNN方法 96 4.5 SVM模型 97 4.5.1 硬間隔SVM 97 4.5.2 軟間隔SVM 100 4.6 文本分類的評價 102 4.6.1 二元分類評價 102 4.6.2 多類問題評價 104 4.6.3 分類測試集 105 4.7 分類特征優化 106 4.7.1 分類特征提取 106 4.7.2 分類特征轉化 112 4.7.3 分類特征擴展 114 4.8 分類學習策略優化 117 4.8.1 AdaBoost算法 117 4.8.2 主動式學習 118 4.8.3 遷移學習 119 4.9 本章小結 119 第5章 文本聚類 121 5.1 文本聚類的基本概念 121 5.2 文本聚類的應用場景 122 5.2.1 探索分析 122 5.2.2 降維 123 5.2.3 信息檢索 123 5.3 扁平式聚類 124 5.3.1 K-均值算法 125 5.3.2 基于模型的聚類 128 5.4 凝聚式聚類 132 5.4.1 層次聚類 132 5.4.2 基于簇距離的聚類過程 132 5.4.3 算法停止條件 135 5.5 聚類結果分析 136 5.5.1 聚類算法評估 136 5.5.2 聚類標簽生成 138 5.6 聚類特征優化 140 5.6.1 基于迭代的方法 141 5.6.2 無監督指標 141 5.7 半監督聚類 143 5.7.1 遷移學習 144 5.7.2 AP算法 145 5.8 短文本聚類 146 5.8.1 文本特征補充 146 5.8.2 TermCut算法 148 5.8.3 Dirichlet多項式混合模型 149 5.9 流數據聚類 151 5.9.1 OSKM算法 151 5.9.2 可拓展K-means算法 152 5.10 本章小結 153 第6章 序列標注 155 6.1 序列標注的基本概念 155 6.2 序列標注的應用場景 157 6.2.1 詞性標注 157 6.2.2 命名實體識別 157 6.2.3 分詞 157 6.3 HMM 158 6.3.1 HMM的概率計算問題 160 6.3.2 HMM的學習問題 162 6.2.3 HMM的預測問題 164 6.4 最大熵模型和最大熵馬爾可夫模型 166 6.4.1 最大熵模型 167 6.4.2 最大熵馬爾可夫模型 170 6.5 條件隨機場 172 6.5.1 標注偏置問題 172 6.5.2 條件隨機場的基本原理 174 6.6 本章小結 176 第7章 信息檢索 177 7.1 信息檢索的基本概念 177 7.2 信息檢索的應用場景 180 7.2.1 搜索引擎 180 7.2.2 內容推薦 182 7.3 基于空間模型的信息檢索 184 7.3.1 文檔查找 184 7.3.2 文檔排序 185 7.3.3 系統評價 187 7.4 基于概率模型的信息檢索 190 7.4.1 二值獨立模型 191 7.4.2 模型參數估計 193 7.5 基于語言模型的信息檢索 196 7.5.1 語言模型 196 7.5.2 查詢似然模型 198 7.6 本章小結 201 第8章 文本摘要 203 8.1 文本摘要的基本概念 203 8.2 文本摘要的應用場景 206 8.2.1 信息檢索 206 8.2.2 信息壓縮 207 8.2.3 用戶畫像 208 8.2.4 知識管理 209 8.3 關鍵詞提取的特征設計 210 8.3.1 詞頻特征 210 8.3.2 詞匯基礎特征 211 8.3.3 詞匯位置特征 212 8.3.4 詞匯標記特征 214 8.4 關鍵詞提取的有監督算法 214 8.5 關鍵詞提取的無監督算法 217 8.5.1 簡單指標設計 217 8.5.2 復合指標設計 217 8.6 基于圖模型的關鍵詞提取算法 218 8.6.1 圖模型靜態指標算法 220 8.6.2 圖模型動態指標算法 223 8.7 關鍵詞提取的技術優化 226 8.7.1 長文本問題優化 227 8.7.2 短文本問題優化 228 8.7.3 多主題特征優化 229 8.7.4 時序特征優化 232 8.7.5 歧義問題優化 233 8.8 關鍵短語提取 234 8.8.1 短語性指標 235 8.8.2 信息性指標 235 8.9 關鍵句提取 236 8.9.1 基于詞匯關鍵性的方法 236 8.9.2 基于句子特征的方法 237 8.9.3 基于圖模型的方法 238 8.10 本章小結 240 第9章 口碑分析 241 9.1 口碑分析的基本概念 242 9.2 口碑分析的應用場景 243 9.2.1 用戶視角的應用 243 9.2.2 網站運營者視角的應用 244 9.2.3 商家視角的應用 244 9.2.4 其他應用 245 9.3 基于詞典的評價對象提取 245 9.4 基于語料的評價對象提取 246 9.5 評價水平量化 252 9.5.1 整體粗粒度情感分析 253 9.5.2 整體細粒度情感分析 254 9.5.3 局部粗粒度情感分析 258 9.5.4 局部細粒度情感分析 259 9.6 基于語言模型的情感分析技術 259 9.6.1 最大熵LDA主題模型:模型性質 260 9.6.2 最大熵LDA主題模型:基本結構 260 9.6.3 最大熵LDA主題模型:參數估計 263 9.7 本章小結 265 第10章 社交網絡分析 266 10.1 社交網絡分析的基本概念 266 10.2 社交網絡分析的應用場景 269 10.2.1 虛擬社區發現 270 10.2.2 用戶影響力分析 271 10.2.3 情感分析 271 10.2.4 話題發現與演化 272 10.2.5 信息檢索 273 10.3 社交網絡的虛擬社區發現 274 10.3.1 社區發現的信息基礎 274 10.3.2 基于隱性位置的聚類模型 275 10.4 社交網絡的用戶影響力分析 276 10.4.1 網絡結構與用戶影響力 276 10.4.2 TwitterRank算法 277 10.5 社交網絡的情感分析 279 10.5.1 基于表情符號的訓練集合構建 279 10.5.2 基于POSTag的特征優化 280 10.6 社交網絡的話題發現與演化 282 10.6.1 話題發現分析 282 10.6.2 Twitter-LDA 284 10.6.3 基于文檔聚類的話題發現 284 10.6.4 基于詞匯聚類的話題發現 286 10.6.5 話題演化分析 287 10.6.6 基于NMF的主題建模 287 10.7 社交網絡的信息檢索 289 10.7.1 信息檢索的內容拓展策略 290 10.7.2 信息檢索的綜合排序策略 291 10.8 本章小結 293 第11章 深度學習與NLP 295 11.1 基本原理 296 11.2 詞嵌入模型 299 11.2.1 詞匯的分布式表示 299 11.2.2 神經概率語言模型 300 11.2.3 詞嵌入模型概述 301 11.3 RNN與NLP 304 11.3.1 RNN 304 11.3.2 基于RNN的機器翻譯 305 11.3.3 RNN的其他應用 308 11.4 本章小結 309 第12章 實證研究 311 12.1 研究框架 311 12.1.1 研究問題背景 311 12.1.2 問題分析 313 12.2 理論與模型 314 12.2.1 相關理論與假設 314 12.2.2 模型構建 317 12.3 文本數據處理 319 12.3.1 基于文本分析的口碑打分調整 319 12.3.2 基于文本分析的口碑權重計算 323 12.3.3 基于文本分析的候選集合構建 324 12.4 研究結論 326 12.4.1 實證結果 326 12.4.2 管理建議 328 12.5 本章小結 329 第13章 總結 330 本書介紹了互聯網環境下文本類型數據的分析方法,探討了當前主流的文本挖掘技術,以及這些技術在商業環境中的具體應用。本書從算法原理和應用場景兩方面分別對在線文本分析技術進行了介紹:從算法原理的角度,以數據挖掘和機器學習的相關知識為基礎,介紹了以文本建模、文本分類、文本聚類、序列標注為主要任務的文本分析方法,并對當前主流的深度學習方法與文本分析的結合進行了討論。從應用場景的角度,討論了文本分析技術的幾個重要實踐領域,包括信息檢索、內容摘要、口碑分析、社交網絡分析以及智能系統。
在大數據時代,數據的價值開始被推上各行各業的舞臺。人們更注重從海量的數據中挖掘感興趣的信息,以實現豐富的技術應用,進行科學的管理決策。在互聯網環境中,數據的分析與利用尤為重要,尤其是數值類型數據的分析和文本類型數據的分析。其中,文本類型數據的分析比一般數值類型數據的分析復雜,文本類型數據是大數據4V特征的具體體現,其相關技術也更具難度。盡管如此,文本類型數據在整個網絡中的信息占比仍十分龐大,且對用戶的各種在線交互、活動及購買行為也有著不容小覷的影響。因此,網絡中的文本類型數據具有十分重要的分析價值。本書將重點對當今文本類型數據的重要分析技術進行詳細、系統的介紹。
在應用方面,文本分析技術在大多數互聯網運營工作中具有重要的實踐意義。基于文本分析技術的應用包括管理類應用和技術類應用。在管理類應用中,文本分析可以有效提取用戶在線交互和在線行為的重要信息,幫助管理者更好地掌握用戶、產品、市場的信息,從而進行科學的建模與決策;在技術類應用中,文本分析可以充分從在線社區、平臺、數據庫大量的文本數據中提取、解析、創造用戶感興趣的信息與知識,為在線用戶提供內容服務。本書既介紹了與文本分析密切相關的理論、模型、方法,也介紹了文本分析在管理類應用與技術類應用等具體場景中的實現。 文本分析是一門綜合的學科,其核心技術是文本挖掘技術。文本挖掘技術與傳統的數據挖掘技術一脈相承,是數據挖掘在語言學領域中的應用。從事文本分析的數據分析者不僅需要掌握豐富的數據處理、建模及挖掘方法,還需要掌握語言學知識、社會學知識,也需要充分理解語言產生的背景、應用和使用語言信息的用戶對象。文本數據比一般的數值數據更容易體現人類的感情與行為,其相應的技術也具備更高的智能化程度,因此,在任何領域,掌握文本分析技術對數據分析者來說都是一個不小的挑戰。 近些年,隨著整個信息社會對文本數據重視程序的提升,以及計算機軟硬件技術的飛速發展,文本分析領域的研究成果形成井噴式爆發。由于篇幅所限,本書雖然無法全面講解文本分析的所有前沿技術,但是仍然盡可能地將所有經典的、有代表性的研究成果展現給大家,使從事文本分析的工作人員、科研人員及文本分析技術的愛好者能夠高效而系統地對整個文本分析領域有一定的了解。閱讀本書后,希望讀者能夠具備基于文本分析技術的能力,從而解決工作中的各種文本分析問題,并能深刻地認識到文本分析為互聯網領域及整個社會帶來的實踐價值。 本書特色 1. 內容豐富,系統全面,詳略得當 本書內容涵蓋了當前大部分主流的文本分析技術與方法,筆者按照自身的知識體系對其進行了細致的歸納與梳理,并由淺入深地向讀者進行了系統的介紹。本書內容詳略得當,突出了知識的重點、難點。書中內容依托于數據分析技術,但不拘泥于技術本身,在介紹相關技術理論時注重向讀者教授核心的方法及思維方式,幫助讀者掌握技術的核心理念,從而使讀者做到靈活應用、深入思考、舉一反三、即時實踐。 2. 行文通俗易懂,隨意而不失嚴謹,有利于讀者快速吸收理解 本書在介紹知識時,盡可能地用通俗易懂的語言對技術細節進行描述,而不是生硬地對學術文獻中的定義、規范和公式進行搬運。對于很多技術難點,筆者均賦予了自身的思考和感悟,并用生動而接地氣的語言進行了轉述。 本書中所有方法和理論都具有翔實可靠的學術依據,是科學而嚴謹的,所介紹的方法和技術也都得到了學術上的廣泛認可和接受。本書還在特定的位置附注了關鍵知識點的學術來源,以供感興趣的讀者進一步進行知識的補充、考證。 3. 圖文并茂,配備實例,有趣生動 本書雖是一本技術類書籍,但在排版風格上力爭做到圖文并茂,以增加讀者的閱讀興趣,提高讀者對于知識的理解效率。一圖勝千字,本書中很多文本分析中重要的技術流程采用了示意圖的表述方式,這可以有效地對知識點進行串聯與總結。 此外,對于很多分析方法,本書還介紹了其具體應用場景,以及具體技術實現。這樣,讀者不僅掌握了知識的核心理念,根據具體實例也知道了如何運用知識。本書在知識結構上,可大致分成基礎篇和應用篇,基礎篇重點講述理論方法,而應用篇偏向于知識在具體場景中的技術實現。本書在知識點設計方面更加生動靈活,有效地保證了文本分析技術的落地與推廣。 本書內容及體系結構 第1章 概述 本章詳細談論了大數據時代下互聯網公司的機會與挑戰,介紹了在線文本分析技術在網站運營中重要的戰略性地位。本章還基于大數據背景,從4V角度介紹了文本分析的主要技術特征。本章內容可以幫助讀者更好地了解在線文本分析總體的知識框架和體系。 第2章 預備知識 本章引入了與在線文本分析密切相關的理論知識。首先,介紹了文本挖掘的主要任務,并介紹了與其相關的一些重要理論知識,如文本語義分析與語法分析、文本的結構化分析與標準化分析。其次,介紹了機器學習的基本概念,闡述了機器學習與深度學習的關系。對于機器學習,本章涉及的技術要點主要包括概率圖模型、判別式模型、產生式模型、機器學習模型求解,以及模型過擬合。 第3章 文本建模 本章介紹了文本分析的基本任務—文本建模,即科學而有效地將非結構化的文本類型數據轉換為可以直接進行數據分析與挖掘的數值類型數據。本章介紹了文本建模的主要應用場景,并從語言學建模和統計學建模兩個主要方面對相關技術進行了詳細介紹。 第4章 文本分類 本章所討論的文本分類方法主要是對文檔對象進行分類。本章從文本分類的基本概念、應用場景及分類特征優化等方面對文本分類的技術進行了系統的介紹。本章介紹了三類重要的分類模型:樸素貝葉斯模型、向量空間模型、支持向量機模型。 第5章 文本聚類 本章介紹了對文檔對象進行聚類描述的主要技術方法,主要涵蓋了扁平式聚類和凝聚式聚類兩大基本問題解決思路。本章還介紹了如何對聚類結果進行分析,以及對聚類的特征進行優化等相關內容。對特殊文本對象的聚類技術的介紹也是本章的重點內容,具體包括半監督聚類、短文本聚類及流數據聚類。 第6章 序列標注 序列標注是特殊的分類問題,很多文本分析任務都需要抽象成序列標注問題進行解決。本章介紹了當前三類重要的序列標注基礎模型,即隱馬爾可夫模型、最大熵馬爾可夫模型及條件隨機場。本章還介紹了各模型的主要特征、優點和缺點,并提供了具體的應用范例。 第7章 信息檢索 本章介紹了如何根據用戶的特定信息需求,從在線環境中有效地提取重要的文本對象并進行反饋。除了介紹信息檢索的重要應用場景,本章還討論了三類主流的模型方案:基于空間模型的信息檢索、基于概率模型的信息檢索、基于語言模型的信息檢索。 第8章 文本摘要 本章介紹了如何基于已有文本內容對信息進行壓縮,并從中提取有價值的、關鍵的文本要素。文本摘要技術包括關鍵詞提取和關鍵句提取,前者是本章介紹的重點。本章還介紹了很多經典的對詞匯的關鍵詞進行量化評估的指標,同時介紹了當前主流的基于圖模型的關鍵詞提取算法。 第9章 口碑分析 本章介紹了如何從在線平臺的用戶評論文本數據中提取有價值的產品信息。一方面,本章討論了如何通過詞典或語料集合對在線評價對象進行提取;另一方面,本章介紹了如何在不同的粒度水平上挖掘用戶對于產品或服務的情感態度。 第10章 社交網絡分析 社交網絡是重要的互聯網應用場景。本章介紹了很多社交網絡上的文本分析任務及具體的技術方案,包括社交網絡的虛擬社區發現、用戶影響力分析、情感分析、話題發現與演化,以及信息檢索。本章還介紹了如何將社交網絡的多屬性特征和圖結構特征有機地結合到文本分析技術框架中。 第11章 深度學習與NLP 本章介紹了當前熱門的深度學習技術在文本分析中的應用。深度學習以神經網絡為基礎模型。本章分別介紹了基于多層感知器模型和循環神經網絡的深度學習文本分析技術。對于循環神經網絡,本章特別介紹了詞嵌入模型和機器翻譯技術。 第12章 實證研究 本章介紹了文本分析技術在互聯網領域中的管理類應用,講述了如何通過實證研究來挖掘在線平臺上的用戶行為,并結合研究結果有針對性地提供管理決策建議。本章還介紹了文本分析技術在互聯網醫療中的具體應用,以真實的場景、數據為依托,為從事互聯網運營相關工作的讀者提供了有價值的解決問題的思路。 第13章 總結 作為結束語,本章簡要回顧了全書的核心內容,并為文本分析領域的工作者提供了若干條有價值的實踐經驗。 本書讀者對象 ?從事數據分析、文本分析相關職業的技術人員、網絡運營人員; ?所學專業與計算機技術、互聯網技術、語言學相關的本科生及研究生; ?計算機科學、自然語言處理等領域的大學教師及科研工作者; ?其他對文本分析有興趣愛好的人員。 |