文本挖掘:基于R語言的整潔工具 ( 簡體 字) |
作者:Julia Silge David Robinson 著 | 類別:1. -> 程式設計 -> R語言 |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 48735 詢問書籍請說出此書號!【缺書】 NT售價: 295 元 |
出版日:3/1/2018 |
頁數:157 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111588559 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:當前很多數據都是非結構化的大規模文本,這給分析和可視化這類數據帶來了挑戰。本書使用tidytext軟件包來介紹文本挖掘技術,有很強的實用性。tidytext是一個由Julia Silge和David Robinson開發的R軟件包(類似于ggplot2和dplyr軟件包),開發時采用了整潔原則。本書將會讓你了解如何利用tidytext以及其他整潔工具來讓文本分析變得更容易、更有效。
本書將展示如何將文本轉換為數據框,然后提取和可視化文本的特征;還會介紹如何將自然語言處理(NLP)融合到有效的工作流程中;實用的代碼示例和數據分析將幫助你了解文學作品、新聞和社交媒體中的有用信息。
了解如何將tidytext格式應用于NLP
用情感分析方法來挖掘文本中的情感內容
以詞頻作為衡量標準來確定文檔中最重要的詞項
使用ggrapgh和widyr軟件包來分析單詞之間的關系
在R的整潔格式和不整潔文本格式之間互相轉換
使用主題建模對文檔集合進行分類
案例研究:Twitter歸檔文件比較、挖掘NASA元數據、分析數千個Usenet消息 |
目錄:第1章 整潔文本格式 7 比較整潔文本結構與其他數據結構 8 unnest_tokens函數 8 整理Jane Austen的作品 10 gutenbergr包 13 詞頻 13 總結 17 第2章 基于整潔數據的情感分析 18 情感數據集 18 內連接的情感分析 21 比較三個情感詞典 24 最常見的正面單詞和負面單詞 26 Wordclouds模塊 28 除單詞外的其他文本單元 30 總結 32 第3章 分析詞和文件頻率:tf-idf 33 Jane Austen小說中的詞項頻率 34 Zipf定律 35 bind_tf_idf函數 38 物理學語料庫 41 總結 45 第4章 詞之間的關系:n-gram及相關性 46 n-gram詞條化 46 用widyr包對單詞對計數并計算相關性 60 總結 66 第5章 非整潔格式轉換 67 使文檔–詞項矩陣整潔 67 將整潔文本數據轉換為矩陣 74 總結 84 第6章 主題建模 85 LDA 86 示例:博大的圖書館館藏 91 LDA方法的替代實現 101 總結 102 第7章 案例研究:Twitter歸檔文件比較 103 單詞使用情況的比較 107 單詞使用情況的變化 109 收藏和轉發 113 總結 117 第8章 案例研究:NASA元數據挖掘 118 NASA如何組織數據 118 共現單詞與相關單詞 123 計算描述字段的tf-idf 129 總結 142 第9章 案例研究:分析Usenet文本 143 預處理 143 新聞組中的單詞 146 情感分析 151 總結 159 參考文獻 160 |
序: |