-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

文本挖掘:基于R語言的整潔工具

( 簡體 字)
作者:Julia Silge David Robinson 著類別:1. -> 程式設計 -> R語言
譯者:
出版社:機械工業出版社文本挖掘:基于R語言的整潔工具 3dWoo書號: 48735
詢問書籍請說出此書號!

缺書
NT售價: 295

出版日:3/1/2018
頁數:157
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111588559
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

當前很多數據都是非結構化的大規模文本,這給分析和可視化這類數據帶來了挑戰。本書使用tidytext軟件包來介紹文本挖掘技術,有很強的實用性。tidytext是一個由Julia Silge和David Robinson開發的R軟件包(類似于ggplot2和dplyr軟件包),開發時采用了整潔原則。本書將會讓你了解如何利用tidytext以及其他整潔工具來讓文本分析變得更容易、更有效。



本書將展示如何將文本轉換為數據框,然后提取和可視化文本的特征;還會介紹如何將自然語言處理(NLP)融合到有效的工作流程中;實用的代碼示例和數據分析將幫助你了解文學作品、新聞和社交媒體中的有用信息。



 了解如何將tidytext格式應用于NLP

 用情感分析方法來挖掘文本中的情感內容

 以詞頻作為衡量標準來確定文檔中最重要的詞項

 使用ggrapgh和widyr軟件包來分析單詞之間的關系

 在R的整潔格式和不整潔文本格式之間互相轉換

 使用主題建模對文檔集合進行分類

 案例研究:Twitter歸檔文件比較、挖掘NASA元數據、分析數千個Usenet消息
目錄:

第1章 整潔文本格式 7
比較整潔文本結構與其他數據結構 8
unnest_tokens函數 8
整理Jane Austen的作品 10
gutenbergr包 13
詞頻 13
總結 17
第2章 基于整潔數據的情感分析 18
情感數據集 18
內連接的情感分析 21
比較三個情感詞典 24
最常見的正面單詞和負面單詞 26
Wordclouds模塊 28
除單詞外的其他文本單元 30
總結 32
第3章 分析詞和文件頻率:tf-idf 33
Jane Austen小說中的詞項頻率 34
Zipf定律 35
bind_tf_idf函數 38
物理學語料庫 41
總結 45
第4章 詞之間的關系:n-gram及相關性 46
n-gram詞條化 46
用widyr包對單詞對計數并計算相關性 60
總結 66
第5章 非整潔格式轉換 67
使文檔–詞項矩陣整潔 67
將整潔文本數據轉換為矩陣 74
總結 84
第6章 主題建模 85
LDA 86
示例:博大的圖書館館藏 91
LDA方法的替代實現 101
總結 102
第7章 案例研究:Twitter歸檔文件比較 103
單詞使用情況的比較 107
單詞使用情況的變化 109
收藏和轉發 113
總結 117
第8章 案例研究:NASA元數據挖掘 118
NASA如何組織數據 118
共現單詞與相關單詞 123
計算描述字段的tf-idf 129
總結 142
第9章 案例研究:分析Usenet文本 143
預處理 143
新聞組中的單詞 146
情感分析 151
總結 159
參考文獻 160
序: