-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python數據預處理技術與實踐

( 簡體 字)
作者:白寧超、唐聃、文俊類別:1. -> 程式設計 -> Python
譯者:
出版社:清華大學出版社Python數據預處理技術與實踐 3dWoo書號: 52050
詢問書籍請說出此書號!

有庫存
NT售價: 345

出版日:12/1/2019
頁數:256
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302539711
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

當前,大數據與人工智能技術炙手可熱,其對應的工作崗位也逐年增加,薪資也較為誘人。我們在做大數據與人工智能處理時,不可避免地會遇到數據的問題。現實中的數據是不完整的,比如存在缺失值、干擾值等臟數據,這樣就沒有辦法直接挖掘數據的價值,也不能將其直接應用于人工智能設備。為了提高數據的質量產生了數據預處理技術。數據預處理主要是指對原始數據進行文本抽取、數據清理、數據集成、數據變換、數據降維等處理,其目的是提高數據質量,以更好地提升算法模型的性能,其在數據挖掘、自然語言處理、機器學習、深度學習算法中應用廣泛。數據預處理是一項很龐雜的工程,當你面對一堆數據手足無措的時候,當你面對數據預處理背后的坑一籌莫展的時候,當你的算法性能遲遲不能提升的時候,本書可以幫助你解決以上問題。本書從什么是數據預處理及其相關基礎知識入手,分別介紹了網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等技術,并結合實際項目和案例幫助讀者將所學知識快速應用于工程實踐,相信會對數據預處理感興趣的讀者和大數據從業者有所幫助。
本書的主要內容
本書從邏輯上可分為三部分,共12章內容,各部分說明如下:
第一部分(第1~3章),主要介紹數據預處理的基礎知識,包括數據預處理的基本概念、工作流程、應用場景、開發環境、入門演練和Python科學計算工具包Numpy、SciPy、Pandas及其實際應用。如果讀者已具備一定的數據預處理基礎,可以跳過此部分,從第三章開始學習。
第二部分(第3~10章),是數據預處理的實戰進階部分,共計8章。第3章介紹數據采集與存儲,主要涉及數據類型和采集方式,其中著重介紹了爬蟲技術;第4章介紹不同格式的文本信息抽取和文件讀取;第5章介紹了高效讀取文件、正則清洗文本信息、網頁數據清洗和文本批量清洗工作;第6章介紹了中文分詞、封裝分詞工具包、NLTK詞頻處理、命名實體抽取和批量分詞處理工作;第7章介紹了特征向量化處理,其中涉及數據解析、缺失值處理、歸一化處理、特征詞文本向量化、詞頻-逆詞頻、詞集模型、詞袋模型和批量文本特征向量化工作;第8章介紹基于Gensim文本特征向量化,涉及構建語料詞典、詞頻統計、詞頻-逆詞頻計算、主題模型和特

征降維等。第9章介紹了主成分分析PCA降維技術的原理和實際案例;第10章介紹了Matplotlib數據可視化及案例。
第三部分(包括第11章和第12章),是數據預處理的實際應用部分,主要介紹競賽神器XGBoost的算法原理、應用、優化調參以及數據預處理在文本分類中的實際應用。
本書的主要特色
本書主要包括以下特色:
? 本書理論與應用相結合,循序漸進地介紹了數據預處理的相關概念、基礎知識、常用工具及應用案例,書中實戰案例均來自于筆者的實際項目,具有較強的實用性。
? 本書涵蓋了數據預處理實際開發中絕大部分重要的知識點,介紹了當今數據預處理涉及的各種技術和熱門工具,技術先進,內容詳盡,代碼可讀性及可操作性強。
? 本書針對每一個知識點,盡可能地通過示例來講解,每一個示例都給出了源碼和說明,這些源碼本身具備復用的價值,可以直接用于工程項目。另外,筆者還在GitHub上開辟了專門的討論區,便于讀者進行技術交流。
本書面向的讀者
本書主要面向以下讀者:
? 大數據技術從業者
? AI技術開發人員
? 準備上手數據采集、數據挖掘與數據分析的初學者
? 大數據及相關專業的學生
? 培訓機構的學員
源碼下載和說明
本書的源碼支持GitHub下載,下載地址:
https://github.com/bainingchao/PyDataPreprocessing
關于源碼的說明:
? PyDataPreprocessing:本書源代碼的根目標。
? Chapter+數字:分別代表對應章節的源碼。
? Corpus:本書所有的訓練語料。
? Files:所有文件文檔。
? Packages:本書所需要下載的工具包。
本書作者介紹
本書主要由白寧超、唐聃、文俊編寫,參與編寫的還有田霖、黃河、于小明。
? 白寧超 大數據工程師,現任職于四川省計算機研究院,研究方向包括數據分析、自然語言處理和深度學習。近3年,主持和參與國家自然基金項目和四川省科技支撐計劃項目多項,出版專著一部。
? 唐 聃 教授,碩士生導師,成都信息工程大學軟件工程學院院長,四川省學術和技術帶頭人后備人選。研究方向包括編碼理論與人工智能,《自然語言處理理論與實戰》作者。
? 文 俊 碩士,大數據算法工程師,現任職于成都廣播電視臺橙視傳媒大數據中心。曾以技術總監身份主持研發多個商業項目,負責公司核心算法模型構建。主要研究方向包括數據挖掘、自然語言處理、深度學習以及云計算。
? 田 霖 成都東軟學院計算機科學與工程系教師,研究方向包括數據挖掘和強化學習,曾參與四川省智慧環保、四川省涉稅信息等多個省級項目。
? 黃 河 博士,重慶大學語言認知及語言應用研究基地研究員,研究方向為計算語言學、語料庫處理技術、深度學習和數據挖掘。
? 于小明 講師,主治醫生,現任職于河南省中醫院(河南中醫藥大學第二附屬醫院),主要從事醫療領域大數據分析,臨床泌尿外科小領域本體構建等方面的研究工作。
在本書編寫過程中,參考了很多相關資料,在此對他們的貢獻表示感謝,雖筆者已盡心竭力,但限于水平和時間倉促,書中難免存在錯漏,歡迎讀者批評指正。
作者
2019年5月
內容簡介:

本書基礎理論和工程應用相結合,循序漸進地介紹了數據預處理的基本概念、基礎知識、工具應用和相關案例,包括網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識,書中針對每個知識點,都給出了豐富的教學實例和實現代碼,最后,通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的應用。
本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具應用,示例代碼很豐富,適合于大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。
目錄:

第1章概述 1
1.1Python數據預處理 1
1.1.1什么是數據預處理 1
1.1.2為什么要做數據預處理 2
1.1.3數據預處理的工作流程 2
1.1.4數據預處理的應用場景 3
1.2開發工具與環境 3
1.2.1Anaconda介紹與安裝 3
1.2.2SublimeText 7
1.3實戰案例:第一個中文分詞程序 12
1.3.1中文分詞 12
1.3.2實例介紹 14
1.3.3結巴實現中文分詞 14
1.4本章小結 15
第2章Python科學計算工具 16
2.1NumPy 16
2.1.1NumPy的安裝和特點 16
2.1.2NumPy數組 18
2.1.3Numpy的數學函數 20
2.1.4NumPy線性代數運算 22
2.1.5NumPyIO操作 22
2.2SciPy 23
2.2.1SciPy的安裝和特點 23
2.2.2SciPyLinalg 25
2.2.3SciPy文件操作 27
2.2.4SciPy插值 28
2.2.5SciPyNdimage 30
2.2.6SciPy優化算法 33
2.3Pandas 35
2.3.1Pandas的安裝和特點 36
2.3.2Pandas的數據結構 36
2.3.3Pandas的數據統計 39
2.3.4Pandas處理丟失值 41
2.3.5Pandas處理稀疏數據 45
2.3.6Pandas的文件操作 46
2.3.7Pandas可視化 48
2.4本章小結 54
第3章數據采集與存儲 55
3.1數據與數據采集 55
3.2數據類型與采集方法 56
3.2.1結構化數據 56
3.2.2半結構化數據 56
3.2.3非結構化數據 57
3.3網絡爬蟲技術 57
3.3.1前置條件 58
3.3.2Scrapy技術原理 58
3.3.3Scrapy新建爬蟲項目 59
3.3.4爬取網站內容 61
3.4爬取數據以JSON格式進行存儲 69
3.5爬取數據的MySQL存儲 71
3.5.1MySQL與Navicat部署 71
3.5.2MySQL存儲爬蟲數據 72
3.6網絡爬蟲技術擴展 75
3.7本章小結 76
第4章文本信息抽取 77
4.1文本抽取概述 77
4.2文本抽取問題 78
4.3Pywin32抽取文本信息 79
4.3.1Pywin32介紹 79
4.3.2抽取Word文檔文本信息 80
4.3.3抽取PDF文檔文本信息 83
4.3.4打造靈活的文本抽取工具 84
4.4文本批量編碼 86
4.5實戰案例:遍歷文件批量抽取新聞文本內容 86
4.5.1遞歸讀取文件 87
4.5.2遍歷抽取新聞文本 88
4.6本章小結 91
第5章文本數據清洗 92
5.1新聞語料的準備 92
5.2高效讀取文件 93
5.2.1遞歸遍歷讀取新聞 94
5.2.2yield生成器 95
5.2.3高效遍歷讀取新聞 97
5.3通過正則表達式來清洗文本數據 98
5.3.1正則表達式 98
5.3.2清洗文本數據 100
5.4清洗HTML網頁數據 102
5.5簡繁字體轉換 104
5.6實戰案例:批量新聞文本數據清洗 106
5.6.1高效讀取文件內容 106
5.6.2抽樣處理文件 107
5.6.3通過正則表達式批量清洗文件 108
5.7本章小結 109
第6章中文分詞技術 110
6.1中文分詞簡介 110
6.1.1中文分詞概述 110
6.1.2常見中文分詞方法 111
6.2結巴分詞精講 112
6.2.1結巴分詞的特點 112
6.2.2結巴分詞的安裝 112
6.2.3結巴分詞核心方法 112
6.2.4結巴中文分詞的基本操作 113
6.2.5自定義分詞詞典 114
6.2.6關鍵詞提取 115
6.2.7詞性標注 116
6.3HanLP分詞精講 117
6.3.1JPype1的安裝 117
6.3.2調用HanLP的Java包 117
6.3.3HanLP分詞 118
6.3.4HanLP實現自定義分詞 120
6.3.5命名實體識別與詞性標注 120
6.3.6HanLP實現關鍵詞抽取 121
6.3.7HanLP實現自動摘要 121
6.4自定義去除停用詞 122
6.4.1以正則表達式對文本信息進行清洗 122
6.4.2結巴中文分詞詞性解讀 124
6.4.3根據詞性規則構建自定義停用詞 126
6.5詞頻統計 126
6.5.1NLTK介紹與安裝 126
6.5.2統計新聞文本詞頻 128
6.5.3統計特定詞頻和次數 129
6.5.4特征詞的頻率分布表 129
6.5.5頻率分布圖與頻率累計分布圖 130
6.5.6基于Counter的詞頻統計 131
6.6自定義去高低詞頻 132
6.7自定義規則提取特征詞 133
6.8實戰案例:新聞文本分詞處理 134
6.9本章小結 135
第7章文本特征向量化 136
7.1解析數據文件 136
7.2處理缺失值 138
7.2.1什么是數據缺失值 138
7.2.2均值法處理數據缺失值 139
7.2.3Pandas處理缺失值 141
7.3數據的歸一化處理 143
7.3.1不均衡數據分析 143
7.3.2歸一化的原理 144
7.3.3歸一化的優點 145
7.4特征詞轉文本向量 146
7.5詞頻-逆詞頻(TF-IDF) 147
7.6詞集模型與詞袋模型 148
7.7實戰案例:新聞文本特征向量化 153
7.8本章小結 154
第8章Gensim文本向量化 155
8.1Gensim的特性和核心概念 155
8.2Gensim構建語料詞典 156
8.3Gensim統計詞頻特征 158
8.4Gensim計算TF-IDF 158
8.5Gensim實現主題模型 160
8.5.1主題模型 160
8.5.2潛在語義分析(LSA) 161
8.5.3隱含狄利克雷分布(LDA) 164
8.5.4LDA的模型實現 166
8.5.5隨機映射(RP) 167
8.6實戰案例:Gensim實現新聞文本特征向量化 169
8.6.1參數設置 169
8.6.2生成詞典模型 170
8.6.3生成TF-IDF模型 172
8.7本章小結 173
第9章PCA降維技術 174
9.1什么是降維 174
9.2PCA概述 175
9.3PCA應用場景 177
9.4PCA的算法實現 178
9.4.1準備數據 178
9.4.2PCA數據降維 179
9.4.3高維向低維數據映射 181
9.5實戰案例:PCA技術實現新聞文本特征降維 182
9.5.1加載新聞數據 182
9.5.2前N個主成分特征 184
9.5.3PCA新聞特征降維可視化 186
9.6本章小結 187
第10章數據可視化 188
10.1Matplotlib概述 188
10.1.1認識Matplotlib 188
10.1.2Matplotlib的架構 190
10.2Matplotlib繪制折線圖 193
10.2.1折線圖的應用場景 193
10.2.2折線圖的繪制示例 193
10.3Matplotlib繪制散點圖 195
10.3.1散點圖的應用場景 195
10.3.2散點圖的繪制示例 195
10.4Matplotlib繪制直方圖 197
10.4.1直方圖的應用場景 197
10.4.2直方圖的繪制示例 197
10.5練習:Matplotlib繪制氣溫圖 198
10.6練習:Matplotlib繪制三維圖 200
10.6.1練習1:繪制三維梯度下降圖 200
10.6.2練習2:繪制三維散點圖 201
10.7本章小結 203
第11章競賽神器XGBoost 204
11.1XGBoost概述 204
11.1.1認識XGBoost 204
11.1.2XGBoost的應用場景 205
11.2XGBoost的優點 206
11.3使用XGBoost預測毒蘑菇 206
11.3.1XGBoost的開發環境及安裝 206
11.3.2數據準備 207
11.3.3參數設置 207
11.3.4模型訓練 208
11.3.5可視化特征排名 210
11.4XGBoost優化調參 210
11.4.1參數解讀 211
11.4.2調參原則 214
11.4.3調參技巧 215
11.5預測糖尿病患者 215
11.5.1數據準備 215
11.5.2預測器模型構建 216
11.5.3調參提高預測器的性能 220
11.6本章小結 228
第12章XGBoost實現新聞文本分類 229
12.1文本分類概述 229
12.2文本分類的原理 230
12.2.1文本分類的數學描述 230
12.2.2文本分類的形式化描述 231
12.3分類模型評估 231
12.4數據預處理 233
12.4.1通用的類庫 234
12.4.2階段1:生成詞典 236
12.4.3階段2:詞典向量化TF-IDF 238
12.4.4階段3:生成主題模型 240
12.5XGBoost分類器 243
12.6新聞文本分類應用 248
12.7本章小結 251
參考文獻 252
序: