-- 會員 / 註冊 --
 帳號:
 密碼:
  | 註冊 | 忘記密碼
站長推薦
NT定價: 590
優惠價:75442
NT售價: 245
NT定價: 620
優惠價:75465
NT售價: 295
NT售價: 395

2/27(一)~2/28(二) 連假門市營業時間從下午2點到晚上8點
2/22 新書到! 2/2 新書到! 1/17 新書到! 1/12 新書到!
C.G.Next購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUGRevit
PhotoShopCorelDrawIllustratorAutoCadMasterCamSolidWorksCreo
CC++Java遊戲程式Linux嵌入式PLCFPGAMatlabNuke
駭客資料庫Oracle搜索引擎影像處理FluentSPSSANSYSUnity
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
C#HadoopPythonstm32手機程式CortexLabviewAndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

數據挖掘與機器學習——WEKA應用技術與實踐(第二版)

( 簡體 字)
作者:袁梅宇類別:1. -> 程式設計 -> 機器學習
譯者:
出版社:清華大學出版社數據挖掘與機器學習——WEKA應用技術與實踐(第二版) 3dWoo書號: 45078
詢問書籍請說出此書號!

有庫存
NT售價: 395

出版日:8/1/2016
頁數:536
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302444701
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
作者序:

譯者序:

前言:

再 版 前 言
  自本書第一版出版到現在已經過去近兩年。這段時間內,數據挖掘和機器學習領域快速發展,投入到相關領域研究的人員也越來越多,Weka愛好者隊伍也隨之逐年發展壯大,Weka學習討論群所討論內容的技術含量也日漸豐富。
  第二版的修訂工作以Weka 3.7.13版本為準,為此,全書重新截圖,按照Weka新版本重新修訂正文內容。此次再版修改了第一版中一些表述不清楚的陳述、前后不一致的術語,還新增了以下內容:第1章1.3節新增無法連接包管理器的解決辦法,第2章2.7節新增邊界可視化工具和代價/收益分析可視化及相關實驗內容,第4章4.2節新增拆分評估器可視化參數內容,新增完整的第9章機器學習實戰,豐富了Weka實踐內容。
  修訂后的第二版共分9章。第1章介紹Weka的歷史和功能、數據挖掘和機器學習的基本概念、Weka系統安裝,以及示例數據集;第2章介紹探索者(Explorer)界面的使用,主要內容包括圖形用戶界面、預處理、分類、聚類、關聯、選擇屬性,以及可視化;第3章介紹知識流(KnowledgeFlow)界面,主要內容有知識流介紹、知識流組件、使用知識流組件,以及實踐教程;第4章介紹實驗者(Experimenter)界面,主要內容有實驗者界面介紹、標準實驗、遠程實驗,以及實驗結果分析;第5章介紹命令行界面,主要內容有命令行界面介紹、Weka結構、命令行選項、過濾器和分類器選項,以及Weka包管理器;第6章介紹一些Weka的高級應用,主要介紹Weka的貝葉斯網絡、神經網絡、文本分類和時間序列分析及預測;第7章介紹Weka API,說明使用Java源代碼來實現常見數據挖掘任務的基礎知識,并給出一個展示如何進行數據挖掘的綜合示例;第8章通過對NaiveBayes學習方案的源代碼進行分析,深入研究Weka學習方案的工作原理,為開發人員提供實現學習算法的編碼基礎;第9章介紹如何使用Weka工具挖掘實際的大型數據集,以精選的兩個KDD競賽數據集為例,使讀者能夠快速進入實際的案例場景,應用所學數據挖掘知識來面對大數據的挖掘問題,考驗自己完成難度較大的挖掘項目的動手能力。
  第二版改動的內容較多,總體工作量很大,花費了很多時間。從醞釀第二版內容開始,至其殺青,歷時超過一年。作者的感覺是:比編寫第一版還要辛苦些。且不說Weka版本變動導致的修改,重新截圖、重新梳理文字、重新改寫API文檔等,費時費力。因時間變化引起的一個小小的技術變動,就讓人費力應對。例如,懷卡托大學后來不再提供包管理器元數據,導致第一版所述的解決辦法不再有效,只能重新尋找解決包管理器無法連接的替代方法。又如,新版本Weka的NaiveBayes源代碼有一些變動,作者不得不修訂第8章的內容以適應新的版本變化。再如,第一版提供的網絡鏈接有的已經不再有效,出版社編輯老師測試了所有的鏈接,保證了第二版提供的網絡鏈接的正確性。當然,由于世界變化太快,無法保證在一兩年后這些鏈接不會失效,這是無可奈何的事,作者只能保證書中敘述的方案在交稿時可行。
  最耗費心力的應該是第9章的編寫。早在第一版的寫作中,曾經就有編寫一個章節專門講述Weka綜合應用案例的設想,但苦于手上沒有合適的實驗對象。理想的應用案例必須滿足如下要求:第一,難度適中。不能太簡單,過于簡單的小兒科案例會違背編寫綜合應用的初衷;也不能太難,如果應用的技術方案太偏或難以理解,就達不到鍛煉讀者實際動手能力的意義。第二,領域不能太窄,應該讓絕大多數人都能理解。第三,運算量不能太大,應該滿足普通計算機能夠處理的要求。這就限制了目標數據集文件大小為數十兆字節至數吉字節范圍以內,實例總數在數十萬條至數千萬條之間,一臺計算機能夠在兩周左右運行完畢。作者花費了很長時間尋找滿足以上要求的案例,最后選中KDD Cup 1999和KDD Cup 2010競賽數據集,前者共有42個屬性,10%數據子集文件的大小為45MB,樣本數為494021,完整的數據集文件大小為743MB,樣本數為4898431;后者有兩個數據集,本書選中的是較大的數據集,共有21個屬性,訓練數據集文件大小為5.29GB,樣本數為20012498。認真的讀者會發現,完成這兩個案例的實驗將會很辛苦,花費的精力和時間會遠超預期。作者想象出這么一個畫面:讀者按照書中的實驗方法工作至深夜,硬盤燈不停閃爍,CPU利用率一直高居95%,讀者擔心心愛的計算機會突然崩潰但仍然堅持,直至最終勝利。作者預先恭喜那些能夠獨立完成實驗的讀者,因為你們有足夠的能力和毅力應付技術挑戰,勝任要求極高的挖掘工作。
  盡管在寫作中付出了很多艱辛的勞動,但限于作者有限的能力和精力,書中肯定還存在一些缺陷,甚至錯誤,敬請各位讀者批評指正。作者感謝修訂工作的貢獻者,昆明理工大學計算機系吳霖老師審閱了本書第9章內容,提出了很多建設性建議,感謝吳霖老師的貢獻。昆明理工大學2014級研究生衛明同學參與了第1章和第2章的修訂工作;光榮與夢想、弦月、Brady、海、__末瞳.夫、不說再見!等網友對第一版提出了寶貴的建議,作者在第二版中采納了這些建議,感謝這些朋友的貢獻。第9章參考了昆明理工大學2014屆計算機系吳澤琣P學本科畢業設計論文的部分內容,他是我指導過的最優秀的學生,感謝吳澤琣P學。感謝選擇本書為高校教學參考書的教師在使用過程中提出的反饋意見和建議,作者學習到一些很有價值的思考方式。再次感謝清華大學出版社的編輯老師在出版方面提出的建設性意見和給予的無私幫助,編輯老師一絲不茍的工作態度給我留下很深的印象。感謝購買本書的朋友,歡迎批評指正,你們的批評建議都會受到重視,并在再版中改進。希望第二版的發行能夠吸引更多的讀者和反饋建議。
  
  編 者
  

  
第一版前言
  當代中國掀起了一股學習數據挖掘和機器學習的熱潮,從斯坦福大學公開課"機器學習課程",到龍星計劃的"機器學習Machine Learning"課程,再到加州理工學院公開課"機器學習與數據挖掘"課程,參加這些網絡課程學習的人群日益壯大,數據挖掘和機器學習炙手可熱。
  數據挖掘是數據庫知識發現中的一個步驟,它從大量數據中自動提取出隱含的、過去未知的、有價值的潛在信息。機器學習主要設計和分析一些讓計算機可以自動"學習"的算法,這類算法可以從數據中自動分析獲得規律,并利用規律對未知數據進行預測。數據挖掘和機器學習這兩個領域聯系密切,數據挖掘利用機器學習提供的技術來分析海量數據,以發掘數據中隱含的有用信息。
  數據挖掘和機器學習這兩個密切相關的領域存在一個特點:理論很強而實踐很弱。眾所周知,理論和實踐是研究者的左腿和右腿,缺了一條腿的研究者肯定難以前行。有的技術人員花了若干年時間進行研究,雖然了解甚至熟悉了很多公式和算法,但仍然難以真正去面對一個實際挖掘問題并很好地解決手上的技術難題,其根本原因就是缺乏實踐。
  本書就是為了試圖解決數據挖掘和機器學習的實踐問題而編寫的。本書依托新西蘭懷卡托大學采用Java語言開發的著名開源軟件Weka,該系統自1993年開始由新西蘭政府資助,至今已經歷了20多年的發展,功能已經十分強大和成熟。Weka集合了大量的機器學習和相關技術,受領域發展和用戶需求所推動,代表了當今數據挖掘和機器學習領域的最高水平。因此,研究Weka能幫助研究者從實踐去驗證所學的理論,顯然有很好的理論意義及實踐意義。
  本書共分8章。第1章介紹Weka的歷史和功能、數據挖掘和機器學習的基本概念、Weka系統安裝,以及示例數據集;第2章介紹Explorer界面的使用,主要內容包括圖形用戶界面、預處理、分類、聚類、關聯、選擇屬性,以及可視化;第3章介紹KnowledgeFlow界面,主要內容有知識流介紹、知識流組件、使用知識流組件,以及實踐教程;第4章介紹Experimenter界面,主要內容有Experimenter界面介紹、標準實驗、遠程實驗,以及實驗結果分析;第5章介紹命令行界面,主要內容有命令行界面介紹、Weka結構、命令行選項、過濾器和分類器選項,以及Weka包管理器;第6章介紹一些Weka的高級應用,主要介紹Weka的貝葉斯網絡、神經網絡、文本分類和時間序列分析及預測;第7章介紹Weka API,說明使用Java源代碼來實現常見數據挖掘任務的基礎知識,并給出一個展示如何進行數據挖掘的綜合示例;第8章通過對一個學習方案的源代碼進行分析,深入研究Weka學習方案的工作原理,為開發人員提供編寫學習算法的技術基礎。
  在閱讀大量相關文獻的過程中,作者深深為國外前輩們的理論功底和實踐技能所折服,那些巨人們站在高處,使人難以望其項背。雖然得益于諸如網易公開課和龍星計劃等項目,我們有機會和全世界站在同一個數量級的知識起跑線上,但是,這并不意味著能在將來的競爭中占據優勢,正如孫中山先生所說"革命尚未成功,同志仍須努力",讓我們一起共勉。
  在本書的編寫過程中,作者力求精益求精,但限于作者的知識和能力,且很多材料都難以獲取,考證和去偽存真是一件時間開銷非常大和異常困難的工作,因此書中肯定會有遺漏及不妥之處,敬請廣大讀者批評指正。
  作者專門為本書設置讀者QQ群,歡迎讀者加群,下載和探討書中源代碼,抒寫讀書心得,進行技術交流等。
  本書承蒙很多朋友、同事的幫助才得以成文。特別感謝Weka開發組的全體人員,他們將自己20年心血匯聚的成果開源,對本領域貢獻巨大;衷心感謝清華大學出版社的編輯老師在內容組織、排版,以及出版方面提出的建設性意見和給予的無私幫助;感謝昆明理工大學提供的寬松的研究環境;感謝昆明理工大學計算機系教師繆祥華博士,他為本書的成文提出了很多建設性的建議,對本書的改進幫助甚大;感謝昆明理工大學計算機系海歸博士吳霖老師,他經常和作者一起討論機器學習的技術問題,為本書的編寫貢獻了很多智慧;感謝昆明理工大學現代教育中心的何佳老師,他完成了本書部分代碼的編寫和測試工作;感謝國內外的同行們,他們在網絡論壇和博客上發表了眾多卓有見識的文章,作者從中學習到很多知識,由于來源比較瑣碎,無法一一列舉,感謝他們對本書的貢獻;感謝理解和支持我的家人,他們是我寫作的堅強后盾。感謝購買本書的朋友,歡迎批評指正,你們的批評建議都會受到重視,并在再版中改進。
  
  編 者
  

內容簡介:

本書借助代表當今數據挖掘和機器學習最高水平的著名開源軟件Weka,通過大量的實踐操作,使讀者了解并掌握數據挖掘和機器學習的相關技能,拉近理論與實踐的距離。全書共分9章,主要內容包括Weka介紹、探索者界面、知識流界面、實驗者界面、命令行界面、Weka高級應用、Weka API、學習方案源代碼分析和機器學習實戰。
本書系統講解Weka 3.7.13的操作、理論和應用,內容全面、實例豐富、可操作性強,做到理論與實踐的統一。本書適合數據挖掘和機器學習相關人員作為技術參考書使用,也適合用作計算機專業高年級本科生和研究生的教材或教學參考用書。
目錄:

第1章Weka介紹 1

1.1Weka簡介 2

1.1.1Weka歷史 3

1.1.2Weka功能簡介 3

1.2基本概念 5

1.2.1數據挖掘和機器學習 5

1.2.2數據和數據集 5

1.2.3ARFF格式 6

1.2.4預處理 7

1.2.5分類與回歸 10

1.2.6聚類分析 12

1.2.7關聯分析 12

1.3Weka系統安裝 13

1.3.1系統要求 13

1.3.2安裝過程 14

1.3.3Weka使用初步 16

1.3.4系統運行注意事項 18

1.4訪問數據庫 24

1.4.1配置文件 25

1.4.2數據庫設置 26

1.4.3常見問題及解決辦法 27

1.5示例數據集 28

1.5.1天氣問題 29

1.5.2鳶尾花 30

1.5.3CPU 31

1.5.4玻璃數據集 32

1.5.5美國國會投票記錄 33

1.5.6乳腺癌數據集 33

課后強化練習 34

第2章探索者界面 35

2.1圖形用戶界面 36

2.1.1標簽頁簡介 36

2.1.2狀態欄 37

2.1.3圖像輸出 37

2.1.4手把手教你用 37

2.2預處理 40

2.2.1加載數據 40

2.2.2屬性處理 43

2.2.3過濾器 44

2.2.4過濾器算法介紹 46

2.2.5手把手教你用 52

2.3分類 59

2.3.1分類器選擇 59

2.3.2分類器訓練 61

2.3.3分類器輸出 62

2.3.4分類算法介紹 65

2.3.5分類模型評估 79

2.3.6手把手教你用 81

2.4聚類 98

2.4.1Cluster標簽頁的操作 98

2.4.2聚類算法介紹 99

2.4.3手把手教你用 101

2.5關聯 107

2.5.1Associate標簽頁的操作 107

2.5.2關聯算法介紹 108

2.5.3手把手教你用 111

2.6選擇屬性 117

2.6.1Selectattributes標簽頁的

操作 118

2.6.2選擇屬性算法介紹 119

2.6.3手把手教你用 120

2.7可視化 128

2.7.1Visualize標簽頁 128

2.7.2邊界可視化工具 131

2.7.3代價/收益分析可視化 133

2.7.4手把手教你用 134

課后強化練習 140

第3章知識流界面 143

3.1知識流介紹 144

3.1.1知識流特性 144

3.1.2知識流界面布局 145

3.2知識流組件 148

3.2.1數據源 148

3.2.2數據接收器 151

3.2.3評估器 155

3.2.4可視化器 156

3.2.5其他工具 158

3.3使用知識流組件 160

3.4手把手教你用 162

課后強化練習 181

第4章實驗者界面 183

4.1簡介 184

4.2標準實驗 185

4.2.1簡單實驗 185

4.2.2高級實驗 190

4.2.3手把手教你用 198

4.3遠程實驗 210

4.3.1遠程實驗設置 210

4.3.2手把手教你用 213

4.4分析結果 221

4.4.1獲取實驗結果 221

4.4.2動作 221

4.4.3配置測試 222

4.4.4保存結果 225

4.4.5手把手教你用 225

課后強化練習 229

第5章命令行界面 231

5.1命令行界面介紹 232

5.1.1命令調用 233

5.1.2命令自動完成 234

5.2Weka結構 235

5.2.1類實例和包 235

5.2.2weka.core包 236

5.2.3weka.classifiers包 237

5.2.4其他包 238

5.3命令行選項 238

5.3.1常規選項 239

5.3.2特定選項 241

5.4過濾器和分類器選項 242

5.4.1過濾器選項 242

5.4.2分類器選項 245

5.4.3手把手教你用 247

5.5包管理器 252

5.5.1命令行包管理器 252

5.5.2運行安裝的算法 254

課后強化練習 255

第6章Weka高級應用 257

6.1貝葉斯網絡 258

6.1.1簡介 258

6.1.2貝葉斯網絡編輯器 261

6.1.3在探索者界面中使用貝葉斯

網絡 269

6.1.4結構學習 270

6.1.5分布學習 272

6.1.6查看貝葉斯網絡 273

6.1.7手把手教你用 276

6.2神經網絡 286

6.2.1GUI使用 286

6.2.2手把手教你用 289

6.3文本分類 293

6.3.1 文本分類示例 294

6.3.2分類真實文本 298

6.3.3手把手教你用 300

6.4時間序列分析及預測 306

6.4.1使用時間序列環境 306

6.4.2手把手教你用 318

課后強化練習 326

第7章WekaAPI 327

7.1加載數據 328

7.1.1從文件加載數據 328

7.1.2從數據庫加載數據 329

7.1.3手把手教你用 330

7.2保存數據 335

7.2.1保存數據至文件 335

7.2.2保存數據至數據庫 335

7.2.3手把手教你用 336

7.3處理選項 339

7.3.1選項處理方法 339

7.3.2手把手教你用 340

7.4內存數據集處理 341

7.4.1在內存中創建數據集 341

7.4.2打亂數據順序 345

7.4.3手把手教你用 345

7.5過濾 349

7.5.1批量過濾 350

7.5.2即時過濾 351

7.5.3手把手教你用 351

7.6分類 355

7.6.1分類器構建 355

7.6.2分類器評估 356

7.6.3實例分類 358

7.6.4手把手教你用 359

7.7聚類 370

7.7.1聚類器構建 370

7.7.2聚類器評估 371

7.7.3實例聚類 373

7.7.4手把手教你用 373

7.8屬性選擇 379

7.8.1使用元分類器 380

7.8.2使用過濾器 380

7.8.3使用底層API 381

7.8.4手把手教你用 381

7.9可視化 384

7.9.1ROC曲線 385

7.9.2圖 385

7.9.3手把手教你用 386

7.10序列化 391

7.10.1序列化基本方法 391

7.10.2手把手教你用 392

7.11文本分類綜合示例 395

7.11.1程序運行準備 395

7.11.2源程序分析 396

7.11.3運行說明 403

課后強化練習 404

第8章學習方案源代碼分析 405

8.1NaiveBayes源代碼分析 406

8.2實現分類器的約定 427

課后強化練習 429

第9章機器學習實戰 431

9.1數據挖掘過程概述 432

9.1.1CRISP-DM過程 432

9.1.2數據預處理 433

9.1.3挖掘項目及工具概述 434

9.2實戰KDDCup1999 434

9.2.1任務描述 435

9.2.2數據集描述 436

9.2.3挖掘詳細過程 438

9.3實戰KDDCup2010 447

9.3.1任務描述 447

9.3.2數據集描述 447

9.3.3挖掘詳細過程 450

9.3.4更接近實際的挖掘過程 459

課后強化練習 471

附錄A中英文術語對照 472

附錄BWeka算法介紹 476

過濾器算法介紹 476

分類算法介紹 498

聚類算法介紹 526

關聯算法介紹 530

選擇屬性算法介紹 532

參考文獻 537

序: