數據挖掘：實用機器學習工具與技術（原書第4版） @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

數據挖掘：實用機器學習工具與技術（原書第4版）
( 簡體字)

作者：〔新西蘭〕　伊恩 H. 威騰（Ian H. Witten）埃貝·弗蘭克（Eibe Frank）馬克 A. 霍爾（Mark A. Hall）類別：1. -> 程式設計 -> 數據挖掘

譯者：

出版社：機械工業出版社 3dWoo書號： 48583
詢問書籍請說出此書號！
【缺書】
NT售價： 495 元

出版日：3/1/2018

頁數：412

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787111589167

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
計算和通信的結合建立了一個以信息為基礎的新領域。但絕大多數信息尚處于原始狀態，即以數據形式存在的狀態。假如我們將數據定義為被記錄下來的事實，那么“信息”就是隱藏于這些記錄事實的數據中的一系列模式或預期。在數據庫中蘊藏了大量具有潛在重要性的信息，這些信息尚未被發現和利用，我們的任務就是將這些信息釋放出來。

數據挖掘是將隱含的、尚不為人知的同時又是潛在有用的信息從數據中提取出來。為此我們編寫計算機程序，自動在數據庫中篩選有用的規律或模式。如果能發現一些明顯的模式，則可以將其歸納出來，以對未來的數據進行準確預測。當然，數據挖掘結果中肯定會出現一些問題，比如許多模式可能是價值不大的或者沒有實際意義的，還有一些可能是虛假的，或者是由于某些具體數據集的巧合而產生的。在現實世界中，數據是不完美的：有些被人為篡改，有些會丟失。我們觀察到的所有東西都不是完全精確的：任何規律都有例外，并且總會出現不符合任何一個規律的實例。算法必須具有足夠的健壯性以應付不完美的數據，并能提取出不精確但有用的規律。

機器學習為數據挖掘提供了技術基礎，能夠將信息從數據庫的原始數據中提取出來，以可以理解的形式表達，并可用于多種用途。這是一種抽象化過程：如實地全盤接收現有數據，然后在此基礎上推導出所有隱藏在這些數據中的結構。本書將介紹在數據挖掘實踐中為了發現和描述數據中的結構模式而采用的機器學習工具與技術。

就像所有新興技術都會受到商界的強烈關注一樣，關于數據挖掘應用的報道可謂是鋪天蓋地。夸張的報道宣稱通過設立學習算法就能從浩瀚的數據汪洋中發現那些神秘的規律，其實機器學習絕沒有什么魔法，也沒有什么隱藏的力量，更沒有什么巫術，有的只是一些能將有用信息從原始數據中提取出來的簡單和實用的技術。本書將介紹這些技術，并展示它們是如何工作的。

在許多應用中，機器學習使得從數據樣本中獲取結構描述成為可能。這種結構描述可用于預測、解釋和理解。有些數據挖掘應用側重于預測，即從數據所描述的過去預測將來在新情況下會發生什么，通常是預測新的樣本分類。但也許人們更感興趣的是，“學習”的結果是一個可以用來對樣本進行分類的真實結構描述。這種結構描述不僅支持預測，也支持解釋和理解。根據經驗，在絕大多數數據挖掘實踐應用中，用戶感興趣的莫過于掌握樣本的本質。事實上，這是機器學習優于傳統統計模型的一個主要優點。

本書詮釋了多種多樣的機器學習方法。其中部分出于方便教學的目的而僅僅羅列了一些簡單方案，以清楚解釋基本思想如何實現。其他則更多考慮到具體實現而列舉了很多應用于實際工作中的真實系統。在這些方法中，有很多都是近幾年發展起來的。

我們創建了一套綜合軟件以說明書中的思想。軟件名稱是懷卡托智能分析環境（Waikato

Environment for Knowledge Analysis），簡稱Weka，Weka幾乎可以完整地、產業化地實現本書中所包含的所有技術。它包括了機器學習方法的說明性代碼以及具體實現。針對一些簡單技術，它提供了清楚而簡潔的實例，以幫助理解機器學習中的相關機理。Weka還提供了一個工作平臺，完整、實用、高水準地實現了很多流行的學習方案，這些方案能夠運用于實際的數據挖掘項目或學術研究。最后，它還包括了一個形如Java類庫的框架，這個框架支持嵌入式機器學習的應用乃至新學習方案的實現。

本書旨在介紹用于數據挖掘領域的機器學習工具和技術。讀完本書后，你將對這些技術有所了解，并能體會到它們的功效和實用價值。如果你希望用自己的數據進行實驗，用Weka就能輕松做到。但Weka絕不是唯一的選擇，例如，免費統計計算環境R就包含許多機器學習算法。Python編程語言的愛好者可能更喜歡流行的scikit-learn庫。用于分布式計算的現代“大數據”框架也支持機器學習，如Apache Spark。在實際應用中，部署機器學習的選擇有很多。本書僅討論基本的學習算法，沒有深入研究特定軟件的實現細節，但會在恰當的位置指出所討論的算法可以在Weka軟件的什么位置找到。本書還簡要介紹了其他機器學習軟件，如用于高維數據的“深度學習”。不過，大多數具體軟件的信息被歸納到了附錄中。

提供數據挖掘案例研究的商業書籍中往往涉及一些非常實用的方法，這些方法與當前機器學習教材中出現的更理論化、更原則化的方法之間存在鴻溝，本書跨越了這個鴻溝。這個鴻溝相當大，為了讓機器學習技術應用得到成果，需要理解它們是如何工作的。這不是一種可以盲目應用而后便期待好結果出現的技術。不同的問題需要用不同的技術解決，但是根據實際問題來選擇合適的技術并非易事，你需要知道到底有多少種可能的解決方案。本書所論及的技術范圍相當廣泛，并不囿于某種特定的商業軟件或方案。書中給出了大量實例，但是展示實例所采用的數據集卻小得足以讓你搞清楚實例的整個過程。真實的數據集太大，不能做到這一點（而且真實數據集的獲取常受限于商業機密）。本書所選擇的數據集并非用來說明那些大型數據中的實際問題，而是要幫助你理解不同技術的作用、它們是如何工作的以及它們的應用范圍是什么。

本書面向對實際數據挖掘技術所包含的原理和方法感興趣的“技術敏感型”普通讀者；本書同樣適用于需要獲得這方面新技術的信息專家，以及所有希望了解機器學習領域技術細節的人；本書也是為有著一般興趣的信息系統實際工作者所寫的，例如程序員、咨詢顧問、開發人員、信息技術管理員、規范編寫者、專利審核者、業余愛好者以及學生和教授。他們需要這樣一本書：擁有大量實例且簡單易讀，向讀者闡釋機器學習相關的主要技術是什么、它們做什么、如何運用它們以及它們是如何工作的。本書面向實際，傾向于告訴讀者“如何去做”，同時包括許多算法和偽代碼。所有在實際工作中進行數據挖掘的讀者將直接得益于書中敘述的技術。本書旨在幫助那些希望找到隱藏在天花亂墜廣告宣傳下的機器學習真諦的人們，以及幫助那些需要實際可行的、非學術的、值得信賴的方案的人們。對于本書的大部分內容，我們避免對特定的理論或數學知識做要求。然而，隨著其逐漸成熟，我們認識到這門學科的復雜性，所以我們在第9章和第10章給出了實質性的理論材料，它們是全面理解最近的實踐技術尤其是深度學習所必需的。

本書分為幾個層次，不管你是想走馬觀花地瀏覽一下基本概念，還是想深入詳盡地掌握所有技術細節，閱讀本書都可以滿足你的要求。我們相信機器學習的使用者需要更多地了解他們運用的算法如何工作。人們常常發現，優秀的數據模型是與它的詮釋者分不開的——詮釋者需要知道模型是如何產生的，并且熟悉模型的長處和局限性。當然，并不要求所有的用戶都對算法的細節有深入理解。

根據上述考量，我們將對機器學習方法的描述分為幾個彼此承接的層次。本書共分為兩部分，第一部分是關于數據挖掘中機器學習的簡單介紹，讀者將首先在前三章學習機器學習的基本思想。第1章通過實例說明機器學習是什么以及能用在什么地方，并給出了一些現實中的實際應用。第2章和第3章給出了不同的輸入和輸出，或者稱之為知識表達（knowledge representation），不同的輸出要用到不同的算法。第4章介紹機器學習的基本方法，這些方法都以簡化形式出現，便于讀者理解。其中的相關原理通過各種具體算法來呈現，但并未包含復雜細節和精妙的實現方案。為了從機器學習技術的應用升級到解決具體的數據挖掘問題，必須對機器學習的效果進行評估。第5章可以單獨閱讀，它能幫助讀者評估從機器學習中得到的結果，解決性能評估中出現的某些復雜問題。

第二部分介紹數據挖掘中機器學習的一些高級技術。在最底層和最詳細的層次上，第6章和第7章詳盡地揭示了實現一系列機器學習算法的步驟，以及在實際應用中為了更好地完成數據挖掘任務所必需的、較為復雜的部分（但忽略了某些算法對復雜數學原理的要求）。一些讀者也許想忽略這部分的具體內容，但只有到這一層，我們才涉及完整且可運作的機器學習的Weka實現方案。第8章討論了一些涉及機器學習輸入和輸出的實際問題，例如選擇屬性和離散化屬性。第9章和第10章分別為機器學習和深度學習提供了對概率方法的嚴謹描述。第11章除了介紹有監督學習和無監督學習外，還介紹了半監督學習和多實例學習，而第12章主要介紹集成學習技術，這種技術綜合了不同學習技術的輸出。第13章展望未來的發展趨勢。

本書描述了在實際機器學習中所使用的大多數方法，但是沒有涉及強化學習（reinforcement learning），因為它僅僅是一種優化技術，在實際的數據挖掘中極少應用；也沒有包括遺傳算法（genetic algorithm）、關系學習（relational learning）和歸納邏輯程序設計（inductive logic programming），因為它們很少被主流數據挖掘應用采納。

附錄A介紹了在第9章和第10章需要用到的一些數學知識。附錄B介紹了Weka數據挖掘工作平臺，該平臺給出了第一、二部分中所描述的大部分思想的實現。之所以這樣安排，是為了清晰地將概念與實踐層面區分開。在第一、二部分，每章的末尾都給出了相關的Weka算法。你可以忽略它們或瀏覽閱讀，或者當你急于繼續分析數據而不想被算法是如何工作的技術細節所打擾時，選擇直接開始Weka實踐。

更新與修改

我們于1999年完成本書的第1版，分別于2005年和2011年完成第2版和第3版。經過精心修改、潤色的第4版于2016年同讀者見面。這個世界在過去20年間可謂滄海桑田！在保留前版基本核心內容的同時，我們增加了很多新內容，力圖使本書與時俱進。當然，我們也對第3版中出現的錯誤進行了校正，并將這些錯誤集中放到公開的勘誤文件里。
第2版

本書第2版最主要的改變是增加了專門的篇章來介紹Weka機器學習工作平臺。這樣做可以將書中的主要部分獨立于工作平臺呈現給讀者。在第1版中廣泛使用和普及的Weka工作平臺在第2版中已經改頭換面，增加了新的圖形用戶界面或者說是三個獨立的交互界面，這使得讀者用起來更加得心應手。其中最基本的界面是Explorer界面，通過這個界面，所有Weka功能都可以通過菜單選擇和表單填寫的方式完成。另一個界面是Knowledge Flow界面，它允許對流數據處理過程進行設置。第三個界面是Experimenter界面，你可以使用它對語料庫進行設置，使其自動運行已選定的機器學習算法，這些算法都帶有不同的參數，Experimenter界面可以收集性能統計數據，并在所得實驗結果的基礎上進行有意義的測試。這些界面可以降低數據挖掘者的門檻。第2版中包括一套如何使用它們的完整介紹。

此外，第2版還包括一些我們前面曾大致提及的新內容。我們對介紹規則學習和成本敏感評估的章節進行了擴充。為了滿足普遍需求，我們增加了一些神經網絡方面的內容：感知器和相關的Winnow算法、多層感知器和BP算法，以及logistic回歸。我們介紹了如何利用核感知器和徑向基函數網絡來得到非線性決策邊界，以及用于回歸分析的支持向量機。另外，應讀者的要求并考慮到Weka新特性的更新，我們還加入了有關貝葉斯網絡的新章節，其中介紹了如何基于這些網絡來學習分類器以及如何利用AD樹來高效地應用這些分類器。

在過去的五年（1999～2004）中，文本數據挖掘受到了極大的關注，這樣的趨勢反映在以下方面：字符串屬性在Weka中的出現、用于文本分類的多項式貝葉斯以及文本變換。我們還介紹了用于搜尋實例空間的高效數據結構：為高效尋找最近鄰以及加快基于距離的聚類而采用的kD樹和球形樹。我們給出新的屬性選擇方案（如競賽搜索和支持向量機的使用），以及新型組合模型技術（如累加回歸、累加logistic回歸、logistic模型樹以及選擇樹等），還討論了利用無標簽數據提高分類效果的最新進展，包括協同訓練（cotraining）和co-EM方法。

第3版

第3版在第2版的基礎上進行了徹底革新，大量新方法、新算法的引入使得本書在內容上與時俱進。我們的基本理念是將本書和Weka軟件平臺更緊密地融合。這一版中Weka的版本已經涵蓋本書絕大多數思想的實現。同時，你也能通過本書獲取關于Weka的幾乎所有信息。在第3版中，我們還添加了大量參考文獻——引用數量是第1版的3倍之多。

Weka變得煥然一新，易于使用，并且在數據挖掘能力上有很大提高。它已經集成了無比豐富的機器學習算法和相關技術。Weka的進步部分得益于數據挖掘領域的近期進展，部分受惠于用戶引導以及需求驅動，它使得我們對用戶的數據挖掘需求了如指掌，在充分借鑒發展經驗的同時又能很好地選擇本書內容。

第3版中增加了一些重要的材料，包括Web挖掘和對個人如何經常從所謂的匿名數據中“重新識別”的討論。其他的擴充技術包括多實例學習、互動成本效益分析（cost-benefit analysis）的新材料、成本復雜度（cost-complexity）剪枝、使用擴展前綴樹在內存中存儲壓縮版本的數據集的高級關聯規則算法、核嶺回歸以及隨機梯度下降和層次聚類方法。我們增加了新的數據轉換：偏最小二乘回歸、蓄水池抽樣、一分類學習、分解多類分類問題為嵌套二分法的集成以及校準類概率。我們還在集成學習技術中增加了新的信息：隨機化與裝袋以及旋轉森林。此外，還增加了數據流學習和Web挖掘的新章節。

第4版

編寫第4版的主要原因是為了增加深度學習方面的綜合材料，本質上是由于領域內真正龐大的數據資源（如圖片和語音處理）的出現，以及真正龐大的計算資源的可利用性，包括服務器集群和圖形處理單元，這些激發了新的發展。然而，深度學習技術是建立在理論和實踐有力結合的基礎之上的。而且我們還收到其他請求，要求我們加入更多的、更嚴謹的、更理論化的材料。

這迫使我們重新思考書中理論的作用。我們深思熟慮后添加了兩個新的理論指導章節：第10章的深度學習以及第9章的概率方法。第10章涵蓋深度學習本身以及它的前身；第9章給出了概率方法原則性的理論發展，這對于了解其他新算法是非常必要的。我們意識到很多讀者并不愿意學習這些理論，我們保證本書的其余部分將是簡單、易理解的。但是，新增的理論基礎對于想快速理解研究界的先進技術的讀者而言將是關鍵的材料。

Weka的發展非常迅速。它現在提供使用其他語言和系統的方法，例如流行的R統計計算語言、Spark和Hadoop分布式計算框架、Python和Groovy腳本語言，以及面向流學習的MOA系統等。鑒于在一本紙質書中記錄如此全面而快速發展的系統是不可能的或者說是不可取的，為此，我們創建了一系列的在線開放課程，例如用Weka進行數據挖掘。更多用Weka進行的數據挖掘以及用Weka進行的高級數據挖掘見https://weka.waikato.ac.nz。

第4版包含許多其他更新和補充以及更多的參考文獻。這里不再一一介紹，你不妨試著進一步閱讀。

內容簡介：
假如你需要分析和理解數據，那么本書以及Weka工具包是絕佳的起步。它既是新手必備的教科書，又能讓像我這樣的專家受益。

—— Jim Gray，1998年圖靈獎獲得者

本書是數據挖掘和機器學習領域的經典暢銷教材，被國內外眾多名校選用。第4版全面反映了該領域的最新技術變革，包括關于概率方法和深度學習的重要新章節。此外，備受歡迎的機器學習軟件Weka再度升級，讀者可以在友好的交互界面中執行數據挖掘任務，通過直觀結果加深對算法的理解。

在追蹤前沿技術的同時，第4版也繼承了之前版本的風格和特色，基礎知識清晰詳細，實踐工具和技術指導具體實用。從準備輸入、解釋輸出和評估結果，到數據挖掘的核心算法，無一不得到了簡潔而優雅的呈現。

目錄：
譯者序

前言

致謝

第一部分　數據挖掘基礎

第1章　緒論 2

1.1　數據挖掘和機器學習 2

1.1.1　描述結構模式 3

1.1.2　機器學習 5

1.1.3　數據挖掘 6

1.2　簡單的例子：天氣問題和其他問題 6

1.2.1　天氣問題 6

1.2.2　隱形眼鏡：一個理想化的問題 8

1.2.3　鳶尾花：一個經典的數值型數據集 9

1.2.4　CPU性能：引入數值預測 10

1.2.5　勞資協商：一個更真實的例子 11

1.2.6　大豆分類：一個經典的機器學習的成功例子 12

1.3　應用領域 14

1.3.1　Web挖掘 14

1.3.2　包含判斷的決策 15

1.3.3　圖像篩選 15

1.3.4　負載預測 16

1.3.5　診斷 17

1.3.6　市場和銷售 17

1.3.7　其他應用 18

1.4　數據挖掘過程 19

1.5　機器學習和統計學 20

1.6　將泛化看作搜索 21

1.6.1　枚舉概念空間 22

1.6.2　偏差 22

1.7　數據挖掘和道德問題 24

1.7.1　再識別 24

1.7.2　使用個人信息 25

1.7.3　其他問題 26

1.8　拓展閱讀及參考文獻 26

第2章　輸入：概念、實例和屬性 29

2.1　概念 29

2.2　實例 31

2.2.1　關系 31

2.2.2　其他實例類型 34

2.3　屬性 35

2.4　輸入準備 36

2.4.1　數據收集 37

2.4.2　ARFF格式 37

2.4.3　稀疏數據 39

2.4.4　屬性類型 40

2.4.5　缺失值 41

2.4.6　不正確的值 42

2.4.7　非均衡數據 42

2.4.8　了解數據 43

2.5　拓展閱讀及參考文獻 43

第3章　輸出：知識表達 44

3.1　表 44

3.2　線性模型 44

3.3　樹 46

3.4　規則 49

3.4.1　分類規則 49

3.4.2　關聯規則 52

3.4.3　包含例外的規則 53

3.4.4　表達能力更強的規則 54

3.5　基于實例的表達 56

3.6　聚類 58

3.7　拓展閱讀及參考文獻 59

第4章　算法：基本方法 60

4.1　推斷基本規則 60

4.2　簡單概率模型 63

4.2.1　缺失值和數值屬性 65

4.2.2　用于文檔分類的樸素貝葉斯 67

4.2.3　討論 68

4.3　分治法：創建決策樹 69

4.3.1　計算信息量 71

4.3.2　高度分支屬性 73

4.4　覆蓋算法：建立規則 74

4.4.1　規則與樹 75

4.4.2　一個簡單的覆蓋算法 76

4.4.3　規則與決策列表 79

4.5　關聯規則挖掘 79

4.5.1　項集 80

4.5.2　關聯規則 81

4.5.3　高效地生成規則 84

4.6　線性模型 86

4.6.1　數值預測：線性回歸 86

4.6.2　線性分類：logistic回歸 87

4.6.3　使用感知機的線性分類 89

4.6.4　使用Winnow的線性分類 90

4.7　基于實例的學習 91

4.7.1　距離函數 92

4.7.2　高效尋找最近鄰 92

4.7.3　討論 96

4.8　聚類 96

4.8.1　基于距離的迭代聚類 97

4.8.2　更快的距離計算 98

4.8.3　選擇簇的個數 99

4.8.4　層次聚類 100

4.8.5　層次聚類示例 101

4.8.6　增量聚類 102

4.8.7　分類效用 104

4.8.8　討論 106

4.9　多實例學習 107

4.9.1　聚集輸入 107

4.9.2　聚集輸出 107

4.10　拓展閱讀及參考文獻 108

4.11　Weka實現 109

第5章　可信度：評估學習結果 111

5.1　訓練和測試 111

5.2　預測性能 113

5.3　交叉驗證 115

5.4　其他評估方法 116

5.4.1　留一交叉驗證法 116

5.4.2　自助法 116

5.5　超參數選擇 117

5.6　數據挖掘方法比較 118

5.7　預測概率 121

5.7.1　二次損失函數 121

5.7.2　信息損失函數 122

5.7.3　討論 123

5.8　計算成本 123

5.8.1　成本敏感分類 125

5.8.2　成本敏感學習 126

5.8.3　提升圖 126

5.8.4　ROC曲線 129

5.8.5　召回率–精確率曲線 130

5.8.6　討論 131

5.8.7　成本曲線 132

5.9　評估數值預測 134

5.10　最小描述長度原理 136

5.11　將MDL原理應用于聚類 138

5.12　使用驗證集進行模型選擇 138

5.13　拓展閱讀及參考文獻 139

第二部分　高級機器學習方案

第6章　樹和規則 144

6.1　決策樹 144

6.1.1　數值屬性 144

6.1.2　缺失值 145

6.1.3　剪枝 146

6.1.4　估計誤差率 147

6.1.5　決策樹歸納法的復雜度 149

6.1.6　從決策樹到規則 150

6.1.7　C4.5：選擇和選項 150

6.1.8　成本–復雜度剪枝 151

6.1.9　討論 151

6.2　分類規則 152

6.2.1　選擇測試的標準 152

6.2.2　缺失值和數值屬性 153

6.2.3　生成好的規則 153

6.2.4　使用全局優化 155

6.2.5　從局部決策樹中獲得規則 157

6.2.6　包含例外的規則 158

6.2.7　討論 160

6.3　關聯規則 161

6.3.1　建立頻繁模式樹 161

6.3.2　尋找大項集 163

6.3.3　討論 166

6.4　Weka 實現 167

第7章　基于實例的學習和線性模型的擴展 168

7.1　基于實例的學習 168

7.1.1　減少樣本集的數量 168

7.1.2　對噪聲樣本集剪枝 169

7.1.3　屬性加權 170

7.1.4　泛化樣本集 170

7.1.5　用于泛化樣本集的距離函數 171

7.1.6　泛化的距離函數 172

7.1.7　討論 172

7.2　擴展線性模型 173

7.2.1　最大間隔超平面 173

7.2.2　非線性類邊界 174

7.2.3　支持向量回歸 176

7.2.4　核嶺回歸 177

7.2.5　核感知機 178

7.2.6　多層感知機 179

7.2.7　徑向基函數網絡 184

7.2.8　隨機梯度下降 185

7.2.9　討論 186

7.3　局部線性模型用于數值預測 187

7.3.1　模型樹 187

7.3.2　構建樹 188

7.3.3　對樹剪枝 188

7.3.4　名目屬性 189

7.3.5　缺失值 189

7.3.6　模型樹歸納的偽代碼 190

7.3.7　從模型樹到規則 192

7.3.8　局部加權線性回歸 192

7.3.9　討論 193

7.4　Weka實現 194

第8章　數據轉換 195

8.1　屬性選擇 196

8.1.1　獨立于方案的選擇 197

8.1.2　搜索屬性空間 199

8.1.3　具體方案相關的選擇 200

8.2　離散化數值屬性 201

8.2.1　無監督離散化 202

8.2.2　基于熵的離散化 203

8.2.3　其他離散化方法 205

8.2.4　基于熵和基于誤差的離散化 205

8.2.5　將離散屬性轉換成數值屬性 206

8.3　投影 207

8.3.1　主成分分析 207

8.3.2　隨機投影 209

8.3.3　偏最小二乘回歸 209

8.3.4　獨立成分分析 210

8.3.5　線性判別分析 211

8.3.6　二次判別分析 211

8.3.7　Fisher線性判別分析 211

8.3.8　從文本到屬性向量 212

8.3.9　時間序列 213

8.4　抽樣 214

8.5　數據清洗 215

8.5.1　改進決策樹 215

8.5.2　穩健回歸 215

8.5.3　檢測異常 216

8.5.4　一分類學習 217

8.5.5　離群點檢測 217

8.5.6　生成人工數據 218

8.6　將多分類問題轉換成二分類問題 219

8.6.1　簡單方法 219

8.6.2　誤差校正輸出編碼 220

8.6.3　集成嵌套二分法 221

8.7　校準類概率 223

8.8　拓展閱讀及參考文獻 224

8.9　Weka實現 226

第9章　概率方法 228

9.1　基礎 228

9.1.1　最大似然估計 229

9.1.2　最大后驗參數估計 230

9.2　貝葉斯網絡 230

9.2.1　預測 231

9.2.2　學習貝葉斯網絡 233

9.2.3　具體算法 235

9.2.4　用于快速學習的數據結構 237

9.3　聚類和概率密度估計 239

9.3.1　用于高斯混合模型的期望最大化算法 239

9.3.2　擴展混合模型 242

9.3.3　使用先驗分布聚類 243

9.3.4　相關屬性聚類 244

9.3.5　核密度估計 245

9.3.6　比較用于分類的參數、半參數和無參數的密度模型 245

9.4　隱藏變量模型 246

9.4.1　對數似然和梯度的期望 246

9.4.2　期望最大化算法 247

9.4.3　將期望最大化算法應用于貝葉斯網絡 248

9.5　貝葉斯估計與預測 249

9.6　圖模型和因子圖 251

9.6.1　圖模型和盤子表示法 251

9.6.2　概率主成分分析 252

9.6.3　隱含語義分析 254

9.6.4　使用主成分分析來降維 255

9.6.5　概率LSA 256

9.6.6　隱含狄利克雷分布 257

9.6.7　因子圖 258

9.6.8　馬爾可夫隨機場 260

9.6.9　使用sum-product算法和max-product算法進行計算 261

9.7　條件概率模型 265

9.7.1　概率模型的線性和多項式回歸 265

9.7.2　使用先驗參數 266

9.7.3　多分類logistic回歸 268

9.7.4　梯度下降和二階方法 271

9.7.5　廣義線性模型 271

9.7.6　有序類的預測 272

9.7.7　使用核函數的條件概率模型 273

9.8　時序模型 273

9.8.1　馬爾可夫模型和N元法 273

9.8.2　隱馬爾可夫模型 274

9.8.3　條件隨機場 275

9.9　拓展閱讀及參考文獻 278

9.10　Weka實現 282

第10章　深度學習 283

10.1　深度前饋網絡 284

10.1.1　MNIST評估 284

10.1.2　損失和正則化 285

10.1.3　深層網絡體系結構 286

10.1.4　激活函數 287

10.1.5　重新審視反向傳播 288

10.1.6　計算圖以及復雜的網絡結構 290

10.1.7　驗證反向傳播算法的實現 291

10.2　訓練和評估深度網絡 292

10.2.1　早停 292

10.2.2　驗證、交叉驗證以及超參數調整 292

10.2.3　小批量隨機梯度下降 293

10.2.4　小批量隨機梯度下降的偽代碼 294

10.2.5　學習率和計劃 294

10.2.6　先驗參數的正則化 295

10.2.7　丟棄法 295

10.2.8　批規范化 295

10.2.9　參數初始化 295

10.2.10　無監督的預訓練 296

10.2.11　數據擴充和合成轉換 296

10.3　卷積神經網絡 296

10.3.1　ImageNet評估和深度卷積神經網絡 297

10.3.2　從圖像濾波到可學習的卷積層 297

10.3.3　卷積層和梯度 300

10.3.4　池化層二次抽樣層以及梯度 300

10.3.5　實現 301

10.4　自編碼器 301

10.4.1　使用RBM預訓練深度自編碼器 302

10.4.2　降噪自編碼器和分層訓練 304

10.4.3　重構和判別式學習的結合 304

10.5　隨機深度網絡 304

10.5.1　玻爾茲曼機 304

10.5.2　受限玻爾茲曼機 306

10.5.3　對比分歧 306

10.5.4　分類變量和連續變量 306

10.5.5　深度玻爾茲曼機 307

10.5.6　深度信念網絡 308

10.6　遞歸神經網絡 309

10.6.1　梯度爆炸與梯度消失 310

10.6.2　其他遞歸網絡結構 311

10.7　拓展閱讀及參考文獻 312

10.8　深度學習軟件以及網絡實現 315

10.8.1　Theano 315

10.8.2　Tensor Flow 315

10.8.3　Torch 315

10.8.4　CNTK 315

10.8.5　Caffe 315

10.8.6　DeepLearning4j 316

10.8.7　其他包：Lasagne、Keras以及cuDNN 316

10.9　Weka實現 316

第11章　有監督和無監督學習 317

11.1　半監督學習 317

11.1.1　用以分類的聚類 317

11.1.2　協同訓練 318

11.1.3　EM和協同訓練 319

11.1.4　神經網絡方法 319

11.2　多實例學習 320

11.2.1　轉換為單實例學習 320

11.2.2　升級學習算法 321

11.2.3　專用多實例方法 322

11.3　拓展閱讀及參考文獻 323

11.4　Weka實現 323

第12章　集成學習 325

12.1　組合多種模型 325

12.2　裝袋 326

12.2.1　偏差–方差分解 326

12.2.2　考慮成本的裝袋 327

12.3　隨機化 328

12.3.1　隨機化與裝袋 328

12.3.2　旋轉森林 329

12.4　提升 329

12.4.1　AdaBoost算法 330

12.4.2　提升算法的威力 331

12.5　累加回歸 332

12.5.1　數值預測 332

12.5.2　累加logistic回歸 333

12.6　可解釋的集成器 334

12.6.1　選擇樹 334

12.6.2　logistic模型樹 336

12.7　堆棧 336

12.8　拓展閱讀及參考文獻 338

12.9　Weka實現 339

第13章　擴展和應用 340

13.1　應用機器學習 340

13.2　從大型的數據集學習 342

13.3　數據流學習 344

13.4　融合領域知識 346

13.5　文本挖掘 347

13.5.1　文檔分類與聚類 348

13.5.2　信息提取 349

13.5.3　自然語言處理 350

13.6　Web挖掘 350

13.6.1　包裝器歸納 351

13.6.2　網頁分級 351

13.7　圖像和語音 353

13.7.1　圖像 353

13.7.2　語音 354

13.8　對抗情形 354

13.9　無處不在的數據挖掘 355

13.10　拓展閱讀及參考文獻 357

13.11　Weka實現 359

附錄A　理論基礎 360

附錄B　Weka工作平臺 375

索引 388

參考文獻

序：