實用機器學習( 簡體 字) | |
作者:[印]蘇尼拉·格拉普蒂(Sunila Gollapudi)著 | 類別:1. -> 程式設計 -> 機器學習 |
出版社:機械工業出版社 | 3dWoo書號: 49093 詢問書籍請說出此書號! 有庫存 NT售價: 395 元 |
出版日:5/1/2018 | |
頁數:267 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787111598886 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
推薦序一
推薦序二 譯者序 前言 關于作者 關于審校者 第1章機器學習簡介 11機器學習 111定義 112核心概念與術語 113什么是學習 114機器學習中的數據不一致性 115機器學習實踐范例 116機器學習問題類型 12性能度量 13機器學習的相關領域 131數據挖掘 132人工智能 133統計學習 134數據科學 14機器學習處理流程及解決方案架構 15機器學習算法 151基于決策樹的算法 152基于貝葉斯的算法 153基于核方法的算法 154聚類算法 155人工神經網絡 156降維方法 157集成方法 158基于實例的算法 159基于回歸分析的算法 1510基于關聯規則的算法 16機器學習工具與框架 17小結 第2章機器學習和大規模數據集 21大數據和大規模機器學習 211功能與架構:方法論的失配 212機器學習的可擴展性和性能 213模型選擇過程 214大規模機器學習的潛在問題 22算法和并發 23垂直擴展的機器學習技術方案 231MapReduce編程架構 232利用消息傳遞接口進行高性能計算 233LINQ框架 234使用LINQ操作數據集 235GPU 236FPGA 237多核或多處理器系統 24小結 第3章Hadoop架構和生態系統簡介 31Apache Hadoop簡介 311Hadoop的演化 312Hadoop及其核心要素 32基于Hadoop的大數據機器學習解決方案架構 321數據源層 322數據攝入層 323Hadoop數據存儲層 324Hadoop基礎設施層 325Hadoop平臺/處理層 326分析層 327數據消費層 328MapReduce 33Hadoop 2x 331Hadoop生態系統組件 332Hadoop安裝和配置 333Hadoop發行版和供應商 34小結 第4章機器學習工具、庫及框架 41機器學習工具概覽 42Apache Mahout 421Mahout如何工作 422安裝和設置Apache Mahout 423Mahout軟件包詳解 424Mahout中的vector實現 43R 431安裝和設置R 432R與Apache Hadoop集成 44Julia 441安裝和設置Julia 442在命令行中執行Julia程序 443例解Julia 444變量與賦值 445使用Julia的好處 446Julia與Hadoop集成 45Python 451Python中工具包的選擇 452例解Python 46Apache Spark 461Scala 462RDD編程 47Spring XD 48小結 第5章基于決策樹的學習 51決策樹 511術語 512目標與用途 513構造決策樹 514特殊的決策樹 52實現決策樹 53小結 第6章基于實例和核方法的學習 61基于實例的學習 611最近鄰 612實現kNN 62基于核方法的學習 621核函數 622支持向量機 623實現SVM 63小結 第7章關聯規則學習 71關聯規則學習 711關聯規則的定義 712Apriori算法 713FPgrowth算法 714Apriori與FPgrowth 72實現Apriori及FPgrowth算法 73小結 第8章聚類學習 81聚類學習 82聚類的類型 821層次聚類 822劃分式聚類 83kmeans聚類算法 831kmeans算法的收斂性 832kmeans算法的優點 833kmeans算法的缺點 834距離度量 835復雜度度量 84實現kmeans聚類 85小結 第9章貝葉斯學習 91貝葉斯學習 911統計學家的視角 912貝葉斯定理 913樸素貝葉斯分類器 92實現樸素貝葉斯算法 93小結 第10章基于回歸的學習 101回歸分析 1011重溫統計學 1012混雜 1013效應修飾 102回歸方法 1021簡單線性回歸 1022多元線性回歸 1023多項式回歸 1024廣義線性模型 1025邏輯回歸(logit連接) 1026泊松回歸 103實現線性回歸和邏輯回歸 104小結 第11章深度學習 111背景知識 1111人類大腦結構 1112神經網絡 1113反向傳播算法 1114Softmax回歸算法 112深度學習類型 1121卷積神經網絡 1122循環神經網絡 1123受限玻爾茲曼機 1124深度玻爾茲曼機 1125自動編碼器 113實現ANN和深度學習方法 114小結 第12章強化學習 121強化學習 1211強化學習的背景知識 1212強化學習的主要特點 122強化學習算法 1221動態規劃 1222蒙特卡羅方法 1223時序差分學習 1224Qlearning(異策略TD) 1225actorcritic方法(同策略) 1226Rlearning(異策略) 123實現強化學習方法 124小結 第13章集成學習 131集成學習方法 1311群體智慧 1312經典應用 1313集成方法 132實現集成學習方法 133小結 第14章下一代機器學習數據架構 141數據架構的演進 142機器學習的現代數據架構 1421語義數據架構 1422多模型數據庫架構/混合持久化 1423Lambda架構 143小結 本書探索了一系列廣泛應用的機器學習技術,用實際例子揭示常見數據中隱藏的處理技巧。雖然機器學習是高度理論性的,但是本書提供了一種令人耳目一新的實操方法,同時也沒有忽略底層原理。
本書涵蓋當前領先的數據科學語言(如Python和R)、被低估但非常強大的Julia,以及一系列大數據平臺(包括Spark、Hadoop和Mahout等)。實用的機器學習技術是現代數據科學家掌握機器學習應用的重要資源。 本書還探討了機器學習的前沿進展,提供了一些關于深度學習和強化學習的范例和指導原則,完美演繹實操過程及算法原理。 通過閱讀本書,你將學到: 實現多種算法或技術,用于處理復雜數據。 掌握數據科學相關的頗具威力的語言,如R、Python、Julia等。 掌握Spark、Mahout與Hadoop的協同使用,成功解決數據管理、處理中的各種問題。 如何采用適當的機器學習技術解決現實問題。 了解深度學習及機器學習前沿領域是如何使用人工神經網絡的。 探索新一代機器學習技術,深入了解混合持久化、語義數據等技術。 從結構復雜的海量數據集中探索數據蘊含的意義,是日益增長的現實需求。機器學習與預測分析技術是進行此類探索的重要工具。機器學習利用歷史數據集,提取其中蘊含的模式,在不斷的迭代中提升預測效果。機器學習能發現數據中隱含的動態趨勢、模式及關系,這對業務增長非常重要。
在本書中,讀者不僅僅能學到機器學習的基本知識,同時也能了解到現實世界的數據復雜性,然后使用Hadoop及其生態系統軟件來處理和管理結構化及非結構化數據。 主要內容 第1章介紹機器學習的基本概念及其常見語義。通過一些簡單的術語來定義機器學習。本章是其余章節的基礎。 第2章探索大規模數據集,包括其公共特性、數據重復問題、數據量快速增長的原因,以及如何處理大數據。 第3章介紹Hadoop,從Hadoop核心框架開始,然后擴展到其生態系統。學完本章,讀者將掌握Hadoop的配置、部分功能的運行,同時也能了解到某些Hadoop生態系統組件。讀者將能夠運行和管理Hadoop環境及理解命令行工具的使用。 第4章介紹一些開源的機器學習工具,包括安裝、算法在特定工具或平臺中的實現,以及這些庫、工具及框架的運行,這些工具或庫包括Apache Mahout、Python、R、Julia以及Apache Spark中的MLlib。值得強調的是,本章中也會著重介紹這些庫、工具或框架與Hadoop的集成。 第5章介紹一種有監督學習技術,稱為決策樹,它既可解決分類問題也可以解決回歸問題。本章內容覆蓋從特征選擇到決策樹分裂、剪枝等多個環節。重點介紹幾類決策樹算法,如CART、C45、隨機森林以及一些高級的決策樹。 第6章介紹兩種機器學習方法——基于實例和基于核方法的學習,并討論它們是如何解決分類與預測問題的。在基于實例的方法中,會詳細介紹最近鄰算法。而在基于核方法的機器學習算法中,會重點介紹如何使用支持向量機解決現實問題。 第7章探討關聯規則學習相關算法:Apriori及FPgrowth。借助一個常見的例子,手把手教讀者通過Apriori及FPgrowth算法進行頻繁模式挖掘。 第8章討論聚類學習方法,聚類是一種無監督學習方法。本章將深入介紹kmeans聚類,同時利用Mahout、R、Python、Julia、Spark等工具演示如何實現kmeans聚類。 第9章介紹貝葉斯學習。此外,介紹一些核心的統計學概念,從基本術語到各種分布模型。最后會深入介紹貝葉斯定理,以及如何利用它解決現實問題。 第10章介紹基于回歸分析的機器學習,重點介紹如何利用Mahout、R、Python、Julia、Spark等工具實現線性回歸和邏輯回歸。另外,也會介紹相關統計概念,如方差、協方差、ANOVA等。最后會利用案例深入介紹如何使用回歸模型解決現實問題。 第11章首先介紹生物學中的神經元模型、人工神經網絡的功能以及與它的關聯。讀者將會學到人工神經網絡的核心概念、全連接神經網絡的結構。本章也會探究某些關鍵的激活函數,它們用到了矩陣乘法。 第12章介紹一種新的機器學習技術,稱為強化學習。讀者將會了解到它與傳統的有監督和無監督機器學習技術的區別。本章也會介紹MDP基礎,以及相關的案例。 第13章討論機器學習中的集成學習方法,帶領讀者通過真實案例掌握某些有監督集成學習技術。最后,本章將以源代碼形式介紹如何利用R、Python(scikitlearn)、Julia、Spark、Mahout等工具演示梯度提升算法。 第14章介紹機器學習的實現。讀者需要深刻理解傳統分析平臺的局限,以及為什么它們不能適應現代數據需求。讀者也應該了解新的數據架構范式,如Lambda架構混合持久化(多模型數據庫架構);本章也會介紹語義架構,它幫助使用者進行無縫數據集成。 閱讀準備 欲演示本書中的范例,需預先安裝下列軟件: ●R(2151) ●Apache Mahout (09) ●Python(scikitlearn) ●Julia(034) ●Apache Spark(Scala 2104) 目標讀者 本書的目標讀者是那些想了解機器學習實踐及通過機器學習技術解決現實應用的數據科學家。本書能指導讀者了解機器學習和預測分析的基本原理及最新進展,了解大數據革命的方方面面,這是任何致力于解決當前大數據問題的人員的必備資源。如果你想立即著手練習,需具備基本的編程(Python和R)功底和數學知識。 范例源碼及彩圖下載 本書提供了源代碼供讀者下載,網址為https://githubcom/PacktCode/PracticalMachineLearning。 為了幫助讀者更好地理解書中的內容,本書提供了彩圖的PDF文件供讀者下載。 |