-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

SQL機器學習庫MADlib技術解析

( 簡體 字)
作者:王雪迎類別:1. -> 資料庫 -> SQL語言
   2. -> 程式設計 -> 機器學習
譯者:
出版社:清華大學出版社SQL機器學習庫MADlib技術解析 3dWoo書號: 50632
詢問書籍請說出此書號!

缺書
NT售價: 395

出版日:2/1/2019
頁數:340
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302518945
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

從2016年AlphaGo在人機大戰中勝出以來,AI(Artificial Intelligence,人工智能)已然成為時下最熱門的概念之一。似乎所有人嘴邊都掛著“AI”一詞,大批程序員躍躍欲試,轉向研究這種“全新”的技術。人工智能的研究歷史有著一條從以“推理”為重點,到以“知識”為重點,再到以“學習”為重點的自然、清晰的脈絡。顯然,機器學習是實現人工智能的一條途徑,即以機器學習為手段解決人工智能中的現實問題。在實踐過程中,大多數人工智能處理任務其實是用機器學習的方式完成的。機器學習可以用程序和算法自動學習,只要被設計好,程序就可以進行自我優化。同時,機器學習需要一定數量的訓練數據,用于構建來自過往經驗的知識(通常指訓練后形成的數學模型)。機器學習目前在實踐中最重要的是預測功能。比如訓練結束后,現在有一個新的數據集X,需要預測其分類,機器學習算法會根據這個新數據與訓練后形成的知識相匹配,然后將這個數據集X分類到某類C去。推薦系統則是另一個比較常見的機器學習使用場景。
經過三十多年的發展,機器學習已成為一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算復雜性理論等多門學科。很明顯,自己開發機器學習算法需要具有極強的數學功底。幸運的是,很多軟件包提供絕大多數常用算法,無論是側重于統計的SAS、SPSS還是流行的MATLAB、R、Python、TensorFlow等。它們都是面向程序員的系統或語言,重點在于由程序員自己利用系統提供的基本計算方法或函數,通過編程的方式完成實際所需的分析 模型。
作為一名數據庫開發人員或DBA,當面對聚類分析或主成分分析等問題時可能會一籌莫展。原因很簡單,用經典SQL語言實現這類復雜模型基本是不可能的。現在,DBA利用MADlib,只需使用SQL查詢就能實現簡單的機器學習,這也正是編寫本書的初衷。MADlib與其他機器學習工具具有完全不同的設計理念。它不是面向程序員的,而是面向數據庫開發人員或DBA的,是基于SQL的大數據機器學習庫。MADlib將SQL的簡單易用性與機器學習的復雜算法相結合,充分利用了兩者的優勢和特點。對于廣大傳統數據庫應用技術人員來說,學習和從事機器學習工作的門檻將大大降低。對用戶而言,MADlib提供了可在SQL查詢語句中調用的函數,不僅包括基本的線性代數運算和統計函數,還提供了常用的、現成的機器學習模型函數,實現了分類、聚類、關聯、回歸、預測、評估等應用中的常見算法。用戶不需要深入了解算法的程序實現細節,只要搞清楚各函數中相關參數的含義、提供正確的入參并能夠理解和解釋函數的輸出結果即可。
一年來,我一直在撰寫MADlib相關的文章和博客,并在利用MADlib實現機器學習算法上做了一些基礎的技術實踐。本書就是對上述工作的系統歸納與總結。全書共分11章,從MADlib的基本概念入手,首先介紹MADlib的工作原理、執行流程、基礎架構、支持的模型與功能,以及MADlib的安裝與卸載;然后詳細解析MADlib各種模型的具體用法,其中包括數據類型、數據轉換、數據探索、回歸、時間序列分析、分類、聚類、關聯規則、圖算法、模型評估十個大類(每個大類用一章的篇幅,從背景知識、函數用法、應用示例三方面進行詳細說明)。本書中的所有討論都以MADlib 1.10版本為基礎,重點在于說明MADlib提供了哪些模塊算法和函數、用途,以及如何在SQL中調用。由于本書偏重應用,因此我們對每種算法相關的數學概念都只是淺嘗輒止,并沒有進行詳細的數學推導。
本書適合數據庫應用開發或管理人員、數據挖掘工程師、數據分析師或其他機器學習類技術人員閱讀,也適合高等院校和培訓學校相關專業的師生教學參考。
在本書編寫過程中,得到了很多人的幫助與支持。感謝CSDN提供的技術分享平臺,為我提供了一個將博客文章整理成書的機會。感謝優貝在線的所有同事,特別是技術部的同事,他們在工作中的鼎力相助,使我有更多的時間投入到本書的寫作中。最后,感謝家人對我一如既往地支持。
因為水平有限,疏漏之處在所難免,希望廣大讀者批評指正。
源代碼下載
本書配套的代碼及相關資料可以掃描下面的二維碼獲取:

如果下載有問題,請聯系EMAIL,郵件主題為“MADlib技術解析”。

著 者
2018年11月
內容簡介:

MADlib是一套SQL中的大數據機器學習庫。通常SQL查詢能發現數據最明顯的模式和趨勢,但要想獲取數據中最為有用的信息,需要的則是一套牢固扎根于數學和應用數學的技能,這就是機器學習。如果將SQL的簡單易用與MADlib機器學習的復雜算法結合起來,就能實現簡單的機器學習功能。
本書分為11章,從MADlib的基本概念、MADlib的架構、支持的模型類型與功能入手,詳細解析MADlib各種模型的具體用法,包括數據類型、矩陣分解、數據轉換、數據探索、主成分分析、回歸、時間序列分析、分類、聚類、關聯規則、圖算法、模型評估等。每種模型將從背景知識、函數語法、應用示例三方面進行 說明。
本書適合MADlib機器學習的初學者、想學習MADlib機器學習的DBA以及從事數據分析與挖掘的高級技術人員閱讀,也適合高等院校與培訓學校相關專業的師生教學參考。
目錄:

第1章MADlib基礎 1
1.1基本概念 1
1.1.1MADlib是什么 1
1.1.2MADlib的設計思想 2
1.1.3MADlib的工作原理 3
1.1.4MADlib的執行流程 4
1.1.5MADlib架構 5
1.2MADlib的功能 6
1.2.1MADlib支持的模型類型 6
1.2.2MADlib的主要功能模塊 7
1.3MADlib的安裝與卸載 9
1.3.1確定安裝平臺 9
1.3.2下載MADlib二進制壓縮包 10
1.3.3安裝MADlib 10
1.3.4卸載MADlib 12
1.4小結 13
第2章數據類型 14
2.1向量 14
2.1.1MADlib中的向量操作函數 15
2.1.2稀疏向量 23
2.2矩陣 30
2.2.1矩陣定義 31
2.2.2MADlib中的矩陣表示 31
2.2.3MADlib中的矩陣運算函數 32
2.3小結 49
第3章數據轉換 50
3.1鄰近度 50
3.1.1MADlib的鄰近度相關函數 50
3.1.2距離度量的中心化和標準化 57
3.1.3選取正確的鄰近度度量 58
3.2矩陣分解 59
3.2.1低秩矩陣分解 59
3.2.2奇異值分解 70
3.3透視表 87
3.4分類變量編碼 97
3.5小結 110
第4章數據探索 111
4.1描述性統計 111
4.1.1皮爾森相關 111
4.1.2匯總統計 117
4.2概率統計 125
4.2.1概率 125
4.2.2統計推論 133
4.3主成分分析 147
4.3.1背景知識 147
4.3.2MADlib的PCA相關函數 149
4.3.3MADlib的PCA應用示例 155
4.4小結 160
第5章回歸 161
5.1線性回歸 161
5.1.1背景知識 161
5.1.2MADlib的線性回歸相關函數 164
5.1.3線性回歸示例 166
5.2非線性回歸 171
5.2.1背景知識 171
5.2.2MADlib的非線性回歸相關
函數 172
5.2.3非線性回歸示例 175
5.3邏輯回歸 179
5.3.1背景知識 179
5.3.2MADlib的邏輯回歸相關函數 180
5.3.3邏輯回歸示例 182
5.4多類回歸 187
5.4.1背景知識 187
5.4.2MADlib的多類回歸相關函數 190
5.4.3多類回歸示例 192
5.5序數回歸 196
5.5.1背景知識 196
5.5.2MADlib的序數回歸相關函數 197
5.5.3序數回歸示例 200
5.6彈性網絡回歸 202
5.6.1背景知識 202
5.6.2MADlib的彈性網絡回歸相關
函數 204
5.6.3彈性網絡回歸示例 209
5.7小結 221
第6章時間序列分析 222
6.1背景知識 222
6.1.1時間序列分析方法 222
6.1.2ARIMA模型 223
6.2MADlib中ARIMA相關函數 225
6.3時間序列分析示例 228
6.4小結 232
第7章分類 233
7.1K近鄰 233
7.1.1背景知識 233
7.1.2MADlib中K近鄰函數 235
7.1.3K近鄰示例 236
7.2樸素貝葉斯 240
7.2.1背景知識 240
7.2.2MADlib中樸素貝葉斯分類
相關函數 242
7.2.3樸素貝葉斯分類示例 244
7.3支持向量機 249
7.3.1背景知識 249
7.3.2MADlib的支持向量機相關
函數 252
7.3.3支持向量機示例 258
7.4決策樹 264
7.4.1背景知識 264
7.4.2MADlib的決策樹相關函數 267
7.4.3決策樹示例 272
7.5隨機森林 281
7.5.1背景知識 281
7.5.2MADlib的隨機森林相關函數 282
7.5.3隨機森林示例 287
7.6小結 293
第8章聚類 294
8.1背景知識 294
8.1.1聚類的概念 294
8.1.2k-means方法 295
8.2MADlib的k-means相關函數 297
8.2.1訓練函數 298
8.2.2簇分配函數 300
8.2.3輪廓系數函數 301
8.3k-means示例 301
8.4小結 307
第9章關聯規則 308
9.1背景知識 308
9.1.1基本概念 308
9.1.2Apriori算法 311
9.2MADlib的Apriori算法函數 312
9.3Apriori應用示例 313
9.4小結 319
第10章圖算法 320
10.1背景知識 320
10.1.1基本概念 320
10.1.2常見圖算法 321
10.1.3單源最短路徑 323
10.2MADlib的單源最短路徑相關函數 324
10.3單源最短路徑示例 325
10.4小結 327
第11章模型評估 328
11.1交叉驗證 328
11.1.1背景知識 328
11.1.2MADlib的交叉驗證相關
函數 331
11.1.3交叉驗證示例 333
11.2預測度量 336
11.3小結 342
序: