-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python大戰機器學習:數據科學家的第一個小目標

( 簡體 字)
作者:華校專,王正林類別:1. -> 程式設計 -> Python
   2. -> 程式設計 -> 機器學習
譯者:
出版社:電子工業出版社Python大戰機器學習:數據科學家的第一個小目標 3dWoo書號: 46249
詢問書籍請說出此書號!

缺書
NT售價: 345

出版日:2/1/2017
頁數:452
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121308949
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

擁抱大數據時代
“大家還沒搞清PC 時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了。”馬云在2013 年淘寶十周年晚會上的這句話,仿佛一下子拉開了大數據時代的序幕。
新的時代,需要新的技術,新的技術,需要新的人才。全球最著名的管理咨詢公司麥肯錫預測“到2018 年,美國在‘深度分析’人才方面將面臨14 萬至19 萬的人才缺口;在‘能
夠分析數據幫助公司做出商業決策’方面將面臨150 萬的人才缺口”。清華大學計算機系教授武永衛2016 年5 月透露了一組數據:未來3~5 年,中國需要180 萬數據人才,但目前只有約30 萬人。
大數據時代,做大數據分析人員有了一個更“性感”的名字,叫做數據科學家(Data Scientist)。《哈佛商業評論》聲稱,21 世紀最富挑戰的工作是數據科學家。時下最熱門的職業是數據科學家,而不是傳統的信息科學家,也不是大數據工程師。
數據科學家必備的技能中,機器學習和Python 應該是位列前五的兩項。機器學習炙手可熱,在互聯網、金融保險、制造業、零售業、醫療等產業領域發揮了越來越大的作用,關注度也越來越高。而Python 則是最in 的語言,“人生苦短,我用Python”?_?怎么用這本書?
機器學習既有算法又有實現,還是比較高深的,算法太難,啃不動,代碼太淺,鉆不下去。我們的目標是讓您快速上手,在內容組織上我們是動了心思的,采用“原理筆記精華+算法Python 實現+ 問題實例+ 實際代碼+ 運行調參”的形式,理論與實踐交織著展開,算法原理與編程實戰并重。
全書分13 章進行展開,分為機器學習基礎篇、機器學習高級篇、機器學習工程篇和kaggle 實戰篇。
1. 機器學習基礎篇(第1 ∼ 6 章)
包括線性模型、決策樹、貝葉斯分類、k 近鄰法、數據降維、聚類和EM 算法等內容。
這些基礎算法非常經典,原理也相對簡單,是入門的最佳選擇,掌握這些算法,才能更好地理解后續的高級算法。非菜鳥可以直接忽略這部分。
2. 機器學習高級篇(第7 ∼ 10 章)
包括支持向量機、人工神經網絡、半監督學習和集成學習等內容。
這些高級算法是目前應用非常廣泛,也是效果不錯的算法,需要深入理解算法的原理、優劣勢等特點以及應用場景,要能達到應用自如的程度。
3. 機器學習工程篇(第11 ∼ 12 章)
講述機器學習工程中的實際技術,包括數據預處理,模型評估、選擇與驗證等內容。數據清洗、數據預處理和模型評估選擇在實際中非常重要,在整個工程項目的開發過程中通常占到一半以上的時間,這部分給出的一些步驟和方法是實踐的精華,值得熟練掌握。
4. kaggle 實戰篇(第13 章)
Step-by-step 講述一個kaggle 競賽題目的實戰,有代碼有分析。
Kaggle 是目前頂級的數據科學比賽平臺,很多機器學習的牛人都在這里玩過,咱們可以學習牛人好的算法,也可以啟發自己的思路。對于夢想成為牛人的您,還是去里面混混先:)萬一拿了個好的名次呢,拿個一流公司的offer 還是很easy 的。
本書的代碼全部開源,請自行去下載https://github.com/huaxz1986/git_book,也歡迎在這上面交流。
由于作者水平和經驗有限,書中錯漏之處在所難免,敬請讀者指正,我們的電子郵箱是wa_2003@126.com。
作者
2017 年元旦于北京
內容簡介:

數據科學家是當下炙手可熱的職業,機器學習則是他們的必備技能,機器學習在大數據分析中居于核心的地位,在互聯網、金融保險、制造業、零售業、醫療等產業領域發揮了越來越大的作用且日益受到關注。Python是最好最熱門的編程語言之一,以簡單易學、應用廣泛、類庫強大而著稱,是實現機器學習算法的首選語言。 本書以快速上手、四分理論六分實踐為出發點,講述機器學習的算法和Python編程實踐,采用“原理筆記精華+算法Python實現+問題實例+實際代碼+運行調參”的形式展開,理論與實踐結合,算法原理與編程實戰并重。全書共13 章分為4篇展開:第一篇:機器學習基礎篇(第1∼6 章),講述機器學習的基礎算法,包括線性模型、決策樹、貝葉斯分類、k近鄰法、數據降維、聚類和EM算法;第二篇:機器學習高級篇(第7∼10章),講述經典而常用的高級機器學習算法,包括支持向量機、人工神經網絡、半監督學習和集成學習;第三篇:機器學習工程篇(第11∼12章),講述機器學習工程中的實際技術,包括數據預處理,模型評估、選擇與驗證等。第四篇:kaggle實戰篇(第13章),講述一個kaggle競賽題目的實戰。本書內容豐富、深入淺出,算法與代碼齊頭并進,無論你是新手還是有經驗的讀者,都能快速學到你想要的。本書可供為高等院校計算機、金融、數學、自動化及相關理工科專業的本科生或研究生使用,也可供對機器學習感興趣的研究人員和工程技術人員閱讀參考。

目錄:

第一篇 機器學習基礎篇1
第1 章 線性模型 2
1.1 概述2
1.2 算法筆記精華2
1.2.1 普通線性回歸2
1.2.2 廣義線性模型5
1.2.3 邏輯回歸5
1.2.4 線性判別分析7
1.3 Python 實戰10
1.3.1 線性回歸模型11
1.3.2 線性回歸模型的正則化12
1.3.3 邏輯回歸22
1.3.4 線性判別分析26
第2 章 決策樹 30
2.1 概述30
2.2 算法筆記精華30
2.2.1 決策樹原理30
2.2.2 構建決策樹的3 個步驟31
2.2.3 CART 算法37
2.2.4 連續值和缺失值的處理42
2.3 Python 實戰43
2.3.1 回歸決策樹(DecisionTreeRegressor) 43
2.3.2 分類決策樹(DecisionTreeClassifier) 49
2.3.3 決策圖54
第3 章 貝葉斯分類器 55
3.1 概述55
3.2 算法筆記精華55
3.2.1 貝葉斯定理55
3.2.2 樸素貝葉斯法56
3.3 Python 實戰59
3.3.1 高斯貝葉斯分類器(GaussianNB) 61
3.3.2 多項式貝葉斯分類器(MultinomialNB) 62
3.3.3 伯努利貝葉斯分類器(BernoulliNB) 65
3.3.4 遞增式學習partial_fit 方法69
第4 章 k 近鄰法 70
4.1 概述70
4.2 算法筆記精華70
4.2.1 kNN 三要素70
4.2.2 k 近鄰算法72
4.2.3 kd 樹73
4.3 Python 實踐74
第5章 數據降維 83
5.1 概述83
5.2 算法筆記精華83
5.2.1 維度災難與降維83
5.2.2 主成分分析(PCA) 84
5.2.3 SVD 降維91
5.2.4 核化線性(KPCA)降維91
5.2.5 流形學習降維93
5.2.6 多維縮放(MDS)降維93
5.2.7 等度量映射(Isomap)降維96
5.2.8 局部線性嵌入(LLE) 97
5.3 Python 實戰99
5.4 小結118
第6章 聚類和EM 算法 119
6.1 概述119
6.2 算法筆記精華120
6.2.1 聚類的有效性指標120
6.2.2 距離度量122
6.2.3 原型聚類123
6.2.4 密度聚類126
6.2.5 層次聚類127
6.2.6 EM 算法128
6.2.7 實際中的聚類要求136
6.3 Python 實戰137
6.3.1 K 均值聚類(KMeans) 138
6.3.2 密度聚類(DBSCAN) 143
6.3.3 層次聚類(AgglomerativeClustering) 146
6.3.4 混合高斯(GaussianMixture)模型149
6.4 小結153
第二篇 機器學習高級篇155
第7章 支持向量機 156
7.1 概述156
7.2 算法筆記精華157
7.2.1 線性可分支持向量機157
7.2.2 線性支持向量機162
7.2.3 非線性支持向量機166
7.2.4 支持向量回歸167
7.2.5 SVM 的優缺點170
7.3 Python 實戰170
7.3.1 線性分類SVM 171
7.3.2 非線性分類SVM 175
7.3.3 線性回歸SVR 182
7.3.4 非線性回歸SVR 186
第8章 人工神經網絡 192
8.1 概述192
8.2 算法筆記精華192
8.2.1 感知機模型192
8.2.2 感知機學習算法194
8.2.3 神經網絡197
8.3 Python 實戰205
8.3.1 感知機學習算法的原始形式205
8.3.2 感知機學習算法的對偶形式209
8.3.3 學習率與收斂速度212
8.3.4 感知機與線性不可分數據集213
8.3.5 多層神經網絡215
8.3.6 多層神經網絡與線性不可分數據集216
8.3.7 多層神經網絡的應用219
第9章 半監督學習 225
9.1 概述225
9.2 算法筆記精華226
9.2.1 生成式半監督學習方法226
9.2.2 圖半監督學習228
9.3 Python 實戰234
9.4 小結243
第10章 集成學習 244
10.1 概述244
10.2 算法筆記精華244
10.2.1 集成學習的原理及誤差244
10.2.2 Boosting 算法246
10.2.3 AdaBoost 算法246
10.2.4 AdaBoost 與加法模型252
10.2.5 提升樹253
10.2.6 Bagging 算法256
10.2.7 誤差-分歧分解257
10.2.8 多樣性增強259
10.3 Python 實戰260
10.3.1 AdaBoost 261
10.3.2 Gradient Tree Boosting 272
10.3.3 Random Forest 288
10.4 小結298
第三篇 機器學習工程篇299
第11章 數據預處理 300
11.1 概述300
11.2 算法筆記精華300
11.2.1 去除唯一屬性300
11.2.2 處理缺失值的三種方法301
11.2.3 常見的缺失值補全方法302
11.2.4 特征編碼307
11.2.5 數據標準化、正則化308
11.2.6 特征選擇310
11.2.7 稀疏表示和字典學習313
11.3 Python 實踐316
11.3.1 二元化316
11.3.2 獨熱碼317
11.3.3 標準化321
11.3.4 正則化325
11.3.5 過濾式特征選取326
11.3.6 包裹式特征選取330
11.3.7 嵌入式特征選取334
11.3.8 學習器流水線(Pipeline) 339
11.3.9 字典學習340
第12 章 模型評估、選擇與驗證 345
12.1 概述345
12.2 算法筆記精華346
12.2.1 損失函數和風險函數346
12.2.2 模型評估方法348
12.2.3 模型評估349
12.2.4 性能度量350
12.2.5 偏差方差分解356
12.3 Python 實踐357
12.3.1 損失函數357
12.3.2 數據集切分359
12.3.3 性能度量370
12.3.4 參數優化387
第四篇 Kaggle 實戰篇401
第13 章 Kaggle 牛刀小試 402
13.1 Kaggle 簡介402
13.2 清洗數據403
13.2.1 加載數據403
13.2.2 合并數據406
13.2.3 拆分數據407
13.2.4 去除唯一值408
13.2.5 數據類型轉換410
13.2.6 Data_Cleaner 類412
13.3 數據預處理415
13.3.1 獨熱碼編碼415
13.3.2 歸一化處理419
13.3.3 Data_Preprocesser 類421
13.4 學習曲線和驗證曲線424
13.4.1 程序說明424
13.4.2 運行結果430
13.5 參數優化433
13.6 小結435
全書符號 436
序: