-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

套路!機器學習:北美數據科學家的私房課

( 簡體 字)
作者:林薈類別:1. -> 程式設計 -> 機器學習
譯者:
出版社:電子工業出版社套路!機器學習:北美數據科學家的私房課 3dWoo書號: 47739
詢問書籍請說出此書號!

缺書
NT售價: 340

出版日:10/1/2017
頁數:332
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121326585
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

作者自序
首先,感謝你翻開這本書!
這是一本什么書?
這是一本關于數據的科學和藝術的書。書中介紹了數據科學這個行業、數據科學家需要的技能,以及“分析哲學”。書中對最常用、最有效的模型進行了展開。數據科學這個行業的本質是通過分析數據解決實際問題,所以本書很看重讀者能夠真正將書中介紹的知識付諸實踐。書中的數據全部都是公開的,書中的代碼,建模過程都可以重復。一切不能重復的分析都是耍流氓!
為什么寫這本書?
當前關于大數據、人工智能的炒作著實令人眼花繚亂,如大數據平臺(如Hadoop、Spark),以及一些黑箱模型(如神經網絡,深度學習“實際上就是多層神經網絡”)。各路媒體和“磚家”深諳吃瓜群眾不明覺厲的心態,所以就像個妓院頭牌似的越發擺譜。曾經的我也是吃瓜群眾中的一員,妥妥地迷失在這信息時代造成的漫天泡沫中,仿佛卡在一扇旋轉門里,轉了很久不知道去哪。了解一件事情最有效的方法就是實踐。很幸運的是,在過去的4年里,我主導了大大小小各種分析項目。正是這些實踐經驗造就了這本書。我并沒有打算寫一本數據科學的圣經,告訴你所有關于數據科學的一切。只想盡我所能地給大家還原一個真實的數據科學和數據科學家。希望能為后來者提供一些信息,使得你們能夠少走彎路。
為什么學習數據科學?
這個問題的答案因人而異。從事某個行業和同某人結婚一樣,都有很大的隨機性和主觀性。所以下面只是我個人喜歡這個行業的理由。
1. 我把數據科學家定義為匠人。個人很享受作為一個匠人,統帥三軍之能不如薄技在身。當你相信自己在某些領域有專長并且因此產生自我價值感時,就會有激情。激情是有吸引力的,就像愛一樣,這是一種值得為之奮斗的感覺。
2. 這個世界上的手藝很多,為什么我做的是數據科學?因為我覺得數據科學這門手藝能夠幫你培養在當今信息海嘯中獨善其身的技能——獨立思考的能力。用數據進行決策能夠讓你看問題更清晰,有邏輯,理性客觀。這種能力不是只有數據分析師才需要掌握的,理性思考是貫穿很多人一生的必修課,尤其是在互聯網時代,通過理性思考甄別過濾信息比之前任何時候都重要。此外,人的大腦是有連貫性的,已經習得某項技能的人,再學另外一項技能的時候,學得會比上一次快一些,因為學習經驗在起作用。而若是習得的基礎知識是可積累、可擴展的,那么隨后可能習得的技能可變現價值就會越來越高。通過數據分析進行決策就是一門可擴展性極高的技能,幾乎可以擴展到這個數據時代的方方面面,而且隨著社會的數據化趨勢,這種可擴展性產生的“復利效應”將越來越大——有著可怕的潛力。
3. 數據科學是美的,美只有愛知道,所以熱愛是選擇這個行業的主要理由。不知道從什么時候開始,中國互聯網上開始流傳一句話:生活不止眼前的茍且,還有詩和遠方。其實問題不在于缺少詩和遠方,而在于你以為眼前的是茍且。如果你熱愛自己當前所做的事情,那就是詩,就是遠方。如果你不熱愛自己所做的事情,在你找到自己真正熱愛的事情之前,到哪里都是茍且。我希望閱讀這本書的所有人都能夠在數據分析中找到樂趣。歸根結底,快樂并不是什么深奧的事情,無非是貓吃魚,狗吃肉,奧特曼打小怪獸。
最后,感謝父母的愛和支持,感謝你們幫助我找到自己熱愛的東西。感謝Scott Iverson,他是我在市場營銷領域的導師,沒有他,我無法將數據科學很好地應用于市場營銷。感謝王正林以及所有為本書出版做出努力的人,沒有你們就沒有本書的問世。再次感謝你選擇本書!


前 言


數據科學家目前是北美最熱門的職業之一,平均年薪突破10萬美元。但數據科學并不是一個低門檻的行業,除了對數學、統計、計算機等相關學科技術的要求以外,還需要相關應用領域的知識。這個職業聽起來很酷,但如果你對數據分析沒有興趣的話,你也會覺得這個行業很苦。這里我默認本書的讀者都至少是對這個行業有興趣和激情的。本書的寫作對象是那些現在從事數據分析相關行業,或者之后想從事數據分析行業的人,意在為實踐者提供數據科學家這門職業的相關信息。讀者可以從閱讀中了解到數據科學家需要的技能,及背后的“分析哲學”。書中會對部分最常用,有效的模型加以展開。關于模型技術部分,我希望讀者有初步統計知識,最好知道線性回歸。
數據科學家這個行業的本質是應用。市面上有很多文章、出版物介紹各種數據模型,大多數此類書籍并不能讓讀者重復書中所述的分析過程,對于書中介紹的知識,讀者真正實踐起來會遇到很多困難。本書著重在于數據科學的實際應用,讓讀者能夠重復書中的結果,這也用到了統計軟件R的自動化報告功能。可能有讀者會問,為什么要可重復?根據個人經驗,學習數據分析技能最好的方式是實踐:動手重復分析的過程,檢查分析結果,發現問題后再去查詢相關模型的背景技術知識。這一過程得到的學習效果遠遠超過死磕一本大部頭的技術理論書籍,但磕了一年之后發現碰到實際問題不知道該用什么工具實踐這些書中講到的模型方法。而且對于新手而言,一開始就直奔艱深的理論,很容易因為困難而失去興趣最終放棄。本書倡導的是一種循序漸進的啟發性教學路徑,從實際問題入手,抽絲剝繭進入技術內核。
本書主要部分將避免過多的數學公式,但難免有例外。我們在一些地方提到方法背后的技術細節是為了幫助讀者理解模型的長處和弱點,而非單純地介紹數理統計知識。這并不意味著這些數理背景知識不重要,相反盡可能多地了解模型背后的數學很重要且有意義,為了平衡理論和應用,我們會在有的章中加一些選學小節,用來介紹更多的模型數理背景或給出必要的參考資料來源,如果不感興趣的讀者可以跳過這些小節,不會影響本書主要部分的閱讀。書中的每一章都只是冰山一角,我并不試圖徹底地介紹模型,而是選擇性地解釋其中部分我覺得重要的地方。我會盡量將想要強調的概念和內容在分析數據的過程中體現出來,而不僅僅是數學公式符號表達。想要成為數據科學家,僅靠閱讀本書是遠遠不夠的,讀者需要進一步查閱書中提到的參考資料,或者選修相關課程。
隨著計算機科學的發展,不僅收集存儲的數據增加了,分析數據的軟件包也不斷推陳出新,這極大地降低了應用統計學習方法的壁壘。現在不管會建模的不會建模的,大都聽過線性回歸,這個經典統計模型可追根溯源至19世紀Legendre和Gauss發表的若干關于最小二乘的論文。現在你要通過最小二乘擬合一個線性模型那是就動動指頭兩秒鐘的事情。可在那個計算器都沒有的時代,能優化誤差平方和這樣的東西的大牛都會被認為是火星人。那個年代美國憲法規定每十年必須進行一次人口普查,1880年排山倒海的普查資料花了8年時間處理分析,一個名叫Herman Hollerith的品學兼優的美國少年跳出來,在1890年發明了一種排序機,利用打孔卡儲存資料,再由機器感測卡片,協助人口調查局對統計資料進行自動化制表,結果不出3年就完成了人口普查工作,Herman同學也順帶用這個發明拿個了工程學博士學位。你可能要問,計算能力這么落后那這伙數學家搗鼓出來的方法誰用?天文學家用。線性模型最早用在天文學研究中。研究中使用統計方法的,那時絕對是小眾邊緣群體,全都可以貼上火星制造的標簽。然后盼星星盼月亮我們終于在1912年6月等到了圖靈,如圖1所示這個天才的降臨。

圖1
若不是圖靈這個孩子被性取向拖了后腿,數據科學家這個行業早幾十年可能就火了。當然,統計泰斗們也沒有閑著,Fisher在1936年提出了線性判別分析。在20世紀40年代,又一家喻戶曉的經典統計模型——邏輯回歸——問世了!在20世紀70年代早期,Nelder和Wedderburn發明了廣義線性模型這個詞,這是一個更大的統計模型框架,它將隨機分布函數和系統效應(非隨機效應)通過一個連接函數(link function)連起來,之前的線性模型和邏輯回歸都是該框架下的特例。到70年代末,可以用來分析數據的方法已經有好些了,但這些方法幾乎都是線性模型,因為在那時,擬合非線性關系的計算量相對當時的計算機水平來說還是太大了。等到80年代,計算機技術終于發展到可以使用非線性模型了。Breiman, Fridman, Olshen和Stone提出了分類回歸樹。隨后的一些機器學習方法進一步豐富了數據科學家可以使用的工具集。計算機軟件的飛速發展使得這些方法模型得以應用在更加廣泛的領域,應用涵蓋了商業、健康、基因、社會心理學研究和政策分析,等等。數據科學家這個行業隨著數據量的增加和分析軟件的進步不斷地向前發展。
關于分析軟件,本書使用R。選擇R語言的原因如下:
1. R免費,且可以在不同操作系統上使用。
2. R開源、可擴展:它在通用公共許可(General Public License)下發行,在此構架下任何人可以檢查修改源程序。并且R語言含有很多最新的模型。
3. R有強大圖形可視化和自動化報告功能。
4. 筆者10年使用R的經驗證明:無論在學術還是業界,這都是非常有效的工具。
網上有大量的R入門教程,關于用R進行數據分析的書也有好些,所以這里就不重復造輪子了,不熟悉R語言的讀者可以先學習相關資料,這里我假設讀者已經有一定的R語言基礎。
本書布局如下,先介紹數據科學家這個行業的“分析哲學”和數據分析的一般流程。這是非技術的部分,但對于從業者來說非常重要,它幫助你對這個職業設定一個合理的預期。其中會討論數據科學家需要的技能。之后的章節會對這里提到的部分我覺得重要的技能進一步展開討論,由于篇幅所限,不可能詳細討論開始這幾章中提到的所有技能。隨后開始進入技術部分,講分析環節的第一步——數據預處理,這一步雖然不是正式建模,但卻是整個分析過程中最耗時的一個環節。這步沒有到位將嚴重影響模型質量。也正是因為預處理重要,所以單獨作為一個章節,沒有和章其他建模技術合并起來。第6章“基礎建模技術”介紹的是一些在建模過程中需要的輔助性的技術以及建模需要注意的問題。之后正式介紹各種筆者在從業過程中經常用到的模型。
本書用來展示模型的數據大部分是通過R得到的模擬數據集。為什么用模擬數據而不是真實數據呢?原因如下:
1. 你可以控制數據生成過程,免去了傳輸下載數據的麻煩。
2. 你可以根據需要改變生成數據的代碼,得到新的數據,觀察數據變化對模型結果的影響。
3. 對于自己創建的數據,我們知道數據要表達的真實信息,那么就可以評估分析使用的模型的準確性,然后再用于真實數據。
4. 可以通過使用模擬數據在拿到真實數據前準備好代碼模板,這樣,當你有真實數據時就可以迅速進行分析。
5. 通過重復數據模擬的過程可以加深對模型假設的理解。
同一章后面的代碼通常建立在之前代碼上,但每章的代碼自成系統,也就是說你不需要以其他章節代碼運行結果為前提重復某章的代碼。有一定R語言基礎的讀者可以通過學習生成數據的代碼了解數據的結構以及模型假設。R語言的新手學習這些代碼可能會覺得太困難,沒有關系,你們可以跳過生成數據的細節,只需要了解數據的語境,都有哪些變量以及變量類型。你可以直接從網站上讀取這些數據。書中的代碼和數據可以在這個github頁面上找到
現在開始我們的旅程吧!
內容簡介:

數據科學家目前是北美最熱門的職業之一,平均年薪突破10萬美元。但數據科學并不是一個低門檻的行業,除了對數學、統計、計算機等相關領域的技術要求以外,還要相關應用領域的知識。本書的寫作對象是那些現在從事數據分析相關行業,或者之后想從事數據分析行業的人,意在為實踐者提供數據科學家這門職業的相關信息。讀者可以從閱讀中了解到數據科學能解決的問題,數據科學家需要的技能,及背后的“分析哲學”。對于新手而言,一開始就直奔艱深的理論,很容易因為困難而失去興趣最終放棄。因此本書倡導的是一種循序漸進的啟發教學路徑,著重在于數據科學的實際應用,讓讀者能夠重復書中的結果,學習數據分析技能最好的方式是實踐!為了平衡理論和應用,書中包括了一些選學小節,用來介紹更多的模型數理背景或給出必要的參考資料來源。抽絲剝繭介紹技術內核,幫助大家知其然,同時知其所以然。希望筆者在北美從事數據科學工作多年踏遍大大小小不計其數的坑換來的經驗,能夠幫助讀者更加順利地成為數據科學家!

目錄:

第1章 白話數據科學 1
1.1 什么是數據科學 3
1.2 什么是數據科學家 5
1.2.1 數據科學家需要的技能 6
1.2.2 數據科學算法總結 10
1.3 數據科學可以解決什么問題 20
1.3.1 前提要求 20
1.3.2 問題種類 22
1.4 小結 25
第2章 數據集 26
2.1 服裝消費者數據 26
2.2 航空公司滿意度調查 33
2.3 生豬疫情風險預測數據 37
第3章 數據分析流程 41
3.1 從問題到數據 42
3.2 從數據到信息 44
3.3 從信息到行動 46
第4章 數據預處理 47
4.1 介紹 47
4.2 數據清理 50
4.3 缺失值填補 52
4.3.1 中位數或眾數填補 53
4.3.2 K-近鄰填補 54
4.3.3 裝袋樹填補 56
4.4 中心化和標量化 56
4.5 有偏分布 59
4.6 處理離群點 63
4.7 共線性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結 73
第5章 數據操作 75
5.1 數據讀寫 76
5.1.1 取代傳統數據框的tibble對象 76
5.1.2 高效數據讀寫:readr包 80
5.1.3 數據表對象讀取 83
5.2 數據整合 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數 93
5.2.3 dplyr包 96
5.3 數據整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結 107
第6章 基礎建模技術 109
6.1 有監督和無監督 109
6.2 誤差及其來源 111
6.2.1 系統誤差和隨機誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數據劃分和再抽樣 122
6.3.1 劃分訓練集和測試集 123
6.3.2 重抽樣 131
6.4 小結 135
第7章 模型評估度量 136
7.1 回歸模型評估度量 136
7.2 分類模型評估度量 139
7.2.1 Kappa統計量 141
7.2.2 ROC曲線 143
7.2.3 提升圖 145
7.3 小結 146
第8章 特征工程 148
8.1 特征構建 149
8.2 特征提取 152
8.2.1 初步探索特征 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標度化 167
8.2.5 知識擴展:3種降維特征提取方法的理論 171
8.3 特征選擇 177
8.3.1 過濾法 178
8.3.2 繞封法 188
8.4 小結 195
第9章 線性回歸及其衍生 196
9.1 普通線性回歸 197
9.1.1 最小二乘線性模型 197
9.1.2 回歸診斷 201
9.1.3 離群點、高杠桿點和強影響點 204
9.2 收縮方法 205
9.2.1 嶺回歸 205
9.2.2 Lasso 209
9.2.3 彈性網絡 212
9.3 知識擴展:LASSO的變量選擇功能 213
9.4 主成分和偏最小二乘回歸 215
9.5 小結 221
第10章 廣義線性模型壓縮方法 222
10.1 初識GLMNET 223
10.2 收縮線性回歸 227
10.3 邏輯回歸 235
10.3.1 普通邏輯回歸 235
10.3.2 收縮邏輯回歸 236
10.3.3 知識擴展:群組lasso邏輯回歸 239
10.4 收縮多項回歸 243
10.5 泊松收縮回歸 246
10.6 小結 249
第11章 樹模型 250
11.1 分裂準則 252
11.2 樹的修剪 256
11.3 回歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨機森林 273
11.6 助推法 277
11.7 知識擴展:助推法的可加模型框架 283
11.8 知識擴展:助推樹的數學框架 286
11.8.1 數學表達 286
11.8.2 梯度助推數值優化 289
11.9 小結 290
第12章 神經網絡 292
12.1 投影尋蹤回歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經網絡(NEURAL NETWORKS) 296
12.3 神經網絡擬合 299
12.4 訓練神經網絡 300
12.5 用CARET包訓練神經網絡 302
12.6 小結 311
參考文獻 312
序: