-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

數據天才:數據科學家修煉之道

( 簡體 字)
作者:吳博,張曉峰,季春霖類別:1. -> 程式設計 -> 綜合
譯者:
出版社:電子工業出版社數據天才:數據科學家修煉之道 3dWoo書號: 46729
詢問書籍請說出此書號!

缺書
NT售價: 425

出版日:5/1/2017
頁數:356
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121308833
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

譯者序
本書最適合有志于在大數據與數據科學領域從業的人學習。格拉德威爾在《異類》一書中強調,“若要成為行業專家,離不開十萬小時的刻意學習(deliberate learning)”,這跟中國俗語里“板凳要坐十年冷”有些類似。但要實現刻意學習,就不能一味依賴通識科普書籍。在大數據與數據科學領域,市面上已不缺通識性的科普書籍,唯缺這類燒腦、有專業性、適合進行刻意學習的數據科學書籍。
本書不失專業性,但也不是令人生畏的大學教材。它處處體現理論與實踐的結合,還兼顧技術與商業的平衡。這要歸功于原作者Vincent是學術、技術、商業三棲高手。比如書中對于星空雙星的估算、隕石撞地球的建模推算,讓作者在數學奧賽方面的天分展現得淋漓盡致;在垃圾郵件、水印加密、點擊欺詐等案例中,作者又分享了諸多為大公司實施數據項目的經驗;在方案選擇、股市預測等場景中,作者更側重商業視角,幫讀者提升對數據科學方法投入/產出比及適用性的敏感度。
本書雖然專業度高,但也因為案例翔實、講求實際,適合其他行業或領域的人士閱讀。特別建議業務跟數據息息相關的企業負責人或高管,或者對數據相關項目感興趣的投資者品讀。畢竟數據科學家這一高層職位,跟企業負責人及高管的對接較多。雖說好的數據科學家,應具備與非技術人士溝通的能力,但作為數據科學家的領導,一旦多懂一些數據科學的思考模式及流程,便會對數據科學家有更多理解,也會對數據化的決策有更深的認識。
本書也傳遞出對行業熱詞的審慎態度。比如本書就對“大數據”的緣起、演變、更替、歷史、迷思和幻象,著墨不少。就像書中所說,大數據領域許多看似新的方法,可以追溯到二三十年前,如今的不少創新,實乃新瓶舊酒。想必讀者從Gartner的成熟度曲線里,可以看到大數據一詞已渡過巔峰、漸趨理性,與之相隨的,是跟數據科學息息相關的人工智能(AI)重新崛起。若理解本書的立場和價值取向,就知道人工智能60多年來幾起幾落,不少如今大放異彩的方法,也可找到前身。透過現象看本質,人工智能多少因為數據體量更大、數據分析更細、計算能力更強,才成為行業焦點。忽視基礎理論盲目追隨人工智能熱點無異于舍本逐末,認真和刻意學習數據科學及人工智能的基礎理論和實踐,方是正途。
正因為這本書內容如此之好,能滿足讀者所需,于是我痛快答應電子工業出版社付睿編輯的邀約來翻譯本書。但這個小想法變成最終成品,卻耗費不少人的時間和精力,對他們的感謝和虧欠不能盡錄。我最要鳴謝翻譯合作者光啟研究院的副院長季春霖博士,還有在哈工大深圳研究生院任教的張曉峰博士,兩位的研究和管理任務都很繁重,面對譯書這種流程漫長、成效滯后的工作,他們展現了學界出身的堅韌素養,而在翻譯校對本書的過程中,又處處體現出手不凡的專業功力。同時,也要感謝配合翻譯校對本書的助手和出版社工作人員,他們對我有莫大的包容和支持。本書準備期間,也正是我的一對小孩——泰學和雅學——從孕育到出生的過程,所以要感謝我的太太熊瑛,容許我為本書擠出不少本來可以陪伴家人的時間。
最后,我還要代表季春霖博士感謝廣東省自然科學杰出青年基金項目(No.S20120011253)和深圳市數據科學與建模技術重點實驗室的資助。也要感謝我所在的宜遠智能團隊,他們在將本書中許多數據科學方法實踐到醫療健康領域時,提出了諸多寶貴的翻譯修正補充建議。當然,對專業內容的翻譯,難在對作者見識的理解和原意的把握,所以總有力有不逮、不甚精確之處,請各位讀者和專家對此海涵,提出寶貴的建議。
本書譯者 吳博
前言
這是一本跟數據科學和數據科學家有關的“手冊”,它還包含傳統統計學、編程或計算機科學教科書中所沒有的信息。憑借作者在數據科學領域20多年的領導者地位,他在本書中收集了他認為對從事數據科學職業最重要的一些信息。在過去3年里,本書中的很多內容首先被發表在Data Science Central官網上,被數百萬的網站用戶所閱讀。本書介紹了數據科學與其他相關領域的差異,以及使用大數據能給組織帶來的價值。
本書有3個組成部分:一是多層次地討論數據科學是什么,以及數據科學涉及哪些其他學科;二是數據科學的技術應用層面,包括教程和案例研究;三是給正在從業和有抱負的數據科學家介紹一些職業資源。本書中有很多職業和培訓相關資源(如數據集、網絡爬蟲源代碼、數據視頻和如何編寫 API),所以借助本書,你現在就可以開始數據科學實踐,并快速地提升你的職業水平。如果你是一位決策者,你會在本書中找到一些信息,來幫助你建立更好的分析團隊,以及決定是否需要及何時需要專業的解決方案,以及哪些方案最為恰當。

這本書是寫給誰的
這本書是寫給數據科學家和相關專業人士的(如業務分析師、計算機科學家、軟件工程師、數據工程師和統計學家),以及有興趣轉投大數據科學事業的人。本書也是為學習定量課程、想成為數據科學家的大學生所準備的。最后,本書也可供數據科學家的上級領導、想創建數據科學初創公司開展業務或提供數據科學咨詢的人閱讀。
這些讀者將在本書中找到有價值的信息,特別是在以下幾章中。
?第2、4、5、6章對數據科學工作者特別有價值,因為它們包含大數據技術內容(如聚類和分類技術),以及前沿數據科學技術,如組合特征選擇、隱性決策樹、分析類API、判斷MapReduce何時有用等。這些章節里很多案例研究(如欺詐檢測、數字分析、股票市場策略和其他更多)的說明非常詳細,詳細到可以讓讀者在實際工作中面臨類似數據時,能沿用這些案例的分析方法。然而,它們的文字描述都很簡單,高層管理人員不用花太多時間在細節、代碼或公式上,也能閱讀下來。
?修讀計算機科學、數據科學或工商管理碩士課程的學生,會在第2、4、5、6章中找到對他們有用的信息。特別是在第2、4、5章,他們能從中找到進階內容,如實際的數據科學方法和原則,這些在一般的教科書或典型的大學課程里都沒有。第6章還介紹了現實生活應用和案例研究,并包含更深入的技術細節。
?求職者將會在第3章中找到有關數據科學的培訓和課程資源。第7、8章為求職者提供了大量的資源,包括面試問題、簡歷模板、招聘廣告樣板,經常招聘數據科學家的公司的清單,以及薪資調查等。
?對于想要創建一個數據科學創業公司或顧問公司的企業家,在第3章中會找到商業計劃書樣板、創業公司點子和針對顧問職位的薪酬調查。同時,在本書中,數據顧問會了解如何提高數據科學工作溝通效率,掌握數據科學項目的生命周期,并得到相關書籍、會議參考和許多其他資源。
?對于試圖評估數據科學的價值和它們對企業項目的益處,以及評估MapReduce架構何時有用的高管們,會在第1、2、6(案例部分)、8章(招聘廣告樣板、簡歷、薪金調查)中找到有價值的信息。這些章節的重點通常不是技術。頂多會在第2章和第6章介紹一些新的分析技術。
這本書涵蓋了什么
本書的技術部分包括數據科學的核心內容,比如:
?將大數據和傳統的算法應用到大數據時的挑戰(例如在進行大數據聚類或分類時的解決方案)。
?一種統計科學上新穎、簡化、對數據科學友好的方法,重點在于它是一種健壯的無模型方法。
?頂尖的機器學習方法(隱性決策樹和組合特征選擇)。
?新型數據的新指標(綜合指標、預測能力、波動系數)。
?創建快速算法所需的計算機科學要素。
?MapReduce和Hadoop,以及Hadoop進行計算時的數值穩定性。
重點還是最新的技術。在本書中你不會找到關于舊技術的資料介紹,如線性回歸(除非在引文里涉及),因為這些在經典書籍里已經討論了很多。在本書中,對邏輯回歸類的知識討論不多。我們只是將邏輯回歸與其他分類器混合,提出一種數值穩定的近似算法(近似的解決方案往往和精確模型一樣有效,畢竟沒有任何數據完全符合理論模型)。
除了技術,本書還提供了有用的工作資源,包括工作面試的相關問題、簡歷模板和招聘廣告樣板。本書的另一個重要組成部分是案例研究。本書的案例研究,有些帶有統計或機器學習的意味,有些則跟商業或決策科學或運籌學有關,有些則關乎數據工程。大多數時候,我喜歡Data Science Central(這是個數據科學家的領先社區)上最新發表和非常熱門的主題,而不是我特別重視的話題。
本書是如何架構的
本書由三大主題構成。
?數據科學和大數據是什么和不是什么,以及與其他學科的區別(第1、2、3章)。
?職業和培訓資源(第3章和第8章)。
?用作教程的技術材料(第4章和第5章,以及第2章中關于大規模數據集聚類和分類的內容,第8章中關于Hadoop 的新變化和大數據的內容),以及案例研究(第6章和第7章)。
本書為潛在的和現有的數據科學家和相關專業人員(以及他們的管理者和老板)提供了寶貴的職業資源。寬泛而言,本書適用于所有處理更大、更復雜、更新、頻率更快的數據的專業人士。本書還提供一些數據科學的秘訣、技巧、概念(其中許多是原創和首次公開的)、帶實施方法和技術的案例研究,以及已經在不同領域,不論是手動還是自動,能成功分析現代數據的技術。
如果你有一兩年大學基本定量課程的知識基礎,就足以理解書中大多數內容。本書不需要微積分或高等數學的相關知識——事實上,它幾乎不包含任何數學公式或符號。
然而,本書也包含一些高度概括性的進階材料。本書中的一些技術講義,是針對那些對數學更有傾向和有興趣深入挖掘的讀者。有兩年大學微積分、統計學和矩陣理論知識的讀者,將能更好地理解這些技術細節。本書提供了一些源代碼(R、Perl)和數據集,但本書的重點不是編碼。
本書通過多種技術水平混合的介紹方式,讓你不用具備高級數學知識,也有機會深度探索數據科學(這有點像 Carl Sagan 向主流公眾介紹天文學的方式)。
慣例標記
為了幫助你從本書中學到最多的東西,而不是一頭霧水,我們將在本書中使用慣例標記。
注意 本書中的注意、提示、交叉參考,以及對當前討論的輔助說明,將像這個注意的方式顯示。
至于文本的樣式標記如下。
?當我們介紹術語和重要的詞時,我們會用楷體突出它們。
?快捷鍵用這種方式表示:Ctrl+A。
?我們在書中顯示文件名、鏈接和代碼的格式如下。
persistence.properties
?我們介紹代碼的格式如下。
對于大多數代碼, 我們使用Courier New字體,不加粗。
致謝
我要感謝來自Wiley的Chris Haviland和Carol Long,他們對本書的出版有很大的貢獻,承擔了不少風險,他們把我很多有價值、分散未經組織的在線文章,整合成一本連貫、全面和有用的書。從許多方面來看,這個復雜的過程類似于將非結構化數據轉化為結構化數據,這是許多數據科學家經常面對的常規挑戰,而這本書也正好提供了將非結構化數據轉化為結構化數據的解決方案。同時,我要感謝我的商業伙伴和共同創始人 Tim Matteson,他幫助Data Science Central這個網站成為數據科學社區的領導者,還變成了一個現代的、專注于產生價值的創業項目。最后,我要感謝我們社區的所有成員,感謝他們的評論和支持。如果沒有他們的幫忙,本書也無法出版。
內容簡介:

這是一本跟數據科學和數據科學家有關的“手冊”,它還包含傳統統計學、編程或計算機科學教科書中所沒有的信息。 本書有3個組成部分:一是多層次地討論數據科學是什么,以及數據科學涉及哪些其他學科;二是數據科學的技術應用層面,包括教程和案例研究;三是給正在從業和有抱負的數據科學家介紹一些職業資源。本書中有很多職業和培訓相關資源(如數據集、網絡爬蟲源代碼、數據視頻和如何編寫API),所以借助本書,你現在就可以開始數據科學實踐,并快速地提升你的職業水平。

目錄:

第1章 數據科學是什么 1
真偽數據科學對比 2
偽數據科學的兩個例子 5
新大學的面貌 7
數據科學家 10
數據科學家與數據工程師 10
數據科學家與統計學家 12
數據科學家與業務分析師 13
13個真實世界情景中的數據科學應用 14
情景1:國家對烈性酒銷售的壟斷結束后,DUI(酒后駕駛)逮捕量減少 15
情景2:數據科學與直覺 17
情景3:數據故障將數據變成亂碼 19
情景4:異常空間的回歸 21
情景5:分析與誘導在提升銷量上有何不同價值 22
情景6:關于隱藏數據 24
情景7:汽油中的鉛會導致高犯罪率。真的嗎 25
情景8:波音787(夢幻客機)問題 26
情景9:NLP的7個棘手句子 27
情景10:數據科學家決定著我們所吃的食品 28
情景11:用較好的相關性增加亞馬遜的銷售量 30
情景12:檢測Facebook上的假檔案或假“喜歡”數 32
情景13:餐廳的分析 33
數據科學的歷史、開拓者和現代趨勢 33
統計學將會復興 34
歷史與開拓者 36
現代的趨勢 38
最近的問答討論 40
總結 44
第2章 大數據的獨特性 45
兩個大數據的問題 45
大數據“詛咒” 45
數據快速流動問題 50
大數據技術示例 56
大數據問題是數據科學所面臨挑戰的縮影 56
大規模數據集的聚類和分類 58
1億行的Excel 63
MapReduce不能做什么 67
問題 67
3種解決方案 68
結論:何時使用MapReduce 69
溝通問題 70
數據科學:統計學的終結 72
8種最差的預測建模技術 72
把計算機科學、統計學和行業專業知識結合在一起 74
大數據生態系統 78
總結 79
第3章 成為一名數據科學家 80
數據科學家的主要特征 80
數據科學家的職能 80
橫向與縱向數據科學家 83
數據科學家的類型 86
偽數據科學家 86
自學成才的數據科學家 86
業余數據科學家 87
極限數據科學家 89
數據科學家人群特征 90
數據科學方面的培訓 91
大學課程 91
公司和協會培訓項目 95
免費培訓項目 96
數據科學家職業道路 98
獨立顧問 98
創業者 105
總結 118
第4章 數據科學的技術(I) 119
新型指標 120
優化數字營銷活動的指標 121
欺詐檢測的指標 122
選擇合適的分析工具 124
分析軟件 124
可視化工具 125
實時產品 126
編程語言 128
可視化 128
用R生成數據視頻 129
更復雜的視頻 133
無模型的統計建模 134
無模型的統計建模是什么 135
該算法是如何工作的 135
源代碼生成數據集 137
三類指標:中心性、波動性、顛簸性 137
中心性、波動性和顛簸性之間的關系 138
定義顛簸性 138
在Excel中計算顛簸性 139
使用顛簸系數 141
大數據的統計聚類 141
大數據的相關性和擬合度 143
一系列新的秩相關性 146
漸近分布與歸一化 148
計算復雜度 152
計算q(n) 152
理論上的解決方案 155
結構系數 156
確定簇的數量 157
方法 157
例子 158
網絡拓撲映射 159
安全通信:數據加密 163
總結 166
第5章 數據科學的技術(II) 167
數據字典 168
什么是數據字典 168
建立數據字典 169
隱性決策樹 169
實現方法 171
示例:互聯網流量打分 173
結論 175
與模型無關的置信區間 175
方法 175
分析橋第一定理 176
應用 177
源代碼 178
隨機數 179
解決問題的4個辦法 181
擁有超強直覺能力的業務分析師的直觀法 182
軟件工程師的蒙特卡洛模擬法 182
統計學家的統計建模方法 183
計算機科學家的大數據方法 183
因果關系和相關性 183
怎樣檢測因果關系 184
數據科學項目的生命周期 186
預測模型的錯誤 189
邏輯相關回歸 191
變量之間的相互作用 191
一階近似 191
二階近似 193
用Excel進行回歸分析 195
實驗設計 196
有趣的指標 196
把患者分成不同的人群進行治療 196
私人定制的治療 197
分析即服務和應用程序接口 198
工作原理 199
實施案例 199
關鍵詞相關的API的源代碼 200
其他主題 204
當數據庫改變時,保存好數值 204
優化網絡爬蟲 205
哈希連接 206
用于模擬簇的簡單源代碼 207
Hadoop和大數據的新型合成方差 208
Hadoop和MapReduce的介紹 208
綜合指標 209
Hadoop、數值的和統計的穩定性 210
方差的抽象概念 211
一個新的大數據定理 213
平移不變性的度量標準 214
實現:通信和計算成本 214
最終意見 215
總結 215
第6章 數據科學應用案例研究 217
股票市場 217
使回報率提高500%的模式 217
優化統計交易策略 220
股票交易的API:統計模型 222
股票交易的API:具體實現 225
股票市場模擬 226
些許數學知識 229
新趨勢 231
加密 232
數據科學應用:隱寫術 232
好的電子郵件加密 236
驗證碼破解 239
欺詐檢測 240
點擊欺詐 241
連續點擊評分與二進制欺詐/非欺詐 242
數學模型與基準 244
虛假轉化產生的偏差 245
一些誤解 246
統計面臨的挑戰 246
點擊評分優化關鍵詞出價 247
組合優化自動快速的特征選擇 249
特征的預測能力:交叉驗證 250
勾連檢測和僵尸網絡的關聯規則檢測 254
模式檢測的極值理論 255
數字分析 256
在線廣告:到達率和頻率的計算公式 256
電子郵件營銷:提高300%的性能 257
在7天內優化關鍵詞廣告宣傳活動 258
自動新聞提要優化 260
用bit.ly進行競爭情報分析 261
測量 Twitter 哈希標簽(hashtag)的收益 263
用3個修補方法提升谷歌搜索 267
改進相關性的算法 270
廣告循環問題 272
雜項 273
簡單模型會獲得更好的銷售預測 273
更好的醫療欺詐檢測 275
歸因模型 276
預測隕石撞擊 277
在路口停車場收集數據 281
數據科學的其他應用 282
總結 282
第7章 踏上你的數據科學職業之路 283
面試問題 283
關于工作經驗的問題 283
技術問題 285
一般性問題 286
關于數據科學項目的問題 288
測試你自己的視覺和分析思維 291
通過肉眼的檢測模式 292
識別偏差 294
誤導性的時間序列和隨機游走 295
從統計學家到數據科學家 296
數據科學家也是統計從業人員 297
誰應該給數據科學家教統計學 298
雇傭問題 298
數據科學家與數據架構師密切合作 299
誰應該參與戰略思考 299
兩種類型的統計學家 300
大數據與取樣 301
數據科學家的分類 302
數據科學最流行的技能集合 302
LinkedIn上的頂級數據科學家 306
400個數據科學家職位頭銜 309
薪酬調查 311
根據技能和位置的薪酬分類 312
創建自己的薪酬調查表 316
總結 317
第8章 數據科學資源 318
專業資源 318
數據集 318
書籍 319
會議與組織 322
網站 324
概念定義 324
職業建設資源 327
招聘數據科學家的公司 328
數據科學招聘廣告的樣本 329
簡歷樣本 329
總結 331
序: