3dwoo大學簡體電腦書店
Python絕技:運用Python成為頂級數據工程師
( 簡體 字)
作者:黃文青類別:1. -> 程式設計 -> Python
出版社:電子工業出版社Python絕技:運用Python成為頂級數據工程師 3dWoo書號: 49134
詢問書籍請說出此書號!
有庫存
NT售價: 395
出版日:5/1/2018
頁數:212
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121336546 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
1 概述 / 1
1.1 何為數據工程師 / 1
1.2 數據分析的流程 / 3
1.3 數據分析的工具 / 11
1.4 大數據的思與辨 / 14
2 關于Python / 17
2.1 為什么是Python / 17
2.2 常用基礎庫 / 19
2.2.1 Numpy / 19
2.2.2 Pandas / 26
2.2.3 Scipy / 37
2.2.4 Matplotlib / 38
3 基礎分析 / 43
3.1 場景分析與建模策略 / 43
3.1.1 統計量 / 43
3.1.2 概率分布 / 48
3.2 實例講解 / 55
3.2.1 誰的成績更優秀 / 55
3.2.2 應該庫存多少水果 / 57
4 數據挖掘 / 60
4.1 場景分析與建模策略 / 60
4.1.1 分類 / 61
4.1.2 聚類 / 76
4.1.3 回歸 / 86
4.1.4 關聯規則 / 90
4.2 數據挖掘的重要概念 / 93
4.2.1 數據預處理 / 93
4.2.2 評估與驗證 /97
4.2.3 Bagging 與Adaboost / 99
4.2.4 梯度下降與牛頓法 / 102
4.3 實例講解 /105
4.3.1 信用卡欺詐監測 / 105
4.3.2 員工離職預判 /110
5 深度學習/ 114
5.1 場景分析與建模策略 / 115
5.1.1 感知機 / 115
5.1.2 自編碼器 / 119
5.1.3 限制玻爾茲曼機 /123
5.1.4 深度信念神經網絡 / 127
5.1.5 卷積神經網絡 / 129
5.2 人工智能應用概況 / 137
5.2.1 深度學習的歷史 /137
5.2.2 人工智能的杰作 / 140
5.3 實例講解 / 146
5.3.1 學習識別手寫數字 / 146
5.3.2 讓機器認識一只貓 / 151
6 大數據分析 / 160
6.1 常用組件介紹 / 160
6.1.1 數據傳輸 / 165
6.1.3 數據計算 / 174
6.1.4 數據展示 / 180
6.2 大數據處理架構 / 188
6.2.1 Lambda 架構 / 189
6.2.2 Kappa 架構 / 192
6.2.3 ELK 架構 / 193
6.3 項目設計 / 194
參考文獻 / 202
僅僅會Python編程是不夠的。想成為一名優秀的數據分析工程師,還需要有全方位、透徹理解問題本質的能力,善于把實際的工作任務拆解成準確的數據問題,并運用相關的知識來解決。本書恰好是從這個角度出發的,它條分縷析地幫助你認識任務的本質,教你從數據的角度來思考、拆解任務,并最終順利地達成目標。

數據分析、數據挖掘、深度學習及云計算,是當前最熱門的技術領域。1830年前后,Gauss、Legendre 等數學家奠基了數據分析的基礎理論;1943 年,心理學家Warren McCulloch 和數理邏輯學家Walter Pitts 首次提出神經網絡;19 世紀80 年代,Hinton、Yann LeCun 等人提出BP 算法及卷積神經網絡;2006 年,深度置信網絡研究成果發表。至此,數據建模理論研究的宏觀大廈已初見雛形。
歷史是如此的巧合,正當需要海量數據集和工程技術方案來處理數據時,云計算應運而生。2003 年,谷歌發表關于Google File System、Google Bigtable 及MapReduce 三篇論文,讓大數據處理技術風靡全球。以此為基礎,2010 年前后,整個云計算的概念及技術體系已經非常完善了。
數據理論的完善、工程技術的發展與無數創意的結合,使得2010 年以后,整個人類社會進入了“數據時代”。無論是精細化運營,還是人工智能產品,對數據的應用無處不在;無論是政府機構,還是私有的大、中、小型企業,使用數據的熱情都達到空前的高度。
2014 年,我加入百度公司,從事大數據處理及數據建模等相關工作。回首過往,在該領域的幾年中,我經歷了云計算從霧里看花到如今的方興未艾;人工智能的初現端倪到如今的高潮迭起。作為一名前線的數據工程師, 我深刻認識到,對我及大多數工程師而言,既無法像Jeff Dean 等一樣提出經典的大數據計算模型;也無法像Hinton、Yann LeCun 一樣提出具有深遠影響的建模算法。我們所要做的,就是學習與汲取當前的理論與技術,結合應用領域,實現工程應用。這也是我寫本書的初衷,希望能從宏觀框架上梳理已有的數據分析理論與工程實施技術,并搭建相對系統的知識體系;同時,闡述工作實踐中遇到的問題及解決的思路。
Python 簡潔易懂的語法、豐富的類庫、與大數據組件的無縫集成等諸多特點,使其成為數據工程師的首選編程語言。當然,只是掌握Python 還完全不足以成為頂級數據工程師,因此,本書介紹數據處理知識體系,并以Python 實現相關代碼示例,力求讓讀者能使用Python 完成數據處理的各個環節。
本書的第1 章和第2 章,簡要說明了數據處理領域的基本概念,旨在讓讀者對數據處理工作有宏觀的了解。第3 章~第5 章,主要講述數據分析理論。筆者按照難易程度,將其劃分成三個部分,即基礎分析、數據挖掘和深度學習。第6章針對大數據分析,介紹了在工程實施過程中需要用到的工程組件和架構模式,并以一個具體的案例說明整個數據工程的實施流程。
本書適合以下讀者閱讀:① 對人工智能和云計算感興趣的讀者;② 剛進入數據處理領域的IT 工程師;③ 希望從宏觀上梳理數據處理知識體系的讀者;④ 用Excel、SPSS、Python 做過數據分析的數據分析師;⑤ 應用過HDFS、Kafka等大數據組件的IT 工程師。
本書能夠完稿,得益于外界諸多的幫助與指導。感謝數據領域的先驅者Geoffrey Hinton、Yann LeCun、Jeff Dean 等,他們的著作是數據時代最重要的理論依據;感謝在百度工作中遇到楊振宇、李華青、王珉然、陳合等許多優秀的同事和領導,在和他們一起試錯、交流的過程中,讓我取得巨大的進步;感謝本書的編輯劉皎,在她不厭其煩地督促下,本書才從凌亂的只言片語中編輯成書;特別感謝女友孫萬興,在本書的撰寫過程中給予的諒解與支持。
pagetop