Python絕技:運用Python成為頂級數據工程師 ( 簡體 字) |
作者:黃文青 | 類別:1. -> 程式設計 -> Python |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 49134 詢問書籍請說出此書號!【有庫存】 NT售價: 395 元 |
出版日:5/1/2018 |
頁數:212 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121336546 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:數據分析、數據挖掘、深度學習及云計算,是當前最熱門的技術領域。1830年前后,Gauss、Legendre 等數學家奠基了數據分析的基礎理論;1943 年,心理學家Warren McCulloch 和數理邏輯學家Walter Pitts 首次提出神經網絡;19 世紀80 年代,Hinton、Yann LeCun 等人提出BP 算法及卷積神經網絡;2006 年,深度置信網絡研究成果發表。至此,數據建模理論研究的宏觀大廈已初見雛形。 歷史是如此的巧合,正當需要海量數據集和工程技術方案來處理數據時,云計算應運而生。2003 年,谷歌發表關于Google File System、Google Bigtable 及MapReduce 三篇論文,讓大數據處理技術風靡全球。以此為基礎,2010 年前后,整個云計算的概念及技術體系已經非常完善了。 數據理論的完善、工程技術的發展與無數創意的結合,使得2010 年以后,整個人類社會進入了“數據時代”。無論是精細化運營,還是人工智能產品,對數據的應用無處不在;無論是政府機構,還是私有的大、中、小型企業,使用數據的熱情都達到空前的高度。 2014 年,我加入百度公司,從事大數據處理及數據建模等相關工作。回首過往,在該領域的幾年中,我經歷了云計算從霧里看花到如今的方興未艾;人工智能的初現端倪到如今的高潮迭起。作為一名前線的數據工程師, 我深刻認識到,對我及大多數工程師而言,既無法像Jeff Dean 等一樣提出經典的大數據計算模型;也無法像Hinton、Yann LeCun 一樣提出具有深遠影響的建模算法。我們所要做的,就是學習與汲取當前的理論與技術,結合應用領域,實現工程應用。這也是我寫本書的初衷,希望能從宏觀框架上梳理已有的數據分析理論與工程實施技術,并搭建相對系統的知識體系;同時,闡述工作實踐中遇到的問題及解決的思路。 Python 簡潔易懂的語法、豐富的類庫、與大數據組件的無縫集成等諸多特點,使其成為數據工程師的首選編程語言。當然,只是掌握Python 還完全不足以成為頂級數據工程師,因此,本書介紹數據處理知識體系,并以Python 實現相關代碼示例,力求讓讀者能使用Python 完成數據處理的各個環節。 本書的第1 章和第2 章,簡要說明了數據處理領域的基本概念,旨在讓讀者對數據處理工作有宏觀的了解。第3 章∼第5 章,主要講述數據分析理論。筆者按照難易程度,將其劃分成三個部分,即基礎分析、數據挖掘和深度學習。第6章針對大數據分析,介紹了在工程實施過程中需要用到的工程組件和架構模式,并以一個具體的案例說明整個數據工程的實施流程。 本書適合以下讀者閱讀:? 對人工智能和云計算感興趣的讀者;? 剛進入數據處理領域的IT 工程師;? 希望從宏觀上梳理數據處理知識體系的讀者;? 用Excel、SPSS、Python 做過數據分析的數據分析師;? 應用過HDFS、Kafka等大數據組件的IT 工程師。 本書能夠完稿,得益于外界諸多的幫助與指導。感謝數據領域的先驅者Geoffrey Hinton、Yann LeCun、Jeff Dean 等,他們的著作是數據時代最重要的理論依據;感謝在百度工作中遇到楊振宇、李華青、王?然、陳合等許多優秀的同事和領導,在和他們一起試錯、交流的過程中,讓我取得巨大的進步;感謝本書的編輯劉皎,在她不厭其煩地督促下,本書才從凌亂的只言片語中編輯成書;特別感謝女友孫萬興,在本書的撰寫過程中給予的諒解與支持。 |
內容簡介:僅僅會Python編程是不夠的。想成為一名優秀的數據分析工程師,還需要有全方位、透徹理解問題本質的能力,善于把實際的工作任務拆解成準確的數據問題,并運用相關的知識來解決。本書恰好是從這個角度出發的,它條分縷析地幫助你認識任務的本質,教你從數據的角度來思考、拆解任務,并最終順利地達成目標。 |
目錄:1 概述 / 1 1.1 何為數據工程師 / 1 1.2 數據分析的流程 / 3 1.3 數據分析的工具 / 11 1.4 大數據的思與辨 / 14 2 關于Python / 17 2.1 為什么是Python / 17 2.2 常用基礎庫 / 19 2.2.1 Numpy / 19 2.2.2 Pandas / 26 2.2.3 Scipy / 37 2.2.4 Matplotlib / 38 3 基礎分析 / 43 3.1 場景分析與建模策略 / 43 3.1.1 統計量 / 43 3.1.2 概率分布 / 48 3.2 實例講解 / 55 3.2.1 誰的成績更優秀 / 55 3.2.2 應該庫存多少水果 / 57 4 數據挖掘 / 60 4.1 場景分析與建模策略 / 60 4.1.1 分類 / 61 4.1.2 聚類 / 76 4.1.3 回歸 / 86 4.1.4 關聯規則 / 90 4.2 數據挖掘的重要概念 / 93 4.2.1 數據預處理 / 93 4.2.2 評估與驗證 /97 4.2.3 Bagging 與Adaboost / 99 4.2.4 梯度下降與牛頓法 / 102 4.3 實例講解 /105 4.3.1 信用卡欺詐監測 / 105 4.3.2 員工離職預判 /110 5 深度學習/ 114 5.1 場景分析與建模策略 / 115 5.1.1 感知機 / 115 5.1.2 自編碼器 / 119 5.1.3 限制玻爾茲曼機 /123 5.1.4 深度信念神經網絡 / 127 5.1.5 卷積神經網絡 / 129 5.2 人工智能應用概況 / 137 5.2.1 深度學習的歷史 /137 5.2.2 人工智能的杰作 / 140 5.3 實例講解 / 146 5.3.1 學習識別手寫數字 / 146 5.3.2 讓機器認識一只貓 / 151 6 大數據分析 / 160 6.1 常用組件介紹 / 160 6.1.1 數據傳輸 / 165 6.1.3 數據計算 / 174 6.1.4 數據展示 / 180 6.2 大數據處理架構 / 188 6.2.1 Lambda 架構 / 189 6.2.2 Kappa 架構 / 192 6.2.3 ELK 架構 / 193 6.3 項目設計 / 194 參考文獻 / 202 |
序: |