-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python數據科學導論

( 簡體 字)
作者:[美]戴維·西倫(Davy Cielen)類別:1. -> 程式設計 -> Python
譯者:
出版社:機械工業出版社Python數據科學導論 3dWoo書號: 47587
詢問書籍請說出此書號!

缺書
NT售價: 295

出版日:8/29/2017
頁數:222
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111578260
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書涵蓋的主題非常廣泛,介紹了數據科學方方面面的知識,每一章都側重于介紹數據科學的某一方面,為讀者以后的深入學習打下基礎。具體內容包括:第1、2章系統介紹大數據科學的背景知識及框架結構;第3~5章介紹機器學習相關知識;第6~9章介紹幾個比較有趣的數據科學主題。本書是學習數據科學知識的入門教材,在深入學習本書的實例前,需要掌握SQL、Python及HTML5的入門知識,了解統計學和機器學習相關知識。
目錄:

譯者序
前言
關于本書
關于作者
關于封面插圖
第1章 大數據世界中的數據科學1
1.1 數據科學和大數據的好處和用途2
1.2 數據種類3
1.2.1 結構化數據3
1.2.2 非結構化數據3
1.2.3 自然語言數據4
1.2.4 計算機數據4
1.2.5 圖類數據5
1.2.6 音頻、視頻和圖像數據5
1.2.7 流數據6
1.3 數據科學過程6
1.3.1 設置研究目標6
1.3.2 檢索數據6
1.3.3 數據準備7
1.3.4 數據探索7
1.3.5 數據建模7
1.3.6 展示與自動化7
1.4 大數據生態系統與數據科學7
1.4.1 分布式文件系統7
1.4.2 分布式編程框架9
1.4.3 數據集成框架9
1.4.4 機器學習框架9
1.4.5 NoSQL數據庫10
1.4.6 調度工具10
1.4.7 基準測試工具10
1.4.8 系統部署11
1.4.9 服務開發11
1.4.10 安全11
1.5 Hadoop工作示例介紹11
1.6 本章小結16
第2章 數據科學過程17
2.1 數據科學過程概述17
2.2 步驟1:定義研究目標并創立項目章程19
2.2.1 了解研究的目標和背景20
2.2.2 創立項目章程20
2.3 步驟2:檢索數據20
2.3.1 從存儲在公司內部的數據開始21
2.3.2 不要害怕去購買數據21
2.3.3 檢查數據質量以預防問題發生22
2.4 步驟3:數據的清洗、整合以及轉換22
2.4.1 數據清洗22
2.4.2 盡可能早地修正錯誤27
2.4.3 從不同的數據源整合數據28
2.4.4 數據轉換30
2.5 步驟4:探索性數據分析32
2.6 步驟5:構建模型35
2.6.1 模型與變量的選擇35
2.6.2 模型執行36
2.6.3 模型診斷與模型比較39
2.7 步驟6:展示結果并在其上搭建應用程序40
2.8 本章小結40
第3章 機器學習42
3.1 什么是機器學習,為什么需要關注它42
3.1.1 機器學習在數據科學中的應用43
3.1.2 機器學習在數據科學過程中的使用43
3.1.3 Python工具在機器學習中的應用44
3.2 建模過程45
3.2.1 特征工程以及模型選取46
3.2.2 模型的訓練47
3.2.3 模型的驗證47
3.2.4 預測新的觀測值48
3.3 機器學習的類型48
3.3.1 有監督學習48
3.3.2 無監督學習53
3.4 半監督學習60
3.5 本章小結61
第4章 單機上處理大數據63
4.1 大數據處理過程中遇到的難題63
4.2 處理巨量數據的通用技術64
4.2.1 選擇合適的算法65
4.2.2 選擇合適的數據結構71
4.2.3 選擇合適的工具73
4.3 處理大數據集的通用編程技巧75
4.3.1 不必重復發明輪子75
4.3.2 充分利用硬件76
4.3.3 減少計算需求76
4.4 案例研究1:預測惡意URL77
4.4.1 步驟1:確立研究目標77
4.4.2 步驟2:獲取URL數據77
4.4.3 步驟4:數據探索78
4.4.4 步驟5:建模79
4.5 案例研究2:在數據庫中建立一個推薦系統80
4.5.1 所需的工具及技術80
4.5.2 步驟1:研究問題82
4.5.3 步驟3:數據準備82
4.5.4 步驟5:建模86
4.5.5 步驟6:展示與自動化86
4.6 本章小結88
第5章 大數據世界的第一步89
5.1 數據分布存儲和框架處理89
5.1.1 Hadoop:存儲和處理大數據集的框架90
5.1.2 Spark:取代MapReduce以獲得更好的性能92
5.2 案例研究:借貸的風險評估93
5.2.1 步驟1:研究目標94
5.2.2 步驟2:數據檢索95
5.2.3 步驟3:數據準備98
5.2.4 步驟4(數據探索)和步驟6(報告形成)101
5.3 本章小結111
第6章 了解NoSQL112
6.1 NoSQL簡介114
6.1.1 ACID:關系型數據庫核心原則114
6.1.2 CAP理論:多節點數據庫的問題115
6.1.3 NoSQL數據庫的BASE原則116
6.1.4 NoSQL數據庫的種類117
6.2 案例研究:這是什么疾病123
6.2.1 步驟1:設置研究目標124
6.2.2 步驟2和步驟3:數據檢索與數據準備124
6.2.3 步驟4:數據探索131
6.2.4 再回到步驟3:為描述疾病概況做數據準備137
6.2.5 再回到步驟4:為描述疾病概況做數據探索140
6.2.6 步驟6:展示與自動化140
6.3 本章小結141
第7章 圖數據庫的興起143
7.1 互聯數據及圖數據庫概述143
7.2 圖數據庫Neo4j概述146
7.3 數據互聯案例:食譜推薦引擎152
7.3.1 步驟1:設置研究目標153
7.3.2 步驟2:數據檢索154
7.3.3 步驟3:數據準備155
7.3.4 步驟4:數據探索157
7.3.5 步驟5:數據建模159
7.3.6 步驟6:數據展示162
7.4 本章小結162
第8章 文本挖掘和文本分析164
8.1 現實世界中的文本挖掘165
8.2 文本挖掘技術169
8.2.1 詞袋169
8.2.2 詞干提取和詞形還原170
8.2.3 決策樹分類器171
8.3 案例研究:Reddit帖子分類173
8.3.1 自然語言工具包173
8.3.2 數據科學過程綜述及第1步:研究目標175
8.3.3 第2步:數據檢索175
8.3.4 第3步:數據準備178
8.3.5 步驟4:數據探索180
8.3.6 再回到步驟3:數據準備的調整182
8.3.7 步驟5:數據分析185
8.3.8 步驟6:展示與自動化188
8.4 本章小結189
第9章 面向終端用戶的數據可視化191
9.1 數據可視化選項192
9.2 Crossfilter—JavaScript MapReduce庫194
9.2.1 安裝195
9.2.2 利用Crossfilter篩選藥品數據集198
9.3 用dc.js創建一個交互式控制面板201
9.4 控制面板開發工具205
9.5 本章小結207
附錄A 搭建Elasticsearch209
附錄B 搭建Neo4j214
附錄C 安裝MySQL服務器217
附錄D 在虛擬環境下搭建 Anaconda220
序: