數據科學實戰 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

數據科學實戰
( 簡體字)

作者：[美] Rachel Schutt 類別：1. -> 程式設計 -> 大數據

譯者：

出版社：人民郵電出版社 3dWoo書號： 40859
詢問書籍請說出此書號！
【缺書】
NT售價： 395 元

出版日：3/1/2015

頁數：290

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787115383495

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：

內容簡介：
　　本書脫胎于哥倫比亞大學“數據科學導論”課程的教學講義，它界定了數據科學的研究范疇，是一本注重人文精神，多角度、全方位、深入介紹數據科學的實用指南，堪稱大數據時代的實戰寶典。本書旨在讓讀者能夠舉一反三地解決重要問題，內容包括：數據科學及工作流程、統計模型與機器學習算法、信息提取與統計變量創建、數據可視化與社交網絡、預測模型與因果分析、數據預處理與工程方法。另外，本書還將帶領讀者展望數據科學未來的發展。

目錄：
作者介紹 XII
關于封面圖 XIII
前言 XIV
第1 章　簡介：什么是數據科學 1
1.1　大數據和數據科學的喧囂 1
1.2　沖出迷霧 2
1.3　為什么是現在 3
1.4　數據科學的現狀和歷史 5
1.5　數據科學的知識結構 8
1.6　思維實驗：元定義 10
1.7　什么是數據科學家 11
1.7.1　學術界對數據科學家的定義 12
1.7.2　工業界對數據科學家的定義 12
第2 章　統計推斷、探索性數據分析和數據科學工作流程 14
2.1　大數據時代的統計學思考 14
2.1.1　統計推斷 15
2.1.2　總體和樣本 16
2.1.3　大數據的總體和樣本 17
2.1.4　大數據意味著大膽的假設 19
2.1.5　建模 21
2.2　探索性數據分析 26
2.2.1　探索性數據分析的哲學 27
2.2.2　練習：探索性數據分析 29
2.3　數據科學的工作流程 31
2.4　思維實驗：如何模擬混沌 34
2.5　案例學習：RealDirect 35
2.5.1　RealDirect 是如何賺錢的 36
2.5.2　練一練：RealDirect 公司的數據策略 36
第3 章　算法 39
3.1　機器學習算法 40
3.2　三大基本算法 41
3.2.1　線性回歸模型 42
3.2.2　k 近鄰模型（k-NN） 55
3.2.3　k 均值算法 64
3.3　練習：機器學習算法基礎 68
3.4　總結 72
3.5　思維實驗：關于統計學家的自動化 73
第4 章　垃圾郵件過濾器、樸素貝葉斯與數據清理 74
4.1　思維實驗：從實例中學習 74
4.1.1　線性回歸為何不適用 75
4.1.2　k 近鄰效果如何 77
4.2　樸素貝葉斯模型 78
4.2.1　貝葉斯法則 79
4.2.2　個別單詞的過濾器 80
4.2.3　直通樸素貝葉斯 82
4.3　拉普拉斯平滑法 83
4.4　對比樸素貝葉斯和k 近鄰 85
4.5　Bash 代碼示例 85
4.6　網頁抓取：API 和其他工具 87
4.7　Jake 的練習題：文章分類問題中的樸素貝葉斯模型 88
第5 章　邏輯回歸 92
5.1　思維實驗 93
5.2　分類器 94
5.2.1　運行時間 95
5.2.2　你自己 95
5.2.3　模型的可解釋性 95
5.2.4　可擴展性 96
5.3　邏輯回歸：一個來自M6D 的真實案例研究 96
5.3.1　點擊模型 96
5.3.2　模型背后 97
5.3.3　α 和 β 的參數估計 99
5.3.4　牛頓法 101
5.3.5　隨機梯度下降法 101
5.3.6　操練 101
5.3.7　模型評價 102
5.4　練習題 105
第6 章　時間戳數據與金融建模 110
6.1　Kyle Teague 與GetGlue 公司 110
6.2　時間戳 112
6.2.1　探索性數據分析（EDA） 113
6.2.2　指標和新變量 117
6.2.3　下一步怎么做 117
6.3　輪到Cathy O’Neill 了 118
6.4　思維實驗 118
6.5　金融建模 119
6.5.1　樣本期內外以及因果關系 120
6.5.2　金融數據處理 121
6.5.3　對數收益率 123
6.5.4　實例：標準普爾指數 124
6.5.5　如何衡量波動率 126
6.5.6　指數平滑法 128
6.5.7　金融模型的反饋 128
6.5.8　聊聊回歸模型 130
6.5.9　先驗信息量 130
6.5.10　一個小例子 131
6.6　練習：GetGlue 提供的時間戳數據 134
第7 章　從數據到結論 136
7.1　William Cukierski136
7.1.1　背景介紹：數據科學競賽 136
7.1.2　背景介紹：眾包模式 137
7.2　Kaggle 模式 139
7.2.1　Kaggle 的參賽者 140
7.2.2　Kaggle 的客戶 141
7.3　思維實驗：關于作業自動評分系統 143
7.4　特征選擇 145
7.4.1　例子：留住用戶 146
7.4.2　過濾型 149
7.4.3　包裝型 149
7.4.4　決策樹與嵌入型變量選擇 151
7.4.5　熵 153
7.4.6　決策樹算法 155
7.4.7　如何在決策樹模型中處理連續性變量 156
7.4.8　隨機森林 157
7.4.9　用戶黏性：模型的預測能力與可解釋性 159
7.5　David Huffaker：谷歌社會學研究的新方法 160
7.5.1　從描述性統計到預測模型 161
7.5.2　谷歌的社交研究 163
7.5.3　隱私保護 163
7.5.4　思維實驗：如何消除用戶的顧慮 164
第8 章　構建面向大量用戶的推薦引擎 165
8.1　一個真實的推薦引擎 166
8.1.1　最近鄰算法回顧 167
8.1.2　最近鄰模型的已知問題 168
8.1.3　超越近鄰模型：基于機器學習的分類模型 169
8.1.4　高維度問題 171
8.1.5　奇異值分解（SVD） 172
8.1.6　關于SVD 的重要特性 172
8.1.7　主成分分析（PCA） 173
8.1.8　交替最小二乘法 174
8.1.9　固定矩陣V，更新矩陣U 175
8.1.10　關于這些算法的一點思考 176
8.2　思維實驗：如何過濾模型中的泡沫 176
8.3　練習：搭建自己的推薦系統 176
第9 章　數據可視化與欺詐偵測 179
9.1　數據可視化的歷史 179
9.1.1　Gabriel Tarde 180
9.1.2　Mark 的思維實驗 181
9.2　到底什么是數據科學 181
9.2.1　Processing 182
9.2.2　Franco Moretti 182
9.3　一個數據可視化的方案實例 183
9.4　Mark 的數據可視化項目 186
9.4.1　《紐約時報》大廳里的可視化：Moveable Type 186
9.4.2　屏幕上的生命：Cascade 可視化項目 188
9.4.3　Cronkite 廣場項目 189
9.4.4　eBay 與圖書網購 190
9.4.5　公共劇場里的“莎士比亞機” 192
9.4.6　這些展覽的目的是什么 193
9.5　數據科學和風險 193
9.5.1　關于Square 公司 194
9.5.2　支付風險 194
9.5.3　模型效果的評估問題 197
9.5.4　建模小貼士 200
9.6　數據可視化在Square 203
9.7　Ian 的思維實驗 204
9.8　關于數據可視化 204
第10 章　社交網絡與數據新聞學 207
10.1　Morning Analytics 與社交網絡 207
10.2　社交網絡分析 209
10.3　關于社交網絡分析的相關術語 209
10.3.1　如何衡量向心性 210
10.3.2　使用哪種向心性測度 211
10.4　思維實驗 212
10.5　Morningside Analytics 212
10.6　從統計學的角度看社交網絡分析 215
10.6.1　網絡的表示方法與特征值向心度 215
10.6.2　隨機網絡的第一個例子：Erdos-Renyi 模型 217
10.6.3　隨機網絡的第二個例子：指數隨機網絡圖模型 217
10.7　數據新聞學 220
10.7.1　關于數據新聞學的歷史回顧 220
10.7.2　數據新聞報告的寫作：來自專家的建議 220
第11 章　因果關系研究 222
11.1　相關性并不代表因果關系 223
11.1.1　對因

序：