數據科學 @ 3dWoo大學簡體電腦書店

數據科學 ( 簡體字)
作者：方匡南	類別：1. -> 程式設計 -> 綜合
出版社：電子工業出版社	3dWoo書號： 49459 詢問書籍請說出此書號！缺書 NT售價： 345 元
出版日：7/1/2018
頁數：3312
光碟數：0
站長推薦：
印刷：黑白印刷	語系： ( 簡體字 )
ISBN：9787121342448	【不接受訂購】
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
目錄前言內容簡介第1章導論 1 1.1 數據科學的發展歷史 1 1.2 數據科學研究的主要問題 3 1.3 數據科學的主要方法 5 1.4 R語言的優勢 7 第2章數據讀/寫 9 2.1 數據的讀入 9 2.1.1 直接輸入數據 9 2.1.2 讀入R包中的數據 10 2.1.3 從外部文件讀入數據 10 2.1.4 批量讀入數據 15 2.1.5 R語言讀取文件的幾個常錯的問題 15 2.2 寫出數據 17 2.3 習題 18 第3章數據清洗與預處理 19 3.1 數據分類 19 3.2 數據清洗 20 3.2.1 處理缺失數據 20 3.2.2 處理噪聲數據 23 3.3 數據變換 23 3.4 R語言實現 25 3.4.1 數據集的基本操作 25 3.4.2 數據集間的操作 28 3.4.3 連接數據庫數據 29 3.5 習題 30 第4章數據可視化 31 4.1 高階繪圖工具——ggplot2 31 4.1.1 快速繪圖 32 4.1.2 使用圖層構建圖像 34 4.1.3 分面 37 4.2 ECharts2 39 4.2.1 安裝 39 4.2.2 使用 40 4.3 習題 48 第5章線性回歸 49 5.1 問題的提出 49 5.2 一元線性回歸 50 5.2.1 一元線性回歸概述 50 5.2.2 一元線性回歸的參數估計 52 5.2.3 一元線性回歸模型的檢驗 55 5.2.4 一元線性回歸的預測 56 5.3 多元線性回歸分析 57 5.3.1 多元線性回歸模型及假定 58 5.3.2 參數估計 59 5.3.3 模型檢驗 60 5.3.4 預測 61 5.4 R語言實現 63 5.4.1 一元線性回歸 63 5.4.2 多元線性回歸 66 5.5 習題 67 第6章線性分類 69 6.1 問題的提出 69 6.2 Logistic模型 70 6.2.1 線性概率模型 70 6.2.2 Probit模型 71 6.2.3 Logit模型原理 72 6.2.4 邊際效應分析 73 6.2.5 最大似然估計（MLE） 73 6.2.6 似然比檢驗 74 6.3 判別分析 74 6.3.1 Na?ve Bayes判別分析 75 6.3.2 線性判別分析 76 6.3.3 二次判別分析 78 6.4 分類問題評價準則 78 6.5 R語言實現 80 6.5.1 描述統計 80 6.5.2 Logistic模型 81 6.5.3 判別分析 87 6.5.4 模型比較 90 6.6 習題 92 第7章重抽樣 94 7.1 問題的提出 94 7.2 基本概念 94 7.2.1 訓練誤差和測試誤差 95 7.2.2 偏差和方差 95 7.3 交叉驗證法 96 7.3.1 驗證集方法 97 7.3.2 留一交叉驗證法 97 7.3.3 K折交叉驗證法 98 7.4 自助法 99 7.5 R語言實現 100 7.5.1 驗證集方法 100 7.5.2 留一交叉驗證法 102 7.5.3 K折交叉驗證法 102 7.5.4 自助法 103 7.6 習題 104 第8章模型選擇與正則化 105 8.1 問題的提出 105 8.2 子集選擇法 106 8.2.1 最優子集法 106 8.2.2 逐步選擇法 106 8.2.3 模型選擇 108 8.3 基于壓縮估計的逐個變量選擇 109 8.3.1 LASSO懲罰 110 8.3.2 SCAD懲罰 111 8.3.3 MCP懲罰 112 8.3.4 調整參數選擇 113 8.4 基于壓縮估計的組變量選擇 113 8.4.1 自然分組結構 113 8.4.2 人為分組結構 114 8.5 基于壓縮估計的雙層變量選擇 115 8.5.1 復合函數型雙層選擇 115 8.5.2 稀疏組懲罰型雙層選擇 116 8.6 R語言實現 117 8.6.1 子集選擇法 117 8.6.2 模型選擇 120 8.6.3 組模型選擇 122 8.6.4 雙層模型選擇 126 8.7 習題 128 第9章決策樹與組合學習 129 9.1 問題的提出 129 9.2 決策樹 130 9.2.1 基本概念 130 9.2.2 分類樹 133 9.2.3 回歸樹 135 9.2.4 樹的優缺點 137 9.3 Bagging 137 9.3.1 基本算法 137 9.3.2 袋外誤差估計 138 9.3.3 變量重要性的度量 139 9.4 隨機森林 140 9.5 提升法 142 9.5.1 Adaboost算法 142 9.5.2 GBDT算法 143 9.5.3 XGBoost算法 143 9.6 R語言實現 144 9.6.1 數據介紹 144 9.6.2 描述性統計 145 9.6.3 分類樹 145 9.6.4 Bagging 148 9.6.5 隨機森林 149 9.6.6 Boosting 150 9.7 習題 155 第10章支持向量機 156 10.1 問題的提出 156 10.2 最大間隔分類器 157 10.2.1 使用分割超平面分類 157 10.2.2 構建最大間隔分類器 159 10.2.3 線性不可分的情況 160 10.3 支持向量分類器 161 10.3.1 使用軟間隔分類 161 10.3.2 構建支持向量分類器 161 10.4 支持向量機 163 10.4.1 使用非線性決策邊界分類 163 10.4.2 構建支持向量機 165 10.5 與Logistic回歸的關系 166 10.6 支持向量回歸 167 10.7 R語言實現 168 10.7.1 支持向量分類器 168 10.7.2 支持向量機 173 10.7.3 Auto數據集 175 10.8 習題 178 第11章神經網絡 180 11.1 問題的提出 181 11.2 神經網絡的基本概念 181 11.2.1 神經網絡的基本單元——神經元 181 11.2.2 神經網絡的結構 185 11.2.3 神經網絡的學習 186 11.3 神經網絡模型 188 11.3.1 單神經元感知器 188 11.3.2 單層感知器 189 11.3.3 BP神經網絡 190 11.3.4 Rprop神經網絡 193 11.4 R語言實現 195 11.4.1 nnet程序包 195 11.4.2 neuralnet程序包 197 11.4.3 應用案例1：利用nnet程序包分析紙幣鑒別數據 198 11.4.4 應用案例2：利用neuralnet程序包分析白葡萄酒的品質 200 11.5 習題 203 第12章無監督學習 205 12.1 問題的提出 205 12.2 聚類分析 207 12.2.1 相異度 207 12.2.2 K-means聚類 209 12.2.3 系統聚類法 211 12.3 主成分分析 214 12.3.1 主成分分析的幾何意義 214 12.3.2 主成分的數學推導 215 12.3.3 主成分回歸 217 12.3.4 主成分分析的其他方面 217 12.4 因子分析 219 12.4.1 因子分析的數學模型 219 12.4.2 因子載荷陣的統計意義 220 12.4.3 因子分析的其他方面 221 12.5 典型相關分析 223 12.5.1 典型相關分析原理 223 12.5.2 典型相關系數的顯著性檢驗 226 12.5.3 典型相關分析的步驟 227 12.6 R語言實現 228 12.6.1 聚類分析：移動通信用戶細分 228 12.6.2 主成分分析：農村居民消費水平評價 233 12.6.3 因子分析：市場調查 236 12.6.4 典型相關分析：職業滿意度與職業特性的關系 239 12.7 習題 242 第13章推薦算法 243 13.1 關聯規則 243 13.1.1 基本概念 244 13.1.2 基本分類 246 13.1.3 基本方法 247 13.2 協同過濾算法 249 13.2.1 基于鄰居的協同過濾算法 249 13.2.2 基于模型的協同過濾算法 253 13.3 R語言實現 254 13.3.1 關聯規則 254 13.3.2 協同過濾算法 259 13.4 習題 262 第14章文本挖掘 264 14.1 問題的提出 264 14.2 文本挖掘基本流程 265 14.2.1 文本數據獲取 265 14.2.2 文本特征表示 265 14.2.3 文本的特征選擇 268 14.2.4 信息挖掘與主題模型 269 14.3 R語言實現 270 14.3.1 JSS_papers數據集 270 14.3.2 拓展案例：房地產網絡輿情分析 275 14.4 習題 278 第15章社交網絡分析 279 15.1 問題的提出 279 15.2 網絡的基本概念 280 15.3 網絡特征的描述性分析 281 15.3.1 節點度 281 15.3.2 節點中心性 282 15.3.3 網絡的凝聚性特征 283 15.3.4 分割 284 15.4 網絡圖的統計模型 285 15.4.1 經典隨機圖模型 285 15.4.2 廣義隨機圖模型 286 15.4.3 指數隨機圖模型 287 15.4.4 網絡塊模型 287 15.5 關聯網絡推斷 288 15.5.1 相關網絡 288 15.5.2 偏相關網絡 289 15.5.3 高斯圖模型網絡 290 15.5.4 Graphic Lasso模型 291 15.6 二值型網絡模型 294 15.7 R語言實現 295 15.7.1 網絡的基本操作 295 15.7.2 “豆瓣關注網絡”和“豆瓣朋友網絡”特征分析 298 15.7.3 關聯網絡推斷 303 15.8 習題 308 第16章并行計算 309 16.1 提高R語言的計算速度 309 16.2 R語言的并行計算 310 16.3 HPC多線程并行計算 316 參考文獻 321 本書是一本數據科學的入門書籍。每個知識點盡量從實際的應用案例出發，從數據出發，以問題為導向，在解決問題中學習數據挖掘、機器學習等數據科學相關方法。本書將數據讀寫、數據清洗和預處理作為開端，逐漸深入到和數據科學相關的決策樹、支持向量機、神經網絡、無監督學習等知識。此外，結合數據科學的實際應用，書中還講解了推薦算法、文本挖掘和社交網絡分析等熱門實用技術。本書在寫作過程中盡量刪去太過抽樣的理論，讓具有一定高等數學和概率論基礎的讀者就能看得懂。當然，如果讀者對方法原理確實不感興趣，只是為了用R程序實現某種方法，可以跳過方法只看案例和程序。本書適合作為高校數據科學、機器學習、數據挖掘、大數據分析等相關專業的研究生和高年級本科的教科書，也適合作為相關企業的數據科學家、數據挖掘工程師、數據分析師及數據科學的愛好者等的工具書。數據科學（Data Science）是一門交叉學科，是一門分析和挖掘數據并從中提取規律和利用數據學習知識的學科，包含了統計、機器學習、數據可視化、高性能計算等。近幾年，大數據的發展如火如荼，與此同時，“數據科學家”這個詞也跟著火起來，成為職場中的香餑餑。正如谷歌首席經濟學家哈爾瓦里恩（Hal Varian）于2009年在紐約時報撰文所說，“未來十年最性感的工作將是統計學家”，這里的統計學家是廣義的統計學家，包括數據科學家。數據科學家職業被招聘網站Glassdoor在2016年評選為美國最佳工作。德勤（Deloitte）公司預測2018年全球企業將至少需要100萬名數據科學家，大學培養的數據科學家數量遠遠不能滿足市場需求，按照目前數據科學家的培養數量來看，這個缺口是很大的。我國真正的數據科學家人才是比較短缺的。數據科學家需要有較好的統計學、機器學習功底，能夠理解模型背后的原理和算法，具備熟練的編程能力并熟悉業務知識。數據科學主要由兩撥人在做：一撥人在計算機圈子里，主要關注處理海量數據的能力、速度和算法；另一撥人在統計圈子里，更多地關注模型本身的精度和可解釋性。市面上有各種各樣講解大數據、數據科學的書籍，但多數是講解一些理念，或者只講解一些抽象原理和算法，很少從數據到模型的角度去講解，缺少真正能夠將數據科學與實務操作結合起來的書籍。我覺得自己有責任寫一本關于數據科學方面的教材，來幫助數據科學的初學者更快地掌握模型原理和實務操作。我每年都在廈門大學開設數據挖掘的課程，在課程資料的基礎上慢慢整理出本書稿，總體框架借鑒斯坦福大學統計系幾位學者出版的兩本經典統計學教材，即Jamnes、Witten、Hastie和Tibshirani寫的An Introduction to Statistical Learning和Hastie、Tibshirani和Friedman寫的The Elements of Statistical Learning。后來，我受邀在北京、上海等地開設暑期數據挖掘現場公開課，前來聽課的學生有國外著名高校的教師、研究生，國內高校的教師、研究生，醫藥、金融等公司的數據分析人員、數據挖掘分析師等。他們對我的講義提出了很多有用的建議，經過不斷地完善，最終形成了此書。通過在很多地方上公開課，并與很多不同領域的學者交流，我深刻地體會到統計或數據挖掘方法的應用范圍越來越廣，借用馬克思的話，“一種科學只有在成功地運用數學時，才算達到了真正完善的地步”，也可以說“一個學科使用、分析數據的程度可以反映出這個學科的發展程度”。本書是一本數據科學的入門教材，內容循序漸進、深入淺出，每個知識點都根據實際的應用案例從數據出發，以問題為導向，使讀者在解決問題的過程中學習數據挖掘、機器學習等數據科學相關方法。本書既可作為高校數據科學、機器學習、數據挖掘、大數據分析等相關專業的研究生和高年級本科的教科書，也可作為相關企業的數據科學家、數據挖掘工程師、數據分析師及數據科學愛好者等的工具書。本書為讀者提供方法和程序上的參考，在寫作過程中盡量刪除過于抽象的理論原理，讓具有一定高等數學和概率論基礎的讀者都能看得懂。當然，如果讀者對方法原理確實不感興趣，只是為了用R語言程序實現某種方法，或者分析某些有意義的數據，則可以跳過方法，只看案例和程序。我的博士和碩士研究生陳子嵐、王小燕、趙夢巒、范新妍、張曉晨、林穎、趙雪、張喆參與了資料收集、案例編寫等工作，陳子嵐參與了全書的校對、修改、排版等工作，在此一并感謝！感謝成都道然科技有限責任公司的專業意見和建議。再次感謝為本書提供直接或者間接幫助的各位朋友，沒有他們的幫助，本書的出版沒有這么順利。為了方便讀者使用，我的團隊為本書開發了一個R語言包RDS。RDS包和本書案例相應的代碼可以從網址下載。另外，由于篇幅限制，團隊制作的一些經典案例無法在本書中展示，在以上網址也提供了部分經典案例。在本書編寫過程中，我深刻地體會到寫書是一件“苦差事”，仔細較真，總能發現有很多值得完善的地方，這也是本書拖了3年才得以出版的原因。我希望此書盡可能以“完美”的形象與讀者見面，但由于本人水平和精力有限，書中難免有錯誤或不足之處，懇請廣大讀者批評指正！方匡南 2018年3月于廈門大學