-- 會員 / 註冊 --
 帳號:
 密碼:
  | 註冊 | 忘記密碼
站長推薦
NT售價: 495
NT售價: 345
NT定價: 580
優惠價:75435
NT售價: 245
NT售價: 345

4/29(六)~5/1(一) 連假3天門市營業時間從下午2點到晚上8點
4/25 新書到! 4/19 新書到! 4/11 新書到! 4/8 新書到!
C.G.Next購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopIllustratorAutoCadMasterCamSolidWorksCreoUGRevit
CC++Java遊戲程式Linux嵌入式PLCFPGAMatlabNuke
駭客資料庫搜索引擎影像處理FluentSPSSANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
C#HadoopPythonStm32手機程式CortexLabviewAndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

R語言實戰——機器學習與數據分析

( 簡體 字)
作者:左飛類別:1. -> 程式設計 -> R語言
   2. -> 程式設計 -> 機器學習
譯者:
出版社:電子工業出版社R語言實戰——機器學習與數據分析 3dWoo書號: 44248
詢問書籍請說出此書號!

有庫存
NT售價: 395

出版日:5/1/2016
頁數:392
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121286698
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
作者序:

譯者序:

前言:

前言

數據——蘊藏巨大財富的寶藏
19世紀中葉,英國倫敦曾經爆發過一場規模很大的霍亂。由于彼時人們對霍亂的致病機理還不甚了解,因此疫情在很長一段時間內都無法得到有效的控制。英國醫師約翰?斯諾用標點地圖的方法研究了當地水井分布和霍亂患者分布之間的關系,發現有一口水井周圍,霍亂患病率明顯較高,借此找到了霍亂暴發的原因:一口被污染的水井。關閉這口水井之后,霍亂的發病率明顯下降。這便是數據分析在歷史上展示其威力的一次成功案例。
毋庸置疑,數據是一座巨大的寶藏,而我們要做的恰恰就是挖掘這座寶藏。特別是進入信息時代以來,“大數據”這個概念更是越來越多地被人們提及。很多國家甚至把大數據提升到國家戰略的高度。例如,我國的“十三五”規劃建議中就提出:“實施國家大數據戰略,推進數據資源開放共享。”
盡管“大數據”這個名詞聽起來很時髦,但是由此反映出來的對于數據本身的重視卻并不是一個多么新鮮的現象。中國古代的施政治國觀念中就非常強調掌握數據的重要性。例如商鞅變法中就提出,“強國知十三數……欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削”。
隨著時代的進步,人們對于數據的重視程度更是有增無減,世界各國,概莫能外。列寧就曾經說過:“有許多問題,而且是涉及現代國家經濟制度和這種制度之發展的最根本問題……如果不根據某個一定的綱要收集并經統計專家綜合的關于某一國家全國情況的浩繁材料,就無法加以比較并認真地研究。”毛主席也曾指出:“胸中有‘數’。就是說,對情況和問題一定要注意到它們的數量方面,要有基本的數量分析。任何質量都表現為一定的數量,沒有數量也就沒有質量。”

“大數據時代,統計學依然是數據分析靈魂。”
人民網在2015年7月曾經以《大數據時代,統計學依然是數據分析靈魂》為題刊發了一篇對某位知名專家的訪談。其間,這位專家就形象地說道:“大數據是‘原油’而不是‘汽油’,不能被直接拿來使用。就像股票市場,即使把所有的數據都公布出來,不懂的人依然不知道數據代表的信息。”同時該篇文章也引用了美國加州大學伯克利分校邁克爾?喬丹教授的觀點: “沒有系統的數據科學作為指導的大數據研究,就如同不利用工程科學的知識來建造橋梁,很多橋梁可能會坍塌,并帶來嚴重的后果。”
面對大數據,現在很多人可能會時常把數據挖掘這樣時髦又深奧的詞匯掛在嘴邊,而認為或許傳統的統計學此時已經不合時宜。這種觀點在我看來至少有兩個致命的問題。首先,傳統的統計學方法仍然在各個領域扮演著不可取代的重要作用。包括生命科學、經濟學、管理學等在內的諸多學科都涉及大量的數據分析工作,并從中汲取推進各自領域進步的動力。這里所謂的數據分析工作,更多的是基于傳統統計分析方法來完成的。其次,很多數據挖掘的技術又是建立在傳統的統計理論基礎之上的。例如,期望最大化算法中就用到了極大似然估計。不僅如此,像計量經濟中常常用到的“回歸”,它既是一種數據挖掘方法,同時又是傳統的統計學中必不可少的重要組成部分。
機器學習VS數據挖掘
在大量數據背后很可能隱藏了某些有用的信息或知識,而數據挖掘就是指通過一定方法探尋這些信息或知識的過程。另一方面,數據挖掘同時受到很多學科和領域的影響,大體上看,數據挖掘可以被視為數據庫、機器學習和統計學三者的交叉。簡單來說,對數據挖掘而言,數據庫提供了數據管理技術,而機器學習和統計學則提供了數據分析技術。而本書所關注的重點,恰恰在于以機器學習和統計學為基礎的數據分析方法。
從名字中就不難看出,機器學習最初的研究動機是為了讓計算機具有人類一樣的學習能力以便實現人工智能。顯然,沒有學習能力的系統很難被認為是智能的。而這個所謂的學習,就是指基于一定的“經驗”而構筑起屬于自己之“知識”的過程。小蝌蚪找媽媽的故事很好地說明了這一過程。小蝌蚪們沒有見過自己的媽媽,它們向鴨子請教。鴨子告訴它們:“你們的媽媽有兩只大眼睛。”看到金魚有兩只大眼睛,小蝌蚪們便把金魚誤認為是自己的媽媽。于是金魚告訴它們:“你們媽媽的肚皮是白色的。”小蝌蚪們看見螃蟹是白肚皮,又把螃蟹誤認為是自己的媽媽。螃蟹便告訴它們:“你們的媽媽有四條腿。”小蝌蚪們看見一只烏龜擺動著四條腿在水里游,就把烏龜誤認為是自己的媽媽。于是烏龜又說:“你們的媽媽披著綠衣裳,走起路來一蹦一跳。”在這個學習過程中,小蝌蚪們的“經驗”包括鴨子、金魚、螃蟹和烏龜的話,以及“長得像上述四種動物的都不是媽媽”這樣一條隱含的結論。最終,它們學到的“知識”就是“兩只大眼睛、白肚皮、綠衣裳、四條腿,一蹦一跳的就是自己的媽媽”。當然,故事的結局,小蝌蚪們就是靠著學到的這些知識成功地找到了媽媽。反觀機器學習,由于“經驗”在計算機中主要是以“數據”的形式存在的,所以機器學習需要設法對數據進行分析,然后以此為基礎構建一個“模型”,這個模型就是機器最終學到的“知識”。可見,小蝌蚪學習的過程是從“經驗”學到“知識”的過程。相對應地,機器學習的過程則是從“數據”學到“模型”的過程。正是因為機器學習能夠從數據中學到“模型”,而數據挖掘的目的恰恰是找出數據背后的“信息或知識”,二者不謀而合,所以機器學習才逐漸成為數據挖掘最為重要的智能技術供應者而備受重視。
正如前面所說的,機器學習和統計學為數據挖掘提供了數據分析技術。而另一方面,統計學也是機器學習得以建立的一個重要基礎。所以,統計學本身就是一種數據分析技術的同時,它也為以機器學習為主要手段的智能數據分析提供了理論基礎。可見統計學、機器學習和數據挖掘之間是緊密聯系的。基于這樣的認識,我們可以說本書的副標題“機器學習與數據分析”主要包含了下面幾層意思。首先,如果把數據分析看作狹義上的以數理統計為基礎的統計分析方法,那么本書就涵蓋了為數據挖掘提供分析技術的兩部分內容,即以機器學習為基礎的和以統計學為基礎的數據分析方法。其次,如果你把數據分析看作更為宏觀的包含了數據挖掘在內的廣義數據分析技術,那么為了引入以機器學習為出發點的智能分析技術,前期的統計分析知識則是幫助讀者夯實數據分析基礎的必要準備。
關于本書
R語言是當今最為流行的統計分析語言和數據分析環境之一。它是屬于GNU系統的一個自由、免費、源代碼開放的軟件,并擁有媲美于商業軟件的強大統計分析和繪圖功能。此外,R語言還擁有數以萬計貢獻者在為其開發各種功能包,配合這些包的使用,R的功能得到了極大拓展,幾乎可以完成任何你想要的數據分析與挖掘任務。本書選擇R語言作為描述語言和開發環境,不僅通過諸多詳盡的實例來演示R的使用,更為那些新近接觸R語言的讀者提供了很好的入門指導。我們相信,無論你屬于何種程度的R語言使用者,都可以很好地利用本書來增進數據分析和挖掘的技術和能力。
經典統計理論和機器學習方法為數據挖掘提供了必要的分析技術。本書系統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結合大量R語言實例演示了這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基于統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹了參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對于后續機器學習部分的理解提供了很大助益。知識結構和閱讀進度的安排上既兼顧了循序漸進的學習規律,亦統籌考慮了夯實基礎的必要性。盡管作為一個非常宏大的話題,在有限的篇幅內我們不能將機器學習的所有方法盡述,但循著本書所提供的自學路線圖,卻可以建立一個十分扎實的基礎以及對數據分析技術相當清晰的認識和理解。
統計學大師喬治?博克斯曾經是統計學家埃貢?皮爾遜的學生,而埃貢?皮爾遜則是統計學之父卡爾?皮爾遜的兒子。此外,喬治?博克斯還是統計學界的另一位巨擘羅納德?費希爾的女婿。從這個角度來說,喬治?博克斯無疑集成了兩位統計學宗師的學術思想,他有一句廣為人們提及的名言說道:“所有的模型都是錯的,但其中一些是有用的。”所以,無論是基于統計的方法,還是基于機器學習的方法,最終的模型都是對現實世界的抽象,而非毫無偏差的精準描述。相關理論只有與具體分析實例相結合才有意義。而在這個所謂的結合過程中,你既不能期待一種模型(或者算法)能夠解決所有的(盡管是相同類型的)問題,也不能在面對一組數據時就能(非常準確地)預先知道哪種模型(或者算法)才是最適用的。或許你該記住另外一句話:“No clear reason to prefer one over another. Choice is task dependent(沒有明確的原因表明一種方法勝于另外一種方法,選擇通常是依賴于具體任務的)”。這也就突出了數據挖掘領域中實踐的重要性,或者說由實踐而來的經驗之重要性。
為了力求讓讀者“知其然,更知其所以然”,對于晦澀的數據挖掘算法,本書都配合有完整詳盡的推導過程。而包括統計數據分析在內的部分,我們更是借助R語言的強大能力,抽絲剝繭,逐條演示了各種檢驗方法、估計方法和分析方法的執行步驟,讓讀者深刻領悟到每一條簡單函數背后所蘊藏的復雜機制。
“紙上得來終覺淺,絕知此事要躬行”,深化統計分析的基本思想,并錘煉運用R語言進行數據挖掘的能力,很大程度上有賴于編程實踐活動。本書涉及的所有源代碼,讀者都可以從在線支持資源“http://blog.csdn.net/baimafujinji”中下載得到,勘誤表也將實時發布到此博客上。同時歡迎讀者就本書中的問題和不足與筆者展開討論,有關問題請在上述博客中留言。
本書由左飛統稿并執筆。此外劉航、吳凱、姜萌、何鵬、胡俊、李召琚B初甲林、薛佟佟等人也參與了本書編寫工作,筆者在此表示由衷的感謝。
自知論道須思量,幾度無眠一文章。由于時間和能力有限,書中紕漏在所難免,真誠地希望各位讀者和專家不吝批評、斧正。
內容簡介:

經典統計理論和機器學習方法為數據挖掘提供了必要的分析技術。本書系統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結合大量R語言實例演示了這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基于統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹了參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對于后續機器學習部分的理解提供了很大助益。知識結構和閱讀進度的安排上既兼顧了循序漸進的學習規律,亦統籌考慮了夯實基礎的必要性。本書內容與實際應用結合緊密,又力求突出深入淺出、系統翔實之特色,對算法原理的解釋更是細致入微。

目錄:

第1章 初識R語言 1
1.1 R語言簡介 1
1.2 安裝與運行 3
1.3 開始使用R 5
1.4 包的使用 7
1.5 使用幫助 8
第2章 探索R數據 10
2.1 向量的創建 10
2.2 向量的運算 13
2.3 向量的篩選 15
2.4 矩陣的創建 17
2.5 矩陣的使用 20
2.5.1 矩陣的代數運算 20
2.5.2 修改矩陣的行列 22
2.5.3 對行列調用函數 23
2.6 矩陣的篩選 25
第3章 編寫R程序 28
3.1 流程的控制 28
3.1.1 條件選擇結構的概念 28
3.1.2 條件選擇結構的語法 29
3.1.3 循環結構的基本概念 30
3.1.4 循環結構的基本語法 31
3.2 算術與邏輯 33
3.3 使用函數 34
3.3.1 函數式語言 34
3.3.2 默認參數值 35
3.3.3 自定義函數 36
3.3.4 遞歸的實現 38
3.4 編寫代碼 40
第4章 概率統計基礎 42
4.1 概率論的基本概念 42
4.2 隨機變量數字特征 45
4.2.1 期望 45
4.2.2 方差 46
4.3 基本概率分布模型 48
4.3.1 離散概率分布 48
4.3.2 連續概率分布 52
4.3.3 使用內嵌分布 55
4.4 大數定理及其意義 59
4.5 中央極限定理 62
4.6 隨機采樣分布 65
第5章 實用統計圖形 71
5.1 餅狀圖 71
5.2 直方圖 74
5.3 核密圖 78
5.4 箱線圖 81
5.4.1 箱線圖與分位數 81
5.4.2 使用并列箱線圖 84
5.5 條形圖 87
5.5.1 基本條形圖及調整 87
5.5.2 堆砌與分組條形圖 88
5.6 分位數與QQ圖 91
第6章 數據輸入/輸出 99
6.1 數據的載入 99
6.1.1 基本的數據導入方法 99
6.1.2 處理其他軟件的格式 103
6.1.3 讀取來自網頁的數據 104
6.1.4 從數據庫中讀取數據 106
6.2 數據的保存 108
6.3 數據預處理 109
6.3.1 常用數學函數 110
6.3.2 修改數據標簽 113
6.3.3 缺失值的處理 114
第7章 高級數據結構 118
7.1 列表 118
7.1.1 列表的創建 118
7.1.2 列表元素的訪問 120
7.1.3 增刪列表元素 121
7.1.4 拼接列表 123
7.1.5 列表轉化為向量 123
7.1.6 列表上的運算 124
7.1.7 列表的遞歸 125
7.2 數據框 126
7.2.1 數據框的創建 126
7.2.2 數據框元素的訪問 128
7.2.3 提取子數據框 129
7.2.4 數據框行列的添加 130
7.2.5 數據框的合并 132
7.2.6 數據框的其他操作 134
7.3 因子 135
7.3.1 因子的創建 136
7.3.2 因子中插入水平 137
7.3.3 因子和常用函數 138
7.4 表 140
7.4.1 表的創建 141
7.4.2 表中元素的訪問 143
7.4.3 表中變量的邊際值 143
第8章 統計推斷 146
8.1 參數估計 146
8.1.1 參數估計的基本原理 146
8.1.2 單總體參數區間估計 149
8.1.3 雙總體均值差的估計 155
8.1.4 雙總體比例差的估計 161
8.2 假設檢驗 162
8.2.1 基本概念 162
8.2.2 兩類錯誤 166
8.2.3 均值檢驗 167
8.3 極大似然估計 172
8.3.1 極大似然法的基本原理 172
8.3.2 求極大似然估計的方法 174
8.3.3 極大似然估計應用舉例 176
第9章 非參數檢驗方法 181
9.1 列聯分析 181
9.1.1 類別數據與列聯表 181
9.1.2 皮爾遜(Pearson)的卡方檢驗 182
9.1.3 列聯分析應用條件 186
9.1.4 費希爾(Fisher)的確切檢驗 188
9.2 符號檢驗 190
9.3 威爾科克森(Wilcoxon)符號秩檢驗 195
9.4 威爾科克森(Wilcoxon)的秩和檢驗 199
9.5 克魯斯卡爾-沃利斯(Kruskal-Wallis)檢驗 204
第10章 一元線性回歸 208
10.1 回歸分析的性質 208
10.2 回歸的基本概念 210
10.2.1 總體的回歸函數 210
10.2.2 隨機干擾的意義 211
10.2.3 樣本的回歸函數 213
10.3 回歸模型的估計 214
10.3.1 普通最小二乘法原理 214
10.3.2 一元線性回歸的應用 216
10.3.3 經典模型的基本假定 218
10.3.4 總體方差的無偏估計 222
10.3.5 估計參數的概率分布 225
10.4 正態條件下的模型檢驗 227
10.4.1 擬合優度的檢驗 227
10.4.2 整體性假定檢驗 231
10.4.3 單個參數的檢驗 233
10.5 一元線性回歸模型預測 234
10.5.1 點預測 234
10.5.2 區間預測 235
第11章 線性回歸進階 239
11.1 多元線性回歸模型 239
11.2 多元回歸模型估計 241
11.2.1 最小二乘估計量 241
11.2.2 多元回歸的實例 242
11.2.3 總體參數估計量 245
11.3 多元回歸模型檢驗 247
11.3.1 線性回歸的顯著性 247
11.3.2 回歸系數的顯著性 249
11.4 多元線性回歸模型預測 250
11.5 其他回歸模型函數形式 253
11.5.1 雙對數模型以及生產函數 253
11.5.2 倒數模型與菲利普斯曲線 255
11.5.3 多項式回歸模型及其分析 258
11.6 回歸模型的評估與選擇 260
11.6.1 嵌套模型選擇 261
11.6.2 赤池信息準則 262
11.6.3 逐步回歸方法 265
11.7 現代回歸方法的新進展 269
11.7.1 多重共線性 269
11.7.2 嶺回歸 270
11.7.3 從嶺回歸到Lasso 271
第12章 方差分析方法 275
12.1 方差分析的基本概念 275
12.2 單因素方差分析方法 278
12.2.1 基本原理 278
12.2.2 分析步驟 279
12.2.3 強度測量 280
12.3 雙因素方差分析方法 281
12.3.1 無交互作用的分析 281
12.3.2 有交互作用的分析 286
12.4 多重比較 289
12.4.1 多重t檢驗 290
12.4.2 "Dunnett" 檢驗 291
12.4.3 "Tukey" 的"HSD" 檢驗 294
12.4.4 "Newman" -"Keuls" 檢驗 298
12.5 方差齊性的檢驗方法 301
12.5.1 "Bartlett" 檢驗法 301
12.5.2 "Levene" 檢驗法 303
第13章 聚類分析 307
13.1 聚類的概念 307
13.2 K均值算法 308
13.2.1 距離度量 309
13.2.2 算法描述 310
13.2.3 應用實例 312
13.3 最大期望算法 314
13.3.1 算法原理 314
13.3.2 收斂探討 319
13.4 高斯混合模型 320
13.4.1 模型推導 320
13.4.2 應用實例 323
第14章 支持向量機 326
14.1 從邏輯回歸到線性分類 326
14.2 線性可分的支持向量機 330
14.2.1 函數距離與幾何距離 330
14.2.2 最大間隔分類器 332
14.2.3 拉格朗日乘數法 334
14.2.4 對偶問題的求解 339
14.3 松弛因子與軟間隔模型 343
14.4 非線性支持向量機方法 345
14.4.1 從更高維度上分類 345
14.4.2 非線性核函數方法 347
14.4.3 默瑟定理與核函數 350
14.5 對數據進行分類的實踐 350
14.5.1 基本建模函數 351
14.5.2 分析建模結果 355

第15章 人工神經網絡 358
15.1 從感知機開始 358
15.1.1 感知機模型 358
15.1.2 感知機學習 360
15.1.3 多層感知機 362
15.2 基本神經網絡 365
15.2.1 神經網絡結構 365
15.2.2 符號標記說明 366
15.2.3 后向傳播算法 368
15.3 神經網絡實踐 370
15.3.1 核心函數介紹 370
15.3.2 應用分析實踐 372
參考文獻 375
序: