從零進階!數據分析的統計基礎(第2版)( 簡體 字) | |
作者:經管之家 | 類別:1. -> 程式設計 -> 大數據 |
出版社:電子工業出版社 | 3dWoo書號: 44149 詢問書籍請說出此書號! 有庫存 NT售價: 295 元 |
出版日:5/1/2016 | |
頁數:260 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121285004 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1 章 數據分析概述 1
1.1 什么是數據分析 2 1.2 數據分析六部曲 2 1.2.1 明確分析目的和內容 2 1.2.2 數據收集 . 3 1.2.3 數據預處理 . 3 1.2.4 數據分析 . 4 1.2.5 數據展現 . 5 1.2.6 報告撰寫 . 6 1.3 數據分析方法簡介 6 1.3.1 單純的數據加工方法 6 1.3.2 基于數理統計的數據分析方法 7 1.3.3 基于數據挖掘的數據分析方法 8 1.3.4 基于大數據的數據分析方法 11 1.3.5 數理統計與數據挖掘的區別和聯系 13 1.4 常用數據分析工具的安裝 14 1.4.1 在Excel 2013 中安裝數據分析工具 14 1.4.2 數據分析軟件SPSS 的安裝 . 16 1.5 重要知識點回顧 22 1.6 課后習題 . 23 第2 章 描述性統計分析 24 2.1 直方圖 . 25 2.1.1 什么是直方圖 25 2.1.2 如何看直方圖 25 2.1.3 如何畫直方圖 26 2.1.4 使用Excel 2013 進行直方圖的繪制 27 2.2 數據的計量尺度 30 2.3 數據的集中趨勢 31 2.3.1 平均數 . 31 2.3.2 分位數 . 33 2.3.3 眾數 . 34 2.4 數據的離中趨勢 34 2.4.1 極差 . 35 2.4.2 分位距 . 35 2.4.3 平均差 . 36 2.4.4 方差與標準差 37 2.4.5 離散系數 . 38 2.5 數據分布的測定 40 2.5.1 數據偏態及其測定 40 2.5.2 數據峰度及其測定 41 2.5.3 數據偏度和峰度的作用 42 2.6 數據的展示——統計圖 43 2.6.1 條形圖與扇形圖 43 2.6.2 折線圖 . 44 2.6.3 莖葉圖 . 45 2.6.4 箱線圖 . 48 2.6.5 統計圖小結 . 52 2.7 使用Excel 實現數據的描述性統計及分析 . 52 2.7.1 使用Excel 實現三國全部人物武力描述性統計 . 52 2.7.2 使用Excel 分別實現三個國家人物武力描述性統計分析 . 54 2.7.3 使用Excel 分別實現三個國家武將武力描述性統計分析 . 55 2.7.4 使用SPSS 實現三個國家武將武力的分位數分析 . 56 2.8 重要知識點回顧 59 2.9 課后習題 . 59 第3 章 數理統計基礎 62 3.1 抽樣估計基礎 63 3.1.1 隨機事件 . 63 3.1.2 隨機事件的概率 64 3.1.3 隨機變量及其概率分布 66 3.1.4 隨機變量的數字特征 71 3.2 正態分布及三大分布 72 3.2.1 正態分布的概率密度函數 73 3.2.2 正態分布的特征 73 3.2.3 標準正態分布 74 3.2.4 基于正態分布的三大分布 77 3.3 中心極限定理 80 3.3.1 中心極限定理的提法 80 3.3.2 中心極限定理的內容 81 3.3.3 中心極限定理的意義與應用 81 3.4 重要知識點回顧 82 3.5 課后習題 . 83 第4 章 抽樣估計 . 86 4.1 抽樣估計的基本概念 87 4.1.1 總體及總體指標 87 4.1.2 樣本及樣本指標 88 4.1.3 抽樣估計的思想 89 4.1.4 抽樣估計的理論基礎 91 4.1.5 樣本統計量及分布 92 4.2 抽樣估計的方法——點估計 93 4.2.1 點估計 . 93 4.2.2 點估計精度和樣本容量的關系 95 4.2.3 點估計的優缺點 96 4.3 抽樣估計的誤差 97 4.3.1 抽樣估計的實際誤差 97 4.3.2 抽樣估計的平均誤差 98 4.3.3 抽樣估計的極限誤差 102 4.4 抽樣估計的方法——區間估計 102 4.4.1 抽樣估計的精度及置信度 102 4.4.2 區間估計的方法 105 4.4.3 區間估計的步驟 106 4.5 抽樣的組織形式和抽樣數目的確定 107 4.5.1 抽樣的組織形式 107 4.5.2 必要抽樣數目的確定 109 4.6 重要知識點回顧 112 4.7 課后習題 113 第5 章 假設檢驗 . 117 5.1 假設檢驗概述 118 5.1.1 假設檢驗的概念 118 5.1.2 假設檢驗的基本思想 118 5.1.3 假設檢驗在數據分析中的作用 119 5.2 假設檢驗的分析方法 119 5.2.1 假設檢驗的基本步驟 119 5.2.2 假設檢驗與區間估計的聯系 122 5.2.3 假設檢驗中的兩類錯誤 123 5.2.4 利用P 值進行決策 124 5.2.5 應用假設檢驗需要注意的問題 125 5.3 常見的檢驗統計量 126 5.3.1 z 檢驗統計量 126 5.3.2 t 檢驗統計量 128 5.3.3 ?2 檢驗統計量 129 5.3.4 F 檢驗統計量 . 129 5.4 SPSS 中常用的幾種t 檢驗實例 . 130 5.4.1 單樣本t 檢驗 . 130 5.4.2 兩獨立樣本t 檢驗 . 133 5.4.3 配對樣本t 檢驗 . 139 5.5 重要知識點回顧 143 5.6 課后習題 143 第6 章 方差分析 . 147 6.1 方差分析 148 6.1.1 方差分析的概述 148 6.1.2 方差分析的幾個概念 148 6.1.3 單因素方差分析中的基本假定 149 6.2 單因素方差分析 149 6.2.1 單因素方差分析的原理 149 6.2.2 單因素方差分析的原假設 150 6.2.3 單因素方差分析的統計量 151 6.2.4 單因素方差分析的基本步驟 152 6.3 使用SPSS 實現三國武將武力差異分析 . 152 6.3.1 檢驗不同國家武將數據是否符合正態分布 153 6.3.2 單因素方差分析操作步驟及必要說明 155 6.3.3 對三國武將武力單因素方差分析結果的分析 160 6.4 使用SPSS 實現三國文官智力差異分析 . 163 6.4.1 檢驗不同國家文官數據是否符合正態分布 163 6.4.2 單因素方差分析操作步驟及必要說明 165 6.4.3 對三國文官智力單因素方差分析結果的分析 167 6.5 數說漢室衰微與三足鼎立現象 169 6.6 重要知識點回顧 171 6.7 課后習題 171 第7 章 相關與回歸分析 175 7.1 變量間的關系 176 7.1.1 函數關系及特點 176 7.1.2 相關關系及特點 176 7.2 相關分析 177 7.2.1 相關分析及步驟 177 7.2.2 散點圖的繪制 177 7.2.3 相關系數的計算 178 7.2.4 相關系數的顯著性檢驗 182 7.3 使用SPSS 實現相關分析 . 182 7.3.1 在SPSS 中繪制散點圖 . 182 7.3.2 在SPSS 中進行正態性檢驗 . 185 7.3.3 相關系數的計算和檢驗 187 7.4 一元線性回歸分析 189 7.4.1 一元回歸模型及相關假定 190 7.4.2 一元線性回歸方程及求法 190 7.4.3 回歸模型的檢驗 191 7.4.4 回歸直線的擬合優度 194 7.5 使用SPSS 實現一元線性回歸分析 . 195 7.5.1 畫散點圖和趨勢線 195 7.5.2 簡單相關分析 198 7.5.3 一元線性回歸分析的操作步驟 199 7.5.4 一元線性回歸分析的結果解讀 205 7.6 重要知識點回顧 207 7.7 課后習題 208 附錄A 三國人物數據 . 213 附錄B CDA 數據分析師致力于最好的數據分析人才建設 . 226 附錄C 參考答案 . 230 《從零進階!數據分析的統計基礎(第2版)》 共 6 章,分別講解了數據分析的步驟和方法、描述性統計分析、抽樣估計、假設檢驗、方差分析、 相關與回歸分析,使用簡單的語言介紹了這些數據分析基本方法的核心思想和涉及的統計學、概率論等方面 的理論內容,并使用圖示的方法詳細介紹了使用 Excel 2013 進行簡單的描述性統計分析和使用 SPSS 進行相 關的數據分析的過程與結果分析。
序言:這是一個用數據說話的時代
在CDA(注冊數據分析師)Level I 級教材付諸印刷之際,關于數據分析這個職業及其價值的報道就有很多,比如,下面兩條報道就充分體現了在大數據時代下,數據分析的價值。這在以前是從來沒有過的。 LinkedIn 的最新投票結果顯示,“統計分析和數據挖掘”是2014 年最大的求職法寶。LinkedIn對全球超過3.3 億用戶的工作經歷和技能進行分析,公布2014 年最受雇主喜歡、最炙手可熱的25項技能,其中位列榜首的是統計分析和數據挖掘。 麥肯錫公司的一份研究預測稱,到2018 年,在“具有深入分析能力的人才”方面,美國可能面臨著14 萬到19 萬人的缺口,而“可以利用大數據分析來做出有效決策的經理和分析師”缺口則會達到150 萬人。 早在2010 年2 月,肯尼斯?庫克爾在《經濟學人》上發表了一份關于管理信息的特別報告——《數據,無所不在的數據》,文中寫道:“世界上有著無法想象的巨量數字信息,并以極快的速度增長……從經濟界到科學界,從政府部門到藝術領域,很多地方都已感受到了這種巨量信息的影響。” 2011 年,麥肯錫發布了《大數據:下一個具有創新力、競爭力與生產力的前沿領域》,使人們在這篇文章里認識到了數據的力量,于是,一夜之間,面向數據分析市場的新產品、新技術、新服務、新業態正在不斷涌現。從個人、企業到國家層面,都把數據作為一種重要的戰略資產,逐漸認識到了數據的價值,不同程度地滲透到每個行業領域和部門,大大提升了企業的經營利潤,推動了經濟的發展。 這是一個用數據說話的時代,也是一個依靠數據競爭的時代。目前世界500 強企業中,有90%以上都建立了數據分析部門。IBM、微軟、Google 等知名公司都積極投資數據業務,建立數據部門,培養數據分析團隊。各國政府和越來越多的企業意識到數據和信息已經成為企業的智力資產和資源,數據的分析和處理能力正在成為日益倚重的技術手段。 作為一個數學和統計學的強國,數據分析、數據挖掘和大數據價值挖掘行業在我國仍屬于朝陽行業,數據分析人才仍然比較稀缺。各行各業在平常工作中積累的各種各樣的數據分析問題仍然沒有得到及時有效地解決,有些問題,還是關乎本行業發展的至關重要的問題。數據積累越來越多,期待解決分析的數據問題也越來越多,人們逐漸習慣的使用數據作為決策的重要參考依據。據艾瑞的研究報告,未來與數據分析相關的就業崗位會在1000 萬左右,而目前來說國內合格的數據分析師不足5 萬左右,建立一個科學有效的數據分析師培訓體系迫在眉睫。 在這樣一個用數據說話的時代,積累了豐富的數據分析培訓經驗的人大經濟論壇承擔起使命,幾番調查研究,幾番反復推演論證,在2013 年,這個大數據的“元年”,CDA 注冊數據分析師應運而生! 2003 年,人大經濟論壇依托中國人民大學成立,在金融、管理、統計領域已積淀11 個年頭,在國內享有良好聲譽。 2006 年,人大經濟論壇數據分析培訓中心設立,至今經歷8 個春秋,建立了大陸、臺灣一線師資團隊,培養人才已達3 萬余人。 2013 年,“中國數據挖掘與數據分析俱樂部CDMC”在人大經濟論壇旗下成立,2014 年改名為“中國數據分析師俱樂部CDA”。來自政府、金融、電信、零售、電商、互聯網、教育等行業人士加入會員,成功舉辦了數十場行業聚會。緊接著,積累了數據分析培訓豐富經驗的人大經濟論壇在國內展開CDA 數據分析師系統培訓和認證考試,成功見證了1000 余名數據分析師的成長。 2015 年,人大經濟論壇將提供高水平、多層次的數據分析培訓服務,以在行業積累 多年的影響力,吸引更好更多的優秀師資,瞄準行業內重要的數據分析問題和難點,攻堅突破,建立更加規范的行業培訓體系,引領數據分析培訓行業向規范化、有效化和前瞻化方向發展,為數據分析培訓做出應有的貢獻。 其實,數學(含統計)和英語一樣重要,都是人們不可或缺的重要技能。既然英語全民這么重視,數學及其數據分析的技能更加需求于方方面面,更應被做大做強。讓我們共同期待人大經濟論壇辦成另一個數據的“新東方”! 覃智勇 2015 年1 月1 日 前 言 本書第1 版自2015 年2 月出版后,在市場上獲得了強烈的反響,當月在當當網的新書熱賣榜中排名第二,半年內銷售近萬冊,至2016 年1 月已經印刷了5 次,共發行近兩萬冊,圖書被收錄進百度百科。 如此巨大的市場銷量和好評,引起筆者的深思,除本書構思巧妙、內容翔實、文法流暢等主觀因素外,宏觀的市場環境也是不容忽視的。2015 年,中國經濟由原來的爆發式增長進入到略顯低迷的新常態,無論是企業還是商家都感受到了壓力,錢不再像以前那樣好賺了。如何實現經濟增長,如何讓企業存活下去,這就需要深挖企業內部的痛點和洞察外部客戶的特點。深挖和洞察的過程就是數據分析的過程,數據分析時代在中國悄然到來了。 隨著數據分析師的價值凸顯,有越來越多先知先覺的人們紛紛轉行加入到數據分析師的大軍中。而統計學是數據分析師們必修的課程之一,“從零進階!數據分析的統計基礎”的本意就是讓更多的人能從零基礎快速進階到數據分析領域,并且重點講述數據分析師們必須具備的概率和統計的關鍵知識點。而經管之家(原人大經濟論壇)適時地推出本書,使其得到了很好的市場回饋。正所謂天時地利人和,造就了一本好書。 為了和市場的發展緊密結合,以及更好地適應讀者的需求,本書進行了改版。本次改版繼續堅持從零進階,強化數據分析基礎理論,和市場接軌等核心理念,繼續使用“三國武將”這個大家都耳熟能詳的業務背景知識。根據學員的需求和市場的實際情況,作者還對本書內容進行了如下調整。 (1)進一步精練數據分析的理論基礎,去除了一些不必要的數學公式。由于數據分析涉及概率論、微積分、數理統計的很多內容,但有些內容又不用全部學會,這讓初學者很難找出哪些是需要學習的內容,哪些是不需要學習的內容。因此在編寫本書第1 版時,將很多數據分析師不需要知道的知識點都省略了,比如省略了統計量服從某個分布的證明過程,省略了抽樣平均誤差的證明過程。 這樣做的目的是為了讓數據分析師們能更快地進入這個領域,更好地洞察數據。在編寫本書的第2版時,繼續沿用此思想,去掉了一些數據分析師不必要知道的公式,增加了更多的數據分析思想的內容。 (2)將原來的第3 章抽樣估計分解成數理統計基礎和抽樣估計兩章,這樣做的目的是考慮到原來的第3 章涉及的理論內容太多,并且比較枯燥,將其分成兩部分,一來可以在每一部分增加更多的公式解讀內容,也可以補充更多的案例進來;二來降低了閱讀難度,使讀者能在學習知識的同時,獲得更多的成就感,從而更加有興趣學習。 (3)對試驗數據進行了更多的數據分析,增加了對讀者數據分析思維的培養。尤其是第2 章的描述性數據分析過程,進行了更深入的數據分析過程剖析,主要宗旨在于讓讀者更快地進入到數據分析行業的隊伍中來。當然,這也使得第2 版中的三國武將數據和第1 版中的數據存在一些差異。 當然,僅就本書而言,讀者并不會學到數據分析師所需要的全部知識,這需要幾年的循序漸進學習,但我希望讀者看過本書后,能快速具有數據分析師所需要的最基本的統計學知識,能快速地進入到數據分析的行業,從而具備一個數據分析師應具備的最起碼的知識,在工作中能說內行話,而不是說行外話。 在本書改版之際,作者衷心感謝經管之家(原人大經濟論壇)和CDA 課程研發團隊多年來始終不渝的關心與鼎力支持,感謝關繼杰,感謝廣大讀者給予我的理解與感受,感謝電子工業出版社多年來的密切合作與支持。沒有這一切,本書不可能取得這么好的成果,我永遠感謝曾經幫助和支持過我的相識的和不相識的同志和朋友。由于作者水平有限,本書肯定會有不少缺點和不足,熱切期望得到專家和讀者的批評指正。 曹正鳳 2016 年3 月于北京 |