IBM SPSS數據分析實戰案例精粹(第2版)( 簡體 字) | |
作者:張文彤、鐘云飛、王清華 | 類別:1. -> 工具書、軟體 -> 統計軟體 |
出版社:清華大學出版社 | 3dWoo書號: 52732 詢問書籍請說出此書號! 有庫存 NT售價: 390 元 |
出版日:5/1/2020 | |
頁數:378 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787302542933 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1部分SPSS數據分析基礎
第1章數據分析方法體系簡介 3 1.1數據分析方法論概述 3 1.1.1嚴格設計支持下的統計方法論 3 1.1.2半試驗研究支持下的統計方法論 4 1.1.3偏智能化、自動化分析的數據挖掘應用方法論 5 1.2統計軟件中的數據存儲格式 6 1.2.1二維數據表 7 1.2.2變量的存儲類型 7 1.2.3變量的測量尺度 8 1.3數據的統計描述與參數估計 9 1.3.1連續變量的統計描述 9 1.3.2連續變量的參數估計 12 1.3.3分類變量的統計描述和參數估計 14 1.3.4統計圖形體系 17 1.4常用假設檢驗方法 20 1.4.1假設檢驗的基本原理 21 1.4.2單變量假設檢驗方法 22 1.4.3雙變量假設檢驗方法 24 1.5多變量模型 28 1.5.1方差分析模型/一般線性模型 28 1.5.2廣義線性模型和混合線性模型 29 1.5.3回歸模型 30 1.5.4其他常見模型 33 1.6多元統計分析模型 35 1.6.1信息濃縮 35 1.6.2變量組之間內在關聯結構的探討 35 1.6.3對數據分類 36 1.6.4分析各元素間的關聯 38 1.7智能統計分析方法/數據挖掘方法 39 1.7.1樹模型 39 1.7.2神經網絡 40 1.7.3支持向量機 41 1.7.4最近鄰元素分析 41 1.7.5關聯規則與序列分析 41 第2章顧客售后滿意度監測項目 43 2.1案例背景 43 2.2數據文件的讀入與變量整理 44 2.2.1了解SPSS的基本操作界面 44 2.2.2進行數據準備 46 2.3問卷數據分析 50 2.3.1生成頻數表 50 2.3.2計算均值 51 2.3.3對多選題進行描述 52 2.4項目總結和討論 53 第3章會員購買習慣調查 54 3.1案例背景 54 3.1.1項目背景 54 3.1.2分析思路 56 3.2問卷錄入 56 3.2.1開放題的定義 56 3.2.2單選題的定義 57 3.2.3多選題的定義 57 3.3問卷質量校驗 59 3.3.1去除重復記錄 59 3.3.2發現異常值 61 3.3.3邏輯校驗 62 3.4問卷數據分析 64 3.4.1問卷加權 64 3.4.2業務分析 68 3.5項目總結和討論 69 第4章基于背景資料的病例對照匹配 71 4.1案例背景 71 4.2數據清理 72 4.2.1數據錯誤的發現 72 4.2.2數據錯誤的更正 76 4.3數據理解 77 4.4利用文件合并功能進行案例匹配 80 4.5利用Python插件直接進行匹配 81 4.5.1傾向得分匹配 82 4.5.2個案控制匹配 84 4.6項目總結和討論 86 第5章北京地區霧霾變化趨勢分析 87 5.1案例背景 87 5.1.1項目背景 87 5.1.2分析思路 88 5.2數據準備 89 5.2.1讀入csv格式的數據文件 89 5.2.2合并數據文件 91 5.2.3篩選所需數據 93 5.3數據理解 94 5.3.1數據分布狀況 94 5.3.2缺失值分布狀況 95 5.3.3考察逐月數據趨勢 96 5.4霧霾變化基本趨勢的分析 97 5.4.1整體平均水平的比較 97 5.4.2重點考察秋冬季的數據 99 5.4.3進一步分析爆表天數變化趨勢 100 5.5進一步展現歷史波動趨勢 101 5.5.1逐月平均數據的提取 101 5.5.2建模前的數據準備 102 5.5.3用季節分解提取長期趨勢 104 5.6項目總結和討論 107 第2部分影響因素發現與數值預測 第6章酸奶飲料新產品口味測試研究 111 6.1案例背景 111 6.1.1研究項目概況 111 6.1.2分析思路/商業理解 112 6.2數據理解 113 6.2.1研究設計框架復查 113 6.2.2均值的列表描述 114 6.2.3均值的圖形描述 115 6.3用方差分析模型考察同一城市內不同品牌的評分差異 116 6.3.1單因素方差分析模型簡介 117 6.3.2對品牌的作用進行總體檢驗 118 6.3.3組間兩兩比較 120 6.3.4對模型適用條件的考察:方差齊性檢驗 122 6.4用兩因素方差分析模型進行分析 123 6.4.1兩因素方差分析模型簡介 123 6.4.2擬合包括交互項的飽和模型 125 6.4.3擬合只包含主效應的模型 125 6.4.4組間兩兩比較 127 6.4.5嘗試將城市指定為隨機因素進行分析 128 6.5分析結論與討論 130 6.5.1分析結論 130 6.5.2Benchmark:用還是不用 131 第7章偏態分布的激素水平影響因素分析 132 7.1案例背景 132 7.1.1研究項目概況 132 7.1.2分析思路/商業理解 133 7.2數據理解 133 7.2.1單變量描述 133 7.2.2變量關聯探索 136 7.3對因變量變量變換后建模分析 141 7.3.1常見的變量變換方法 141 7.3.2本案例的具體操作 142 7.4秩變換分析 145 7.5利用Cox模型進行分析 146 7.5.1Cox回歸模型的基本原理 147 7.5.2本案例的具體操作 148 7.6項目總結與討論 150 7.6.1分析結論 150 7.6.2八仙過海,誰為獨尊 150 第8章某車企汽車年銷量預測 152 8.1案例背景 152 8.1.1研究項目概況 152 8.1.2分析思路/商業理解 153 8.2數據理解 154 8.3變量變換后的線性回歸 156 8.3.1線性回歸模型簡介 156 8.3.2變量變換后擬合線性回歸模型 158 8.3.3模型擬合效果的判斷 160 8.3.4存儲預測值和區間估計值 162 8.4曲線擬合 163 8.4.1用曲線估計過程同時擬合多個曲線模型 163 8.4.2模型擬合效果的判斷 166 8.4.3模型的預測 167 8.5利用非線性回歸進行擬合 168 8.5.1模型簡介 168 8.5.2構建分段回歸模型 169 8.5.3不同模型效果的比較 171 8.6項目總結與討論 172 8.6.1分析結論 172 8.6.2行走在理想與現實之間 173 第9章腦外傷急救后遲發性顱腦損傷影響因素分析 174 9.1案例背景 174 9.1.1研究項目概況 174 9.1.2分析思路/商業理解 175 9.2數據理解 176 9.2.1變量關聯的圖表描述 176 9.2.2變量關聯的單變量檢驗 178 9.3構建二分類Logistic回歸模型 181 9.3.1模型簡介 181 9.3.2初步嘗試建模 183 9.3.3構建最終模型 188 9.4利用樹模型發現交互項 189 9.4.1模型簡介 190 9.4.2進行樹模型分析 192 9.5使用廣義線性過程進行分析 195 9.5.1模型簡介 195 9.5.2構建僅包括主效應的模型 196 9.5.3在模型中加入交互項 199 9.6項目總結與討論 200 9.6.1分析結論 200 9.6.2尺有所短,寸有所長 201 第10章中國消費者信心指數影響因素分析 202 10.1案例背景 202 10.1.1項目背景 202 10.1.2項目問卷 203 10.1.3分析思路/商業理解 206 10.2數據理解 207 10.2.1圖形考察時間、地域對信心指數的影響 207 10.2.2圖形考察性別、職業、婚姻狀況等對信心指數的影響 209 10.2.3圖形考察年齡對信心指數的影響 210 10.3標準GLM框架下的建模分析 211 10.3.1建立總模型 211 10.3.2兩兩比較的結果 214 10.4多元方差分析模型的結果 215 10.4.1模型簡介 216 10.4.2擬合多元方差分析模型 217 10.5最優尺度回歸 223 10.5.1方法簡介 224 10.5.2利用最優尺度回歸進行分析 225 10.6多水平模型框架下的建模分析 228 10.6.1模型簡介 229 10.6.2針對時間擬合多水平模型 230 10.7項目總結與討論 235 10.7.1分析結論 235 10.7.2什么時候應當運用復雜模型來建模 236 第3部分信息濃縮、分類與感知圖呈現 第11章探討消費者購買保健品的動機 239 11.1案例背景 239 11.1.1研究項目概況 239 11.1.2分析思路/商業理解 241 11.2數據理解 241 11.2.1單變量描述 241 11.2.2變量關聯探索 242 11.3利用因子分析進行信息濃縮 243 11.3.1模型簡介 243 11.3.2因子分析的具體操作 245 11.4基于因子分析結果進行市場細分 251 11.4.1不同婚姻狀況受訪者的差異 251 11.4.2不同品牌保健品使用者的因子偏好差異 253 11.5項目總結與討論 255 11.5.1研究結論 255 11.5.2因子分析的結果就是一切嗎 255 第12章全國房地產價格指數的估算 257 12.1案例背景 257 12.1.1研究項目概況 257 12.1.2分析思路 258 12.2計算平均值進行回歸預測 259 12.2.1計算平均值 259 12.2.2進行回歸估計 259 12.2.3導出模型代碼用于預測 260 12.3提取主成分進行回歸預測 261 12.3.1提取主成分 261 12.3.2進行主成分回歸預測 263 12.4利用自動線性建模過程預測 265 12.5項目總結與討論 266 第13章1988年漢城奧運會男子十項全能成績分析 267 13.1案例背景 267 13.1.1項目概況 267 13.1.2分析思路/商業理解 268 13.2數據理解 269 13.2.1單變量描述 269 13.2.2變量關聯探索 269 13.2.3嘗試初步建模 270 13.3利用因子分析進行信息濃縮 272 13.3.1初步分析 272 13.3.2因子旋轉 274 13.3.3繼續尋找更好的分析結果 276 13.3.4結果存儲/發布 277 13.4主成分回歸 278 13.5將主成分回歸方程還原回原始變量的形式 280 13.6項目總結與討論 280 13.6.1研究結論 280 13.6.2因子的方差解釋比例有實際意義嗎 281 第14章生活形態問卷的信效度分析及改進 282 14.1案例背景 282 14.1.1項目概況 282 14.1.2分析思路/商業理解 284 14.2問卷的效度分析 285 14.2.1信效度理論簡介 285 14.2.2用因子分析考察問卷效度 286 14.3問卷的信度分析與優化 291 14.3.1用極端組比較方式發現弱關聯題項 291 14.3.2信度分析 293 14.4項目總結與討論 295 第15章打敗SARS 296 15.1案例背景 296 15.1.1研究項目概況 296 15.1.2分析思路/商業理解 299 15.2數據理解與數據準備 300 15.2.1消費者關注的信息 300 15.2.2突發事件保險產品購買傾向 302 15.2.3未來消費者生活方式的變化 304 15.3“非典”信息關注傾向的多維偏好分析 306 15.3.1模型簡介 306 15.3.2多維偏好分析的SPSS操作界面介紹 307 15.3.3嘗試初步建模 309 15.3.4引入更多的背景變量 312 15.4突發事件險種購買傾向的多重對應分析 315 15.4.1模型簡介 315 15.4.2簡單對應分析 317 15.4.3多重對應分析 321 15.5“非典”對未來生活方式的影響 326 15.5.1采用多維偏好分析進行初步探索 326 15.5.2換用因子分析進行信息匯總 328 15.6項目總結與討論 332 15.6.1研究結論 332 15.6.2對多維偏好分析等信息濃縮方法本質的討論 333 第16章住院費用影響因素挖掘 336 16.1案例背景 336 16.1.1項目概況 336 16.1.2分析思路/商業理解 339 16.2數據理解與數據準備 340 16.2.1費用數據分布 341 16.2.2變量合并 342 16.2.3極端值清理 343 16.2.4病種分布考察 343 16.2.5變量變換 344 16.3采用聚類分析尋找費用類型 345 16.3.1考慮用因子分析匯總信息 345 16.3.2聚類分析方法簡介 347 16.3.3對費用數據進行聚類分析 349 16.4住院費用影響因素的神經網絡分析 352 16.4.1模型簡介 353 16.4.2初步嘗試用神經網絡建模 355 16.4.3對年齡離散化后重新建模 360 16.4.4構建雙因變量神經網絡 362 16.4.5進一步尋找更清晰的結果解釋 364 16.5不同療法療效與費用比較的神經網絡分析 365 16.5.1生成工作用數據集 365 16.5.2進行神經網絡的建模預測 367 16.5.3模型預測值的比較 369 16.6項目總結與討論 370 16.6.1研究結論 370 16.6.2如何在數據挖掘方法體系和經典方法體系之間進行取舍 372 附錄Python插件和R插件的安裝方法 374 參考文獻 377 《IBM SPSS數據分析實戰案例精粹(第2版)》以IBM SPSS Statistics 24為工具,提供了醫療、金融、保險、汽車、快速消費品、市場研究、互聯網等多個行業的數據分析/挖掘案例,基于實戰需求,詳細講解了整個案例的完整分析過程,并將模型和軟件的介紹融于案例講解之中,使讀者在閱讀時能突破方法和工具的限制,真正聚集于對數據分析精髓的領悟。本書還一并提供案例數據的下載,讀者可完整重現全部的分析內容。
《IBM SPSS數據分析實戰案例精粹(第2版)》適合從初學者到專家各個級別的數據分析人士閱讀,包括需要提升實戰能力的數據分析專業人士,在市場營銷、金融、財務、人力資源管理中需要應用數據分析的人士,從事咨詢、科研等工作的專業人士,同時也可以作為各專業的本科和研究生學習數據分析應用的參考書。 所謂藝術,就是指如果只靠系統學習既有的知識體系,但自身不具備相當天賦,或者沒有經過長期實戰操作以積累經驗、激發靈感的話就始終難以登堂入室成為大師的那些學科,音樂、舞蹈、繪畫等無不如此。而大英百科全書恰恰就把統計學定義為“一門收集數據、分析數據,并根據數據進行推斷的藝術和科學”。顯然,作為一門應用學科,統計學非常強調實戰能力,一名出色的統計師需要通過經歷各種各樣的實戰分析項目來總結經驗和吸取教訓以持續成長,光靠操作教科書上的那些標準案例,只能成為工匠,不能成為大師。
近年來,隨著計算機技術的飛速發展,統計軟件工具出現了日新月異的變化,大大提高了統計工具的可用性。分析工具的高度易用性和實戰需求的同步發展,促使各行各業對統計分析和數據挖掘人員的需求呈現爆炸性增長,遠遠超過了正常培養周期能夠提供的數量,而廣大統計分析人員希望能夠得到一本完全從實戰操作的角度出發,而不是單純以介紹某一種統計軟件的角度出發的參考書以迅速幫助自己提升實戰能力的愿望,也因之而變得更為迫切。這也是當初筆者考慮編寫本書的初衷。 本書定位為實戰類書籍,第1版自出版以來雖然受到了廣大讀者的熱烈追捧,但也發現了在內容安排上仍然存在著一些不盡如人意的地方。 (1) 第1版在同一本書里同時講解IBM SPSS Statistics和IBM SPSS Modeler 兩種軟件,方法體系則同時涉及傳統的統計分析和數據挖掘兩種體系,雖然更大范圍地滿足了讀者需求,但也給很多讀者對內容的理解和消化造成了困擾。 (2) 第1版在設計上沒有太多地考慮簡單方法和數據操作介紹,直接切入了綜合案例,原意是希望讀者學習完筆者的其余教程之后再使用本書來提高,但實際使用中,確實有很多讀者將本書作為SPSS的第一本書使用,這樣無疑增加了學習難度。 有鑒于此,在第2版中筆者將數據挖掘拆分出來單獨成書,本書將專門討論數據分析的實戰案例。在修訂原有案例的同時,基于IBM SPSS Statistics 24的最新功能補充了數據整理和描述了一些實踐案例,增加了Python插件等新功能的使用操作,并增補了信效度檢驗等一些新的復雜案例,使初學者直接閱讀本書的難度降低,而老用戶則可以體會到新版軟件的最新功能,真正做到兼顧不同的讀者層次。對于不同的讀者群而言,他們各自能從本書得到以下幫助。 (1) 入門:對于IBM SPSS Statistics的新用戶而言,本書顯然是最佳的學習軟件操作和實戰技能的教科書,本書采用相應軟件的最新版本,就統計分析中的一些典型案例進行了深入淺出的全面介紹,用戶只需要按照書中的講解順序依次操作,就可以真正習得相應的數據分析實戰操作能力。 (2) 提升:對于已經熟悉相應SPSS系列產品如何使用的老用戶而言,本書就是他們渴望多年的“專家教程”,筆者在案例中真正展示的并非簡單的軟件操作,而是完整的統計思維和實戰分析思路,已有數據分析基礎的讀者通過對這些案例的學習,必然能更快地跨越從理論到實戰的鴻溝,從而使自己對軟件工具的掌握和實戰操作能力都得到真正的提升。 (3) 領悟:對資深的統計分析人員而言,其對分析工具的應用早已超越了具體某個公司的產品層面,達到“不滯于物,草木竹石皆可為劍”的地步,但本書仍然具有很高的參考價值,因為軟件僅僅是實現工具,其背后的統計思維、統計方法、基本原則等都完全相同,但不同的人在面對相同問題時所采用的分析流程、處理方式等又各有千秋,通過對書中案例的學習、參照和比較,分析人員必然能夠起到舉一反三的效果,從而真正對實戰操作達到“悟”的境地。 本書由張文彤、鐘云飛、王清華共同編寫,其中第1章由張文彤和鐘云飛共同編寫,第3章由王清華和張文彤共同編寫,其余各章由張文彤編寫。 希望本書能夠幫助讀者更加深入地了解數據分析,從而進一步促進數據分析在國內的普及。也希望廣大讀者能一如既往地踴躍提出自己使用中的寶貴意見和建議,使本書再版時能夠更上一層樓,更完美地滿足大家的學習和工作需求。 編 者 |