發現數據之美：數據分析原理與實踐 @ 3dWoo大學簡體電腦書店

	-- 會員 / 註冊 --
帳號：　密碼：　 \| 註冊 \| 忘記密碼

3/26 新書到！ 3/19 新書到！ 3/14 新書到！ 12/12 新書到！
	購書流程‧Q & A‧站務留言版‧客服信箱

│ 3ds Max│ Maya│ Rhino│ After Effects│ SketchUp│ ZBrush│ Painter│ Unity│

│ PhotoShop│ AutoCad│ MasterCam│ SolidWorks│ Creo│ UG│ Revit│ Nuke│

│ C#│ C│ C++│ Java│ 遊戲程式│ Linux│ 嵌入式│ PLC│ FPGA│ Matlab│

│ 駭客│ 資料庫│ 搜索引擎│ 影像處理│ Fluent│ VR+AR│ ANSYS│ 深度學習│

│ 單晶片│ AVR│ OpenGL│ Arduino│ Raspberry Pi│ 電路設計│ Cadence│ Protel│

│ Hadoop│ Python│ Stm32│ Cortex│ Labview│ 手機程式│ Android│ iPhone│


可查書名,作者,ISBN,3dwoo書號		詳細書籍分類

發現數據之美：數據分析原理與實踐
( 簡體字)

作者：彭鴻濤,聶磊類別：1. -> 程式設計 -> 綜合

譯者：

出版社：電子工業出版社 3dWoo書號： 38994
詢問書籍請說出此書號！
【缺書】
NT售價： 375 元

出版日：8/1/2014

頁數：332

光碟數：0

站長推薦：

印刷：黑白印刷語系： ( 簡體版 )

加入購物車 │加到我的最愛
(請先登入會員)

ISBN：9787121235580

作者序　|　譯者序　|　前言　|　內容簡介　|　目錄　|　序

(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)

作者序：

譯者序：

前言：
推薦序一
“數據正成為一項重要的自然資源”，正如IBM CEO羅睿蘭所言，“越來越多的決策將基于預測分析，而不是直覺或者經驗。”大數據及分析將深刻改變企業的運營方式，企業也會因為大數據及分析的應用而獲得競爭優勢。
首先，大數據及分析將改變企業做決策的方式。從數據中挖掘洞察并用于指導實際的決策，是數據分析的價值所在。面對海量的、多樣的、快速增長變化的及準確的數據，分析技術的成功應用將極大升華數據的價值，企業的各種決策將更智慧。
其次，大數據及分析將改變企業創造價值的方式，即把分析應用于每一件事情上，創造出更好且獨特的價值。在不同行業的各種活動中，如設計、生產、倉儲、營銷、金融等，分析技術的運用會帶來非常積極的結果。如在設計之初就依賴分析技術研究用戶的喜好，又如在營銷活動中預測用戶流失的可能性，這些例子已舉不勝舉。對企業而言，分析技術正為企業創造前所未有的價值。
最后，大數據及分析將改變企業向每一個客戶提供價值的方式。在準確的時間，將準確的產品推薦給準確的客戶，是一個典型的營銷問題。分析技術則會幫助企業尋找出合適的潛在客戶，針對每一個客戶提供定制化的產品和服務，這將極大提高用戶體驗和營銷成功率。
IBM非常重視在大數據及分析領域的發展，每年在該領域研發的投入高達30~40億美元。同時通過不斷地精準收購，吸收了許多非常優秀的員工和技術，已經成為大數據及分析領域的領導者，是目前業界唯一一家集咨詢、服務、軟硬件的綜合實力于一身，能夠提供全面的解決方案的公司。在電信、交通、交通、醫療、零售等行業領域，IBM幫助客戶成功實施了諸多的大數據及分析案例，這不但成就了客戶的商業目標，還積累了豐富的行業洞察及經驗。
在數據分析領域，IBMSPSS四十多年以來一直是重要的領跑者，具有一系列經典的工具和廣泛的用戶群。IBM SPSS數據分析的能力也被應用到眾多成功的業務分析解決方案中，給客戶帶來了巨大的價值。在大數據時代，分析技術的突飛猛進注定不會缺少IBM SPSS的貢獻。
本書由IBM SPSS資深軟件工程師和數據分析師撰寫，里面分享了他們多年來對數據分析的經驗和理解，并闡述了數據分析所涉及的主要內容和過程，包括“數據收集—數據預處理—經典的統計分析—經典的數據挖掘方法—優化技術的引入—決策自動化”等。希望這些內容能對決策者或者初學者有所幫助，同時也歡迎讀者能對數據分析的相關內容與IBM的工程師和數據分析師們進行深入探討。

王陽博士
IBM全球副總裁兼中國開發中心總經理

推薦序二
自從2004年創建了IBM SPSS西安實驗室之后，我一直關注著那里的發展，每年都會回國內看看，特別是關心和鼓勵那里年輕工程師的成長。兩年前，當鴻濤告訴我，他計劃寫本關于業務分析的書時，我驚喜于他的勇氣，同時又擔心他在繁忙的工作之余，很難堅持完成這樣一本系統介紹業務分析技術和方法的著作。沒想到今天就收到了他和聶磊的書稿，并邀我作序，欣喜之余，感嘆他們的艱苦付出，希望他們在業務分析領域能有更大的發展。

三十多年前，當我在美國初次進入統計分析和數據挖掘領域時，它僅僅是由少數統計專家和數學精英掌握的神奇的高端工具。隨著計算機技術、人工智能和機器學習等領域的發展，業務分析已經逐漸滲透到人們的工作、學習和生活中，并將在未來很長一段時間里，作為企業、組織和個人不可或缺的決策幫手。在過去的幾年中，業務分析相關的各種名詞，如大數據、預測分析、認知分析、決策自動化等一直閃爍著耀眼的光芒，越來越成為人們關注的焦點。我深信大放異彩的業務分析絕不會是曇花一現的時髦潮流，而是歷史發展的必然，并且將深深地影響人們的生活。
業務分析這件事已經被研究、應用了很多年，給人類社會帶來了巨大的價值，但這還僅僅只是開始。數據的積累、算法的不斷精進、各種運算平臺的巨大改進，都給業務分析的大發展提供了肥沃的土壤。業務分析方面各種時髦名詞的涌現，就如同一棵茁壯成長的小樹上不斷結出果實，一片欣欣向榮。在我多年的業務分析從業經歷中，從沒出現過今天這樣的景象——人們到處談論各種業務分析的事情。
基于業務分析，各種新奇的應用將不斷涌現，也會對人們的生活產生更深刻的影響。智慧城市和精準營銷就是兩個典型的例子，前者從市政建設、公共服務等方面，應用業務分析提供更智慧的方案和決策；后者則根據用戶的特質和行為定制產品或服務，顯著提高用戶體驗。還有太多例子，相信讀者會逐步感受到這些應用帶來的便利。
數據與算法，構成了業務分析的主干，并且相輔相成，缺一不可。有時人們看重數據的價值，那是因為合適的數據往往很難獲取；有時人們又看重算法，那是因為在沒有真正得到由業務分析而來的洞見之前，人們無法判斷算法的優劣。無論如何，二者都是不可或缺的。對于業務分析者來說，數據與算法就是其工作的主要內容。
人們渴望成功部署業務分析的應用，但業務分析依然具有較高的門檻，它從數據、人員技能和應用環境等方面提出了較高的要求，特別是對業務分析從業者的要求更高。我很欣喜地看到，鴻濤和聶磊能寫出這樣一本書來，采用自底向上（從數據探查到決策自動化）、理論結合工具的視角，全面介紹業務分析的主要方面。這是一本很難得的書籍，對管理者、業務分析從業者及學生都有很大的參考價值。感謝作者的艱苦付出，希望看到更多的年輕人積極地投身到業務分析的實踐中，為這一領域的發展繼續添磚加瓦。

石靜云
IBM SPSS首席統計師，IBM DE，IBM SPSS西安實驗室創始人

前言
這個世界每天都在發生各種奇妙的事情，特別是當很多人每天坐在屏幕前，不斷敲擊鍵盤的時候，各種新奇的事物以前所未有的速度不斷涌現。
多年以前人們可能不會想到，手機會以非常智能的方式出現，但當喬布斯說“Today，we are-inventthe phone”時，手機智能化便成為現實。人與計算機之間的語言交流，在無數科幻電影中被反復演繹，當IBM的Watson再次戰勝人類的時候，這似乎就在眼前。
仔細想想，這真是一件有意思的事情。人們將各種電子元器件集成起來，并將各種計算包含其中，然后定義出各種用于人類與計算機進行交流的計算機編程語言，這便成了一個放大、成就人們各種奇思妙想的利器。
計算機的廣泛應用自不必細說，人們已經得到了其諸多的便利。在商業應用領域，計算機能幫人們做很多事情，比如將各種數據存放起來，自動化地處理各種業務，生成各種報表以供人們參考，等等。可以說，人們已經離不開計算機技術的幫助。然而，這一切的重要基礎是數據。
我們已經進入了大數據時代
早在二十年前，尼葛洛龐蒂就在《數字化生存》中描述和預言了當今的生活——人們已經離不開數字，人們的生活已經與數字息息相關。數字代表了一定的數據信息，是各種定性指標的表達，人們與數字已經緊密地捆綁在了一起。
數字化是計算機用來表述事物的方式，或至微至細，或宏觀概括。就像人類的語言，可以表達很多復雜事物。如今，數字化已經不是一個技術問題，而是一個意愿問題。大量的事物本來就存在，且都能用數字的方式來表達，問題是人們是否愿意來數字化它們。如今一個顯而易見的趨勢是人們對數據的渴望似乎是無止境的，即使數據是巨量的，人們似乎也愿意存儲和處理。
海量數據的產生一方面是積累而來，另一方面是人們開始愿意并且能夠收集、存儲和處理它們。在過去的幾十年間，不論是企業、機構還是國家，都在努力地收集和存儲數據。從企業層面來講，數據的收集和積累大多來自于信息化系統的應用，如各種業務系統等。維克托邁爾舍恩伯格和肯尼思庫克耶合著的《大數據時代》中宣稱：世界的本質就是數據；并且基于了解世界的渴望，人們不斷地擴大數據的收集規模。數據已經成為了一種商業資本，一項重要的經濟投入，可以創造新的經濟利益。事實上，一旦思維轉變過來，數據就能被巧妙地用來激發新產品和新型服務。數據的奧妙只為謙遜、愿意聆聽且掌握了聆聽手段的人所知。
很多看起來很酷的應用都必須有一定數量的數據基礎。這也非常暗合于計算機世界的形態：計算機的絕大多數組件都在處理各種數據而不是在產生各種數據，字節進入計算單元，然后流出另外一組經過計算的字節。計算單元就是消費數據的組件，而數據則是需要收集和積累的。如果沒有足夠的數據，有再多的計算單元也只是個擺設。
很久以前就有這樣的觀點：數據將成為比自然資源更重要的資源。這個觀點強調了數據中包含著具有巨大價值的信息、知識，這些信息和知識的應用會帶來非常可觀的價值。一個非常簡單的例子就能說明數據的重要性。例如，有兩家不同的公司，一家從一開始就不斷收集和積累各種數據，并且愿意不斷擴大數據收集的規模，那么它就有可能從數據中找到一些知識：什么樣的用戶會喜歡什么樣的產品，他們可能對哪些營銷活動感興趣，等等；另外一家公司則不注重數據的積累和收集，顯然它不大可能從殘缺的、低質量的數據中找到有用的洞見。這洞見具有巨大的使用價值，比其擁有的其他資源更重要。
數據分析的意義所在
數據分析是擁有數據之后要做的最有意義的事情。數據分析是個比較廣泛的概念，數據挖掘、統計分析、商業智能（Business Intelligence）、業務分析等都屬于數據分析的范疇。數據分析的最終目的是從數據中找出有用的信息和知識，以支持、幫助決策。其基本的步驟有數據探查、數據清洗、數據轉化和建模等。
數據挖掘是個使用頻度非常高的名字，并且經常和很多名詞混用，如人工智能、機器學習和商業智能等。其實數據挖掘最為顯著的特征是發現，即從冗繁的數據中找到有用的模式（pattern）。這個尋找的過程可能是人工智能和機器學習的實踐過程。
統計分析是關于數據收集、組織、分析、解釋和描述的科學。統計分析的方法可以分為三個：描述性的統計分析、探查性的數據分析和證實性的數據分析。描述性的統計分析用來給出給定數據集合的主要特征，如樣本大小等；探查性的數據分析主要用來發現數據的一些特征，如數據的分布等；證實性的數據分析用來驗證一些假設是否成立，如假設檢驗等。
相對來說，商業智能是比數據挖掘和統計分析大很多的概念。商業智能包含了一系列的理論、方法論、過程、架構和技術，將數據轉化為有實際意義的信息，這些信息能夠幫助決策者確定和開發各種市場機會，企業能夠利用這些機會鞏固和發展市場地位。商業智能在具體實施過程中也需要引入一些統計分析和數據挖掘的應用。
業務分析這個名字在最近的使用頻度很高，其含義在利用數據的層次上較商業智能更進一步。業務分析代表了從數據中持續探查、挖掘，從而得到洞察以幫助人們進行決策的一系列技巧、技術、應用和實施，其著重強調了利用數據和數據分析去發現新的洞察，以提升人們的決策質量。
通常，商業智能利用的工具是查詢、報告、OLAP（On-Line Analytical Processing，聯機分析處理）和預警，回答一些諸如“過去發生了什么”、“發生了多少”、“發生的頻率”、“問題出在哪里”、“下一步應采取哪些措施”的問題。業務分析則著重利用數據分析工具來回答“為什么會發生這樣的問題”、“接下來還可能發生什么”、“能夠采取的最優措施是什么”等問題。如之前提到的，從利用數據的難度這個層次來說，業務分析較商業智能高。
從傳統意義上講，預測分析是利用統計分析、數據挖掘等技術的一個子方法，其對歷史數據進行分析，從而對未來可能發生的事情進行預測。然而，近年來人們對其含義進行了大量擴充，其包含了分析很多相關內容，如描述性的建模、預測建模、決策建模、優化，等等。這種擴大對于偏信傳統概念的人來說，有點困難。我也曾對預測分析含義的擴充感到不適應，但事實確實發生了。這可能也是為了強調業務分析中最重要的特色，與商業智能有所區別吧。
近幾年，還有一個比較新的概念——決策管理，它是業務分析這個大的范疇下的一個分支。如果說商業智能主要完成決策支持的話，屬于業務分析的決策管理則強調了決策自動化，即根據數據所代表的情況自動做出決策，而不是人為的。決策自動化是一個很復雜的過程，涉及分析、建模等技術，還有一個很重要的就是優化技術的引入。優化技術能夠回答類似“什么樣的決策才是最優的決策”這樣的問題。讓機器做決策，聽起來是個很神奇的事情，但仔細想想，像蘋果的Siri、IBM的Waston等能夠和人進行交流的應用出現后，看起來很神奇的事情如今也可成為現實。雖然決策管理和Siri、Waston沒有可比性，但是通過一系列的數據分析，讓機器在特定的領域自動做出決策，已經有很多實現案例了。
以上這些分類，只是非常粗略地概述了一些數據分析的分類，從這些分類中我們能看到數據分析的益處。
這是一本關于SPSS的書籍
SPSS在計算機世界是一個有很長歷史的公司，早在1968年，幾個創始人發布了Statistical Package for the Social Sciences（簡稱SPSS）的第一個版本。這個產品就是后來大家耳熟能詳的統計分析的SPSS軟件。在1975年，以SPSS這個名稱注冊了公司。
在2000年前后，SPSS軟件有了新的含義——Statistical Product and Service Solutions。在2008年，SPSS公司對已有產品進行重新命名，將原來的SPSS軟件命名為SPSS Statistics，這樣一來，意思更明確，不至于讓粗心的用戶分不清SPSS公司和SPSS軟件。2009年IBM收購了SPSS，此時SPSS Statistics的名字又變成了IBM SPSS Statistics。
除了著名的IBM SPSS Statistics，SPSS公司還有一些其他知名軟件，如IBM SPSS Modeler、IBM SPSS Data Collection、IBM Analytical Decision Management，等等。每一個產品都有其特長及專注解決的方面，特別是最近幾年，SPSS在企業級業務分析的應用上，投入了很多。除此之外，對于大數據的分析，SPSS的動作也非常之大（為便于讀者閱讀，我們在后續描述中，會用Statistics指代IBM SPSS Statistics，用Modeler指代IBM SPSS Modeler，用ADM指代IBM Analytical Decision Management）。
目前國內大多數讀者對SPSS的概念還停留在SPSS的經典工具上，對SPSS的其他能力并不了解，特別是SPSS針對決策管理、優化技術的引入等方面的能力。就目前來說，市面上還沒有一本全面介紹SPSS的書（從數據分析到決策管理），而這個過程涉及數個軟件。
我試圖從“數據分析”到“決策管理”給出一個概要描述，并且突出SPSS工具的特點。讓國內的用戶能夠較為全面地了解這個過程所涉及的要點，對設計、實施業務分析相關的應用有所幫助。
你將從這本書中得到什么
市面上已經有很多與統計分析、數據挖掘等相關的書籍，那么本書的特色是什么呢？人們對于數據分析的印象大多是“從數據中找到真知灼見并將其應用于實際的問題解決中”。“從數據中找到真知灼見”其實包含了很多內容，比如針對問題的不同而采用統計分析的相關技術（如假設檢驗），或者采用數據挖掘中的典型相關技術（如聚類）。除了技術的不同，我們還需要考慮方法論的問題，例如，如何挑選數據、如何探查數據的質量、該選擇哪種模型哪種算法、模型的部署和更新，等等。研究這些問題需要知識的準備和時間的積累。本書就試圖給出一個全景式的描述，按照我的經驗和理解對典型問題逐一探討。
“將真知灼見應用于實際的問題解決中”也是一個值得深入探討的問題。最為淺顯的想法就是將模型部署，讓模型返回一些預測值等類似的值，作為進一步決策的新依據。模型的部署也需要考慮一個方法論的問題，如本書中討論的CRISP-DM參考模型。
但是，如果模型僅能返回一些預測值，只能說我們達到了決策支持的階段，能不能讓模型直接返回決策建議呢？或者直接實現決策自動化呢？這就屬于決策管理的范疇。決策管理絕不僅僅是一個模型復雜化的問題，也有方法論的因素，這是本書討論的重點之一。
總之，我試圖給出一個全景式的描述，對上述方面做一些介紹。數據分析的應用級別是分層次的，最簡單的是數據探查，只看看數據的分布、特征等；其次是統計分析和數據挖掘，這些都屬于決策支持的范疇。除此之外，要采用優化技術做出最優決策，實現決策自動化的決策管理，又是比較高的應用層次了。本書以自底向上的敘述方式，對上述方面都進行了描述。初學者、管理者，或者數據分析從業人員，都可以通過本書對數據分析的重要方面和階段有一個清晰的了解。初學者可以了解數據分析有哪些主要的技術需要學習，管理者可以根據企業自身的情況了解其真實的需求是什么——簡單的統計分析還是決策自動化，數據分析從業人員可以將本書作為一本參考書，了解相關的產品。
歡迎指正
我在IBM ADM項目組成立之初就加入了這個團隊，至今已有6年。由于項目的需要，我對統計分析和數據挖掘都有所了解，也經歷了數個企業級決策管理應用的開發和部署。但是，幾年來，我發現人們對數據分析、特別是決策管理的理解和重視遠遠不足，所以萌生了寫書來介紹的想法。
在寫書的過程中，我查閱了很多相關材料，由于我在SPSS的產品線上工作，可以查閱到各種SPSS的文檔，所以作者試圖結合自己工作的便利，全面地介紹數據分析的相關方面，并且深入淺出地介紹這些晦澀的內容。
即便如此，我深信一些描述錯誤是不可避免的，讀者若發現任何值得商榷的地方，真心期望讀者能夠指出，我將在今后的寫作中改進。
感謝
在吃晚飯時，我說我要寫書。父母和妻子先是驚喜，然后是鼓勵。在接下來的一年多里，每逢周末，他們都幫我騰出大量時間，我深信他們付出了很多，非常感謝他們。
還要感謝我的合作寫書人，聶磊，他是一個非常聰明的帥小伙，當我邀請他一起寫作時，他欣然同意，并積極完成了本書第3章、第7章和第8章的寫作。在本書的寫作過程中，我倆經常積極討論、相互學習，我們非常享受這樣的過程！
感謝IBM全球副總裁兼中國開發中心總經理王陽博士，能在百忙之中為本書作序。感謝SPSS的首席統計師、IBM DE、SPSS西安公司的創始人石靜云女士，當我告訴她我要寫一本關于SPSS的書時，她非常高興并答應給本書寫序，這大大增加了我寫作的信心。
感謝IBM CDL BA主管、資深經理吉燕勇的鼓勵和肯定。當我告訴他寫書這件事情的時候，他非常肯定這件事情，并積極幫忙安排各項事宜。他的幫助和鼓勵，至關重要。還要感謝IBMCDL的資深經理王俊波、蔣儉，他們的幫助也很大。另外，非常感謝我的經理李慨的支持。
感謝來自IBM大學合作部，美麗、聰慧的楊敏同事關于如何出書給予的幫助，以及IBM Academic Initiative社團的同事史俊輝的給力支持，他在不斷地幫助和協調關于出書的各項事宜。IBM Academic Initiative社團的其他同事也給予了很大幫助，沒有他們的幫助，本書可能不會這么快與讀者見面。
非常感謝電子工業出版社的編輯劉皎，她提出了非常有用的意見，在她的幫助下，本書得以進入“十二五國家重點圖書出版規劃項目”。這對沒有出書經驗的作者來說，是莫大的鼓舞和支持！

彭鴻濤
2014年5月于西安

內容簡介：
大數據時代已經來臨，這將引起深刻的行業變革。本書從一個自底向上的角度，全面地闡述了數據分析所涉及的知識和技術，對于經典算法和工具的介紹也不止于泛泛而談，而是加入了作者的經驗和理解。所謂自底向上的角度，即從數據分析實踐開始時所需要的數據準備、數據探查、數據再處理等，到經典的統計分析和數據挖掘算法及應用，還講述了模型的部署，優化技術的引入，最終到決策自動化。

目錄：
第1章業務分析是一個蓬勃發展的方向 1
1.1 業務分析是什么 2
1.2 業務分析的應用現狀 3
1.3 如何應用業務分析 5
1.4 大數據與業務分析 8
1.5 我們還在等什么 9
第2章開始我們的旅程——從數據談起 10
2.1 我們討論的數據結構 11
2.1.1 行（Row）是什么 12
2.1.2 列（Column）是什么 13
2.1.3 多少行數據才合適 15
2.1.4 我們需要什么樣的列 16
2.2 Statistics和Modeler的基本知識 18
2.3 數據導入（Loading Data） 24
2.4 數據探查（Data Exploring） 27
2.4.1 正態分布（Normal Distribution） 28
2.4.2 數據探查的常見統計量 30
2.4.3 數據可視化 35
2.5 本章小結 47
第3章在分析之前，還需要數據預處理 48
3.1 數據的問題 49
3.2 數據校驗 50
3.2.1 驗證規則 50
3.2.2 驗證數據 53
3.2.3 數據審計（Data Audit） 57
3.2.4 識別異常數據 60
3.3 數據集成（Data Integration） 65
3.3.1 在Statistics中進行數據集成 66
3.3.2 在Modeler中進行數據集成 68
3.4 數據轉換（Data Transformation） 73
3.4.1 分箱（Binning） 73
3.4.2 數據調整（Data Rescale） 78
3.4.3 數據重新編碼（Recode） 79
3.5 自動數據準備 83
3.5.1 Statistics中的自動數據準備 83
3.5.2 Modeler中的自動數據準備 88
3.6 本章小結 89
第4章經典分析——統計學的魅力 91
4.1 隨機變量及分布 92
4.2 數理統計導引 94
4.3 參數估計 96
4.3.1 點估計 96
4.3.2 區間估計 97
4.4 假設檢驗 98
4.4.1 正態分布檢驗和t檢驗 101
4.4.2 非參數檢驗 108
4.5 相關分析 111
4.6 方差分析 113
4.7 回歸分析 114
4.7.1 線性回歸分析 114
4.7.2 自動化線性回歸分析 120
4.7.3 廣義線性模型 122
4.7.4 廣義線性混合模型（Generalized Linear Mixed Mode，GLMM） 128
4.8 本章小結 135
第5章我想預測未來 136
5.1 數據挖掘的技術分類 136
5.1.1 有監督的建模技術 137
5.1.2 無監督的建模技術 138
5.1.3 Feature Selection對于分類的意義 139
5.1.4 查看建模的結果 139
5.2 決策樹 140
5.2.1 C5.0算法 141
5.2.2 分類和回歸樹 145
5.2.3 卡方自動交互檢測法（CHAID） 147
5.2.4 快速、無偏、高效的統計樹（QUEST） 148
5.2.5 交互式的決策樹構建方式 149
5.3 決策表 150
5.3.1 決策表算法的設置 151
5.3.2 交互式決策表的生成方式 153
5.4 貝葉斯網絡 154
5.4.1 一些基本概念 154
5.4.2 IBM SPSS的做法 156
5.5 神經網絡（Neural Networks） 158
5.5.1 神經網絡是什么 158
5.5.2 SPSS神經網絡算法 160
5.6 支持向量機（Support Vector Machine） 162
5.6.1 什么是線性分類器 162
5.6.2 Modeler中的支持向量機 163
5.7 最近相鄰（Nearest Neighbor） 165
5.8 我該選用哪種算法 167
5.9 如何評價預測結果 170
5.9.1 基本指標 170
5.9.2 Gains 171
5.9.3 Lift 173
5.9.4 Response 175
5.9.5 Profit 175
5.9.6 ROI 177
5.10 本章小結 177
第6章我想發現聚類（Cluster） 179
6.1 聚類技術 180
6.2 分層聚類 181
6.3 K-means 184
6.4 TwoStep 188
6.4.1 預聚類 189
6.4.2 離群值處理 189
6.4.3 聚類 189
6.4.4 TwoStep的使用 190
6.5 Kohonen network 192
6.6 我怎么知道聚類結果是好的 194
6.6.1 考察聚類的數量和每個聚類中的記錄數 194
6.6.2 考察聚類內的特征 195
6.6.3 考察聚類間的特征 195
6.6.4 一個綜合的考察指標Silhouette 196
6.7 自動聚類 197
6.8 理解聚類的結果 198
6.9 一個聚類分析應用的例子 201
6.10 本章小結 202
第7章周而復始的規律——時間序列分析 203
7.1 時間序列 204
7.1.1 時間序列的類型 204
7.1.2 時間序列的特征 205
7.2 指數平滑模型 206
7.2.1 簡單指數平滑法 206
7.2.2 帶有趨勢調整的指數平滑法（霍爾特指數平滑法） 208
7.2.3 帶有阻尼趨勢的指數平滑法 208
7.2.4 簡單季節指數平滑法 209
7.2.5 帶有趨勢和季節調整的指數平滑法（溫特斯指數平滑法） 209
7.2.6 指數平滑法的初始化 210
7.2.7 去除時間序列的趨勢和季節性因素 211
7.3 自回歸模型 212
7.3.1 自回歸模型 212
7.3.2 移動平均模型 213
7.3.3 自回歸移動平均模型（ARMA） 213
7.3.4 差分自回歸移動平均模型 214
7.4 SPSS產品中的時間序列模型 214
7.4.1 Statistics中的時間序列模型 214
7.4.2 Modeler中的時間序列模型 235
7.5 時間序列分析的評價 238
7.6 本章小結 239
第8章你的行為完全可能被猜中——關聯規則分析 240
8.1 基本概念 241
8.2 Apriori算法 245
8.2.1 Apriori算法工作步驟 245
8.2.2 Apriori算法的評估方法 246
8.2.3 Apriori節點 247
8.3 CARMA算法 249
8.3.1 CARMA算法的工作步驟 249
8.3.2 CARMA節點 251
8.4 序列算法 252
8.5 關聯規則的評價 255
8.6 典型應用案例 256
第9章我們還需要優化技術的幫忙 257
9.1 什么是優化技術 258
9.2 優化問題的分類 259
9.2.1 線性規劃 260
9.2.2 整數規劃 261
9.2.3 多目標規劃 262
9.2.4 動態規劃 262
9.3 IBM ILOG Optimization介紹 263
9.4 本章小結 265
第10章有關方法論的問題 266
10.1 為什么我們要討論方法論 267
10.2 CRISP-DM 267
10.2.1 CRISP-DM方法學 268
10.2.2 CRISP-DM參考模型 270
10.3 IBM SPSS CaDS 273
10.3.1 Repository 273
10.3.2 Job 274
10.3.3 Model Refresh and Champion Challenger 274
10.3.4 Scoring 274
10.4 模型的部署不是終點 275
第11章一個時髦的領域——決策管理 276
11.1 決策管理系統 276
11.1.1 什么是決策 277
11.1.2 什么是決策管理系統 279
11.1.3 決策支持與決策管理的比較 281
11.2 構建決策管理系統 282
11.2.1 構建決策支持系統的原則 282
11.2.2 合適的決策 283
11.2.3 如何找到合適的決策 285
11.2.4 怎樣在決策管理系統中定義決策 287
11.2.5 決策管理系統中的優化技術 292
11.2.6 決策影響的評估 294
11.2.7 監控決策 297
11.2.8 決策的持續改進 298
11.2.9 構建和部署決策服務 299
11.2.10 實施決策管理的一些要求 300
11.3 IBM ADM 301
11.3.1 ADM是SPSS數據分析能力的窗口 301
11.3.2 ADM的著眼點是將數據分析結果轉化為決策 302
11.3.3 ADM是一個可以配置的決策服務平臺 303
11.3.4 ADM的工作步驟 306
11.4 本章小結 308
后記為未來做好準備 309

序：