3dwoo大學簡體電腦書店
數據倉庫與數據挖掘實踐
( 簡體 字)
作者:李春葆,李石君,李筱馳類別:1. -> 程式設計 -> 綜合
出版社:電子工業出版社數據倉庫與數據挖掘實踐 3dWoo書號: 40227
詢問書籍請說出此書號!
有庫存
NT售價: 240
出版日:11/1/2014
頁數:368
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121244926 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第 1 章數據倉庫概述 (1)
1.1 數據倉庫及其歷史 (1)
1.1.1 數據庫技術的發展· (1)
1.1.2 什么是數據倉庫····· (2)
1.2 數據倉庫系統及其開發工具···· (5)
1.2.1 數據倉庫系統的組成···· (5)
1.2.2 ETL ············ (6)
1.2.3 數據倉庫和數據集市的關系····· (6)
1.2.4 元數據及其管理····· (7)
1.3 數據倉庫系統開發工具······ (8)
1.4 數據倉庫與操作型數據庫的關系········· (9)
1.4.1 從數據庫到數據倉庫···· (9)
1.4.2 數據倉庫為什么是分離的········(10)
1.4.3 數據倉庫與操作型數據庫的對比·········(10)
1.4.4 ODS ··········(11)
1.5 商務智能與數據倉庫的關系···(11)
練習題 1 ···········(12)
思考題 1 ···········(13)
第 2 章數據倉庫設計···· (14)
2.1 數據倉庫設計概述············(14)
2.1.1 數據倉庫設計原則(14)
2.1.2 數據倉庫構建模式(14)
2.1.3 數據倉庫設計步驟(15)
2.2 數據倉庫的規劃和需求分析···(15)
2.2.1 數據倉庫的規劃····(15)
2.2.2 數據倉庫的需求分析···(16)
2.3 數據倉庫的建模···(17)
2.3.1 多維數據模型及相關概念········(17)
·VI·
2.3.2 多維數據模型的實現··(18)
2.3.3 數據倉庫建模的主要工作········(19)
2.3.4 幾種常見的基于關系數據庫的多維數據模型···(21)
2.4 數據倉庫的物理模型設計·(26)
2.4.1 確定數據的存儲結構··(27)
2.4.2 確定索引策略········(27)
2.4.3 確定存儲分配········(27)
2.5 數據倉庫的部署和維護····(28)
2.5.1 數據倉庫的部署····(28)
2.5.2 數據倉庫的維護····(28)
2.6 一個簡單的數據倉庫SDWS 設計示例············(29)
2.6.1 SDWS 的需求分析(29)
2.6.2 SDWS 的建模········(29)
2.6.3 基于SQL Server 2008 設計SDWS·······(35)
練習題 2···········(42)
思考題 2···········(43)
第 3 章 OLAP 技術·· (44)
3.1 OLAP 概述···········(44)
3.1.1 什么是OLAP ········(44)
3.1.2 OLAP 技術的特性·(44)
3.1.3 OLAP 和OLTP 的區別············(45)
3.1.4 數據倉庫與OLAP 的關系·······(46)
3.1.5 OLAP 分類············(46)
3.2 OLAP 的多維數據模型·····(48)
3.2.1 多維數據模型的定義··(48)
3.2.2 OLAP 的基本分析操作············(49)
3.2.3 一個簡單的多維數據模型········(53)
3.3 OLAP 實現···········(56)
3.3.1 數據立方體的有效計算···········(56)
3.3.2 索引OLAP 數據···(61)
3.3.3 OLAP 查詢的有效處理············(62)
練習題 3···········(63)
思考題 3···········(64)
第 4 章數據挖掘概述···· (65)
4.1 什么是數據挖掘···(65)
4.1.1 數據挖掘的定義····(65)
4.1.2 數據挖掘的知識表示··(66)
4.1.3 數據挖掘的主要任務··(66)
4.1.4 數據挖掘的發展····(67)
·VII·
4.1.5 數據挖掘的對象····(67)
4.1.6 數據挖掘的分類····(68)
4.1.7 數據挖掘與數據倉庫及OLAP 的關系·(68)
4.1.8 數據挖掘的應用····(69)
4.2 數據挖掘系統·······(70)
4.2.1 數據挖掘系統的結構···(70)
4.2.2 數據挖掘系統的設計···(71)
4.2.3 常用的數據挖掘系統及其發展(73)
4.3 數據挖掘過程·······(74)
4.3.1 數據挖掘步驟········(74)
4.3.2 數據清理···(74)
4.3.3 數據集成···(75)
4.3.4 數據變換···(76)
4.3.5 數據歸約···(77)
4.3.6 離散化和概念分層生成············(79)
4.3.7 數據挖掘的算法····(81)
4.4 數據挖掘的未來展望·········(83)
練習題 4 ···········(83)
思考題 4 ···········(84)
第 5 章關聯分析····· (85)
5.1 關聯分析的概念···(85)
5.1.1 事務數據庫············(85)
5.1.2 關聯規則及其度量(86)
5.1.3 頻繁項集···(87)
5.1.4 挖掘關聯規則的基本過程········(87)
5.2 Apriori 算法··········(88)
5.2.1 Apriori 性質···········(88)
5.2.2 Apriori 算法···········(89)
5.2.3 由頻繁項集產生關聯規則········(93)
5.2.4 提高Apriori 算法的有效性······(96)
5.2.5 非二元屬性的關聯規則挖掘····(99)
5.3 頻繁項集的緊湊表示·······(100)
5.3.1 最大頻繁項集······(100)
5.3.2 頻繁閉項集··········(101)
5.4 FP-growth 算法···(103)
5.4.1 FP-growth 算法框架··(103)
5.4.2 FP 樹構造············(104)
5.4.3 由FP 樹產生頻繁項集···········(107)
5.5 多層關聯規則的挖掘·······(109)
·VIII·
5.5.1 多層關聯規則的挖掘概述······ (109)
5.5.2 多層關聯規則的挖掘算法······ (111)
5.5.3 多維關聯規則······ (114)
5.6 其他類型的關聯規則······ (114)
5.6.1 基于約束的關聯規則 (114)
5.6.2 負關聯規則·········· (114)
5.7 SQL Server 挖掘關聯規則的示例······ (115)
5.7.1 建立DM 數據庫· (115)
5.7.2 建立關聯挖掘項目···· (116)
5.7.3 部署關聯挖掘項目并瀏覽結果··········· (120)
練習題 5········· (122)
思考題 5········· (126)
第 6 章序列模式挖掘···(127)
6.1 序列模式挖掘概述·········· (127)
6.1.1 序列數據庫·········· (127)
6.1.2 序列模式挖掘算法···· (129)
6.2 Apriori 類算法···· (130)
6.2.1 AprioriAll 算法···· (130)
6.2.2 AprioriSome 算法 (135)
6.2.3 DynamicSome 算法··· (138)
6.2.4 GSP 算法 (140)
6.2.5 SPADE 算法········ (144)
6.3 模式增長框架的序列挖掘算法·········· (150)
6.3.1 FreeSpan 算法······ (150)
6.3.2 PrefixSpan 算法··· (152)
練習題 6········· (155)
思考題 6········· (157)
第 7 章分類方法····(158)
7.1 分類過程············ (158)
7.1.1 學習階段 (158)
7.1.2 分類階段 (160)
7.2 k-最鄰近分類算法··········· (160)
7.3 決策樹分類算法· (162)
7.3.1 決策樹···· (162)
7.3.2 建立決策樹的ID3 算法········· (163)
7.3.3 建立決策樹的C4.5 算法········ (173)
7.4 貝葉斯分類算法· (175)
7.4.1 貝葉斯分類概述·· (175)
7.4.2 樸素貝葉斯分類·· (177)
·IX·
7.4.3 樹增強樸素貝葉斯分類··········(183)
7.5 神經網絡算法·····(185)
7.5.1 生物神經元和人工神經元······(185)
7.5.2 人工神經網絡······(187)
7.5.3 前饋神經網絡用于分類··········(189)
7.5.4 SQL Server 中神經網絡分類示例·······(196)
7.6 支持向量機·········(199)
7.6.1 線性可分時的二元分類問題··(199)
7.6.2 線性不可分時的二元分類問題···········(203)
練習題 7 ·········(206)
思考題 7 ·········(209)
第 8 章回歸分析和時序挖掘·····(210)
8.1 線性和非線性回歸分析···(210)
8.1.1 一元線性回歸分析····(210)
8.1.2 多元線性回歸分析····(213)
8.1.3 非線性回歸分析··(214)
8.2 邏輯回歸分析·····(217)
8.2.1 邏輯回歸原理······(217)
8.2.2 邏輯回歸模型······(218)
8.2.3 SQL Server 中邏輯回歸分析示例·······(219)
8.3 時序分析模型·····(221)
8.3.1 時序分析概述······(221)
8.3.2 時序預測的常用方法·(222)
8.3.3 回歸分析與時序分析的關系··(223)
8.3.4 確定性時序模型··(223)
8.3.5 隨機時序模型······(226)
8.3.6 SQL Server 建立隨機時序模型示例····(228)
8.4 時序的相似性搜索··········(231)
8.4.1 相似性搜索的概念····(231)
8.4.2 完全匹配·(232)
8.4.3 基于離散傅里葉變換的子序列匹配····(232)
8.4.4 基于規范變換的子序列匹配··(234)
練習題 8 ·········(236)
思考題 8 ·········(237)
第 9 章粗糙集理論(238)
9.1 粗糙集理論概述·(238)
9.1.1 粗糙集理論的產生····(238)
9.1.2 粗糙集理論的特點····(238)
9.1.3 粗糙集理論在數據挖掘中的應用·······(239)
·X·
9.2 粗糙集理論中的基本概念····· (239)
9.2.1 集合的基本概念·· (239)
9.2.2 信息系統和粗糙集···· (240)
9.2.3 分類的近似度量·· (244)
9.3 信息系統的屬性約簡······ (245)
9.3.1 約簡和核 (245)
9.3.2 分辨矩陣求核······ (246)
9.4 決策表及其屬性約簡······ (247)
9.4.1 決策表及相關概念···· (247)
9.4.2 決策表的屬性約簡算法········· (251)
9.5 決策表的值約簡及其算法····· (258)
9.5.1 決策規則及其簡化···· (258)
9.5.2 決策規則的極小化···· (261)
9.6 粗糙集在數據挖掘中的應用示例······ (265)
練習題 9········· (266)
思考題 9········· (269)
第 10 章聚類方法··(270)
10.1 聚類概述·········· (270)
10.1.1 什么是聚類········ (270)
10.1.2 相似性測度········ (270)
10.1.3 聚類過程··········· (272)
10.1.4 聚類算法的評價 (272)
10.1.5 聚類方法的分類 (274)
10.1.6 聚類分析在數據挖掘中的應用········· (275)
10.1.7 聚類算法的要求 (275)
10.2 基于劃分的聚類算法···· (276)
10.2.1 k-均值算法········· (276)
10.2.2 k-中心點算法····· (283)
10.3 基于層次的聚類算法···· (285)
10.3.1 層次聚類算法概述·· (285)
10.3.2 DIANA 算法和AGNES 算法············ (287)
10.3.3 BIRCH 算法······ (289)
10.3.4 CURE 算法········ (292)
10.3.5 ROCK 算法········ (294)
10.3.6 Chameleon 算法· (295)
10.4 基于密度的聚類算法···· (299)
10.4.1 DBSCAN 算法··· (299)
10.4.2 OPTICS 算法····· (302)
10.5 基于網格的聚類算法···· (305)
·XI·
10.5.1 STING 算法·······(305)
10.5.2 WaveCluster 算法·····(307)
10.5.3 CLIQUE 算法·····(309)
10.6 基于模型的聚類算法·····(310)
10.6.1 EM 算法(310)
10.6.2 COBWEB 算法··(316)
10.7 離群點分析·······(320)
10.7.1 離群點概述········(320)
10.7.2 常見的離群點檢測方法········(321)
練習題 10 ·······(322)
思考題 10 ·······(323)
第 11 章其他挖掘方法·(324)
11.1 文本挖掘···········(324)
11.1.1 文本挖掘概述····(324)
11.1.2 數據預處理技術(325)
11.1.3 文本結構分析····(327)
11.1.4 文本分類············(328)
11.1.5 文本聚類············(330)
11.1.6 文本摘要············(332)
11.1.7 文本關聯分析····(332)
11.2 Web 挖掘··········(333)
11.2.1 Web 挖掘概述····(333)
11.2.2 Web 結構挖掘····(334)
11.2.3 Web 內容挖掘····(341)
11.2.4 Web 使用挖掘····(341)
11.2.5 Web 挖掘的發展方向···········(343)
11.3 空間數據挖掘···(343)
11.3.1 空間數據概述····(344)
11.3.2 空間數據立方體和空間OLAP··········(345)
11.3.3 空間數據挖掘方法···(346)
練習題 11 ·······(348)
思考題 11 ·······(348)
附錄A 常用的優化方法············(350)
參考文獻·····(354)
本書系統地介紹了數據倉庫和數據挖掘技術,全本由兩部分組成,第1章到第3章介紹數據倉庫的基本概念和相關技術,第4章到第11章介紹數據挖掘的基本概念和各種算法,包括數據倉庫構建、OLAP技術、分類方法、聚類方法、關聯分析、序列模式挖掘方法、回歸和時序分析、粗糙集理論、文本挖掘、Web挖掘和空間數據挖掘方法等。
本書既注重原理,又注重實踐,配有大量圖表、示例和練習題,內容豐富,概念講解清楚,表達嚴謹,邏輯性強,語言精練,可讀性好。
本書既便于教師課堂講授,又便于自學者閱讀。適合作為高等院校高年級學生和研究生“數據倉庫和數據挖掘”或“數據挖掘算法”課程的教材。

信息時代極大地推動了數據管理和數據處理技術的發展,數據倉庫和數據挖掘便是這一發展的產物。數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據的集合,用以支持企業高管系統地組織、理解和使用數據以便進行戰略決策。數據挖掘是適應信息社會從海量數據庫中提取信息的需要而產生的新學科,提取的信息包括隱藏的、以前不為人所知的、可信而有效的知識,數據挖掘是統計學、機器學習、數據庫和人工智能等學科的交叉。
本書是課程組在多年教學經驗基礎上總結和編寫的。本書由兩部分組成,第1 章到第3 章介紹數據倉庫的基本概念和相關技術;第4 章到第11 章介紹數據挖掘的基本概念和各種算法。各章內容如下。
第 1 章數據倉庫概述。介紹數據倉庫的概念、數據倉庫體系結構及其開發工具。
第 2 章數據倉庫設計。介紹數據倉庫系統設計方法和詳細的設計步驟,并討論了采用SQL Server 2008 設計SDWS 數據倉庫的過程。
第 3 章OLAP 技術。介紹OLAP 技術的概念、OLAP 的多維數據模型和OLAP 的實現,并結合SDWS 討論各種OLAP 的基本分析操作。
第 4 章數據挖掘概述。介紹數據挖掘的概念、數據挖掘系統、數據挖掘過程和數據挖掘的未來展望。
第 5 章關聯分析。介紹關聯分析的概念、Apriori 算法、頻繁項集的緊湊表示、FP-growth 算法、多層關聯規則挖掘和其他類型的關聯規則,并結合示例討論了SQL Server 2008 中進行關聯規則的過程。
第 6 章序列模式挖掘。介紹序列模式挖掘的概念,詳細討論了兩類主流的序列模式挖掘算法,即Apriori 類算法(包括AprioriAll 算法、AprioriSome 算法、DynamicSome 算法、GSP 算法和SPADE算法)和模式增長框架的序列挖掘算法(包括FreeSpan 算法和PrefixSpan 算法)。
第 7 章分類方法。介紹分類過程和各種主流的分類算法,包括k-最鄰近分類算法、決策樹算法、貝葉斯算法、神經網絡和支持向量機的分類算法等,并結合示例討論了SQL Server 2008 中實現決策樹和神經網絡分類的過程。
第 8 章回歸分析和時序挖掘。介紹線性和非線性回歸分析、邏輯回歸分析、時序分析模型和時序的相似性搜索等,并結合示例討論了SQL Server 2008 中實現一元線性回歸分析、邏輯回歸分析和建立隨機時序模型的過程。
第 9 章粗糙集理論。介紹粗糙集理論的相關概念、信息系統屬性約簡、決策表屬性約簡和決策表值約簡的算法,并結合示例討論了ROSE2(粗糙集數據分析工具)中實現數據挖掘的過程。
第 10 章聚類方法。介紹聚類的相關概念和各種主流的聚類算法,包括基于劃分的k-均值算法和k-中心點算法,基于層次的DIANA、AGNES、BIRCH、CURE、ROCK 和Chameleon 算法,基于密度的DBSCAN 和OPTICS 算法,基于網格的STING、WaveCluster 和CLIQUE 算法,基于模型的EM和COBWEB算法,另外討論了基本的離群點分析方法,并結合示例討論了SQL Server 2008中實現k-均值算法和EM 的聚類過程。
第 11 章其他挖掘方法。主要介紹文本挖掘、Web 挖掘和空間數據挖掘方法。
附錄 A 中給出常用的優化方法。每章都配備了適量的練習題和思考題,其中大部分來自近些年IT 企業的面試題。
本書的特點是內容豐富、由淺入深,循序漸進,概念表達嚴謹。既強調數據倉庫與數據挖掘學科的一般性原理,通過大量示例講授數據倉庫技術和各種數據挖掘算法,并對同類的算法進行對比分析,使讀者更容易體會到算法策略和設計特點;同時又注重實踐,全面介紹SQL Server 2008中設計數據倉庫的詳細步驟和其中提供的所有數據挖掘算法的應用示例。另外,對當前的數據挖掘的新發展進行了總結和展望。
本書的教學PPT 可以從華信教育資源網站(www.hxedu.com.cn)免費下載。同時為了更好地方便教師教學,我們將書內關鍵知識點錄制了操作視頻,讀者可以掃描書內及封底的二維碼,隨時查看相關操作視頻。
本書的編寫工作得到電子工業出版社的全力支持,在編寫過程中作者參閱了大量的文獻,未能一一列出,在此一并表示衷心感謝。
本書是課程組全體教師多年教學經驗的總結和體現,盡管作者不遺余力,但由于水平所限,仍存在錯誤和不足之處,敬請教師和同學們批評指正,歡迎讀者通過licb1964@126.com 郵箱與作者聯系,在此表示感謝。
pagetop