并行數據挖掘及性能優化——關聯規則與數據相關性分析 ( 簡體 字) |
作者:荀亞玲 | 類別:1. -> 程式設計 -> 綜合 |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 52306 詢問書籍請說出此書號!【有庫存】 NT售價: 440 元 |
出版日:12/1/2019 |
頁數:224 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121375828 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產要素。大數據雖然孕育于信息通信技術的日漸普及和成熟過程中,但它對社會經濟生活產生的影響絕不限于技術層面。本質上,它為我們看待世界提供了一種全新的方法,即決策行為將日益基于數據分析做出,而不是像過去那樣更多地憑借經驗和直覺做出。數據挖掘是實現大數據知識發現的有效手段和途徑,能幫助人們從海量數據中找到未知的、可能有用的、隱藏的規則,可以通過關聯分析、聚類分析、時序分析等各種算法發現一些無法通過觀察圖表得出的深層次“知識”。關聯規則作為數據挖掘領域中的一個主要研究內容,可以在不知道或無法確定數據的關聯函數或模型時,有效發現大量數據項集之間有趣的關聯信息,其已在零售、快消、電商、金融、搜索引擎、智能推薦等領域大有作為。自1993年Agrawal等人首先提出關聯規則以來,關聯規則的理論研究已經吸引了大量的國內外研究者。圍繞關聯規則的研究主要集中于兩個方面:擴展經典關聯規則能夠解決問題的范圍;改善經典關聯規則挖掘算法效率和規則興趣性。本書側重于第二方面的研究內容。現有的關聯規則挖掘算法因其時空復雜性和I/O代價高,難以適應大數據分析處理任務,利用集群系統、并行技術的強大數據處理能力,研究面向大數據的關聯規則挖掘方法和性能優化,對于如今信息爆炸的大數據時代具有重要意義。
近年來,作者一直進行數據挖掘與并行計算方面的研究,圍繞大數據時代數據處理的核心理論與技術問題,將數據挖掘技術、并行算法設計及計算模型的優化技術有機結合,試圖改善“信息豐富而知識貧乏”的窘境。本書是作者近年來相關科研成果的總結,全書主要內容分為三篇共9章,具體章節編排如下:
第一篇是基礎理論篇(包括第1、2章)。該篇對本書涉及的一些相關概念和理論知識做了簡要介紹。其中,第1章主要介紹數據挖掘、關聯規則、集群系統與并行計算模型及大數據的相關概念、理論基礎及應用;第2章對目前影響MapReduce集群性能的關鍵因素——數據放置策略的研究與進展進行了綜述和分析。
第二篇是關聯規則并行挖掘及性能優化篇(包括第3∼8章)。該篇對并行環境下的關聯規則挖掘算法及研究過程中發現的一些性能問題進行了深入探討與研究。第3章和第4章均研究了基于MapReduce集群環境的關聯規則挖掘算法;第5章提出基于約束的頻繁項集并行挖掘算法,以提高挖掘結果的針對性,同時也考慮了挖掘過程中的負載均衡問題;第6章和第7章針對頻繁項集并行挖掘過程中存在的數據非本地性問題,分別提出了一種新的數據劃分策略和任務重定向方法;為了更好地適應關聯規則挖掘的高迭代計算任務,第8章提出一種基于Spark平臺的挖掘算法。
第三篇是應用篇(包括第9章)。本篇以某鋼鐵企業的冷軋輥產品生產為背景,將上述研究成果應用于冷軋輥產品質量控制過程的相關性分析中,從而為企業開展產品質量控制提供了一種新的技術方法和解決思路。
本書的完成得到了太原科技大學計算機學院數據挖掘和智能信息系統實驗室團隊成員的大力支持,尤其是張繼福教授提出了寶貴建議,碩士研究生吳曉婷、閆曉嫵、李永紅、于曉龍等在實驗過程中給予了大量幫助。另外,美國奧本大學秦嘯教授在研究過程中給予了許多有益的指導和建議。在此一并致以誠摯的謝意。
本書所涉及的研究工作得到了國家自然科學基金資助項目(No.61602335、No.61876122、No.U1731126)、太原科技大學博士科研啟動基金項目(No.20172017)的資助,在此謹向相關機構表示深深的感謝。
由于作者水平有限,書中難免有不妥之處,歡迎各位專家和廣大讀者批評指正。
作 者 |
內容簡介:大數據推動了各行各業的迅猛發展,各領域呈現出新產品、新技術、新服務和新的發展業態,但“信息豐富而知識貧乏”的現象仍然存在。逾越數據與知識之間的鴻溝,需要強有力的分析工具和分析方法的支撐。現有的關聯規則挖掘算法,因其時空復雜性和I/O代價高,難以適應大數據分析任務。本書充分利用Hadoop、Spark等集群系統的強大數據處理能力,論述了支持大數據分析的關聯規則并行挖掘算法與集群系統性能優化,并探討了其在智能制造領域的應用。本書可供從事數據挖掘、機器學習及并行計算等相關專業的科研人員參考,也可作為高等院校計算機、大數據專業的高年級本科生與研究生的學習參考書。 |
目錄:第一篇 基礎理論篇
第1章 緒論 3
1.1 數據挖掘 4
1.1.1 數據挖掘的產生和定義 4
1.1.2 數據挖掘的任務與分類 6
1.1.3 研究前沿和發展趨勢 8
1.2 關聯規則 9
1.2.1 關聯規則及其分類 9
1.2.2 關聯規則挖掘算法 12
1.3 集群系統與并行計算模型 17
1.3.1 集群系統 17
1.3.2 并行計算模型 18
1.3.3 大數據處理架構Hadoop與Spark 21
1.4 大數據環境下的數據挖掘及應用 27
1.4.1 大數據 27
1.4.2 大數據挖掘及應用 29
第2章 MapReduce集群環境下的數據放置策略 33
2.1 引言 34
2.2 數據放置策略的關鍵問題與度量標準 35
2.3 數據放置策略的優化 37
2.3.1 MapReduce集群系統能耗與數據放置策略 38
2.3.2 負載均衡的數據放置策略 41
2.3.3 改善I/O性能與通信負載的數據放置策略 46
2.3.4 考慮其他因素的數據放置策略 49
2.4 數據放置策略的分析與歸納 50
2.5 本章小結 53
第二篇 關聯規則并行挖掘及性能優化篇
第3章 壓縮后綴鏈表與并行頻繁項集挖掘算法 61
3.1 問題提出 62
3.2 基礎理論 63
3.3 基于MapReduce的頻繁項集挖掘算法 65
3.3.1 第一個MapReduce作業 67
3.3.2 第二個MapReduce作業 67
3.4 實驗評價 68
3.4.1 最小支持度 69
3.4.2 可擴展性 70
3.4.3 加速比 70
3.5 本章小結 71
第4章 FIUT算法與頻繁項集并行挖掘 73
4.1 引言 74
4.2 FIUT算法描述 76
4.3 FiDoop算法概述 77
4.4 基于MapReduce的FiDoop算法 81
4.4.1 第一個MapReduce作業 83
4.4.2 第二個MapReduce作業 83
4.4.3 第三個MapReduce作業 84
4.5 實現細節 87
4.5.1 負載均衡 87
4.5.2 高維優化 88
4.6 FiDoop-HD算法 90
4.7 實驗評價 92
4.7.1 最小支持度 93
4.7.2 負載均衡 95
4.7.3 加速比 96
4.7.4 可擴展性 97
4.8 本章小結 98
第5章 MapReduce編程模型下的約束頻繁項集并行挖掘算法 101
5.1 問題提出 102
5.2 約束頻繁項集挖掘算法的并行化 103
5.3 基于MapReduce的約束頻繁項集并行挖掘 105
5.4 基于MapReduce的約束頻繁項集并行挖掘算法(PACFP) 108
5.4.1 并行化計數過程 108
5.4.2 并行化CFP-Growth算法 109
5.4.3 結果聚合 111
5.5 負載均衡 111
5.6 實驗結果及分析 112
5.6.1 最小支持度 113
5.6.2 可伸縮性 115
5.6.3 可擴展性 116
5.6.4 約束條件判斷的代價分析 117
5.6.5 負載均衡 118
5.7 本章小結 120
第6章 支持并行頻繁項集挖掘的數據劃分策略 121
6.1 引言 122
6.1.1 FiDoop-DP算法的研發動機 123
6.1.2 FiDoop-DP算法要解決的數據劃分問題 124
6.1.3 FiDoop-DP算法的基本思想 125
6.2 并行FP-Growth算法 126
6.3 相關工作 128
6.3.1 MapReduce下的數據劃分 128
6.3.2 應用系統相關的數據劃分 129
6.4 問題陳述和設計目標 131
6.4.1 基本方法與問題陳述 131
6.4.2 設計目標 132
6.5 數據劃分策略 133
6.5.1 距離度量 134
6.5.2 K-Means算法種子點的選擇 135
6.5.3 劃分策略 135
6.6 實現細節 138
6.7 實驗評價 143
6.7.1 種子點個數對算法的影響 143
6.7.2 最小支持度對算法的影響 145
6.7.3 數據特征對算法的影響 147
6.7.4 加速比 149
6.7.5 可擴展性 150
6.8 本章小結 151
第7章 頻繁項集并行化過程中的重定向任務調度 153
7.1 問題提出 154
7.2 重定向任務調度算法 156
7.2.1 數據本地化的重要性 156
7.2.2 計算響應時間 157
7.2.3 重定向任務調度算法的設計 158
7.3 實驗結果及分析 160
7.3.1 有效性 160
7.3.2 可擴展性 161
7.3.3 穩定性 162
7.4 本章小結 163
第8章 基于Spark內存計算的并行頻繁項集挖掘及優化 165
8.1 引言 166
8.2 FP-Growth 算法的并行化分析 167
8.3 Spark環境下的均衡FP-Growth算法 169
8.3.1 負載均衡的分組策略 169
8.3.2 負載均衡的FP-Growth算法并行化 172
8.4 實驗評價 174
8.4.1 算法執行效率 175
8.4.2 加速比 176
8.4.3 可擴展性 177
8.5 本章小結 178
第三篇 應 用 篇
第9章 冷軋輥加工質量管理過程相關性分析 181
9.1 引言 182
9.2 系統需求與總體設計 184
9.2.1 軋輥生產工藝流程 184
9.2.2 冷軋輥生產質量管理特點 186
9.2.3 系統的軟件體系結構及功能 188
9.3 數據預處理及關鍵技術 190
9.3.1 數據轉換 190
9.3.2 數據清理 190
9.3.3 數據離散化 193
9.4 提取關聯規則 195
9.5 系統實現及運行結果 196
9.6 本章小結 203
附錄A 冷軋輥加工數據 205
附錄B 冷軋輥加工數據預處理格式 207
參考文獻 209
第一篇 基礎理論篇
第1章 緒論 3
1.1 數據挖掘 4
1.1.1 數據挖掘的產生和定義 4
1.1.2 數據挖掘的任務與分類 6
1.1.3 研究前沿和發展趨勢 8
1.2 關聯規則 9
1.2.1 關聯規則及其分類 9
1.2.2 關聯規則挖掘算法 12
1.3 集群系統與并行計算模型 17
1.3.1 集群系統 17
1.3.2 并行計算模型 18
1.3.3 大數據處理架構Hadoop與Spark 21
1.4 大數據環境下的數據挖掘及應用 27
1.4.1 大數據 27
1.4.2 大數據挖掘及應用 29
第2章 MapReduce集群環境下的數據放置策略 33
2.1 引言 34
2.2 數據放置策略的關鍵問題與度量標準 35
2.3 數據放置策略的優化 37
2.3.1 MapReduce集群系統能耗與數據放置策略 38
2.3.2 負載均衡的數據放置策略 41
2.3.3 改善I/O性能與通信負載的數據放置策略 46
2.3.4 考慮其他因素的數據放置策略 49
2.4 數據放置策略的分析與歸納 50
2.5 本章小結 53
第二篇 關聯規則并行挖掘及性能優化篇
第3章 壓縮后綴鏈表與并行頻繁項集挖掘算法 61
3.1 問題提出 62
3.2 基礎理論 63
3.3 基于MapReduce的頻繁項集挖掘算法 65
3.3.1 第一個MapReduce作業 67
3.3.2 第二個MapReduce作業 67
3.4 實驗評價 68
3.4.1 最小支持度 69
3.4.2 可擴展性 70
3.4.3 加速比 70
3.5 本章小結 71
第4章 FIUT算法與頻繁項集并行挖掘 73
4.1 引言 74
4.2 FIUT算法描述 76
4.3 FiDoop算法概述 77
4.4 基于MapReduce的FiDoop算法 81
4.4.1 第一個MapReduce作業 83
4.4.2 第二個MapReduce作業 83
4.4.3 第三個MapReduce作業 84
4.5 實現細節 87
4.5.1 負載均衡 87
4.5.2 高維優化 88
4.6 FiDoop-HD算法 90
4.7 實驗評價 92
4.7.1 最小支持度 93
4.7.2 負載均衡 95
4.7.3 加速比 96
4.7.4 可擴展性 97
4.8 本章小結 98
第5章 MapReduce編程模型下的約束頻繁項集并行挖掘算法 101
5.1 問題提出 102
5.2 約束頻繁項集挖掘算法的并行化 103
5.3 基于MapReduce的約束頻繁項集并行挖掘 105
5.4 基于MapReduce的約束頻繁項集并行挖掘算法(PACFP) 108
5.4.1 并行化計數過程 108
5.4.2 并行化CFP-Growth算法 109
5.4.3 結果聚合 111
5.5 負載均衡 111
5.6 實驗結果及分析 112
5.6.1 最小支持度 113
5.6.2 可伸縮性 115
5.6.3 可擴展性 116
5.6.4 約束條件判斷的代價分析 117
5.6.5 負載均衡 118
5.7 本章小結 120
第6章 支持并行頻繁項集挖掘的數據劃分策略 121
6.1 引言 122
6.1.1 FiDoop-DP算法的研發動機 123
6.1.2 FiDoop-DP算法要解決的數據劃分問題 124
6.1.3 FiDoop-DP算法的基本思想 125
6.2 并行FP-Growth算法 126
6.3 相關工作 128
6.3.1 MapReduce下的數據劃分 128
6.3.2 應用系統相關的數據劃分 129
6.4 問題陳述和設計目標 131
6.4.1 基本方法與問題陳述 131
6.4.2 設計目標 132
6.5 數據劃分策略 133
6.5.1 距離度量 134
6.5.2 K-Means算法種子點的選擇 135
6.5.3 劃分策略 135
6.6 實現細節 138
6.7 實驗評價 143
6.7.1 種子點個數對算法的影響 143
6.7.2 最小支持度對算法的影響 145
6.7.3 數據特征對算法的影響 147
6.7.4 加速比 149
6.7.5 可擴展性 150
6.8 本章小結 151
第7章 頻繁項集并行化過程中的重定向任務調度 153
7.1 問題提出 154
7.2 重定向任務調度算法 156
7.2.1 數據本地化的重要性 156
7.2.2 計算響應時間 157
7.2.3 重定向任務調度算法的設計 158
7.3 實驗結果及分析 160
7.3.1 有效性 160
7.3.2 可擴展性 161
7.3.3 穩定性 162
7.4 本章小結 163
第8章 基于Spark內存計算的并行頻繁項集挖掘及優化 165
8.1 引言 166
8.2 FP-Growth 算法的并行化分析 167
8.3 Spark環境下的均衡FP-Growth算法 169
8.3.1 負載均衡的分組策略 169
8.3.2 負載均衡的FP-Growth算法并行化 172
8.4 實驗評價 174
8.4.1 算法執行效率 175
8.4.2 加速比 176
8.4.3 可擴展性 177
8.5 本章小結 178
第三篇 應 用 篇
第9章 冷軋輥加工質量管理過程相關性分析 181
9.1 引言 182
9.2 系統需求與總體設計 184
9.2.1 軋輥生產工藝流程 184
9.2.2 冷軋輥生產質量管理特點 186
9.2.3 系統的軟件體系結構及功能 188
9.3 數據預處理及關鍵技術 190
9.3.1 數據轉換 190
9.3.2 數據清理 190
9.3.3 數據離散化 193
9.4 提取關聯規則 195
9.5 系統實現及運行結果 196
9.6 本章小結 203
附錄A 冷軋輥加工數據 205
附錄B 冷軋輥加工數據預處理格式 207
參考文獻 209 |
序: |