-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
10/8 新書到! 10/1 新書到! 9/24 新書到! 9/18 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

斯坦福數據挖掘教程 第3版

( 簡體 字)
作者:[美]尤雷·萊斯科夫(Jure Leskovec),阿南德·拉賈拉曼(Anand Rajaraman),杰弗里·大衛·厄爾曼(Jeffrey David Ullman)類別:1. -> 程式設計 -> 數據挖掘
譯者:
出版社:人民郵電出版社斯坦福數據挖掘教程 第3版 3dWoo書號: 54322
詢問書籍請說出此書號!

有庫存
NT售價: 645

出版日:4/1/2021
頁數:436
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787115556691
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

本書由斯坦福大學“Web挖掘”課程的內容總結而成,主要關注極大規模數據的挖掘。書中包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統、社會網絡圖挖掘和大規模機器學習等主要內容。第3 版新增了決策樹、神經網絡和深度學習等內容。幾乎每節都有對應的習題,以此來鞏固所講解的內容。讀者還可以從網上獲取相關拓展資料。
目錄:

第 1章 數據挖掘基本概念  1
1.1 數據挖掘的定義 1
1.1.1 建模 1
1.1.2 統計建模 2
1.1.3 機器學習 2
1.1.4 建模的計算方法 3
1.1.5 數據概括 3
1.1.6 特征抽取 4
1.2 數據挖掘的統計限制 5
1.2.1 整體情報預警 5
1.2.2 邦弗朗尼原理 5
1.2.3 邦弗朗尼原理的一個例子 6
1.2.4 習題 7
1.3 相關知識 7
1.3.1 詞語在文檔中的重要性 7
1.3.2 哈希函數 8
1.3.3 索引 9
1.3.4 二級存儲器 10
1.3.5 自然對數的底e 11
1.3.6 冪定律 12
1.3.7 習題 13
1.4 本書概要 14
1.5 小結 15
1.6 參考文獻 16
第 2章 MapReduce和新軟件棧 17
2.1 分布式文件系統 18
2.1.1 計算節點的物理結構 18
2.1.2 大規模文件系統的結構 19
2.2 MapReduce 20
2.2.1 Map任務 21
2.2.2 按鍵分組 21
2.2.3 Reduce任務 22
2.2.4 組合器 22
2.2.5 MapReduce的執行細節 23
2.2.6 節點故障的處理 24
2.2.7 習題 24
2.3 使用MapReduce的算法 24
2.3.1 基于MapReduce的矩陣—向量乘法實現 25
2.3.2 向量v無法放入內存時的處理 26
2.3.4 基于MapReduce的選擇運算 28
2.3.5 基于MapReduce的投影運算 28
2.3.6 基于MapReduce的并、交和差運算 29
2.3.7 基于MapReduce的自然連接運算 29
2.3.8 基于MapReduce的分組和聚合運算 30
2.3.9 矩陣乘法 30
2.3.10 基于單步MapReduce的矩陣乘法 31
2.3.11 習題 32
2.4 MapReduce的擴展 32
2.4.1 工作流系統 33
2.4.2 Spark 34
2.4.3 Spark實現 36
2.4.4 TensorFlow 37
2.4.5 MapReduce的遞歸擴展版本 38
2.4.6 整體同步系統 40
2.4.7 習題 41
2.5 通信開銷模型 41
2.5.1 任務網絡的通信開銷 42
2.5.2 時鐘時間 43
2.5.3 多路連接 43
2.5.4 習題 46
2.6 MapReduce復雜性理論 47
2.6.1 Reducer規模及復制率 47
2.6.2 一個例子:相似性連接 48
2.6.3 MapReduce問題的一個圖模型 51
2.6.5 并非所有輸入都存在時的處理 52
2.6.7 案例分析:矩陣乘法 54
2.6.8 習題 57
2.7 小結 58
2.8 參考文獻 59
第3章 相似項發現 61
3.1 集合相似度的應用 62
3.1.1 集合的Jaccard相似度 62
3.1.2 文檔的相似度 62
3.1.3 協同過濾——一個集合相似問題 63
3.1.4 習題 64
3.2 文檔的shingling 65
3.2.1 k-shingle 65
3.2.2 shingle大小的選擇 65
3.2.3 對shingle進行哈希 66
3.2.4 基于詞的shingle 66
3.2.5 習題 67
3.3 保持相似度的集合摘要表示 67
3.3.1 集合的矩陣表示 67
3.3.2 最小哈希 68
3.3.3 最小哈希和Jaccard相似度 69
3.3.4 最小哈希簽名 69
3.3.5 最小哈希簽名的計算 70
3.3.6 對最小哈希加速 72
3.3.7 使用哈希加速 73
3.3.8 習題 75
3.4 文檔的局部敏感哈希算法 76
3.4.1 面向最小哈希簽名的LSH 76
3.4.2 行條化策略的分析 77
3.4.3 上述技術的綜合 79
3.4.4 習題 79
3.5 距離測度 80
3.5.1 距離測度的定義 80
3.5.2 歐氏距離 80
3.5.3 Jaccard 距離 81
3.5.4 余弦距離 81
3.5.5 編輯距離 82
3.5.6 海明距離 83
3.5.7 習題 83
3.6 局部敏感函數理論 85
3.6.1 局部敏感函數 85
3.6.2 面向Jaccard距離的局部敏感函數族 86
3.6.3 局部敏感函數族的放大處理 87
3.6.4 習題 89
3.7 面向其他距離測度的LSH函數族 89
3.7.1 面向海明距離的LSH函數族 89
3.7.2 隨機超平面和余弦距離 90
3.7.3 梗概 91
3.7.4 面向歐氏距離的LSH函數族 91
3.7.5 面向歐氏空間的更多LSH函數族 92
3.7.6 習題 93
3.8 LSH函數的應用 93
3.8.1 實體關聯 94
3.8.2 一個實體關聯的例子 94
3.8.3 記錄匹配的驗證 95
3.8.4 指紋匹配 96
3.8.5 適用于指紋匹配的LSH函數族 98
3.8.7 習題 99
3.9 面向高相似度的方法 99
3.9.1 相等項發現 99
3.9.2 集合的字符串表示方法 100
3.9.3 基于長度的過濾 100
3.9.4 前綴索引 101
3.9.5 位置信息的使用 102
3.9.6 使用位置和長度信息的索引 103
3.9.7 習題 105
3.10 小結 106
3.11 參考文獻 108
第4章 數據流挖掘 109
4.1 流數據模型 109
4.1.1 一個數據流管理系統 109
4.1.2 流數據源的例子 110
4.1.3 流查詢 111
4.1.4 流處理中的若干問題 112
4.2 流當中的數據抽樣 112
4.2.1 一個富有啟發性的例子 112
4.2.2 代表性樣本的獲取 113
4.2.3 一般的抽樣問題 114
4.2.4 樣本規模的變化 114
4.2.5 習題 115
4.3 流過濾 115
4.3.1 一個例子 115
4.3.2 布隆過濾器 116
4.3.3 布隆過濾方法的分析 116
4.3.4 習題 117
4.4 流中獨立元素的數目統計 118
4.4.1 獨立元素計數問題 118
4.4.2 FM算法 118
4.4.3 組合估計 119
4.4.4 空間需求 120
4.4.5 習題 120
4.5 矩估計 120
4.5.1 矩定義 120
4.5.2 二階矩估計的AMS算法 121
4.5.3 AMS算法有效的原因 122
4.5.4 更高階矩的估計 122
4.5.5 無限流的處理 123
4.5.6 習題 124
4.6 窗口內的計數問題 124
4.6.1 精確計數的開銷 125
4.6.2 DGIM算法 125
4.6.3 DGIM算法的存儲需求 127
4.6.4 DGIM算法中的查詢應答 127
4.6.5 DGIM條件的保持 127
4.6.6 降低錯誤率 128
4.6.7 窗口內計數問題的擴展 129
4.6.8 習題 130
4.7 衰減窗口 130
4.7.1 最常見元素問題 130
4.7.2 衰減窗口的定義 130
4.7.3 最流行元素的發現 131
4.8 小結 132
4.9 參考文獻 133
第5章 鏈接分析 134
5.1 PageRank 134
5.1.1 早期的搜索引擎及詞項作弊 134
5.1.2 PageRank的定義 136
5.1.3 Web結構 138
5.1.4 避免終止點 140
5.1.5 采集器陷阱和“抽稅”法 142
5.1.6 PageRank在搜索引擎中的使用 144
5.1.7 習題 144
5.2 PageRank的快速計算 145
5.2.1 轉移矩陣的表示 146
5.2.2 基于MapReduce的PageRank迭代計算 146
5.2.3 結果向量合并時的組合器使用 147
5.2.4 轉移矩陣中塊的表示 148
5.2.5 其他高效的PageRank迭代方法 149
5.2.6 習題 150
5.3 面向主題的PageRank 150
5.3.1 動機 150
5.3.2 有偏的隨機游走模型 151
5.3.3 面向主題的PageRank的使用 153
5.3.5 習題 153
5.4 鏈接作弊 153
5.4.1 垃圾農場的架構 154
5.4.2 垃圾農場的分析 155
5.4.3 與鏈接作弊的斗爭 156
5.4.4 TrustRank 156
5.4.5 垃圾質量 156
5.4.6 習題 157
5.5 導航頁和權威頁 157
5.5.1 HITS的直觀意義 158
5.5.2 導航度和權威度的形式化 158
5.5.3 習題 161
5.6 小結 161
5.7 參考文獻 164
第6章 頻繁項集 165
6.1 購物籃模型 165
6.1.1 頻繁項集的定義 165
6.1.2 頻繁項集的應用 167
6.1.3 關聯規則 168
6.1.4 高可信度關聯規則的發現 169
6.1.5 習題 170
6.2 購物籃和A-Priori算法 171
6.2.1 購物籃數據的表示 171
6.2.2 項集計數中的內存使用 172
6.2.3 項集的單調性 173
6.2.4 二元組計數 174
6.2.5 A-Priori算法 174
6.2.6 所有頻繁項集上的A-Priori算法 176
6.2.7 習題 177
6.3 更大數據集在內存中的處理 178
6.3.1 PCY算法 179
6.3.2 多階段算法 180
6.3.3 多哈希算法 182
6.3.4 習題 183
6.4 有限掃描算法 185
6.4.1 簡單的隨機化算法 185
6.4.2 抽樣算法中的錯誤規避 186
6.4.3 SON算法 187
6.4.4 SON算法和MapReduce 187
6.4.5 Toivonen算法 188
6.4.6 Toivonen算法的有效性分析 189
6.4.7 習題 189
6.5 流中的頻繁項計數 190
6.5.1 流的抽樣方法 190
6.5.2 衰減窗口中的頻繁項集 191
6.5.3 混合方法 191
6.5.4 習題 192
6.6 小結 192
6.7 參考文獻 194
第7章 聚類 195
7.1 聚類技術介紹 195
7.1.1 點、空間和距離 195
7.1.2 聚類策略 196
7.1.3 維數災難 197
7.1.4 習題 198
7.2 層次聚類 198
7.2.1 歐氏空間下的層次聚類 198
7.2.2 層次聚類算法的效率 202
7.2.3 控制層次聚類的其他規則 202
7.2.4 非歐空間下的層次聚類 204
7.2.5 習題 205
7.3 k-均值算法 206
7.3.1 k-均值算法基本知識 206
7.3.2 k-均值算法的簇初始化 206
7.3.3 選擇正確的k值 207
7.3.4 BFR算法 208
7.3.5 BFR算法中的數據處理 210
7.3.6 習題 211
7.4 CURE算法 212
7.4.1 CURE算法的初始化 213
7.4.2 CURE算法的完成 214
7.4.3 習題 214
7.5 非歐空間下的聚類 215
7.5.1 GRGPF算法中的簇表示 215
7.5.2 簇表示樹的初始化 215
7.5.3 GRGPF算法中的點加入 216
7.5.4 簇的分裂及合并 217
7.5.5 習題 218
7.6 流聚類及并行化 218
7.6.1 流計算模型 218
7.6.2 一個流聚類算法 219
7.6.3 桶的初始化 219
7.6.4 桶合并 219
7.6.5 查詢應答 221
7.6.6 并行環境下的聚類 221
7.6.7 習題 222
7.7 小結 222
7.8 參考文獻 224
第8章 Web廣告 226
8.1 在線廣告相關問題 226
8.1.1 廣告機會 226
8.1.2 直投廣告 227
8.1.3 展示廣告的相關問題 227
8.2 在線算法 228
8.2.1 在線和離線算法 228
8.2.2 貪心算法 229
8.2.3 競爭率 230
8.2.4 習題 230
8.3 廣告匹配問題 231
8.3.1 匹配及完美匹配 231
8.3.2 極大匹配貪心算法 232
8.3.3 貪心匹配算法的競爭率 232
8.3.4 習題 233
8.4 adwords問題 233
8.4.1 搜索廣告的歷史 234
8.4.2 adwords問題的定義 234
8.4.3 adwords問題的貪心方法 235
8.4.4 Balance算法 236
8.4.5 Balance算法競爭率的一個下界 236
8.4.6 多投標者的Balance算法 238
8.4.7 一般性的Balance算法 239
8.4.8 adwords問題的最后論述 240
8.4.9 習題 240
8.5 adwords的實現 240
8.5.1 投標和搜索查詢的匹配 241
8.5.2 更復雜的匹配問題 241
8.5.3 文檔和投標之間的匹配算法 242
8.6 小結 243
8.7 參考文獻 245
第9章 推薦系統 246
9.1 推薦系統的模型 246
9.1.1 效用矩陣 246
9.1.2 長尾現象 247
9.1.3 推薦系統的應用 249
9.1.4 效用矩陣的填充 249
9.2 基于內容的推薦 249
9.2.1 項模型 250
9.2.2 文檔的特征發現 250
9.2.3 基于Tag的項特征獲取 251
9.2.4 項模型的表示 252
9.2.5 用戶模型 253
9.2.6 基于內容的項推薦 254
9.2.7 分類算法 254
9.2.8 習題 256
9.3 協同過濾 257
9.3.1 相似度計算 257
9.3.2 相似度對偶性 259
9.3.3 用戶聚類和項聚類 261
9.3.4 習題 262
9.4 降維處理 262
9.4.1 UV分解 262
9.4.2 RMSE 263
9.4.3 UV分解的增量式計算 264
9.4.4 對任一元素的優化 267
9.4.5 一個完整UV分解算法的構建 269
9.5 Netflix競賽 270
9.6 小結 271
9.7 參考文獻 272
第 10章 社會網絡圖挖掘 273
10.1 將社會網絡看成圖 273
10.1.1 社會網絡的概念 273
10.1.2 將社會網絡看成圖 274
10.1.3 各種社會網絡的例子 275
10.1.4 多類型節點構成的圖 276
10.1.5 習題 277
10.2 社會網絡圖的聚類 277
10.2.1 社會網絡圖的距離計算 277
10.2.2 應用標準的聚類算法 278
10.2.3 中介度 279
10.2.4 Girvan-Newman算法 279
10.2.5 利用中介度來發現社區 282
10.2.6 習題 283
10.3 社區的直接發現 283
10.3.1 團的發現 284
10.3.2 完全二部圖 284
10.3.3 發現完全二部子圖 285
10.3.4 完全二部子圖一定存在的原因 285
10.3.5 習題 287
10.4 圖劃分 287
10.4.1 圖劃分的好壞標準 288
10.4.2 歸一化割 288
10.4.3 描述圖的一些矩陣 289
10.4.4 拉普拉斯矩陣的特征值 290
10.4.5 其他圖劃分方法 292
10.4.6 習題 292
10.5 重疊社區的發現 293
10.5.1 社區的本質 293
10.5.2 極大似然估計 294
10.5.3 關系圖模型 295
10.5.4 社區分配的離散優化 296
10.5.5 避免成員隸屬關系的離散式變化 297
10.5.6 習題 298
10.6 Simrank 299
10.6.1 社會網絡上的隨機游走者 299
10.6.2 帶重啟的隨機游走 300
10.6.3 近似Simrank 302
10.6.4 近似Simrank有效的原因 303
10.6.5 Simrank在社區發現中的應用 304
10.6.6 習題 305
10.7 三角形計數問題. 306
10.7.1 為什么要對三角形計數 306
10.7.2 一個尋找三角形的算法 307
10.7.3 三角形尋找算法的最優性 308
10.7.4 基于MapReduce尋找三角形 308
10.7.5 使用更少的Reduce任務 310
10.7.6 習題 310
10.8 圖的鄰居性質 311
10.8.1 有向圖和鄰居 311
10.8.2 圖的直徑 312
10.8.3 傳遞閉包和可達性 313
10.8.4 基于MapReduce的可達性計算 314
10.8.5 半樸素求值 315
10.8.6 線性傳遞閉包 315
10.8.7 基于雙重遞歸的傳遞閉包 316
10.8.8 智能傳遞閉包 317
10.8.9 多種方法的比較 319
10.8.10 基于圖歸約的傳遞閉包 320
10.8.11 鄰居規模的近似計算 321
10.8.12 習題 323
10.9 小結 324
10.10 參考文獻 326
第 11章 降維處理 328
11.1 特征值和特征向量 328
11.1.1 定義 328
11.1.2 特征值與特征向量計算 329
11.1.3 基于冪迭代方法的特征對求解 331
11.1.4 特征向量矩陣 333
11.1.5 習題 333
11.2 主成分分析 334
11.2.1 一個示例 334
11.2.2 利用特征向量進行降維 337
11.2.3 距離矩陣 338
11.2.4 習題 339
11.3 奇異值分解 339
11.3.1 SVD的定義 339
11.3.2 SVD解析 341
11.3.3 基于SVD的降維 342
11.3.4 將較低奇異值置為0后有效的原因 343
11.3.5 使用概念進行查詢處理 344
11.3.6 矩陣SVD的計算 345
11.3.7 習題 346
11.4 CUR分解 347
11.4.1 CUR的定義 347
11.4.2 合理選擇行和列 348
11.4.3 構建中間矩陣 349
11.4.4 完整的CUR分解 350
11.4.5 去除重復行和列 351
11.4.6 習題 352
11.5 小結 352
11.6 參考文獻 353
第 12章 大規模機器學習 354
12.1 機器學習模型 354
12.1.1 訓練集 354
12.1.2 一些例子 355
12.1.3 機器學習方法 357
12.1.4 機器學習架構 358
12.1.5 習題 360
12.2 感知機 360
12.2.1 訓練閾值為0的感知機 361
12.2.2 感知機的收斂性 363
12.2.3 Winnow算法 364
12.2.4 允許閾值變化的情況 365
12.2.5 多類感知機 366
12.2.6 變換訓練集 367
12.2.7 感知機的問題 368
12.2.8 感知機的并行實現 369
12.2.9 習題 370
12.3 支持向量機 371
12.3.1 支持向量機的機理 371
12.3.2 超平面歸一化 372
12.3.3 尋找最優逼近分界面 374
12.3.4 基于梯度下降法求解SVM 380
12.3.6 SVM的并行實現 380
12.3.7 習題 381
12.4 近鄰學習 381
12.4.1 近鄰計算的框架 381
12.4.2 最近鄰學習 382
12.4.3 學習一維函數 383
12.4.4 核回歸 384
12.4.5 處理高維歐氏空間數據 385
12.4.6 對非歐距離的處理 386
12.4.7 習題 386
12.5 決策樹 387
12.5.1 使用決策樹 387
12.5.2 不純度度量方法 389
12.5.3 決策樹節點的設計 390
12.5.4 選擇基于數值型特征的測試 390
12.5.5 選擇基于分類型特征的測試 392
12.5.6 決策樹的并行設計 393
12.5.7 節點剪枝 394
12.5.8 隨機森林 395
12.5.9 習題 396
12.6 各種學習方法的比較 397
12.7 小結 397
12.8 參考文獻 399
第 13章 神經網絡與深度學習 400
13.1 神經網絡簡介 400
13.1.1 神經網絡概述 402
13.1.2 節點間的連接 403
13.1.3 卷積神經網絡 403
13.1.4 神經網絡的設計事項 404
13.1.5 習題 404
13.2 密集型前饋網絡 405
13.2.1 基于線性代數的記法 405
13.2.2 激活函數 406
13.2.3 sigmoid函數 407
13.2.4 雙曲正切函數 407
13.2.5 softmax函數 408
13.2.6 修正線性單元 409
13.2.7 損失函數 410
13.2.8 回歸損失函數 410
13.2.9 分類損失函數 411
13.2.10 習題 412
13.3 反向傳播與梯度下降 413
13.3.1 計算圖 414
13.3.2 梯度、雅可比矩陣與鏈式法則 415
13.3.3 反向傳播算法 416
13.3.4 梯度下降的迭代計算 418
13.3.5 張量 419
13.3.6 習題 420
13.4 卷積神經網絡 420
13.4.1 卷積層 421
13.4.2 卷積與互相關 423
13.4.3 池化層 424
13.4.4 CNN架構 424
13.4.5 實現與訓練 426
13.4.6 習題 427
13.5 循環神經網絡 427
13.5.1 RNN的訓練 428
13.5.2 梯度消失與爆炸 430
13.5.3 長短期記憶網絡 431
13.5.4 習題 433
13.6 正則化 433
13.6.1 范式懲罰 434
13.6.2 dropout 434
13.6.3 提前停止 434
13.6.4 數據增強 435
13.7 小結 435
13.8 參考文獻 436
序: