-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
10/8 新書到! 10/1 新書到! 9/24 新書到! 9/18 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

大數據開發者權威教程 NoSQL Hadoop組件及大數據實施

( 簡體 字)
作者:Wrox國際IT認證項目組類別:1. -> 資料庫 -> NoSQL
   2. -> 程式設計 -> 大數據
譯者:
出版社:人民郵電出版社大數據開發者權威教程 NoSQL Hadoop組件及大數據實施 3dWoo書號: 50299
詢問書籍請說出此書號!

有庫存
NT售價: 545

出版日:12/1/2018
頁數:457
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787115493712
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

內容簡介:

“大數據”近年來成為IT領域的熱點話題,人們每天都會通過互聯網、移動設備等產生大量數據。如何管理大數據、掌握大數據的核心技術、理解大數據相關的生態系統等,是作為大數據開發者必須學習和熟練掌握的知識。本系列書以“大數據開發者”應掌握的技術為主線,共分兩卷,以7個模塊分別介紹如何管理大數據生態系統、如何存儲和處理數據、如何利用Hadoop工具、如何利用NoSQL與Hadoop協同工作,以及如何利用Hadoop商業發行版和管理工具。本系列書涵蓋了大數據開發工作的核心內容,全面且詳盡地涵蓋了大數據開發的各個領域。
本書為第2卷,共3個模塊,分別介紹Hadoop工具(如ZooKeeper、Sqoop、Flume、YARN和Storm等),利用NoSQL和Hadoop完成實時、安全和云的相關工作,以及Hadoop商業發行版和管理工具(如Cloudera、Hortonworks、Greenplum Pivotal HD等),最后介紹幾個實用軟件的功能、指南和安裝步驟。
本書適用于想成為大數據開發人員以及所有對大數據開發感興趣的技術人員和決策者閱讀。
目錄:

模塊1 額外的Hadoop工具:ZooKeeper、Sqoop、Flume、YARN和Storm

第1講 用ZooKeeper進行分布式處理協調 3
1.1 ZooKeeper簡介 4
1.1.1 ZooKeeper的好處 4
1.1.2 ZooKeeper術語 6
1.1.3 ZooKeeper命令行界面(CLI) 7
1.2 安裝和運行ZooKeeper 9
1.2.1 支持的平臺 9
1.2.2 所需的軟件 9
1.2.3 單服務器的安裝 9
1.3 使用ZooKeeper 10
1.4 ZooKeeper應用程序 12
1.4.1 FS爬取 13
1.4.2 Katta 14
1.4.3 Yahoo!消息代理(YMB) 14
1.5 使用ZooKeeper構建應用程序 15
1.5.1 Exec.java 15
1.5.2 處理事件 17
1.5.3 監控數據 19
1.5.4 實現屏障和生產者-消費者隊列 22
練習 30
備忘單 33
第2講 利用Sqoop有效地傳輸批量數據 34
2.1 Sqoop簡介 35
2.1.1 Sqoop中的工作流 36
2.1.2 Sqoop的特性 36
2.2 使用Sqoop 1 37
2.3 用Sqoop導入數據 41
2.3.1 導入完整的表 41
2.3.2 用HBase Sqoop導入帶有復合鍵的表 42
2.3.3 指定目標目錄 43
2.3.4 導入選擇的行 43
2.3.5 密碼保護 44
2.3.6 用不同的文件格式導入數據 44
2.3.7 導入數據壓縮 45
2.4 控制并行 45
2.5 編碼NULL值 47
2.6 將數據導入Hive表 47
2.7 將數據導入HBase 47
2.7.1 使用自由形式查詢 48
2.7.2 重命名Sqoop作業 48
2.8 導出數據 49
2.8.1 批量導出 50
2.8.2 原子導出 50
2.9 將數據導出至列的子集 50
2.10 Sqoop中的驅動程序和連接器 51
2.10.1 驅動程序 51
2.10.2 連接器 52
2.10.3 連接到數據庫 52
2.11 Sqoop架構概覽 54
2.12 Sqoop 2 55
2.12.1 Sqoop 2的優勢 56
2.12.2 易于擴展 56
2.12.3 安全 57
練習 58
備忘單 60
第3講 Flume 62
3.1 Flume簡介 63
3.1.1 Flume架構 64
3.1.2 流可靠性 66
3.2 Flume配置文件 66
3.2.1 流定義 67
3.2.2 配置單個組件 67
3.2.3 在代理中添加多個流 68
3.2.4 配置多代理流 69
3.2.5 配置流扇出 70
3.3 設置Flume 71
3.3.1 安裝Flume 71
3.3.2 配置Flume代理 72
3.3.3 數據消費 74
3.4 構建Flume 77
3.4.1 獲得源點 77
3.4.2 編譯/測試Flume 77
3.4.3 開發自定義組件 77
練習 90
備忘單 92
第4講 超越MapReduce—YARN 94
4.1 YARN簡介 95
4.2 為什么用YARN 96
4.2.1 提高可擴展性 96
4.2.2 效率 97
4.2.3 集群共享 97
4.3 YARN生態系統 98
4.3.1 YARN架構 99
4.3.2 資源 100
4.3.3 資源管理器 101
4.3.4 ApplicationMaster 103
4.3.5 YARN的局限性 106
4.4 YARN API例子 107
4.4.1 YARN應用程序剖析 107
4.4.2 客戶端 108
4.4.3 把它們整合到一起 115
4.5 Mesos和YARN的比較 116
4.5.1 Mesos簡介 116
4.5.2 Mesos和Hadoop 118
練習 120
備忘單 122
第5講 Storm on YARN 124
5.1 Storm和Hadoop 125
5.2 Storm簡介 126
5.2.1 Storm架構 126
5.2.2 Storm應用剖析 129
5.3 Storm API 132
5.3.1 spout 132
5.3.2 bolt 134
5.4 Storm on YARN 134
5.4.1 Storm on YARN架構 135
5.4.2 Storm on YARN的局限性 136
5.5 安裝Storm on YARN 136
5.5.1 先決條件 136
5.5.2 安裝步驟 137
5.5.3 排錯 138
5.5.4 管理YARN on Storm 138
5.6 Storm on YARN的例子 139
5.6.1 傳感器數據spout 139
5.6.2 儀表盤bolt 140
5.6.3 HDFS日志記錄器bolt 142
5.6.4 主程序 144
5.6.5 運行示例 146
練習 148
備忘單 151

模塊2 利用NoSQL和Hadoop:實時、安全和云

第1講 Hello NoSQL 155
1.1 看兩個簡單的例子 156
1.1.1 持久化偏好數據的一個簡單集合——MongoDB 156
1.1.2 存儲汽車品牌和型號數據——Apache Cassandra 162
1.2 利用語言綁定進行工作 171
1.2.1 MongoDB的驅動程序 171
1.2.2 初識Thrift 174
1.3 存儲和訪問數據 177
1.4 在MongoDB中存儲和訪問數據 178
1.5 在HBase中存儲和訪問數據 185
1.6 在Apache Cassandra中存儲和訪問數據 189
1.7 NoSQL數據存儲的語言綁定 191
1.7.1 用Thrift進行診斷 191
1.7.2 Java的語言綁定 191
1.7.3 PHP的語言綁定 194
練習 195
備忘單 198
第2講 使用NoSQL 199
2.1 創建記錄 200
2.2 訪問數據 213
2.2.1 訪問來自MongoDB的文檔 213
2.2.2 訪問來自HBase的數據 214
2.2.3 查詢Redis 215
2.3 更新和刪除數據 216
2.4 MongoDB查詢語言的能力 217
2.4.1 加載MovieLens數據 219
2.4.2 獲取評級數據 221
2.4.3 MongoDB中的MapReduce 224
2.5 訪問來自HBase這樣的面向列的數據庫的數據 228
練習 230
備忘單 234
第3講 Hadoop安全 236
3.1 Hadoop安全挑戰 238
3.2 認證 239
3.2.1 Kerberos認證 239
3.2.2 Kerberos RPC 244
3.2.3 基于Web的控制臺的Kerberos 245
3.3 委托安全憑證 248
3.4 授權 253
3.4.1 HDFS文件權限 253
3.4.2 服務級別授權 257
3.4.3 作業授權 260
練習 261
備忘單 263
第4講 在AWS上運行Hadoop應用程序 265
4.1 開始了解AWS 266
4.2 在AWS上運行Hadoop的選項 267
4.2.1 使用EC2實例的自定義安裝 267
4.2.2 彈性MapReduce 268
4.3 了解EMR-Hadoop的關系 269
4.3.1 EMR架構 270
4.3.2 使用S3存儲 271
4.3.3 最大化地利用EMR 272
4.3.4 使用CloudWatch和其他AWS組件 274
4.3.5 訪問和使用EMR 274
4.4 使用AWS S3 280
4.4.1 了解桶的用法 280
4.4.2 利用控制臺的內容瀏覽 282
4.4.3 編程訪問S3中的文件 283
4.4.4 使用MapReduce上傳多個文件至S3 294
4.5 自動化EMR作業流的創建和作業執行 296
4.6 組織協調EMR中作業的執行 301
4.6.1 使用EMR集群上的Oozie 301
4.6.2 AWS簡單工作流 303
4.6.3 AWS數據管道 304
練習 306
備忘單 309
第5講 實時Hadoop 311
5.1 實時Hadoop應用 312
5.2 使用HBase實現實時應用 313
5.2.1 將HBase用作照片管理系統 315
5.2.2 將HBase用作Lucene的后端 322
5.3 使用專門的實時Hadoop查詢系統 342
5.3.1 Apache Drill 344
5.3.2 Impala 345
5.3.3 將實時查詢系統與MapReduce比較 347
5.4 使用基于Hadoop的事件處理系統 347
5.4.1 HFlame 348
5.4.2 Storm 350
5.4.3 將事件處理與MapReduce作比較 352
練習 353
備忘單 356

模塊3 Hadoop商業發行版和管理工具

第1講 大數據簡介 359
1.1 Cloudera基礎 360
1.1.1 包含Apache Hadoop的Cloudera發行版 360
1.1.2 Cloudera管理器 361
1.1.3 Cloudera標準版 362
1.1.4 Cloudera企業版 363
1.2 Cloudera管理器簡介 365
1.3 Cloudera管理器的管理控制臺 367
1.3.1 啟動并登錄管理控制臺 370
1.3.2 主頁 370
1.4 添加和管理服務 371
1.4.1 添加新服務 371
1.4.2 啟動服務 372
1.4.3 停止服務 372
1.4.4 重啟服務 373
1.5 使用Cloudera管理器的業務案例 373
1.6 Cloudera管理器的安裝要求 374
練習 375
備忘單 377
第2講 Cloudera上的Hive和Cloudera管理 379
2.1 Apache Hive簡介 380
2.1.1 Hive特性 380
2.1.2 HiveQL 380
2.2 Hive服務 381
2.2.1 Hive元數據服務器 382
2.2.2 Hive網關 382
2.2.3 升級Cloudera管理器 382
2.3 為Hive元存儲配置模式 383
2.3.1 嵌入模式 383
2.3.2 本地模式 384
2.3.3 遠程模式 385
2.4 配置Hive元存儲 386
2.4.1 Red Hat操作系統 386
2.4.2 SLES操作系統 388
2.4.3 Debian/Ubuntu操作系統 388
2.5 為Hive設置Cloudera Manager 4.5 389
2.6 Hive復制 391
練習 394
備忘單 396
第3講 Hortonworks和Greenplum Pivotal HD 397
3.1 Hortonworks數據平臺 398
3.1.1 核心服務 400
3.1.2 數據服務 400
3.1.3 操作服務 401
3.2 系統需求和環境 402
3.2.1 系統需求 402
3.2.2 構建一個受支持的環境 404
3.3 安裝HDP 405
3.4 使用Talend Open Studio 409
3.4.1 安裝Talend Open Studio 410
3.4.2 將數據導入Talend Open Studio 411
3.4.3 執行數據分析 413
3.5 Greenplum Pivotal HD 417
練習 420
備忘單 422
第4講 IBM InfoSphere BigInsights和MapR 424
4.1 InfoSphere BigInsights簡介 425
4.1.1 Apache Hadoop發行版的InfoSphere BigInsights組件 426
4.1.2 額外的Hadoop技術 427
4.1.3 文本分析 428
4.1.4 IBM Big SQL服務器 428
4.1.5 InfoSphere BigInsights控制臺 428
4.1.6 InfoSphere BigInsights的Eclipse工具 429
4.2 安裝準備 430
4.2.1 復核系統需求 431
4.2.2 選擇一個用戶 431
4.2.3 配置瀏覽器 432
4.2.4 下載InfoSphere BigInsights 437
4.2.5 完成常見先決條件的任務 437
4.3 安裝InfoSphere BigInsights 440
4.4 MapR簡介 442
練習 445
備忘單 447
第5講 應聘準備 449
5.1 大數據開發者需要的關鍵技術工具和框架 451
5.2 大數據開發者的工作角色和職責 452
5.3 大數據開發者職業機會領域 453
序: