精通Hadoop( 簡體 字) | |
作者:[印] 卡倫斯 ( Sandeep Karanth ) | 類別:1. -> 程式設計 -> 雲計算 |
出版社:人民郵電出版社 | 3dWoo書號: 43183 詢問書籍請說出此書號! 有庫存 NT售價: 245 元 |
出版日:1/1/2016 | |
頁數:249 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787115411051 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1 章 Hadoop 2.X 1
1.1 Hadoop 的起源 1 1.2 Hadoop 的演進 2 1.3 Hadoop 2.X 6 1.3.1 Yet Another Resource Negotiator(YARN) 7 1.3.2 存儲層的增強 8 1.3.3 支持增強 11 1.4 Hadoop 的發行版 11 1.4.1 選哪個Hadoop 發行版 12 1.4.2 可用的發行版 14 1.5 小結 16 第2 章 MapReduce 進階 17 2.1 MapReduce 輸入 18 2.1.1 InputFormat 類 18 2.1.2 InputSplit 類 18 2.1.3 RecordReader 類 19 2.1.4 Hadoop 的“小文件”問題 20 2.1.5 輸入過濾 24 2.2 Map 任務 27 2.2.1 dfs.blocksize 屬性 28 2.2.2 中間輸出結果的排序與溢出 28 2.2.3 本地reducer 和Combiner 31 2.2.4 獲取中間輸出結果——Map 側 31 2.3 Reduce 任務 32 2.3.1 獲取中間輸出結果——Reduce 側 32 2.3.2 中間輸出結果的合并與溢出 33 2.4 MapReduce 的輸出 34 2.5 MapReduce 作業的計數器 34 2.6 數據連接的處理 36 2.6.1 Reduce 側的連接 36 2.6.2 Map 側的連接 42 2.7 小結 45 第3 章 Pig 進階 47 3.1 Pig 對比SQL 48 3.2 不同的執行模式 48 3.3 Pig 的復合數據類型 49 3.4 編譯Pig 腳本 50 3.4.1 邏輯計劃 50 3.4.2 物理計劃 51 3.4.3 MapReduce 計劃 52 3.5 開發和調試助手 52 3.5.1 DESCRIBE 命令 52 3.5.2 EXPLAIN 命令 53 3.5.3 ILLUSTRATE 命令 53 3.6 Pig 操作符的高級特性 54 3.6.1 FOREACH 操作符進階 54 3.6.2 Pig 的特殊連接 58 3.7 用戶定義函數 61 3.7.1 運算函數 61 3.7.2 加載函數 66 3.7.3 存儲函數 68 3.8 Pig 的性能優化 69 3.8.1 優化規則 69 3.8.2 Pig 腳本性能的測量 71 3.8.3 Pig 的Combiner 72 3.8.4 Bag 數據類型的內存 72 3.8.5 Pig 的reducer 數量 72 3.8.6 Pig 的multiquery 模式 73 3.9 最佳實踐 73 3.9.1 明確地使用類型 74 3.9.2 更早更頻繁地使用投影 74 3.9.3 更早更頻繁地使用過濾 74 3.9.4 使用LIMIT 操作符 74 3.9.5 使用DISTINCT 操作符 74 3.9.6 減少操作 74 3.9.7 使用Algebraic UDF 75 3.9.8 使用Accumulator UDF 75 3.9.9 剔除數據中的空記錄 75 3.9.10 使用特殊連接 75 3.9.11 壓縮中間結果 75 3.9.12 合并小文件 76 3.10 小結 76 第4 章 Hive 進階 77 4.1 Hive 架構 77 4.1.1 Hive 元存儲 78 4.1.2 Hive 編譯器 78 4.1.3 Hive 執行引擎 78 4.1.4 Hive 的支持組件 79 4.2 數據類型 79 4.3 文件格式 80 4.3.1 壓縮文件 80 4.3.2 ORC 文件 81 4.3.3 Parquet 文件 81 4.4 數據模型 82 4.4.1 動態分區 84 4.4.2 Hive 表索引 85 4.5 Hive 查詢優化器 87 4.6 DML 進階 88 4.6.1 GROUP BY 操作 88 4.6.2 ORDER BY 與SORT BY 88 4.6.3 JOIN 類型 88 4.6.4 高級聚合 89 4.6.5 其他高級語句 90 4.7 UDF、UDAF 和UDTF 90 4.8 小結 93 第5 章 序列化和Hadoop I/O 95 5.1 Hadoop 數據序列化 95 5.1.1 Writable 與WritableComparable 96 5.1.2 Hadoop 與Java 序列化的區別 98 5.2 Avro 序列化 100 5.2.1 Avro 與MapReduce 102 5.2.2 Avro 與Pig 105 5.2.3 Avro 與Hive 106 5.2.4 比較Avro 與Protocol Buffers/Thrift 107 5.3 文件格式 108 5.3.1 Sequence 文件格式 108 5.3.2 MapFile 格式 111 5.3.3 其他數據結構 113 5.4 壓縮 113 5.4.1 分片與壓縮 114 5.4.2 壓縮范圍 115 5.5 小結 115 第6 章 YARN——其他應用模式進入Hadoop 的引路人 116 6.1 YARN 的架構 117 6.1.1 資源管理器 117 6.1.2 Application Master 118 6.1.3 節點管理器 119 6.1.4 YARN 客戶端 120 6.2 開發YARN 的應用程序 120 6.2.1 實現YARN 客戶端 120 6.2.2 實現AM 實例 125 6.3 YARN 的監控 129 6.4 YARN 中的作業調度 134 6.4.1 容量調度器 134 6.4.2 公平調度器 137 6.5 YARN 命令行 139 6.5.1 用戶命令 140 6.5.2 管理員命令 140 6.6 小結 141 第7 章 基于YARN 的Storm——Hadoop中的低延時處理 142 7.1 批處理對比流式處理 142 7.2 Apache Storm 144 7.2.1 Apache Storm 的集群架構 144 7.2.2 Apache Storm 的計算和數據模型 145 7.2.3 Apache Storm 用例 146 7.2.4 Apache Storm 的開發 147 7.2.5 Apache Storm 0.9.1 153 7.3 基于YARN 的Storm 154 7.3.1 在YARN 上安裝Apache Storm 154 7.3.2 安裝過程 154 7.4 小結 161 第8 章 云上的Hadoop 162 8.1 云計算的特點 162 8.2 云上的Hadoop 163 8.3 亞馬遜Elastic MapReduce 164 8.4 小結 175 第9 章 HDFS 替代品 176 9.1 HDFS 的優缺點 176 9.2 亞馬遜AWS S3 177 9.3 在Hadoop 中實現文件系統 179 9.4 在Hadoop 中實現S3 原生文件系統 179 9.5 小結 189 第10 章 HDFS 聯合 190 10.1 舊版HDFS 架構的限制 190 10.2 HDFS 聯合的架構 192 10.2.1 HDFS 聯合的好處 193 10.2.2 部署聯合NameNode 193 10.3 HDFS 高可用性 195 10.3.1 從NameNode、檢查節點和備份節點 195 10.3.2 高可用性——共享edits 196 10.3.3 HDFS 實用工具 197 10.3.4 三層與四層網絡拓撲 197 10.4 HDFS 塊放置策略 198 10.5 小結 200 第11 章 Hadoop 安全 201 11.1 安全的核心 201 11.2 Hadoop 中的認證 202 11.2.1 Kerberos 認證 202 11.2.2 Kerberos 的架構和工作流 203 11.2.3 Kerberos 認證和Hadoop 204 11.2.4 HTTP 接口的認證 204 11.3 Hadoop 中的授權 205 11.3.1 HDFS 的授權 205 11.3.2 限制HDFS 的使用量 208 11.3.3 Hadoop 中的服務級授權 209 11.4 Hadoop 中的數據保密性 211 11.5 Hadoop 中的日志審計 216 11.6 小結 217 第12 章 使用Hadoop 進行數據分析 218 12.1 數據分析工作流 218 12.2 機器學習 220 12.3 Apache Mahout 222 12.4 使用Hadoop 和Mahout 進行文檔分析 223 12.4.1 詞頻 223 12.4.2 文頻 224 12.4.3 詞頻-逆向文頻 224 12.4.4 Pig 中的Tf-idf 225 12.4.5 余弦相似度距離度量 228 12.4.6 使用k-means 的聚類 228 12.4.7 使用Apache Mahout 進行k-means 聚類 229 12.5 RHadoop 233 12.6 小結 233 附錄 微軟Windows 中的Hadoop 235 這本高階教程將通過大量示例幫助你精通Hadoop,掌握Hadoop實踐和技巧。主要內容包括:Hadoop MapReduce、Pig 和Hive 優化策略,YARN 審讀剖析,如何利用Storm,等等。如果你熟悉Hadoop,并想將自己的技能再提高一個層次,本書是你的不二之選。
|