Hadoop大數據處理技術基礎與實踐( 簡體 字) | |
作者:安俊秀 王鵬 靳宇倡 | 類別:1. -> 程式設計 -> 大數據 |
出版社:人民郵電出版社 | 3dWoo書號: 42854 詢問書籍請說出此書號! 有庫存 NT售價: 225 元 |
出版日:12/1/2015 | |
頁數:291 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787115400741 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
Hadoop基礎與實踐
第1章Hadoop概述 1.1 Hadoop來源和動機 1.2 Hadoop體系架構 1.3 Hadoop與分布式開發 1.4 Hadoop行業應用案例分析 1.4.1 Hadoop在門戶網站的應用 1.4.2 Hadoop在搜索引擎中的應用 1.4.3 Hadoop在電商平臺中的應用 1.5小結 第2章Hadoop安裝與配置管理 2.1 實驗準備 2.2 配置一個單節點環境 2.2.1 運行一個虛擬系統CentOS 2.2.2 配置網絡 2.2.3創建新的用戶組和用戶 2.2.4上傳文件到CentOS并配置Java、Hadoop環境 2.2.5 修改Hadoop2.2配置文件 2.2.6修改CentOS主機名 2.2.7綁定hostname與IP 2.2.8關閉防火墻 2.3節點之間的免密碼通信 2.3.1什么是SSH 2.3.2 拷貝虛擬機節點 2.3.3 配置SSH免密碼登錄 2.4 Hadoop的啟動和測試 2.4.1 格式化文件系統 2.4.2啟動HDFS 2.4.3 啟動Yarn 2.4.4 管理JobHistory Server 2.4.5 集群驗證 2.4.6 需要了解的默認配置 2.5動態管理節點 2.5.1 動態增加和刪除datanode 2.5.2 動態修改TaskTracker 2.6小結 第3章HDFS技術 3.1HDFS的特點 3.2HDFS架構 3.2.1數據塊 3.2.2元數據節點與數據節點 3.2.3輔助元數據節點 3.2.4安全模式 3.2.5負載均衡 3.2.6垃圾回收 3.3HDFS Shell命令 3.3.1文件處理命令 3.3.2dfsadmin命令 3.3.3namenode命令 3.3.4fsck命令 3.3.5pipes命令 3.3.6job命令 3.4HDFS中Java API的使用 3.4.1上傳文件 3.4.2新建文件 3.4.3查看文件詳細信息 3.4.4下載文件 3.5RPC通信 3.5.1反射機制 3.5.2代理模式與動態代理 3.5.3Hadoop RPC機制與源碼分析 3.6小結 第4章Map/Reduce技術 4.1 什么是Map/Reduce 4.2 Map/Reduce編程模型 4.2.1 MapReduce編程模型簡介 4.2.2 Map/Reduce簡單模型 4.2.3 Map/Reduce復雜模型 4.2.4 Map/Reduce編程實例–WordCount 4.3 Map/Reduce數據流 4.3.1分片、格式化數據源(InputFormat) 4.3.2 Map過程 4.3.3 Shuffle過程 4.3.4 Reduce過程 4.3.5文件寫入(OutputFormat) 4.4 Map/Reduce任務流程 4.4.1 MRv2基本組成 4.4.2 Yarn基本組成 4.4.3 任務流程 4.5 Map/Reduce的Streaming和Pipe 4.5.1 Hadoop Streaming 4.5.2 Hadoop Pipe 4.6 Map/Reduce性能調優 4.7Map/Reduce實戰 4.7.1 快速入門 4.7.2簡單使用Eclipse插件 4.8小結 第5章Hadoop I/O操作 5.1HDFS數據完整性 5.1.1校驗和 5.1.2DataBlockScanner 5.2基于文件的數據結構 5.2.1SequenceFile存儲 5.2.2MapFile 5.2.3SequenceFile轉換為MapFile 5.3壓縮 5.3.1Codec 5.3.2本地庫 5.3.3如何選擇壓縮格式 5.4序列化 5.4.1Writable接口 5.4.2WritableComparable 5.4.3Hadoop writable基本類型 5.4.4自定義writable類型 5.5小結 第6章海量數據庫HBase技術 6.1 初識HBase 6.2 HBase表視圖 6.2.1概念視圖 6.2.2物理視圖 6.3HBase物理存儲模型 6.4安裝HBase 6.4.1HBase單節點安裝 6.4.2HBase偽分布式安裝 6.4.3HBase完全分布式安裝 6.5HBaseShell 6.5.1general一般操作 6.5.2ddl操作 6.5.3dml操作 6.5.4小結 6.6小結 第7章ZooKeeper技術 7.1 分布式協調技術 7.2 實現者 7.3 角色 7.4 ZooKeeper數據模型 7.4.1Znode 7.4.2ZooKeeper中的時間 7.4.3ZooKeeper節點屬性 7.4.4watch觸發器 7.5 ZooKeeper集群安裝 7.6 ZooKeeper主要Shell操作 7.7 典型運用場景 7.7.1數據發布與訂閱 7.7.2統一命名服務(Name Service) 7.7.3分布通知/協調(Distribution of notification/coordination) 7.8小結 第8章分布式數據倉庫技術Hive 8.1 Hive出現原因 8.2 Hive服務組成 8.3 Hive安裝 8.3.1 Hive基本安裝 8.3.2 MySQL安裝 8.3.3 Hive配置 8.4 Hive Shell介紹 8.5HiveQL詳解 8.5.1 Hive管理數據方式 8.5.2 Hive表DDL操作 8.5.3 Hive表DML操作 8.6小結 第9章分布式數據分析工具Pig 9.1 Pig的安裝和配置 9.2 Pig基本概念 9.3 Pig保留關鍵字 9.4使用Pig 9.4.1 Pig命令行選項 9.4.2 Pig的兩種運行模式 9.4.3 Pig相關Shell命令詳解 9.4.4Pig程序運行方式 9.4.5 Pig輸入與輸出 9.5模式(Schemas) 9.6 Pig相關函數詳解 9.7小結 第10章 Hadoop與RDBMS數據遷移工具Sqoop 10.1 Sqoop基本安裝 10.2 Sqoop配置 10.3 Sqoop相關功能 10.4 Hive、Pig和Sqoop三者之間的關系 10.5小結 第11章Hadoop1.x與Hadoop2.x的比較 11.1 Hadoop發展歷程 11.2 Hadoop1.x與Hadoop2.x之間的差異 11.2.1 Hadoop1與Hadoop2體系結構對比 11.2.2 Hadoop1與Hadoop2之間配置差異 11.2.3 Hadoop2的Yarn框架 11.2.4 HDFS聯邦機制(Federation) 11.3小結 第12章Hadoop實時數據處理技術 12.1 Storm-Yarn 12.1.1 Apache Storm組成結構 12.1.2 Storm數據流 12.1.3 Storm-Yarn產生背景 12.1.4 Storm-Yarn功能介紹 12.2 Apache Spark 12.2.1 Apache Spark組成結構 12.2.2 Apache Spark擴展功能 12.3 Storm與Spark的比較 12.4小結 附錄一:使用Eclipse提交Hadoop任務相關錯誤解決 附錄二:常用Pig內置函數簡介 全書共有12章,從Hadoop起源開始,介紹了Hadoop的安裝和配置,并對Hadoop的組件分別進行了介紹,包括HDFS分布式存儲系統,MapReduce計算框架,海量數據庫HBase,Hive數據倉庫,Pig、ZooKeeper管理系統等知識,最后對Hadoop實時數據處理技術作了簡單介紹,旨在讓讀者了解當前的其它的大數據處理技術。本書除了對Hadoop的理論進行說明之外,還對如何使用各組件進行了介紹,但介紹的只是基礎的使用,沒有涉及到底層的高級內容,所以本書只是起一個引導作用,旨在讓讀者了解Hadoop并能夠使用Hadoop的基本功能,并不是學習Hadoop的完全手冊。
本書適用于高等院校的學生;是云計算專業、物聯網專業及云計算與大數據專業的核心基礎課程,也是計算機相關專業的一門新增專業課或選修課;適合于零售及云計算與大數據技術相關的培訓班等使用。 |