云時代的大數據 ( 簡體 字) |
作者:周品 | 類別:1. -> 程式設計 -> 雲計算 2. -> 程式設計 -> 大數據 |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 37018 詢問書籍請說出此書號!【有庫存】 NT售價: 290 元 |
出版日:10/1/2013 |
頁數:348 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121216442 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:幾年之內,云計算已從新興技術發展成為當今的熱點技術。從2003年谷歌公開發布的核心文件到2006年Amazon EC2(亞馬遜彈性計算云)的商業化應用,再到美國電信巨頭AT&T(美國電話電報公司)推出的Synaptic Hosting(動態托管)服務,云計算從節約成本的工具到盈利的推動器,從ISP(網絡服務提供商)到電信企業,已經成功地從內置的IT 系統演變成公共的服務。 隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著云臺》 的分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系數據庫中用于分析時會花費過多的時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百甚至數千臺計算機分配工作。 “大數據”這個術語最早期的引用可追溯到Apache的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和Google File System(GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。 在當今的IT行業中都需要對數據進行分析,而數據分析都需要數據源,大數據尤甚。互聯網公司通過搜索引擎、訪問記錄、App追蹤等技術手段可以獲得大量的用戶瀏覽信息,但這些信息的收集、存儲、提取、訪問等環節都不可能向大眾公開,相關數據的使用規則目前還缺乏法律規范。對普通人而言,獲得公開、免費、準確的數據來源似乎成為一種奢望,但企業和政府的數據公開的步伐已經邁出。各行各業都需要大數據,如醫療上的各種疾病數據,農業上的作物、天氣、病蟲害、土壤資料等數據,工業制造上的原材料、加工流程、設備信息、產品規格等數據,金融行業的客戶資料、金融產品等數據,教育領域的學生、學校、教師、教材等數據,國防領域的衛星、海域等數據,環境保護中的空氣污染物、水源質量分析等實時數據……不論政府、企業還是個人,對大數據的需求也涉及經濟社會的各個方面。 互聯網和移動互聯網已經給電信、零售、媒體等行業帶來了深刻變革,如果進入大數據時代,那么還有更多行業會迎接洗禮。目前智能制造、互聯網金融、數字化診療已經嶄露頭角。個人用戶對大數據的需求可能帶來數據接收方式的變化,各類智能終端將再次迎來發展機遇。除了功能越來越強大的智能手機之外,眼鏡、汽車、手表,甚至自行車都有可能成為接收數據的新型智能終端。 根據云時代的大數據發展趨勢,筆者編著了本教材,讓讀者認識到什么是云,什么是大數據,以及云與大數據的關系,在各企業領域中怎樣應用云時代的大數據。本書主要內容有: 第1章:介紹了云時代概述,主要包括“云”基本介紹、云產生的背景、云計算特點及云計算的關鍵性技術等內容。 第2章:介紹了大數據概述,主要包括大數據基本概念、大數據的發展趨勢、大數據的挑戰、現狀與展望及大數據行業應用和未來熱點等內容。 第3章:介紹了數據挖掘,主要包括數據挖掘的定義、起源、功能、實現方法、應用及哈希函數等內容。 第4章:介紹了數據量化,主要包括量化分析元素、量化質量分析規劃及高級量化分析等內容。 第5章:介紹了大規模文件系統MapReduce,主要包括分布式文件系統、MapReduce模型、MapReduce使用算法及MapReduce實現機制等內容。 第6章:介紹了相似項挖掘,主要包括近鄰搜索的應用、最小哈希及距離測試等內容。 第7章:介紹了HDFS存儲海量數據,主要包括HDFS簡介、HDFS存取機制及HDFS管理操作等內容。 第8章:介紹了HBase存儲百科數據,主要包括HBase基本特征、系統框架、HBase的基本接口及HBase數據模型等內容。 第9章:介紹了大數據鏈接分析,主要包括鏈接分析中的數據采集研究、PageRank及搜索引擎研究等內容。 第10章:介紹了聚類,主要包括聚類概述、聚類技術、層次聚類用CURE算法等內容。 第11章:介紹了項集與系統,主要包括項集規則、單調性、二元組計數及推薦模型系統等內容。 本書適用于云計算及大數據初、中、高級讀者使用,也可作為研究大數據相關專業研究人員的參考資料。 由于時間倉促,加之作者水平有限,所以錯誤和疏漏之處在所難免。在此,誠懇地期望得到各領域的專家和廣大讀者的批評指正。
編著者 |
內容簡介:本書以云計算為基石,從概念、研究、應用角度出發,系統地介紹了數據爆炸時代下的大數據。首先介紹了云計算及大數據的基礎知識,讓讀者對云計算及大數據有概要認識;然后根據需要介紹了Hadoop軟件下的MapReduce、HDFS及HBase這幾個組件;接著全面、系統地介紹了云時代下的大數據,主要包括大數據的鏈接、聚類、項集、系統、相似項挖掘及數據量化等內容,讓讀者挖掘云時代大數據體系下的效益、價值及研究方向。 |
目錄:第1章 云時代概述 (1) 1.1 “云”概述 (1) 1.1.1 什么是云計算 (2) 1.1.2 給云計算一個說法 (3) 1.1.3 云計算的使用范圍 (3) 1.1.4 云計算與一般托管環境的差別 (4) 1.2 云產生的背景 (4) 1.2.1 經濟方面 (4) 1.2.2 社會層面 (5) 1.2.3 政治層面 (6) 1.2.4 技術方面 (6) 1.3 云計算特點 (7) 1.4 云時代的七大益處 (8) 1.5 云計算與其他超級計算的區別 (11) 1.5.1 云計算與網格計算的區別 (11) 1.5.2 云計算系統與傳統超級計算機的區別 (12) 1.6 云計算的關鍵性技術 (12) 1.6.1 虛擬化 (12) 1.6.2 分布式文件系統 (14) 1.6.3 分布式數據庫 (15) 1.6.4 資源管理技術 (15) 1.6.5 能耗管理技術 (16) 1.7 云計算基礎 (18) 1.7.1 云計算的定義 (18) 1.7.2 云計算的特征 (19) 1.7.3 交付模式 (19) 1.7.4 部署模式 (21) 1.7.5 新的應用機遇 (23) 1.8 從傳統IT到云 (23) 1.9 云計算的研究進展 (27) 1.10 云計算的生成系統 (28) 1.11 云計算時代對就業的影響 (29) 1.12 大數據中的云 (30) 第2章 大數據概述 (33) 2.1 大數據概念 (33) 2.1.1 大數據的應用 (33) 2.1.2 大數據的戰略意義 (34) 2.1.3 大數據的作用 (34) 2.1.4 大數據與傳統數據庫 (34) 2.1.5 大數據與Web (34) 2.2 大數據的理解與實踐 (35) 2.2.1 理解大數據 (35) 2.2.2 實踐大數據 (36) 2.3 大數據的發展趨勢 (36) 2.3.1 大數據對社會的影響 (36) 2.3.2 云平臺數據更加完善 (38) 2.4 大數據的挑戰、現狀與展望 (38) 2.4.1 概述 (38) 2.4.2 期望特性 (40) 2.4.3 并行數據庫 (42) 2.4.4 MapReduce (43) 2.4.5 并行數據庫和MapReduce的混合架構 (47) 2.4.6 研究現狀 (49) 2.4.7 MapReduce與關系數據庫技術的融合 (50) 2.4.8 展望研究 (52) 2.5 大數據行業應用及未來熱點 (53) 2.5.1 分析大數據市場 (53) 2.5.2 分析大數據應用需求 (53) 2.6 大數據2012年回顧 (54) 2.6.1 2012年大數據新特征 (54) 2.6.2 進軍大數據 (55) 2.6.3 新興企業不斷涌現 (56) 2.7 大數據引導IT支出 (56) 2.8 數據將變得更加重要 (57) 2.9 盤點全球13個大數據公司 (59) 第3章 數據挖掘 (65) 3.1 數據挖掘的定義 (65) 3.1.1 技術上的定義及含義 (65) 3.1.2 商業角度的定義 (66) 3.2 數據挖掘概述 (66) 3.2.1 數據挖掘的起源 (66) 3.2.2 數據挖掘方法論 (67) 3.2.3 數據挖掘常用方法 (69) 3.2.4 數據挖掘的實現步驟 (71) 3.2.5 數據挖掘的功能 (71) 3.2.6 數據挖掘常用技術 (72) 3.2.7 數據挖掘與傳統分析方法的異同 (78) 3.2.8 數據挖掘和數據倉庫 (78) 3.2.9 數據挖掘的應用 (79) 3.3 數據挖掘相關知識 (80) 3.3.1 詞語的重要性 (81) 3.3.2 哈希函數 (82) 3.3.3 索引 (84) 3.3.4 二維存儲器 (85) 3.3.5 自然對數的底e (85) 3.3.6 冪定律 (86) 第4章 數據量化 (87) 4.1 量化分析簡介 (87) 4.2 規劃優質量化分析 (91) 4.2.1 量化分析開發規劃的構成 (91) 4.2.2 文檔 (95) 4.3 答案綱要 (96) 4.4 三角交叉法 (103) 4.5 高級量化分析 (105) 4.5.1 其他象限 (106) 4.5.2 量化分析未成熟組織的益處 (106) 4.5.3 重復業務流程 (107) 4.5.4 其他象限的量化分析 (107) 4.6 創建服務目錄 (110) 4.7 構建標準和基準 (113) 4.8 量化數據談投資 (114) 第5章 大規模文件系統MapReduce (115) 5.1 分布式文件系統 (115) 5.1.1 NFS和AFS的區別 (118) 5.1.2 計算節點的物理結構 (118) 5.2 MapReduce模型 (119) 5.2.1 Map任務 (120) 5.2.2 分組與聚合 (120) 5.2.3 Reduce任務 (120) 5.3 MapReduce使用算法 (123) 5.3.1 向量乘法實現 (123) 5.3.2 內存處理 (123) 5.3.3 關系運算 (124) 5.3.4 分布文件系統實例 (128) 5.4 MapReduce復合鍵值對的使用 (138) 5.4.1 合并鍵值 (138) 5.4.2 用復合鍵排序 (139) 5.5 鏈接MapReduce作業 (142) 5.5.1 順序鏈接MapReduce作業 (142) 5.5.2 復雜的MapReduce鏈接 (143) 5.5.3 前后處理的鏈接 (143) 5.5.4 鏈接不同的數據 (145) 5.6 MapReduce遞歸擴展 (152) 5.7 集群計算算法的效率問題 (154) 5.7.1 集群計算的通信開銷模型 (154) 5.7.2 多路連接 (155) 第6章 相似項挖掘 (157) 6.1 近鄰搜索的應用 (157) 6.1.1 Jaccard相似度 (157) 6.1.2 文檔相似度 (157) 6.2 文檔的shingling算法 (162) 6.2.1 k-shingle (162) 6.2.2 大小選擇 (163) 6.2.3 對shingle進行哈希 (163) 6.3 最小哈希 (164) 6.3.1 矩陣表示集合 (164) 6.3.2 最小哈希概述 (164) 6.3.3 Jaccard相似度 (165) 6.3.4 最小哈希簽名 (165) 6.3.5 簽名計算 (166) 6.4 語音文檔局部敏感哈希算法 (168) 6.4.1 局部敏感哈希概述 (168) 6.4.2 行條化策略的分析 (172) 6.5 距離測試 (174) 6.5.1 距離測度的定義 (174) 6.5.2 歐氏距離 (174) 6.5.3 Jaccard距離 (175) 6.5.4 余弦距離 (175) 6.5.5 編輯距離 (176) 6.5.6 海明距離 (177) 6.6 其他距離測度的LSH函數族 (178) 6.6.1 海明距離的LSH函數族 (178) 6.6.2 隨機超平面與余弦距離 (179) 6.6.3 歐氏距離的LSH函數族 (180) 6.7 LSH函數的應用 (181) 6.7.1 實體關聯 (181) 6.7.2 指紋匹配 (183) 6.7.3 論文相似性檢測服務 (185) 6.8 高相似度方法 (186) 6.8.1 相等項發現 (186) 6.8.2 集合字串表示法 (187) 6.8.3 長度過濾 (187) 6.8.4 前綴索引 (188) 6.8.5 位置信息使用 (188) 6.8.6 使用位置和長度信息的索引 (190) 第7章 HDFS存儲海量數據 (192) 7.1 HDFS簡介 (192) 7.1.1 HDFS的特點 (192) 7.1.2 HDFS的設計需求 (193) 7.1.3 HDFS體系結構 (195) 7.1.4 HDFS的可靠性措施 (196) 7.1.5 數據均衡 (200) 7.2 HDFS存取機制 (200) 7.3 圖像存儲 (202) 7.3.1 圖像存儲基本思想 (202) 7.3.2 圖像存儲設計目標 (202) 7.3.3 圖像存儲體系結構 (203) 7.3.4 系統功能結構 (204) 7.4 HDFS管理操作 (205) 7.4.1 權限管理 (205) 7.4.2 配額管理 (207) 7.4.3 文件歸檔 (207) 7.5 FS Shell使用指南 (208) 7.6 API使用 (214) 7.7 HDFS的缺點 (216) 7.8 HDFS存儲海量數據 (217) 第8章 HBase存儲百科數據 (219) 8.1 HBase的系統框架 (219) 8.2 HBase基本特征 (222) 8.2.1 RDBMS與HBase (222) 8.2.2 NoSQL數據庫 (223) 8.2.3 HBase的特點 (225) 8.3 HBase的基本接口 (226) 8.3.1 HBase訪問接口 (226) 8.3.2 HBase的存儲格式 (227) 8.3.3 HBase的讀寫流程 (227) 8.4 模塊總體設計 (228) 8.4.1 數據庫模塊總體設計 (228) 8.4.2 模塊詳細設計 (229) 8.4.3 數據庫模塊交互設計 (233) 8.5 HBase數據模型 (234) 8.6 HBase的安裝與配置 (238) 8.7 HBase實例分析 (240) 8.7.1 HBase的HFileOutputFormat (240) 8.7.2 HBase的TableOutputFormat (243) 第9章 大數據鏈接分析 (247) 9.1 鏈接分析中的數據采集研究 (247) 9.1.1 鏈接分析概述 (247) 9.1.2 相關研究 (248) 9.1.3 系統功能設計 (249) 9.1.4 實驗 (251) 9.1.5 結論 (252) 9.2 PageRank工具 (252) 9.2.1 PageRank概述 (253) 9.2.2 PageRank定義 (253) 9.2.3 相關算法 (255) 9.2.4 避免終止點 (256) 9.2.5 采集器陷阱及“抽稅”法 (258) 9.2.6 影響PageRank的因素 (259) 9.3 PageRank算法 (259) 9.4 搜索引擎研究 (262) 9.4.1 搜索引擎未來的發展方向 (262) 9.4.2 通用型搜索引擎 (264) 9.4.3 主題型搜索引擎 (268) 9.4.4 性能指標 (270) 9.5 鏈接作弊 (270) 9.5.1 垃圾農場的架構 (270) 9.5.2 垃圾農場的分析 (271) 9.5.3 TrustRank (272) 9.5.4 垃圾質量 (273) 9.6 導航頁和權威頁 (273) 第10章 聚類 (276) 10.1 聚類概述 (276) 10.1.1 聚類的典型應用 (276) 10.1.2 聚類的典型要求 (276) 10.1.3 聚類的計算方法 (277) 10.1.4 聚類分析的特征 (278) 10.2 聚類技術 (279) 10.2.1 點、空間和距離 (279) 10.2.2 維數災難 (279) 10.3 層次聚類 (280) 10.3.1 歐氏空間下的層次聚類 (281) 10.3.2 控制層次聚類的其他規則 (284) 10.3.3 非歐空間下的層次聚類 (284) 10.4 K-均值算法 (285) 10.4.1 K-均值算法的簇初始化 (285) 10.4.2 K值的選擇 (286) 10.4.3 BFR算法 (287) 10.4.4 BFR算法中的數據處理 (288) 10.5 CURE算法 (290) 10.5.1 CURE算法流程 (290) 10.5.2 CURE算法設計 (290) 10.5.3 數據取樣算法 (293) 10.6 流聚類及并行化 (293) 10.6.1 流計算模型 (294) 10.6.2 二次聚類算法 (294) 10.7 非歐空間下的聚類 (297) 10.7.1 GRGPF算法的簇表示 (297) 10.7.2 簇樹的初始化 (297) 10.7.3 算法中加入點 (298) 10.7.4 分裂與合并 (299) 第11章 項集與系統 (301) 11.1 項集與系統概述 (301) 11.2 項集 (302) 11.2.1 規則 (303) 11.2.2 內存使用 (304) 11.2.3 單調性 (305) 11.2.4 二元組計數 (305) 11.2.5 A-Priori算法 (306) 11.2.6 頻繁項集上的A-Priori算法 (307) 11.3 更大數據集處理 (308) 11.3.1 PCY算法 (309) 11.3.2 多階段算法 (310) 11.3.3 多哈希算法 (311) 11.4 有限掃描算法 (312) 11.4.1 隨機算法 (312) 11.4.2 SON算法 (313) 11.4.3 MapReduce算法 (313) 11.4.4 Toivonen算法 (314) 11.5 流中的頻繁項 (315) 11.5.1 抽樣法 (315) 11.5.2 衰減窗口的頻繁項集 (316) 11.5.3 混合方法 (316) 11.6 推薦模型系統 (317) 11.6.1 效用矩陣 (317) 11.6.2 長尾現象 (317) 11.6.3 效用矩陣的填充 (318) 11.7 內容的推薦 (318) 11.7.1 項模型 (319) 11.7.2 項模型的表示 (319) 11.7.3 分類算法 (320) 11.8 協同過濾 (321) 11.8.1 協同過濾的優缺點 (321) 11.8.2 協同過濾案例 (321) 11.9 降維處理 (322) 11.9.1 基于中心流形理論的降維方法 (322) 11.9.2 Lyapunov-Schmidt(L-S)方法 (323) 11.9.3 Galerkin方法 (324) 11.9.4 正交分解技術的降維方法 (327) 11.9.5 其他降維方法 (328) 11.10 Netflix大獎賽與推薦系統 (331) 參考文獻 (336) |
序: |