|
-- 會員 / 註冊 --
|
|
|
|
Greenplum:從大數據戰略到實現 ( 簡體 字) |
作者:馮雷 姚延棟 高小明 楊瑜 | 類別:1. -> 程式設計 -> 大數據 |
譯者: |
出版社:機械工業出版社 | 3dWoo書號: 51592 詢問書籍請說出此書號!【缺書】 NT售價: 595 元 |
出版日:8/9/2019 |
頁數:391 |
光碟數:0 |
|
站長推薦: |
印刷: | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787111632160 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介:大數據已經從概念變成廣泛落地的現實,并且對傳統企業產生越來越大的影響。本書從大數據、人工智能、云計算三者的關系談起,論述了企業制訂大數據戰略的原則、方法、技術平臺的選擇、實施、運維與管理的方方面面,并輔以成功案例,全方位展示了大數據在企業的應用。 |
目錄:序 前 言 第一部分 大數據戰略 第1章 ABC:人工智能、大數據和云計算 2 1.1 再談云計算 2 1.1.1 云計算由南向轉為北向 2 1.1.2 P層云的精細化發展 3 1.1.3 大數據系統在云中部署不斷朝南上移 4 1.2 大數據 5 1.2.1 從CRUD到CRAP 5 1.2.2 MPP(大規模并行計算) 7 1.2.3 大數據系統 8 1.2.4 當大數據遇到云計算 10 1.3 人工智能 11 1.3.1 模型化方法 12 1.3.2 AI的發展史 14 1.3.3 對AI應用的正確預期 15 1.4 ABC之間的關系 16 1.5 AI和人 18 1.5.1 經驗與邏輯 18 1.5.2 公理化的邏輯系統 21 1.5.3 圖靈機和可計算數 25 1.5.4 認知邊界上的考量 28 第2章 建立基于大數據的高階數字化戰略 32 2.1 基于云原生應用的數字化戰略 32 2.2 大數據和AI:企業未來的終極 競爭點 34 2.3 大數據戰略的落地 36 2.3.1 大數據和AI人才 36 2.3.2 AI驅動的開發方法和文化 37 2.3.3 大數據基礎設施的建設 39 2.4 大數據和AI的展望 41 第二部分 大數據平臺 第3章 數據處理平臺的演進 45 3.1 前數據處理時代 45 3.2 早期的電子數據處理 47 3.2.1 電子計算機的出現 47 3.2.2 軟件 47 3.3 數據庫 49 3.3.1 數據模型 50 3.3.2 數據獨立性和高級數據處理語言 54 3.3.3 數據保護 57 3.3.4 數據庫早期發展過程中的困境 57 3.4 NoSQL數據庫 58 3.4.1 NoSQL出現的背景 58 3.4.2 NoSQL產品的共性 60 3.4.3 NoSQL的分類 61 3.5 SQL數據庫的回歸 62 3.5.1 NoSQL與SQL的融合 62 3.5.2 Hadoop不等于大數據 63 3.5.3 SQL從未離開 64 3.6 集成數據處理和分析平臺 65 3.6.1 數據類型 65 3.6.2 業務場景 66 3.6.3 集中還是分散 67 3.7 數據平臺的選型 68 3.8 小結 69 第4章 Greenplum數據庫快速入門 72 4.1 Greenplum數據庫的發展和現狀 72 4.2 Greenplum數據庫的特性 73 4.3 Greenplum數據庫的組成 75 4.4 Greenplum數據庫的安裝與部署 76 4.4.1 準備工作 76 4.4.2 安裝Greenplum 77 4.4.3 初始化Greenplum數據庫 80 4.5 Greenplum數據庫的常用操作 82 4.6 Greenplum數據庫的常用命令 83 4.6.1 gpstart 83 4.6.2 gpstop 83 4.6.3 gpstate 83 4.6.4 gpactivatestandby 84 4.6.5 gpconfig 84 4.6.6 gpdeletesystem 84 4.7 小結 85 第5章 Greenplum的架構和核心引擎 86 5.1 Greenplum的架構 86 5.1.1 Greenplum Master 87 5.1.2 Greenplum Segment 87 5.1.3 Greenplum Interconnect 87 5.1.4 Greenplum Standby Master 87 5.1.5 Greenplum Mirror Segment 88 5.2 Greenplum查詢計劃 88 5.2.1 單機查詢計劃 89 5.2.2 并行查詢計劃 90 5.3 Greenplum數據庫查詢處理的過程 95 5.3.1 Greenplum數據庫的主要功能組件 95 5.3.2 Greenplum數據庫查詢的執行流程 96 5.4 小結 97 第6章 從ETL到數據聯邦和數據虛擬化 98 6.1 Greenplum中的ETL 99 6.1.1 PostgreSQL的ETL工具箱 99 6.1.2 GPLOAD 100 6.2 Greenplum的數據聯邦 104 6.2.1 dblink簡介 104 6.2.2 外部表 107 6.2.3 GPFDIST外部表 109 6.2.4 可執行外部表 119 6.2.5 Greenplum的S3外部表 120 6.2.6 GPHDFS外部表 127 6.2.7 Spark連接器 129 6.2.8 Gemfire連接器 129 6.3 Greenplum的數據虛擬化框架 130 6.3.1 PXF的架構 130 6.3.2 PXF的環境配置 131 6.3.3 GPHDFS與PXF比較 132 6.4 小結 133 第7章 混合負載和資源管理 134 7.1 混合負載的機遇和挑戰 134 7.2 混合負載的業務和技術要求 136 7.3 資源管理 139 7.4 并發管理 145 7.5 小結 146 第三部分 機器學習與數據分析 第8章 Greenplum中的過程化編程語言 149 8.1 PL/Python 150 8.1.1 PL/Python簡介 150 8.1.2 受信任的過程化編程語言 151 8.1.3 安裝Python包 152 8.1.4 安裝Greenplum數據計算Python包集合 153 8.1.5 類型轉換 153 8.1.6 PL/Python函數中的數據共享 154 8.2 PL/R 155 8.2.1 PL/R簡介 156 8.2.2 安裝R包 158 8.2.3 安裝Greenplum數據計算R包集合 158 8.3 PL/Container 158 8.3.1 PL/Container簡介 159 8.3.2 一個簡單的例子 159 8.3.3 PL/Container的基本操作方法 162 8.3.4 PL/Container實踐總結 166 8.3.5 關于PL/Container的開發 167 8.4 小結 167 第9章 MADlib 機器學習庫 168 9.1 MADlib入門 168 9.1.1 MADlib簡介 168 9.1.2 MADlib的特點 169 9.1.3 MADlib與其他機器學習算法庫的比較 172 9.1.4 MADlib的快速安裝 173 9.2 MADlib的架構 174 9.2.1 SQL用戶接口 174 9.2.2 Python驅動函數 175 9.2.3 C++機器學習算法實現 175 9.2.4 C++數據庫抽象層 176 9.3 MADlib應用 177 9.3.1 數據預處理 177 9.3.2 監督學習 178 9.3.3 非監督學習 184 9.3.4 時間序列 187 9.3.5 自定義機器學習算法 188 9.4 小結 191 第10章 Greenplum半結構化文本數據分析 192 10.1 GPText文本分析概述 192 10.1.1 GPText數據提取 192 10.1.2 GPText的文本處理、索引流程和高階分析 193 10.2 GPText內置的全文檢索引擎:Apache SolrCloud 194 10.3 GPText架構:高速并行索引和查詢 195 10.4 數據準備 197 10.5 GPText的使用:簡單的SQL和UDF函數 198 10.6 GPText的安裝 200 10.7 GPText索引 201 10.7.1 創建GPText索引 201 10.7.2 加載GPText索引 204 10.7.3 GPText 增減索引列 205 10.8 GPText簡單查詢 205 10.8.1 GPText 查詢的語法 205 10.8.2 GPText 臨近查詢 206 10.8.3 GPText top查詢 206 10.9 GPText高級查詢 207 10.9.1 GPText Facet 查詢 207 10.9.2 GPText 高亮查詢結果 209 10.10 GPText分區表查詢 210 10.11 GPText對自然語言處理的支持 211 10.12 GPText定制化索引 213 10.13 GPText管理工具 214 10.14 GPText用于文本挖掘和分析 215 10.15 小結 216 第11章 地理空間數據分析和處理 218 11.1 概述 218 11.1.1 什么是地理空間數據 218 11.1.2 地理空間數據應用與分析中的挑戰 220 11.2 Greenplum PostGIS 223 11.2.1 Greenplum PostGIS 簡介 223 11.2.2 安裝Greenplum PostGIS 組件 224 11.2.3 第一次使用 227 11.3 Greenplum PostGIS應用實例 228 11.3.1 GIS數據準備 228 11.3.2 使用Greenplum PostGIS空間數據操作符進行GIS數據查詢 230 11.3.3 使用Greenplum PostGIS的UDF進行GIS數據分析 233 11.3.4 柵格數據 235 11.4 小結 239 第12章 Greenplum數據庫與圖計算 240 12.1 圖的概念 240 12.2 圖的應用 241 12.2.1 電子電路設計自動化 241 12.2.2 搜索引擎 242 12.2.3 社交網絡 242 12.3 圖數據的處理 243 12.4 Greenplum對圖數據的支持 244 12.5 MADlib中的圖結構和算法 245 12.5.1 圖的表示 245 12.5.2 MADlib支持的圖算法 245 12.5.3 MADlib圖算法詳解 246 12.6 小結 277 第四部分 Greenplum的運維和遷移 第13章 Greenplum的監控和管理 281 13.1 監控Greenplum集群的狀態 282 13.1.1 gpstate命令 282 13.1.2 系統表gp_segment_conf?iguration 283 13.1.3 Segment的故障恢復和再平衡 284 13.1.4 常用的監控命令 287 13.2 管理Greenplum集群 289 13.2.1 參數配置 289 13.2.2 訪問管理 290 13.2.3 統計信息 292 13.2.4 管理表膨脹 294 13.3 Greenplum指令中心(GPCC) 297 13.3.1 GPCC簡介 297 13.3.2 可視化監控 298 13.3.3 查詢監控和分析 301 13.3.4 工作負載管理 305 13.3.5 監控告警系統 307 13.4 小結 309 第14章 Greenplum數據庫的備份、恢復和遷移 310 14.1 非并行數據庫備份 310 14.2 非并行數據庫恢復 313 14.3 并行數據庫備份 313 14.4 并行數據庫恢復 316 14.5 高效的并行數據庫備份和恢復工具gpbackup/gprestore 317 14.6 新一代Greenplum數據遷移工具GPCOPY 322 14.7 小結 324 第15章 從Oracle遷移到Greenplum 326 15.1 概述 326 15.2 Oracle與Greenplum的架構對比 327 15.2.1 Oracle的主要痛點 329 15.2.2 Greenplum的優勢 330 15.3 從Oracle遷移到Greenplum的流程 331 15.3.1 遷移場景 332 15.3.2 遷移過程 334 15.3.3 特殊場景分析 344 15.4 小結 352 第16章 從Teradata遷移到Greenplum 353 16.1 Teradata產品和用戶面臨的問題 353 16.2 從Teradata遷移到Greenplum的可行性 354 16.3 如何從Teradata遷移到Greenplum 356 16.3.1 遷移流程概述 356 16.3.2 Teradata數據卸載及DDL導出規范 357 16.3.3 數據操作語句轉換 364 16.3.4 函數轉換 367 16.3.5 ETL應用工具連接轉換 369 16.3.6 其他應用接口遷移 372 16.4 特殊場景 373 16.4.1 事前微批去重 373 16.4.2 事后批量去重 374 16.5 小結 374 附錄A Greenplum社區 375 附錄B 外部表實例 380 附錄C Greenplum的SSL證書 386 術語表 390 |
序: |
|