-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

智能運維:從0搭建大規模分布式AIOps系統

( 簡體 字)
作者:彭冬,朱偉,劉俊 等類別:1. -> 程式設計 -> 綜合
譯者:
出版社:電子工業出版社智能運維:從0搭建大規模分布式AIOps系統 3dWoo書號: 49530
詢問書籍請說出此書號!

缺書
NT售價: 395

出版日:7/1/2018
頁數:332
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121346637
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

為什么要寫這本書
中國互聯網發展非常迅速,一方面得益于互聯網基礎設施的不斷完善;另一方面得益于中國巨大的用戶人群和消費市場。網絡從PC到移動互聯網時代過渡非常快,2017年微博用戶中移動端占比已經達到92%,移動互聯網的興起帶來了前所未有的新格局,圍繞手機移動端的應用生態逐漸形成,大量PC時代的公司已經將產品的主戰場轉移到移動端。
據中國互聯網絡信息中心(CNNIC)發布的第41次《中國互聯網絡發展狀況統計報告》,截至2017年12月,中國網民規模達到7.72億,手機網民占比97.5%,手機支付用戶規模增長迅速,達到5.27億,網絡直播用戶規模達到4.22億,中國擁有人工智能企業592家,占全球總數的23.3%。
互聯網尤其是移動互聯網的發展,也給企業帶來了極大的技術挑戰,如何保障線上產品各個服務和系統的穩定性、如何快速高效地診斷問題和定位問題等成為企業所面臨的核心問題,而這些問題通過傳統的運維方式已經無法有效得到解決。尤其是在大數據復雜場景下,對運維有了新的期待,也對運維有了更高的要求。
首先,系統產生的數據在很大程度上反映了系統狀態和產品邏輯,監控系統需要具備快速搜集和處理數據的能力,能經過復雜的數據清洗并從大規模數據中抽取監控需要的指標,尤其是能對時序數據進行ETL及存儲分析,將異構數據轉化成監控系統能夠理解的結構化數據。在這個階段,如何保證數據的一致性和準確性、如何降低時延提高數據吞吐、如何降低監控系統對業務資源的影響等,都是在大數據環境下要解決的問題。
其次,監控系統要與報警系統融合,報警系統承載的是系統風險提示,對準確率要求很高,然而在現實環境下,大部分報警系統都存在報警項繁多、報警次數頻繁、報警不準確等問題。
再次,智能化故障診斷、異常點檢測、根因分析等是智能運維要解決的核心問題,然而智能化系統要建立在高效的平臺化基礎上,目前極大一部分公司還沒有真正進入平臺化階段,這就為智能運維帶來了極大的阻力。
最后,智能運維需要運維工程師具備一定的人工智能、機器學習及深度學習等算法和建模能力,然而就目前來講,運維工程師在這方面的技能是比較欠缺的。
國內在智能運維技術上,百度、阿里巴巴、騰訊和微博都有相當程度的經驗積累,也得益于這些企業的運維平臺化的體系逐漸成熟,在跟這些團隊交流的時候,大家都有一個共識,就是希望能將智能運維技術應用到運維的各個維度,也相信智能運維將徹底改變運維的現有體系,并將極大豐富和完善傳統運維,提高運維效率。
目前市面上與運維相關的書籍更多的是介紹某個單一技術的運維方法,少有對智能運維進行全面介紹的書籍,因此,我們覺得非常有必要梳理編寫一本大數據場景下的智能運維技術的書籍,全面完整地為讀者介紹智能運維的技術體系,以及在大企業的運維實踐經驗,讓讀者更加了解運維的技術方向,在實踐中能夠有所借鑒。同時,也能幫助運維工程師在一定程度上了解機器學習的常見算法模型,以及如何將它們應用到運維工作中。
讀者對象
本書面向的讀者主要包括:
? 運維工程師
? 運維開發工程師
? 運維架構師
? 大數據工程師
? 對運維和大數據,以及AIOps感興趣的工程師
如何閱讀這本書
本書主要分4篇:第1篇運維發展史,重點闡述當前運維的發展現狀及面臨的技術挑戰。第2篇智能運維基礎設施,重點講述大數據場景下的數據存儲、大數據處理和分析的方法與經驗,以及海量數據多維度多指標的處理分析技術。第3篇智能運維技術詳解,重點關注在新時期大數據時代下智能化的運維技術,包括數據聚合與關聯、數據異常點檢測、故障診斷和分析、趨勢預測算法;第4篇技術案例詳解,為大家梳理了通過開源框架ELK快速構建智能監控系統的整體方案,還將分享微博平臺和微博廣告兩個不同業務場景下智能監控系統的技術實踐。
具體而言,每篇和章節的主要內容如下:
第1篇 開門見山:運維發展史
? 第1章運維現狀,主要介紹運維職責、傳統運維、運維分類等,我們將從運維發展的四個階段:人工、工具和自動化、平臺化、智能化來介紹運維的發展現狀。
? 第2章智能運維,主要介紹運維面臨的挑戰,傳統運維在海量數據存儲、分析、處理,多維度多指標及復雜業務等方面都有一定的局限性,隨著運維新時代的到來,智能運維(AIOps)將為運維帶來新的機會。
第2篇 站在巨人肩上:智能運維基礎設施
? 第3章開源數據采集技術,重點介紹Filebeat、Logstash等開源數據采集工具。
? 第4章分布式消息隊列,重點介紹以Kafka為代表的分布式消息隊列及相關技術。
? 第5章大數據存儲技術,重點介紹大數據的存儲相關技術,這也是大數據場景下的智能運維基礎。
? 第6章大規模數據離線計算分析,通過大數據ETL技術、Hadoop技術生態討論在大數據場景下如何進行離線計算和分析。
? 第7章實時計算框架,重點介紹在實時流計算方面的相關技術和框架,將探討如何在監控系統中選擇和使用實時計算框架。
? 第8章時序數據分析框架,實時監控系統處理的是時序數據,本章介紹常見的時序數據分析框架及使用方法。
? 第9章機器學習框架,智能化是運維、大數據和AI的結合,本章簡單介紹機器學習框架,并以TensorFlow為例介紹如何進行模型訓練和實踐。
第3篇 運維新時代:智能運維技術詳解
? 第10章數據聚合與關聯技術,在數據聚合方面討論聚合方法、多維度數據聚合技巧,以及如何降低維度;在數據關聯方面介紹如何在實時流場景下進行時序數據的關聯。
? 第11章數據異常點檢測技術,本章結合運維面臨的如異常點檢測、動態閾值等常見問題,共同討論解決這些問題的一些相關模型和算法。
? 第12章故障診斷和分析策略,故障診斷是智能運維的一個很重要的研究方向,本章討論智能運維在故障診斷、決策樹模型、關聯分析等方面的策略和模型。
? 第13章趨勢預測算法,主要介紹走勢/趨勢預測方面的常見模型和方法,包括ARIMA及基于機器學習的LSTM預測技術。
第4篇 智能運維架構實踐:技術案例詳解
? 第14章快速構建日志監控系統,以ELK為例介紹如何使用開源框架快速搭建日志監控系統。
? 第15章微博廣告智能監控系統,全面介紹微博廣告智能監控系統架構和設計原理。
? 第16章微博平臺通用監控系統,以微博平臺監控系統為例,全面介紹通用監控系統的設計思路和具體架構。
需要注意的是,本文提到的智能運維即指AIOps,后續篇章將不再進行說明和區分。
勘誤和支持
由于筆者的水平有限,編寫時間倉促,同時本書在創作過程中參考了大量的國內外技術,并結合實踐經驗進行了系統性總結。由于技術的發展非常迅速,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。
智能運維技術在發生著翻天覆地的變化,我們希望更多的人能參與到這個過程中,共同推動智能運維技術的普及,歡迎通過微信或者郵件與我們進行討論。你可以通過微信justAStriver、微博@AndrewPD或者電子郵件contact@andrewpd.com聯系到我們,期待能夠得到你們的真摯反饋,在技術之路上互勉共進。
特別致謝
我們花費了大量的時間總結智能運維方面的技術并整理成書,在此非常感謝微博廣告基礎架構團隊的各位同事,尤其感謝車亞強、劉俊、陸松林、王莉、朱偉(按姓氏拼音排序)等人的辛勤付出,他們在工作之余,擠出寶貴的時間為本書貢獻了知識,共同完成了本書部分章節的內容梳理。感謝車亞強在實時流計算的基本概念和關鍵技術方面,尤其是對分布式消息隊列和Spark相關技術貢獻的內容;感謝劉俊對智能運維的全面介紹,以及在故障診斷技術方面的貢獻,同時結合微博平臺的應用場景整理了通用監控系統的設計方案;感謝陸松林在分布式存儲和離線計算方面提供的案例;感謝王莉在預估模型及異常點檢測模型方面的研究;感謝朱偉在運維及智能運維相關技術上的研究和內容貢獻。
感謝李東升的大力支持和鼓勵,感謝微博廣告團隊的各位同事、朋友的支持和幫助。
感謝張志強和TimYang兩位老大抽出寶貴時間為本書寫序,感謝裴丹博士、王鵬云、梁定安、饒琛琳、鐘華、陳曉峰、陸沛等業界朋友,感謝大家一起推動智能運維行業的普及和發展。
感謝電子工業出版社的編輯張春雨,他的敬業精神令我由衷敬佩,他的反饋、建議、鼓勵和幫助引導我們克服諸多困難完成全部書稿。
在此特別感謝我的父母對我的培養,感謝我的太太Kathy長期以來對我的默默支持,感謝我剛滿1歲的女兒小洋蔥,因為工作和寫作犧牲了很多陪伴她的時間。
技術交流
智能運維技術熱潮剛剛開始,希望讀者朋友能夠跟我們一起多多交流,共同推動中國智能運維技術的發展。你可以通過以下方式聯系到我們。
內容簡介:

本書將全面完整地介紹智能運維的技術體系,以及大企業的智能運維實踐經驗,讓讀者更加了解運維技術的現狀和發展方向,在實踐中能夠有所借鑒。同時,也能幫助運維工程師在一定程度上了解到機器學習的常見算法模型,以及如何將它們應用到運維工作中。全書共分4篇。第1篇運維發展史,將重點闡述當前運維的發展現狀及面臨的技術挑戰;第2篇智能運維基礎設施,將重點講述大數據場景下的數據存儲、大數據處理和分析的方法與經驗,以及海量數據多維度多指標的處理分析技術;第3篇智能運維技術詳解,將重點關注在新時期大數據時代下,如何進行智能化的運維體系建設;第4篇技術案例詳解,為大家梳理了通過開源框架ELK快速構建智能監控系統的整體方案,還將分享微博平臺和微博廣告兩個不同業務場景下智能監控系統的技術實踐。

目錄:

第1篇 開門見山:運維發展史
第1章 運維現狀 2
1.1 運維工程 2
1.1.1 認識運維 2
1.1.2 主要職責 4
1.1.3 運維技術 5
1.2 運維發展歷程 6
1.2.1 人工階段 6
1.2.2 工具和自動化階段 7
1.2.3 平臺化階段 7
1.2.4 智能運維階段 8
1.3 運維現狀 9
1.3.1 故障頻發 9
1.3.2 系統復雜性 10
1.3.3 大數據環境 12
1.4 本章小結 14
1.5 參考文獻 14
第2章 智能運維 15
2.1 海量數據的存儲、分析和處理 16
2.2 多維度、多數據源 18
2.3 信息過載 19
2.4 復雜業務模型下的故障定位 21
2.5 本章小結 22
2.6 參考文獻 22
第2篇 站在巨人肩上:智能運維基礎設施
第3章 開源數據采集技術 25
3.1 數據采集工具對比 25
3.2 輕量級采集工具Filebeat 26
3.2.1 Filebeat工作原理 26
3.2.2 Filebeat的安裝與配置 28
3.2.3 啟動和運行Filebeat 38
3.3 日志采集解析工具 38
3.3.1 Logstash工作原理 39
3.3.2 安裝Logstash 40
3.3.3 配置Logstash 41
3.3.4 啟動Logstash 49
3.4 本章小結 49
3.5 參考文獻 50
第4章 分布式消息隊列 51
4.1 開源消息隊列對比與分析 51
4.1.1 概述 51
4.1.2 ZeroMQ 51
4.1.3 ActiveMQ 52
4.1.4 RocketMQ 52
4.1.5 Kafka 53
4.2 Kafka安裝與使用 53
4.2.1 組件概念 53
4.2.2 基本特性 53
4.2.3 安裝與使用 54
4.2.4 Java API使用 55
4.3 案例分析 57
4.3.1 日志采集 58
4.3.2 實時結算 58
4.3.3 實時計算 58
4.4 本章小結 58
4.5 參考文獻 59
第5章 大數據存儲技術 60
5.1 傳統數據存儲 60
5.1.1 傳統應用的架構 60
5.1.2 傳統存儲的運行機制 61
5.1.3 傳統存儲帶來的問題 62
5.2 基于HDFS的分布式存儲 63
5.2.1 分布式存儲的定義 63
5.2.2 HDFS的基本原理 64
5.2.3 HDFS架構解析 65
5.2.4 HDFS優勢 66
5.2.5 HDFS不適合的場景 67
5.3 分層存儲 68
5.3.1 數據倉庫 68
5.3.2 數據倉庫分層架構 70
5.3.3 分層存儲的好處 73
5.4 案例分析 73
5.4.1 數據存儲架構 73
5.4.2 數據倉庫建模 74
5.4.3 常見的存儲問題及解決方案 80
5.5 本章小結 80
5.6 參考文獻 80
第6章 大規模數據離線計算分析 82
6.1 經典的離線計算 82
6.1.1 Linux神級工具sed和awk 82
6.1.2 Python數據處理Pandas基礎 84
6.1.3 Python的優勢和不足 88
6.2 分布式離線計算 89
6.2.1 MapReduce離線計算 89
6.2.2 離線計算的數據傾斜問題 97
6.2.3 分布式離線計算的技術棧 100
6.3 案例分析 101
6.3.1 離線計算管理 102
6.3.2 離線計算原子控制 103
6.3.3 離線計算的數據質量 103
6.4 本章小結 104
6.5 參考文獻 105
第7章 實時計算框架 106
7.1 關于實時流計算 106
7.1.1 如何提高實時流計算的實時性 106
7.1.2 如何提高實時流計算結果的準確性 107
7.1.3 如何提高實時流計算結果的響應速度 107
7.2 Spark Streaming計算框架介紹 107
7.2.1 概述 107
7.2.2 基本概念 108
7.2.3 運行原理 108
7.2.4 編程模型 109
7.2.5 Spark Streaming的使用 110
7.2.6 優化運行時間 114
7.3 Flink計算框架 115
7.3.1 基本概念 116
7.3.2 Flink特點 116
7.3.3 運行原理 118
7.3.4 Java API的使用 121
7.4 案例分析 124
7.4.1 背景介紹 125
7.4.2 架構設計 126
7.4.3 效果分析 126
7.5 本章小結 126
7.6 參考文獻 126
第8章 時序數據分析框架 127
8.1 時序數據庫簡介 127
8.1.1 什么是時序數據庫 127
8.1.2 時序數據庫的特點 128
8.1.3 時序數據庫對比 130
8.2 時序數據庫Graphite 131
8.2.1 Graphite簡介 131
8.2.2 Graphite在微博廣告監控系統中的應用 137
8.3 多維分析利器Druid 139
8.3.1 什么是Druid 139
8.3.2 Druid架構 140
8.3.3 Druid在微博廣告監控平臺中的應用 144
8.4 性能神器ClickHouse 147
8.4.1 什么是ClickHouse 147
8.4.2 ClickHouse的特性 148
8.4.3 ClickHouse的不足 149
8.4.4 安裝配置ClickHouse 149
8.4.5 表引擎 153
8.4.6 函數支持 157
8.5 本章小結 160
8.6 參考文獻 160
第9章 機器學習框架 161
9.1 簡介 161
9.2 TensorFlow介紹 162
9.2.1 什么是TensorFlow 162
9.2.2 下載安裝 162
9.2.3 “Hello TensorFlow”示例 166
9.3 TensorFlow進階 166
9.3.1 基礎理論 167
9.3.2 模型準備 169
9.3.3 訓練數據 169
9.3.4 模型訓練 171
9.3.5 生成seq2seq句子 174
9.3.6 運行演示 175
9.4 本章小結 178
9.5 參考文獻 179
第3篇 運維新時代:智能運維技術詳解
第10章 數據聚合與關聯技術 182
10.1 數據聚合 182
10.1.1 聚合運算 183
10.1.2 多維度聚合 186
10.2 降低維度 188
10.2.1 將告警聚合成關聯“事件” 189
10.2.2 減少誤報:告警分類 190
10.3 數據關聯 192
10.4 實時數據關聯案例 193
10.4.1 設計方案 193
10.4.2 效果 195
10.5 本章小結 195
10.6 參考文獻 195
第11章 數據異常點檢測技術 196
11.1 概述 196
11.2 異常檢測方法 198
11.2.1 基于統計模型的異常點檢測 199
11.2.2 基于鄰近度的異常點檢測 202
11.2.3 基于密度的異常點檢測 203
11.3 獨立森林 204
11.4 本章小結 207
11.5 參考文獻 207
第12章 故障診斷和分析策略 208
12.1 日志標準化 209
12.2 全鏈路追蹤 210
12.3 SLA的統一 210
12.4 傳統的故障定位方法 211
12.4.1 監控告警型 211
12.4.2 日志分析型 212
12.5 人工智能在故障定位領域的應用 213
12.5.1 基于關聯規則的相關性分析 213
12.5.2 基于決策樹的故障診斷 217
12.6 本章小結 222
12.7 參考文獻 222
第13章 趨勢預測算法 223
13.1 移動平均法 223
13.2 指數平滑法 224
13.3 ARIMA模型 226
13.3.1 簡介 226
13.3.2 重要概念 226
13.3.3 參數解釋 228
13.3.4 建模步驟 230
13.3.5 ARIMA模型案例 232
13.4 神經網絡模型 236
13.4.1 卷積神經網絡 236
13.4.2 循環神經網絡 238
13.4.3 長短期記憶網絡 239
13.4.4 應用說明 241
13.5 本章小結 241
13.6 參考文獻 242
第4篇 智能運維架構實踐:技術案例詳解
第14章 快速構建日志監控系統 244
14.1 Elasticsearch分布式搜索引擎 244
14.1.1 基本概念 244
14.1.2 分布式文檔存儲與讀取 248
14.1.3 分布式文檔檢索 250
14.1.4 分片管理 252
14.1.5 路由策略 254
14.1.6 映射 255
14.2 可視化工具Kibana 258
14.2.1 Management 260
14.2.2 Discover 260
14.2.3 Visualize 262
14.2.4 Dashboard 263
14.2.5 Timelion 263
14.2.6 Dev Tools 264
14.3 ELK搭建實踐 264
14.3.1 Logstash安裝配置 264
14.3.2 Elasticsearch集群安裝配置 266
14.3.3 Kibana安裝配置 272
14.4 本章小結 274
14.5 參考文獻 274
第15章 微博廣告智能監控系統 275
15.1 背景介紹 275
15.1.1 監控指標體系 275
15.1.2 功能設計原則 276
15.2 整體架構 277
15.3 核心功能分析 278
15.3.1 全景監控 278
15.3.2 趨勢預測 281
15.3.3 動態閾值 285
15.3.4 服務治理 285
15.4 本章小結 288
第16章 微博平臺通用監控系統 289
16.1 背景 290
16.2 整體架構 291
16.3 核心模塊 292
16.3.1 數據采集(Logtailer) 292
16.3.2 數據路由(Statsd-proxy) 295
16.3.3 聚合運算(Statsd) 295
16.3.4 數據分發(C-Relay)和數據存儲 295
16.3.5 告警模塊 297
16.3.6 API設計 300
16.3.7 數據可視化 301
16.4 第三方應用 302
16.4.1 決策支持系統 302
16.4.2 運維自動化 303
16.4.3 成本分析和容量日報 303
16.4.4 機器學習 303
16.5 本章小節 303
附錄A 中國大數據技術大會2017(BDTC 2017)CSDN專訪實錄 305
序: