精通Spark數據科學 @ 3dWoo大學簡體電腦書店

精通Spark數據科學 ( 簡體字)
作者：[美]安德魯·摩根（Andrew Morgan）	類別：1. -> 程式設計 -> Spark
出版社：人民郵電出版社	3dWoo書號： 53348 詢問書籍請說出此書號！有庫存 NT售價： 545 元
出版日：9/1/2020
頁數：430
光碟數：0
站長推薦：
印刷：黑白印刷	語系： ( 簡體字 )
ISBN：9787115541567	加入購物車 │加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
目錄前言內容簡介第 1章　數據科學生態系統 1 1.1　大數據生態系統簡介　1 1.1.1　數據管理　2 1.1.2　數據管理職責　2 1.1.3　合適的工具　4 1.2　數據架構　4 1.2.1　數據采集　5 1.2.2　數據湖　6 1.2.3　數據科學平臺　7 1.2.4　數據訪問　8 1.3　數據處理技術　8 1.4　配套工具　10 1.4.1　Apache HDFS　10 1.4.2　亞馬遜S3　12 1.4.3　Apache Kafka　13 1.4.4　Apache Parquet　14 1.4.5　Apache Avro　15 1.4.6　Apache NiFi　16 1.4.7　Apache YARN　17 1.4.8　Apache Lucene　18 1.4.9　Kibana　19 1.4.10　Elasticsearch　20 1.4.11　Accumulo　21 1.5　小結　22 第 2章　數據獲取　23 2.1　數據管道　23 2.1.1　通用采集框架　24 2.1.2　GDELT數據集簡介　25 2.2　內容登記　32 2.2.1　選擇和更多選擇　32 2.2.2　隨流而行　32 2.2.3　元數據模型　33 2.2.4　Kibana儀表盤　35 2.3　質量保證　36 2.3.1　案例1——基本質量檢查，無爭用用戶　36 2.3.2　案例2——進階質量檢查，無爭用用戶　36 2.3.3　案例3——基本質量檢查，50%使用率爭用用戶　37 2.4　小結　37 第3章　輸入格式與模式　39 3.1　結構化的生活是美好的生活　40 3.2　GDELT維度建模　40 3.3　加載數據　48 3.3.1　模式敏捷性　49 3.3.2　GKG ELT　51 3.4　Avro　54 3.4.1　Spark-Avro方法　55 3.4.2　教學方法　57 3.4.3　何時執行Avro轉換　61 3.5　Apache Parquet　62 3.6　小結　63 第4章　探索性數據分析　64 4.1　問題、原則與規劃　65 4.1.1　理解EDA問題　65 4.1.2　設計原則　65 4.1.3　探索的總計劃　66 4.2　準備工作　67 4.2.1　基于掩碼的數據剖析簡介　67 4.2.2　字符類掩碼簡介　71 4.2.3　構建基于掩碼的剖析器　73 4.3　探索GDELT　86 4.4　小結　107 第5章　利用Spark進行地理分析　108 5.1　GDELT和石油　108 5.1.1　GDELT事件　109 5.1.2　GDELT GKG　110 5.2　制訂行動計劃　110 5.3　GeoMesa　111 5.3.1　安裝　112 5.3.2　GDELT采集　112 5.3.3　GeoMesa采集　113 5.3.4　GeoHash　117 5.3.5　GeoServer　120 5.4　計量油價　123 5.4.1　使用GeoMesa查詢API　123 5.4.2　數據準備　125 5.4.3　機器學習　130 5.4.4　樸素貝葉斯　131 5.4.5　結果　132 5.4.6　分析　133 5.5　小結　134 第6章　采集基于鏈接的外部數據　135 6.1　構建一個大規模的新聞掃描器　135 6.1.1　訪問Web內容　136 6.1.2　與Spark集成　138 6.1.3　創建可擴展的生產準備庫　139 6.2　命名實體識別　142 6.2.1　Scala庫　143 6.2.2　NLP攻略　143 6.2.3　構建可擴展代碼　146 6.3　GIS查詢　148 6.3.1　GeoNames數據集　148 6.3.2　構建高效的連接　149 6.3.3　內容除重　153 6.4　名字除重　154 6.4.1　用Scalaz進行函數式編程　155 6.4.2　簡單清洗　158 6.4.3　DoubleMetaphone算法　158 6.5　新聞索引儀表板　160 6.6　小結　162 第7章　構建社區　163 7.1　構建一個人物圖譜　163 7.1.1　聯系鏈　164 7.1.2　從Elasticsearch中提取數據　166 7.2　使用Accumulo數據庫　168 7.2.1　設置Accumulo　168 7.2.2　單元級安全　169 7.2.3　迭代器　170 7.2.4　從Elasticsearch到Accumulo　170 7.2.5　從Accumulo讀取　173 7.2.6　AccumuloGraphxInputFormat和EdgeWritable　175 7.2.7　構建圖　175 7.3　社區發現算法　177 7.3.1　Louvain算法　177 7.3.2　加權社區聚類　178 7.4　GDELT數據集　193 7.4.1　Bowie 效應　194 7.4.2　較小的社區　195 7.4.3　使用Accumulo單元級的安全性　196 7.5　小結　197 第8章　構建推薦系統　198 8.1　不同的方法　198 8.1.1　協同過濾　199 8.1.2　基于內容的過濾　199 8.1.3　自定義的方法　199 8.2　信息不完整的數據　200 8.2.1　處理字節　200 8.2.2　創建可擴展的代碼　203 8.2.3　從時域到頻域　204 8.3　構建歌曲分析器　209 8.4　構建一個推薦系統　214 8.4.1　PageRank算法　214 8.4.2　構建個性化的播放列表　217 8.5　擴大“蛋糕廠”規模　217 8.5.1　構建播放列表服務　217 8.5.2　應用Spark任務服務器　219 8.5.3　用戶界面　223 8.6　小結　224 第9章　新聞詞典和實時標記系統　226 9.1　土耳其機器人　226 9.1.1　人類智能任務　227 9.1.2　引導分類模型　227 9.1.3　懶惰、急躁、傲慢　233 9.2　設計Spark Streaming應用　234 9.2.1　兩個架構的故事　234 9.2.2　Lambda架構的價值　237 9.2.3　Kappa架構的價值　239 9.3　消費數據流　240 9.3.1　創建GDELT數據流　240 9.3.2　創建Twitter數據流　242 9.4　處理Twitter數據　243 9.4.1　提取URL和主題標簽　244 9.4.2　保存流行的主題標簽　245 9.4.3　擴展縮短的URL　246 9.5　獲取HTML內容　248 9.6　使用Elasticsearch作為緩存層　249 9.7　分類數據　252 9.7.1　訓練樸素貝葉斯模型　253 9.7.2　確保線程安全　254 9.7.3　預測GDELT數據　255 9.8　Twitter土耳其機器人　256 9.9　小結　258 第 10章　故事除重和變遷　260 10.1　檢測近似重復　260 10.1.1　從散列開始第一步　262 10.1.2　站在“互聯網巨人”的肩膀上　263 10.1.3　檢測GDELT中的近似重復　266 10.1.4　索引GDELT數據庫　271 10.2　構建故事　275 10.2.1　構建詞頻向量　275 10.2.2　維度災難，數據科學之痛　277 10.2.3　優化KMeans　278 10.3　故事變遷　281 10.3.1　平衡態　281 10.3.2　隨時間追蹤故事　283 10.3.3　構建故事的關聯　290 10.4　小結　294 第 11章　情感分析中的異常檢測　295 11.1　在Twitter上追蹤美國大選　296 11.1.1　流式獲取數據　296 11.1.2　成批獲取數據　297 11.2　情感分析　300 11.2.1　格式化處理Twitter數據　300 11.2.2　使用斯坦福NLP　302 11.2.3　建立管道　304 11.3　使用Timely作為時間序列數據庫　306 11.3.1　存儲數據　306 11.3.2　使用Grafana可視化情感　309 11.4　Twitter與戈德溫（Godwin）點　311 11.4.1　學習環境　311 11.4.2　對模型進行可視化　314 11.4.3　Word2Graph和戈德溫點　315 11.5　進入檢測諷刺的一小步　320 11.5.1　構建特征　320 11.5.2　檢測異常　324 11.6　小結　325 第 12章　趨勢演算　326 12.1　研究趨勢　327 12.2　趨勢演算算法　328 12.2.1　趨勢窗口　328 12.2.2　簡單趨勢　331 12.2.3　用戶定義聚合函數　332 12.2.4　簡單趨勢計算　337 12.2.5　反轉規則　339 12.2.6　FHLS條狀圖介紹　341 12.2.7　可視化數據　343 12.3　實際應用　351 12.3.1　算法特性　352 12.3.2　潛在的用例　352 12.4　小結　353 第 13章　數據保護　354 13.1　數據安全性　354 13.1.1　存在的問題　355 13.1.2　基本操作　355 13.2　認證和授權　356 13.3　訪問　358 13.4　加密　359 13.4.1　數據處于靜態時　359 13.4.2　數據處于傳輸時　368 13.4.3　混淆/匿名　369 13.4.4　遮罩　372 13.4.5　令牌化　375 13.5　數據處置　377 13.6　Kerberos認證　378 13.6.1　用例1：Apache Spark在受保護的HDFS中訪問數據　379 13.6.2　用例2：擴展到自動身份驗證　381 13.6.3　用例3：從Spark連接到安全數據庫　381 13.7　安全生態　383 13.7.1　Apache Sentry　383 13.7.2　RecordService　384 13.8　安全責任　385 13.9　小結　386 第 14章　可擴展算法　387 14.1　基本原則　387 14.2　Spark架構　390 14.2.1　Spark的歷史　390 14.2.2　動態組件　391 14.3　挑戰　395 14.3.1　算法復雜性　395 14.3.2　數值異常　395 14.3.3　洗牌　398 14.3.4　數據模式　398 14.4　規劃你的路線　399 14.5　設計模式和技術　409 14.5.1　Spark API　410 14.5.2　摘要模式　411 14.5.3　擴展并解決模式　411 14.5.4　輕量級洗牌　412 14.5.5　寬表模式　414 14.5.6　廣播變量模式　415 14.5.7　組合器模式　416 14.5.8　集群優化　420 14.5.9　再分配模式　422 14.5.10　加鹽鍵模式　423 14.5.11　二次排序模式　424 14.5.12　過濾過度模式　426 14.5.13　概率算法　426 14.5.14　選擇性緩存　427 14.5.15　垃圾回收　428 14.5.16　圖遍歷　429 14.6　小結　430 Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎。這是一本專門介紹Spark的圖書，旨在教會讀者利用Spark構建實用的數據科學解決方案。本書內容包括14章，由淺入深地介紹了數據科學生態系統、數據獲取、輸入格式與模式、探索性數據分析、利用Spark進行地理分析、采集基于鏈接的外部數據、構建社區、構建推薦系統、新聞詞典和實時標記系統、故事除重和變遷、情感分析中的異常檢測、趨勢演算、數據保護和可擴展算法。本書適合數據科學家以及對數據科學、機器學習感興趣的讀者閱讀，需要讀者具備數據科學相關的基礎知識，并通過閱讀本書進一步提升Spark運用能力，從而創建出高效且實用的數據科學解決方案。