-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

Python和Dask數據科學

( 簡體 字)
作者:[美] 杰西·丹尼爾(Jesse C. Daniel)著 王穎、周致成、王龍江 譯 田禮悅 審校類別:1. -> 程式設計 -> Python
譯者:
出版社:清華大學出版社Python和Dask數據科學 3dWoo書號: 53245
詢問書籍請說出此書號!

缺書
NT售價: 400

出版日:6/1/2020
頁數:272
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787302553786
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

《Python和Dask數據科學》讀者對象
《Python和Dask數據科學》帶你親身體驗一個典型的數據科學工作流程,引導你使用Dask完成數據清理乃至數據部署。《Python和Dask數據科學》首先介紹可擴展計算的一些基礎知識,并解釋Dask如何利用這些概念在大小數據集上執行操作。在此基礎上,《Python和Dask數據科學》將重點轉向利用各種真實世界的數據集去準備、分析、可視化和建模,從而提供關于如何使用Dask執行公共數據科學任務的具體實例。最后,《Python和Dask數據科學》教你一步步地在AWS上部署自己的Dask集群去擴展你的分析代碼。
《Python和Dask數據科學》主要是為初級到中級的數據科學家、數據工程師和數據分析師編寫的,帶讀者處理能使單臺機器到達極限的數據集。雖然有其他分布式框架(如PySpark)的經驗不是必需的,但是具有這方面經驗的讀者可以通過與Dask的功能和性能進行比較而從《Python和Dask數據科學》中受益。雖然可在互聯網上查閱到各種文章和文獻,但那些都無法像《Python和Dask數據科學》一樣全面介紹如何將Dask用于數據科學。
《Python和Dask數據科學》結構安排:路線圖
《Python和Dask數據科學》分為三部分,共包含11章。
第Ⅰ部分介紹有關可擴展計算的一些基礎知識,并提供了幾個簡單示例,說明Dask如何使用這些概念來擴展工作負載。
? 第1章通過構建一個案例來介紹Dask,說明Dask為什么是數據科學工具包中的一個重要工具。并解釋有向無環圖(Directed Acyclic Graph,DAG),DAG是可擴展計算和Dask的核心概念。
? 第2章將介紹Dask如何使用DAG在多個CPU核心甚至物理機上分配任務。該章介紹如何自動顯示由任務調度器生成的DAG,以及任務調度器如何分配資源并有效地處理數據。
第Ⅱ部分介紹常見的數據清理、分析和可視化任務,以及使用Dask DataFrame構造的結構化數據。
? 第3章介紹Dask DataFrame的概念設計,以及如何對Pandas DataFrame進行抽象化和并行化處理。
? 第4章討論如何從各種數據源和存儲格式(如文本文件、數據庫、S3和Parquet文件)中創建Dask DataFrame。
? 第5章深入探討如何使用DataFrame來清理和轉換數據集,包括排序、過濾、處理丟失的值、連接數據集以及以多種文件格式編寫數據幀。
? 第6章介紹如何使用內置聚合函數(如sum、mean等),以及自己寫一個聚合函數和窗口函數,還介紹如何生成基本的描述性統計。
? 第7章介紹基本可視化效果的創建步驟。
? 第8章在第7章的基礎上,介紹具有交互性和地理特征的高級可視化。
第Ⅲ部分介紹Dask的高級主題,如非結構化數據、機器學習和構建可擴展工作負載。
? 第9章演示如何使用Dask包和數組去解析、清理和分析非結構化數據。
? 第10章展示了如何從Dask數據源中構建機器學習模型,以及測試和維護訓練模型。
? 第11章介紹如何使用Docker在AWS上建立Dask集群。
如果你喜歡循序漸進地學習,可以選擇按順序閱讀《Python和Dask數據科學》;如果你想了解一些特定內容,也可選擇跳過一些章節閱讀。但是無論選擇如何閱讀,都應該首先閱讀一下第1章和第2章,以便更好地理解Dask如何將工作負載(工作任務)從多個CPU核心擴展到多臺機器。你還應該參考附錄,了解有關Dask設置的具體信息和正文中使用的一些其他包的具體細節。
關于代碼
《Python和Dask數據科學》在真實數據集的基礎上提供實際操作的案例。因此,書中有許多代碼。許多源代碼包含有注釋,旨在進一步解釋代碼的含義。
所有代碼都由Jupyter Notebook提供,可從以下網址下載。另外,也可掃描封底二維碼下載。每一個Notebook單元都對應著一個已編號的源代碼,并按照在《Python和Dask數據科學》中的順序顯示。
內容簡介:

主要內容
● 處理大型的結構化和非結構化數據集
● 使用Seaborn和Datashader實現可視化
● 實現自己的算法
● 構建分布式應用
● 打包和部署Dask應用
目錄:

第Ⅰ部分可擴展計算的基礎
第1章可擴展計算的重要性3
1.1Dask的優勢4
1.2有向無環圖9
1.3橫向擴展、并發和恢復13
1.3.1縱向擴展和橫向擴展14
1.3.2并發和資源管理16
1.3.3從失敗中恢復17
1.4本書使用的數據集18
1.5 本章小結19
第2章Dask入門21
2.1DataFrameAPI初探22
2.1.1Dask對象的元數據22
2.1.2使用compute方法運行計算任務25
2.1.3使用persist簡化復雜計算27
2.2DAG的可視化28
2.2.1使用Dask延遲對象查看DAG28
2.2.2帶有循環和集合的復雜DAG的可視化29
2.2.3使用persist簡化DAG32
2.3任務調度35
2.3.1延遲計算35
2.3.2數據本地化36
2.4本章小結38
第II部分使用DaskDataFrame處理結構化數據
第3章介紹DaskDataFrame41
3.1為什么使用DataFrame42
3.2Dask和Pandas43
3.2.1管理DataFrame分區45
3.2.2“混洗”介紹48
3.3DaskDataFrame的局限性49
3.4本章小結50
第4章將數據讀入DataFrame53
4.1從文本文件讀取數據54
4.1.1Dask數據類型59
4.1.2為DaskDataFrame創建數據模式61
4.2從關系數據庫中讀取數據65
4.3從HDFS和S3中讀取數據68
4.4讀取Parquet格式的數據72
4.5本章小結74
第5章DataFrame的清理和轉換75
5.1使用索引和軸77
5.1.1從DataFrame中選擇列77
5.1.2從DataFrame中刪除列79
5.1.3DataFrame中列的重命名81
5.1.4從DataFrame中選擇行81
5.2處理缺失值83
5.2.1對DataFrame中的缺失值計數83
5.2.2刪除含有缺失值
的列85
5.2.3填充缺失值85
5.2.4刪除缺少數據的行86
5.2.5使用缺失值輸入多個列87
5.3數據重編碼89
5.4元素運算93
5.5過濾和重新索引DataFrame95
5.6DataFrame的連接97
5.6.1連接兩個DataFrame98
5.6.2合并兩個DataFrame101
5.7將數據寫入文本文件和Parquet文件103
5.7.1寫入含分隔符的文本文件103
5.7.2寫入Parquet文件104
5.8本章小結105
第6章聚合和分析DataFrame107
6.1描述性統計信息108
6.1.1什么是描述性統計信息108
6.1.2使用Dask計算描述性統計信息110
6.1.3使用describe方法進行描述性統計114
6.2內置的聚合函數115
6.2.1什么是相關性115
6.2.2計算DaskDataFrame的相關性117
6.3自定義聚合函數121
6.3.1使用t檢驗測試分類變量121
6.3.2使用自定義聚合函數來實現Brown-Forsythe檢驗123
6.4滾動(窗口)功能134
6.4.1為滾動函數準備數據135
6.4.2將rolling方法應用到一個窗口函數136
6.5本章小結137
第7章使用Seaborn對DataFrame進行可視化139
7.1prepare-reduce-collect-plot模式141
7.2可視化散點圖與規則圖的延伸關系143
7.2.1使用Dask和Seaborn創建散點圖143
7.2.2在散點圖中添加線性回歸線146
7.2.3在散點圖中添加非線性回歸線147
7.3使用小提琴圖可視化分類關系149
7.3.1使用Dask和Seaborn創建小提琴圖150
7.3.2從DaskDataFrame隨機采樣數據152
7.4使用熱圖可視化兩個分類關系154
7.5本章小結157
第8章用Datashader對位置數據可視化159
8.1什么是Datashader?它是如何工作的?160
8.1.1Datashader渲染流程的五個階段161
8.1.2使用Datashader進行可視化165
8.2將位置數據繪制為交互式熱圖166
8.2.1準備用于地圖平鋪的地理數據166
8.2.2創建交互式熱圖167
8.3本章小結169
第III部分擴展和部署Dask
第9章使用Bag和Arrays173
9.1使用Bag讀取和解析非結構化數據175
9.1.1從Bag中選擇和查看數據176
9.1.2常見的解析錯誤和解決辦法176
9.1.3使用分隔符177
9.2轉換、過濾和合并元素184
9.2.1使用map函數轉換元素184
9.2.2使用filter函數過濾Bag186
9.2.3計算Bag的描述統計量189
9.2.4使用foldby方法創建聚合函數190
9.3從Bag中創建Arrays和DataFrame192
9.4使用Bag和NLTK進行并行文本分析193
9.4.1二元分析的基礎194
9.4.2提取token和過濾停頓詞194
9.4.3分析二元組198
9.5本章小結200
第10章使用Dask-ML進行機器學習201
10.1使用Dask-ML建立線性模型202
10.1.1準備二進制向量化數據204
10.1.2使用Dask-ML建立Logistic回歸模型210
10.2評估和調整Dask-ML模型211
10.2.1用計分法評估Dask-ML模型211
10.2.2使用Dask-ML構建樸貝葉斯分類器212
10.2.3自動調整超參數213
10.3持續的Dask-ML模型215
10.4本章小結217
第11章擴展和部署Dask219
11.1使用Docker在AmazonAWS上創建Dask集群220
11.1.1入門221
11.1.2生成安全密鑰222
11.1.3創建ECS集群224
11.1.4配置集群的網絡227
11.1.5在Elastic文件系統中創建共享數據驅動231
11.1.6在ElasticContainerRepository中為Docker鏡像分配空間236
11.1.7為調度器、工作節點和Notebook創建和部署鏡像237
11.1.8連接到集群244
11.2在集群上運行和監視Dask作業246
11.3在AWS上清理Dask集群250
11.4本章小結252
附錄A軟件的安裝253
序: