Python預測之美:數據分析與算法實戰 ( 簡體 字) |
作者:游皓麟 | 類別:1. -> 程式設計 -> Python |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 53017 詢問書籍請說出此書號!【缺書】 NT售價: 595 元 |
出版日:6/1/2020 |
頁數:396 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121390418 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:為什么要寫這本書?
2016 年10 月筆者出版了《R 語言預測實戰》,書中總結了筆者在預測領域的一些思考和經驗,并通過書籍的媒介作用,和廣大讀者進行了一次深度的對話交流,書中基于R 語言對常用的數據分析、預測類算法進行了實現,并結合案例講解了預測模型的實現過程。該書自出版以來,不斷收到讀者的好評,筆者也時常收到讀者發來的郵件,或是對書籍內容感興趣,希望可以長期交流,或者提出書籍中的一些瑕疵,希望在下個版本進行改善,或是咨詢一些實際業務問題,如此等等。總地來看,《R 語言預測實戰》這本書還是很受讀者喜愛的。由于人工智能在近些年的發展,Python 語言越來越流行,更多的朋友想從Python 入手學習。為了能將《R 語言預測實戰》的精華介紹給更多的讀者,同時可以有機會修改R 這本書中存在的一些問題,尤其是代碼中的瑕疵,筆者開始考慮將其改寫為Python 版本。與《R 語言預測實戰》相比,本書介紹的算法和案例加入了使用深度學習算法來做預測的內容,同時剪掉了一些不必要的段落,代碼方面也做了很多優化,相信能夠給讀者帶來
更好的閱讀學習體驗。
閱讀對象
? 對數據挖掘、機器學習、預測算法及商業預測應用感興趣的大專院校師生;
? 從事數據挖掘工作,有一定經驗的專業人士;
? 各行各業的數據分析師、數據挖掘工程師;
? 對數據挖掘、預測專題感興趣的讀者。
勘誤和支持
由于筆者的水平有限,編寫的時間也很倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。讀者可以把意見或建議直接發至筆者的郵箱cador.ai@aliyun.com。書籍中的數據和代碼,可通過訪問cador.cn 來獲取。筆者會定期發布勘誤表,并統一回復。同時,如果你有什么問題,也可以發郵箱來提問,筆者將盡量為讀者提供最滿意的解答,期待你們的反饋。
如何閱讀這本書
本書包括3 篇,共有10 章。
第1 章介紹預測的基本概念,以及大數據時代預測的特點,并結合案例進行講解,最后基于Python講解一個預測案例。本章適合初學者入門。
第2 章介紹預測的方法論,其中預測流程是基礎,它說明了從預測實施的各個階段。然后介紹了預測的指導原則,它是預測工作者必知必會的。另外,還介紹了預測工作的團隊要求。本章內容適合常期品味,活學活用。
第3 章介紹分析方法,本章內容是數據分析、數據挖掘常見的分析方法,出現在這里,主要是為預測技術的數據處理做鋪墊。如果預測工作者沒有掌握有效的分析思路和方法,去提煉有用的指標和特征,那么預測工作是很難進行下去的。本章提供了規律發現的常用方法和技巧。
第4 章介紹特征工程,不僅介紹了常見的特征變換方法,還介紹了特征組合的方法,特別值得一提的是,本章包含了特征學習的方法,它是基于遺傳編程實現的。從事數據挖掘的朋友都很清楚,好的特征在建模時是非常重要的,然而,有時我們拿到的基礎數據直接拿去建模效果不見得好,如果進行規律挖掘,也比較費時費力,比較好的做法就是特征自動生成。感興趣的朋友,可以細致品味這個章節。
從第1 章到第4 章為本書的第1 篇,主要介紹預測的入門知識,如果讀者對預測有一定的功底,可以跳過本部分,直接進入第2 篇,了解預測算法的基本原理和實現。
第5 章介紹模型參數的優化。我們在建立數據挖掘和預測模型時,參數的確定通常不是一步到位的,我們往往需要做一些優化或改進,以提升最終的效果。本章介紹的遺傳算法、粒子群優化、模擬退火等問題求解算法,有助于找到模型的最優或接近最優的參數。
第6 章介紹線性回歸技術,主要包括多元線性回歸、Ridge 回歸、Lasso 回歸、分位數回歸、穩健回歸的內容。在實際工作或實踐中,讀者應該有選擇地使用對應的回歸方法,以確保應對回歸問題的有效性。
第7 章介紹復雜回歸技術,主要包括梯度提升回歸樹(GBRT)、神經網絡、支持向量機、高斯過程回歸的內容。這是回歸技術的進階部分,涉及到統計學習以及機器學習的內容,想挑戰難度的朋友,一定要好好讀一讀這部分。
第8 章介紹時間序列分析技術,主要包括Box-Jenkins 方法、門限自回歸模型、GARCH 模型族、向量自回歸模型、卡爾曼濾波、循環神經網絡、長短時記憶網絡等內容。本章不僅介紹了常見的Box-Jenkins 方法,還介紹了門限自回歸等高階時序分析技術。
從第5 章到第8 章為本書的第2 篇,主要介紹預測算法,本部分的算法選擇有一定的難度,基本包含了常見的以及部分高階的預測回歸算法,讀者可細致品味。
第9 章介紹短期日負荷曲線預測技術,首先介紹電力行業負荷預測的行業知識,接著從預測的基本要求出發,經過預測的建模準備,進入預測建模的環節。本章使用了DNN 和LSTM 兩種算法來建立預測模型,并對預測效果進行了評估。
第10 章介紹股票價格預測技術,首先從股票市場的簡介開始,接著介紹股票數據的獲取,然后基于VAR 和LSTM 兩種算法對預測模型進行了實現,最后檢驗了預測的準確性。
最后兩章為本書的第3 篇,主要介紹預測案例,由于寫書太過倉促,案例部分略顯單薄。另外,由于商業關系,有些案例分析的細節內容不便在書中全面展開介紹,有興趣的讀者,可以郵件聯系。
致謝
感謝電子工業出版社的編輯石倩,沒有你的敦促,我可能不會這么快地寫完這本書,同時也感謝電子工業出版社!
感謝造物主給我一顆孜孜不倦的心,讓我在學習的道路上不至于因工作忙碌而有所懈怠,也不至于因有所成就而不知進取。
青山不改,綠水長流。謹以此書,獻給我最親愛的家人和朋友,以及熱愛Python 和從事數據相關領域的朋友們。
游皓麟
中國 成都 |
內容簡介:Python 是一種面向對象的腳本語言,其代碼簡潔優美,類庫豐富,開發效率也很高,得到越來越多開發者的喜愛,廣泛應用于Web 開發、網絡編程、爬蟲開發、自動化運維、云計算、人工智能、科學計算等領域。預測技術在當今智能分析及其應用領域中發揮著重要作用,也是大數據時代的核心價值所在。隨著AI 技術的進一步深化,預測技術將更好地支撐復雜場景下的預測需求,其商業價值不言而喻。基于Python 來做預測,不僅能夠在業務上快速落地,還讓代碼維護更加方便。對預測原理的深度剖析和算法的細致解讀,是本書的一大亮點。本書共分為3 篇。第1 篇介紹預測基礎,主要包括預測概念理解、預測方法論、分析方法、特征技術、模型優化及評價,讀者通過這部分內容的學習,可以掌握預測的基本步驟和方法思路。第2 篇介紹預測算法,該部分包含多元回歸分析、復雜回歸分析、時間序列及進階算法,內容比較有難度,需要細心品味。第3 篇介紹預測案例,包括短期日負荷曲線預測和股票價格預測兩個實例,讀者可以了解到實施預測時需要關注的技術細節。希望讀者在看完本書后,能夠將本書的精要融會貫通,進一步在工作和學習實踐中提煉價值。 |
目錄:第1 篇 預測入門
第1 章 認識預測 . 2
1.1 什么是預測 . 2
1.1.1 占卜術 . 3
1.1.2 神秘的地動儀 . 3
1.1.3 科學預測 . 5
1.1.4 預測的原則 . 7
1.2 前沿技術 . 9
1.2.1 大數據與預測 . 10
1.2.2 大數據預測的特點 11
1.2.3 人工智能與預測 . 15
1.2.4 人工智能預測的特點 . 17
1.2.5 典型預測案例 . 18
1.3 Python 預測初步 . 26
1.3.1 數據預處理 . 27
1.3.2 建立模型 . 31
1.3.3 預測及誤差分析 . 34
第2 章 預測方法論 . 37
2.1 預測流程 . 37
2.1.1 確定主題 . 38
2.1.2 收集數據 . 40
2.1.3 選擇方法 . 42
2.1.4 分析規律 . 43
2.1.5 建立模型 . 48
2.1.6 評估效果 . 51
2.1.7 發布模型 . 52
2.2 指導原則 . 53
2.2.1 界定問題 . 53
2.2.2 判斷預測法 . 55
2.2.3 外推預測法 . 56
2.2.4 因果預測法 . 58
2.3 團隊構成 . 59
2.3.1 成員分類 . 59
2.3.2 數據氛圍 . 61
2.3.3 團隊合作 . 63
第3 章 探索規律 . 65
3.1 相關分析 . 65
3.1.1 自相關分析 . 65
3.1.2 偏相關分析 . 68
3.1.3 簡單相關分析 . 69
3.1.4 互相關分析 . 80
3.1.5 典型相關分析 . 82
3.2 因果分析 . 87
3.2.1 什么是因果推斷 . 87
3.2.2 因果推斷的方法 . 90
3.2.3 時序因果推斷 . 93
3.3 聚類分析 . 98
3.3.1 K-Means 算法 . 98
3.3.2 系統聚類算法 . 102
3.4 關聯分析 110
3.4.1 關聯規則挖掘 110
3.4.2 Apriori 算法 . 111
3.4.3 Eclat 算法 120
3.4.4 序列模式挖掘 . 123
3.4.5 SPADE 算法 124
第4 章 特征工程 . 136
4.1 特征變換 . 136
4.1.1 概念分層 . 137
4.1.2 標準化 . 138
4.1.3 離散化 . 141
4.1.4 函數變換 . 143
4.1.5 深入表達 . 144
4.2 特征組合 . 145
4.2.1 基于經驗 . 145
4.2.2 二元組合 . 146
4.2.3 高階多項式 . 148
4.3 特征評價 . 151
4.3.1 特征初選 . 151
4.3.2 影響評價 . 152
4.3.3 模型法 . 167
4.4 特征學習 . 172
4.4.1 基本思路 . 173
4.4.2 特征表達式 . 174
4.4.3 初始種群 . 183
4.4.4 適應度 . 185
4.4.5 遺傳行為 . 187
4.4.6 實例分析 . 192
第2 篇 預測算法
第5 章 參數優化 . 199
5.1 交叉驗證 . 199
5.2 網格搜索 . 201
5.3 遺傳算法 . 203
5.3.1 基本概念 . 203
5.3.2 遺傳算法算例 . 204
5.3.3 遺傳算法實現步驟 . 209
5.3.4 遺傳算法Python 實現 210
5.4 粒子群優化 . 213
5.4.1 基本概念及原理 . 213
5.4.2 粒子群算法的實現步驟 . 214
5.4.3 用Python 實現粒子群算法 215
5.5 模擬退火 . 220
5.5.1 基本概念及原理 . 220
5.5.2 模擬退火算法的實現步驟 . 221
5.5.3 模擬退火算法Python 實現 222
第6 章 線性回歸及其優化 226
6.1 多元線性回歸 . 226
6.1.1 回歸模型與基本假定 . 226
6.1.2 最小二乘估計 . 227
6.1.3 回歸方程和回歸系數的顯著性檢驗 . 228
6.1.4 多重共線性 . 229
6.2 Ridge 回歸 233
6.2.1 基本概念 . 233
6.2.2 嶺跡曲線 . 233
6.2.3 基于GCV 準則確定嶺參數 . 235
6.2.4 Ridge 回歸的Python 實現 . 237
6.3 Lasso 回歸 . 237
6.3.1 基本概念 . 237
6.3.2 使用LAR 算法求解Lasso . 238
6.3.3 Lasso 算法的Python 實現 . 240
6.4 分位數回歸 . 242
6.4.1 基本概念 . 242
6.4.2 分位數回歸的計算 . 245
6.4.3 用單純形法求解分位數回歸及Python 實現 246
6.5 穩健回歸 . 248
6.5.1 基本概念 . 249
6.5.2 M 估計法及Python 實現 . 250
第7 章 復雜回歸分析 . 254
7.1 梯度提升回歸樹(GBRT) . 254
7.1.1 Boosting 方法簡介 254
7.1.2 AdaBoost 算法 255
7.1.3 提升回歸樹算法 . 257
7.1.4 梯度提升 . 259
7.1.5 GBRT 算法的Python 實現 261
7.2 深度神經網絡 . 264
7.2.1 基本概念 . 264
7.2.2 從線性回歸說起 . 269
7.2.3 淺層神經網絡 . 272
7.2.4 深層次擬合問題 . 277
7.2.5 DNN 的Python 實現 278
7.3 支持向量機回歸 . 281
7.3.1 基本問題 . 281
7.3.2 LS-SVMR 算法 . 284
7.3.3 LS-SVMR 算法的Python 實現 . 285
7.4 高斯過程回歸 . 286
7.4.1 GPR 算法 287
7.4.2 GPR 算法的Python 實現 . 289
第8 章 時間序列分析 . 292
8.1 Box-Jenkins 方法 292
8.1.1 p 階自回歸模型 293
8.1.2 q 階移動平均模型 295
8.1.3 自回歸移動平均模型 . 296
8.1.4 ARIMA 模型 . 300
8.1.5 ARIMA 模型的Python 實現 . 301
8.2 門限自回歸模型 . 309
8.2.1 TAR 模型的基本原理 309
8.2.2 TAR 模型的Python 實現 . 310
8.3 GARCH 模型族 313
8.3.1 線性ARCH 模型 313
8.3.2 GRACH 模型 315
8.3.3 EGARCH 模型 . 315
8.3.4 PowerARCH 模型 . 316
8.4 向量自回歸模型 . 318
8.4.1 VAR 模型基本原理 318
8.4.2 VAR 模型的Python 實現 . 320
8.5 卡爾曼濾波 . 324
8.5.1 卡爾曼濾波算法介紹 . 324
8.5.2 卡爾曼濾波的Python 實現 326
8.6 循環神經網絡 . 328
8.6.1 RNN 的基本原理 329
8.6.2 RNN 算法的Python 實現 332
8.7 長短期記憶網絡 . 335
8.7.1 LSTM 模型的基本原理 . 336
8.7.2 LSTM 算法的Python 實現 341
第3 篇 預測應用
第9 章 短期日負荷曲線預測 . 345
9.1 電力行業負荷預測介紹 . 345
9.2 短期日負荷曲線預測的基本要求 . 346
9.3 預測建模準備 . 347
9.3.1 基礎數據采集 . 347
9.3.2 缺失數據處理 . 349
9.3.3 潛在規律分析 . 352
9.4 基于DNN 算法的預測 355
9.4.1 數據要求 . 356
9.4.2 數據預處理 . 356
9.4.3 網絡結構設計 . 357
9.4.4 建立模型 . 358
9.4.5 預測實現 . 359
9.4.6 效果評估 . 359
9.5 基于LSTM 算法的預測 361
9.5.1 數據要求 . 361
9.5.2 數據預處理 . 362
9.5.3 網絡結構設計 . 362
9.5.4 建立模型 . 363
9.5.5 預測實現 . 364
9.5.6 效果評估 . 364
第10 章 股票價格預測 . 367
10.1 股票市場簡介 . 367
10.2 獲取股票數據 . 368
10.3 基于VAR 算法的預測 . 371
10.3.1 平穩性檢驗 . 371
10.3.2 VAR 模型定階 372
10.3.3 預測及效果驗證 . 373
10.4 基于LSTM 算法的預測. 375
10.4.1 數據要求 . 375
10.4.2 數據預處理 . 376
10.4.3 網絡結構設計 . 377
10.4.4 建立模型 . 377
10.4.5 預測實現 . 378
10.4.6 效果評估 . 378
參考文獻 . 381 |
序: |