機器學習:實用技術指南( 簡體 字) | |
作者:(美) 詹森·貝爾(Jason Bell) | 類別:1. -> 程式設計 -> 機器學習 |
出版社:機械工業出版社 | 3dWoo書號: 49194 詢問書籍請說出此書號! 有庫存 NT售價: 395 元 |
出版日:5/5/2018 | |
頁數:320 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787111593379 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章 什么是機器學習1
1.1 機器學習的歷史1 1.1.1阿蘭·圖靈1 1.1.2亞瑟·塞繆爾2 1.1.3湯姆 M.米切爾2 1.1.4總結定義2 1.2機器學習的算法類型2 1.2.1監督學習3 1.2.2無監督學習3 1.3人的作用3 1.4機器學習的用途4 1.4.1軟件4 1.4.2股票交易4 1.4.3機器人學5 1.4.4醫學和醫療5 1.4.5廣告業5 1.4.6零售和電子商務6 1.4.7游戲分析7 1.4.8物聯網7 1.5機器學習語言8 1.5.1Python8 1.5.2R8 1.5.3Matlab8 1.5.4Scala8 1.5.5Clojure9 1.5.6Ruby9 1.6 本書使用的軟件9 1.6.1檢查Java版本9 1.6.2Weka 工具包9 1.6.3Mahout10 1.6.4Spring XD10 1.6.5Hadoop11 1.6.6使用集成開發環境11 1.7數據庫11 1.7.1加州大學歐文分校機器學習庫12 1.7.2Infochimps12 1.7.3Kaggle12 1.8總結12 第2章 籌備機器學習13 2.1機器學習周期13 2.2以問題為先導13 2.3缺少數據14 2.3.1從身邊做起14 2.3.2比賽14 2.4一勞永逸的解決方案15 2.5界定機器學習過程15 2.5.1規劃15 2.5.2開發16 2.5.3測試16 2.5.4報告16 2.5.5精煉16 2.5.6產品16 2.6建立數據團隊17 2.6.1數學和統計學17 2.6.2編程17 2.6.3圖形設計17 2.6.4行業知識17 2.7數據處理18 2.7.1使用個人計算機18 2.7.2計算機集群18 2.7.3云服務18 2.8數據存儲19 2.8.1物理磁盤19 2.8.2云存儲19 2.9數據隱私19 2.9.1文化規范19 2.9.2普遍的期望20 2.9.3用戶數據匿名20 2.9.4不要穿過“底線”21 2.10數據質量和清洗21 2.10.1完整性檢測22 2.10.2類型檢測22 2.10.3長度檢測22 2.10.4范圍檢測22 2.10.5格式檢測23 2.10.6進退兩難23 2.10.7國家名內包含的內容26 2.10.8數值和日期27 2.10.9有關數據清洗的最后看法28 2.11思考輸入數據28 2.11.1原始文本28 2.11.2逗號分隔變量28 2.11.3JSON29 2.11.4YAML30 2.11.5XML31 2.11.6電子表格32 2.11.7數據庫32 2.11.8圖像33 2.12考慮輸出數據33 2.13不要害怕實驗33 2.14總結34 第3章 決策樹35 3.1決策樹基礎35 3.1.1決策樹的用途35 3.1.2決策樹的優點36 3.1.3決策樹的局限36 3.1.4相關算法類型36 3.1.5決策樹工作原理37 3.2 Weka中的決策樹40 3.2.1需求40 3.2.2訓練數據41 3.2.3使用Weka創建決策樹42 3.2.4為分類器生成Java代碼46 3.2.5測試分類器代碼49 3.2.6進一步的思考51 3.3總結51 第4章 貝葉斯網絡52 4.1從飛行員到回形針52 4.2圖論53 4.3概率論54 4.3.1投擲硬幣54 4.3.2條件概率54 4.3.3賭博中獲勝54 4.4貝葉斯定理55 4.5貝葉斯網絡原理57 4.5.1賦值57 4.5.2計算結果58 4.6節點的個數59 4.7利用領域專家的信息59 4.8貝葉斯網絡演練59 4.8.1貝葉斯網絡中的Java API60 4.8.2設計網絡60 4.8.3編程61 4.9總結69 第5章 人工神經網絡70 5.1什么是神經網絡70 5.2人工神經網絡的應用71 5.2.1高頻交易71 5.2.2信用分析71 5.2.3數據中心管理71 5.2.4機器人72 5.2.5藥效監控72 5.3人工神經網絡分解72 5.3.1感知機72 5.3.2激活函數73 5.3.3多層感知機74 5.3.4后向傳播算法75 5.4人工神經網絡的數據準備76 5.5 Weka中的人工神經網絡76 5.5.1新建數據集76 5.5.2將數據載入Weka中78 5.5.3配置多層感知機79 5.5.4訓練網絡81 5.5.5調整網絡83 5.5.6增加測試數據規模83 5.6利用Java實現神經網絡84 5.6.1創建項目84 5.6.2實現代碼86 5.6.3CSV與Arff文件轉換88 5.6.4運行神經網絡88 5.7總結89 第6章 關聯規則學習90 6.1關聯規則學習的應用90 6.1.1Web使用挖掘90 6.1.2啤酒和尿布91 6.2關聯規則學習工作原理92 6.2.1支持度92 6.2.2置信度93 6.2.3提升度93 6.2.4確信度93 6.2.5計算步驟94 6.3算法94 6.3.1 Apiori94 6.3.2FP-Growth95 6.4基于購物籃分析的實戰95 6.4.1下載原始數據95 6.4.2在Eclipse中搭建工程96 6.4.3建立項目的數據文件97 6.4.4 設置數據99 6.4.5運行Mahout101 6.4.6檢查結果103 6.4.7結果整合105 6.4.8進一步開發106 6.5總結106 第7章 支持向量機107 7.1什么是支持向量機107 7.2何處使用支持向量機107 7.3基本分類原則108 7.3.1二分類和多分類108 7.3.2線性分類器109 7.3.3置信度109 7.3.4最大化或最小化尋找直線110 7.4支持向量機如何實現分類110 7.4.1使用線性分類110 7.4.2使用非線性分類112 7.5在Weka中使用支持向量機112 7.5.1安裝LibSVM112 7.5.2分類演示113 7.5.3用Java實現LibSVM117 7.6總結122 第8章 聚類123 8.1什么是聚類123 8.2聚類應用123 8.2.1因特網124 8.2.2商業和零售業124 8.2.3執法部門124 8.2.4計算124 8.3聚類模型125 8.3.1k-均值的工作原理125 8.3.2計算一個數據集中聚類的數量126 8.4使用Weka做k-均值聚類127 8.4.1準備數據128 8.4.2工作臺方法129 8.4.3命令行方法133 8.4.4編程方法135 8.5總結143 第9章 實時機器學習—使用Spring XD框架144 9.1獲取消防水管式的數據144 9.1.1使用實時數據的注意事項144 9.1.2實時系統的使用范圍145 9.2使用 Spring XD146 9.2.1Spring XD 數據流146 9.2.2輸入源、輸出、處理單元147 9.3從Twitter 數據中進行學習148 9.3.1開發計劃149 9.3.2配置Twitter API開發者應用環境150 9.4配置Spring XD152 9.4.1啟動Spring XD服務器152 9.4.2創建樣本數據153 9.4.3Spring XD shell153 9.4.4數據流入門154 9.5 Spring XD 和 Twitter156 9.5.1設置Twitter 訪問認證156 9.5.2創建第一個Twitter數據流157 9.5.3我們所在的位置159 9.6處理單元介紹159 9.6.1處理單元是如何工作的160 9.6.2創建自己的處理單元160 9.7實時情感分析167 9.7.1基本的分析如何工作168 9.7.2創建情感分析的處理單元169 9.7.3Spring XD Taps172 9.8總結173 第10章 批處理系統的機器學習174 10.1這個是大數據嗎174 10.2對批處理數據的若干考慮175 10.2.1量級和頻率175 10.2.2需要多少數據175 10.2.3用何種處理方法176 10.3批處理實例176 10.3.1Hadoop176 10.3.2Sqoop176 10.3.3Pig177 10.3.4Mahout177 10.3.5基于云的Elastic Map Reduce177 10.3.6關于教程的提示177 10.4使用Hadoop框架178 10.4.1Hadoop架構178 10.4.2建立單一節點集群179 10.5 MapReduce是如何工作的183 10.6挖掘標簽184 10.6.1Hadoop支持Spring XD184 10.6.2本書的目標185 10.6.3什么是標簽185 10.6.4建立MapReduce類186 10.6.5在現有數據上運行ETL195 10.6.6使用Mahout生成推薦198 10.7挖掘銷售數據204 10.7.1歡迎來到我的咖啡店204 10.7.2小規模(數據)嘗試205 10.7.3編寫核心方法205 10.7.4使用Hadoop和MapReduce207 10.7.5使用Pig挖掘銷售數據210 10.8規劃批處理任務218 10.9總結219 第11章 Apache Spark 221 11.1 Spark是不是Hadoop的替代品221 11.2 Java、Scala還是Python222 11.3 Scala速成222 11.3.1安裝Scala222 11.3.2包222 11.3.3數據類型223 11.3.4類223 11.3.5調用函數224 11.3.6操作符224 11.3.7控制結構224 11.4下載和安裝Spark225 11.5 Spark簡介225 11.5.1啟動命令行終端226 11.5.2數據源227 11.5.3Spark初體驗227 11.5.4Spark監控229 11.6 Spark與Hadoop MapReduce229 11.7在Spark下編寫獨立運行的程序232 11.7.1用Scala編寫Spark程序232 11.7.2安裝SBT232 11.7.3用Java編寫Spark程序235 11.7.4Spark程序小結238 11.8 Spark SQL238 11.8.1基本概念238 11.8.2在RDD中使用SparkSQL239 11.9 Spark流處理框架247 11.9.1基本概念247 11.9.2用Scala編寫第一個流處理程序248 11.9.3用Java編寫第一個流處理程序250 11.10 MLib:機器學習算法庫252 11.10.1依賴253 11.10.2決策樹253 11.10.3聚類254 11.11總結254 第12章 基于R語言的機器學習255 12.1安裝R255 12.1.1Mac OS X255 12.1.2Windows255 12.1.3Linux256 12.2第一次運行R256 12.3安裝RStudio257 12.4 R基礎258 12.4.1變量和向量258 12.4.2矩陣258 12.4.3列表259 12.4.4數據框260 12.4.5安裝包261 12.4.6加載數據262 12.4.7繪制數據263 12.5簡單統計266 12.6簡單線性回歸267 12.6.1 構建數據267 12.6.2 初始圖267 12.6.3 線性回歸模型268 12.6.4 預測268 12.7基本情感分析269 12.7.1加載詞匯表的函數269 12.7.2編寫函數給情感打分269 12.7.3函數測試270 12.8 Apriori關聯規則271 12.8.1安裝arules包271 12.8.2訓練數據271 12.8.3導入事務數據272 12.8.4運行Apriori算法273 12.8.5查看結果273 12.9從Java中訪問R273 12.9.1安裝rJava包274 12.9.2R中的第一段Java代碼274 12.9.3創建一個Eclipse項目275 12.9.4創建Java/R類276 12.9.5運行示例276 12.9.6擴展R實現278 12.10 R與Hadoop278 12.10.1RHadoop項目278 12.10.2在RHadoop上的Map Reduce任務示例279 12.10.3用R連接社交媒體280 12.11總結282 附錄A Spring XD快速入門284 附錄B Hadoop 1.x快速入門286 附錄C 常用UNIX命令289 附錄D 進一步閱讀299 本書是一本使用機器學習進行實際操作處理數據分析任務的書,全書討論了機器學習理論及其應用,重點是機器學習在實際生活工作中的應用的。通過閱讀本書,讀者將了解機器學習的基本知識、常用策略、各種算法、實際應用等。
|