3dwoo大學簡體電腦書店
深度學習與圖像識別:原理與實踐
( 簡體 字)
作者:魏溪含 涂銘 張修鵬 著類別:1. -> 程式設計 -> 深度學習
出版社:機械工業出版社深度學習與圖像識別:原理與實踐 3dWoo書號: 51397
詢問書籍請說出此書號!
有庫存
NT售價: 645
出版日:7/1/2019
頁數:265
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787111630036 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
前言

第1章 機器視覺在行業中的應用1

1.1 機器視覺的發展背景1

1.1.1 人工智能1

1.1.2 機器視覺2

1.2 機器視覺的主要應用場景3

1.2.1 人臉識別3

1.2.2 視頻監控分析4

1.2.3 工業瑕疵檢測5

1.2.4 圖片識別分析6

1.2.5 自動駕駛/駕駛輔助7

1.2.6 三維圖像視覺8

1.2.7 醫療影像診斷8

1.2.8 文字識別9

1.2.9 圖像/視頻的生成及設計9

1.3 本章小結10

第2章 圖像識別前置技術11

2.1 深度學習框架11

2.1.1 Theano11

2.1.2 Tensorflow12

2.1.3 MXNet13

2.1.4 Keras13

2.1.5 PyTorch14

2.1.6 Caffe14

2.2 搭建圖像識別開發環境15

2.2.1 Anaconda15

2.2.2 conda18

2.2.3 Pytorch的下載與安裝19

2.3 Numpy使用詳解20

2.3.1 創建數組20

2.3.2 創建Numpy數組22

2.3.3 獲取Numpy屬性24

2.3.4 Numpy數組索引25

2.3.5 切片25

2.3.6 Numpy中的矩陣運算26

2.3.7 數據類型轉換27

2.3.8 Numpy的統計計算方法28

2.3.9 Numpy中的arg運算29

2.3.10 FancyIndexing29

2.3.11 Numpy數組比較30

2.4 本章小結31

第3章 圖像分類之KNN算法32

3.1 KNN的理論基礎與實現32

3.1.1 理論知識32

3.1.2 KNN的算法實現33

3.2 圖像分類識別預備知識35

3.2.1 圖像分類35

3.2.2 圖像預處理36

3.3 KNN實戰36

3.3.1 KNN實現MNIST數據分類36

3.3.2 KNN實現Cifar10數據分類41

3.4 模型參數調優44

3.5 本章小結48

第4章 機器學習基礎49

4.1 線性回歸模型49

4.1.1 一元線性回歸50

4.1.2 多元線性回歸56

4.2 邏輯回歸模型57

4.2.1 Sigmoid函數58

4.2.2 梯度下降法59

4.2.3 學習率的分析61

4.2.4 邏輯回歸的損失函數63

4.2.5 Python實現邏輯回歸66

4.3 本章小結68

第5章 神經網絡基礎69

5.1 神經網絡69

5.1.1 神經元70

5.1.2 激活函數72

5.1.3 前向傳播76

5.2 輸出層80

5.2.1 Softmax80

5.2.2 one-hotencoding82

5.2.3 輸出層的神經元個數83

5.2.4 MNIST數據集的前向傳播83

5.3 批處理85

5.4 廣播原則87

5.5 損失函數88

5.5.1 均方誤差88

5.5.2 交叉熵誤差89

5.5.3 Mini-batch90

5.6 最優化91

5.6.1 隨機初始化91

5.6.2 跟隨梯度(數值微分)92

5.7 基于數值微分的反向傳播98

5.8 基于測試集的評價101

5.9 本章小結104

第6章 誤差反向傳播105

6.1 激活函數層的實現105

6.1.1 ReLU反向傳播實現106

6.1.2 Sigmoid反向傳播實現106

6.2 Affine層的實現107

6.3 Softmaxwithloss層的實現108

6.4 基于數值微分和誤差反向傳播的比較109

6.5 通過反向傳播實現MNIST識別111

6.6 正則化懲罰114

6.7 本章小結115

第7章 PyTorch實現神經網絡圖像分類116

7.1 PyTorch的使用116

7.1.1 Tensor116

7.1.2 Variable117

7.1.3 激活函數118

7.1.4 損失函數120

7.2 PyTorch實戰122

7.2.1 PyTorch實戰之MNIST分類122

7.2.2 PyTorch實戰之Cifar10分類125

7.3 本章小結128

第8章 卷積神經網絡129

8.1 卷積神經網絡基礎129

8.1.1 全連接層129

8.1.2 卷積層130

8.1.3 池化層134

8.1.4 批規范化層135

8.2 常見卷積神經網絡結構135

8.2.1 AlexNet136

8.2.2 VGGNet138

8.2.3 GoogLeNet140

8.2.4 ResNet142

8.2.5 其他網絡結構144

8.3 VGG16實現Cifar10分類145

8.3.1 訓練146

8.3.2 預測及評估149

8.4 本章小結152

8.5 參考文獻152

第9章 目標檢測153

9.1 定位+分類153

9.2 目標檢測155

9.2.1 R-CNN156

9.2.2 Fast R-CNN160

9.2.3 Faster R-CNN162

9.2.4 YOLO165

9.2.5 SSD166

9.3 SSD實現VOC目標檢測167

9.3.1 PASCAL VOC數據集167

9.3.2 數據準備170

9.3.3 構建模型175

9.3.4 定義Loss178

9.3.5 SSD訓練細節181

9.3.6 訓練186

9.3.7 測試189

9.4 本章小結190

9.5 參考文獻191

第10章 分割192

10.1 語義分割193

10.1.1 FCN193

10.1.2 UNet實現裂紋分割196

10.1.3 SegNet209

10.1.4 PSPNet210

10.2 實例分割211

10.2.1 層疊式212

10.2.2 扁平式212

10.3 本章小結213

10.4 參考文獻214

第11章 產生式模型215

11.1 自編碼器215

11.2 對抗生成網絡215

11.3 DCGAN及實戰217

11.3.1 數據集218

11.3.2 網絡設置220

11.3.3 構建產生網絡221

11.3.4 構建判別網絡223

11.3.5 定義損失函數224

11.3.6 訓練過程224

11.3.7 測試227

11.4 其他GAN230

11.5 本章小結235

11.6 參考文獻235

第12章 神經網絡可視化236

12.1 卷積核236

12.2 特征層237

12.2.1 直接觀測237

12.2.2 通過重構觀測239

12.2.3 末端特征激活情況243

12.2.4 特征層的作用244

12.3 圖片風格化245

12.3.1 理論介紹245

12.3.2 代碼實現247

12.4 本章小結255

12.5 參考文獻255

第13章 圖像識別算法的部署模式257

13.1 圖像算法部署模式介紹257

13.2 實際應用場景和部署模式的匹配262

13.3 案例介紹264

13.4 本章小結265
這是一部從技術原理、算法和工程實踐3個維度系統講解圖像識別的著作,由阿里巴巴達摩院算法專家、阿里巴巴技術發展專家、阿里巴巴數據架構師聯合撰寫。

在知識點的選擇上,本書廣度和深度兼顧,既能讓完全沒有基礎的讀者迅速入門,又能讓有基礎的讀者深入掌握圖像識別的核心技術;在寫作方式上,本書避開了復雜的數學公式及其推導,從問題的前因后果 、創造者的思考過程角度展開,利用簡單的數學計算來做模型分析和講解,通俗易懂。更重要的是,本書不僅聚焦于技術,更是將重點放在了如何用技術解決實際的業務問題。

全書一共13章:

第1~2章主要介紹了圖像識別的應用場景、工具和工作環境的搭建;

第3~6章詳細講解了圖像分類算法、機器學習、神經網絡、誤差反向傳播等圖像識別的基礎技術及其原理;

第7章講解了如何利用PyTorch來實現神經網絡的圖像分類,專注于實操,是從基礎向高階的過渡;

第8~12章深入講解了圖像識別的核心技術及其原理,包括卷積神經網絡、目標檢測、分割、產生式模型、神經網絡可視化等主題;

第13章從工程實踐的角度講解了圖像識別算法的部署模式。



圖像識別是人工智能領域的核心技術之一,近幾年隨著越來越多的關鍵技術的突破,變得越來越成熟,在各行各業的應用也越來越普遍。阿里巴巴一直非常重視圖像識別技術的研究和實踐,不僅聚集了大量優秀的技術人才,而且在技術產品化和產品商業化方面取得了很好的成績,在行業里處于領導地位。本書由阿里達摩院的技術專家領銜,作者們分享了他們在圖像識別領域的經驗。

本書主要包含以下內容:

圖像識別的9大應用場景

圖像識別的工具和環境搭建

圖像識別的技術基礎,如圖像分類算法、機器學習基礎、神經網絡基礎、誤差反向傳播等

如何用PyTorch實現神經網絡分類

圖像識別的核心技術,如卷積神經網絡、目標檢測、分割、生產式模型、神經網絡可視化等

圖像識別算法的部署模式
為什么要寫這本書

隨著深度學習技術的發展、計算能力的提升和視覺數據的增長,視覺智能計算技術在許多應用領域如拍照搜索、智能相冊、人臉閘機、城市智能交通管理、智慧醫療等都取得了令人矚目的成績。因此越來越多的人開始對機器視覺感興趣,并開始從事這個行業。就圖像識別領域來說,運行一個開源的代碼并不是什么難事,但搞懂其中的原理確實會稍有些難度。因此本書在每章中都會用相對通俗的語言來介紹算法的背景和原理,并會在讀者“似懂非懂”時給出實戰案例。實戰案例的代碼已全部在線下運行通過,代碼并不復雜,可以很好地幫助讀者理解其中的細節,希望讀者在學習理論之后可以親自動手實踐。圖像識別的理論和實踐是相輔相成的,希望本書可以帶領讀者走進圖像識別的世界。

本書從章節規劃到具體的講述方式,具有以下兩個特點:

第一個特點是本書的主要目標讀者定位為高校相關專業的本科生(統計學、計算機技術)、圖像識別愛好者,以及不具備專業數學知識的人群。圖像識別是一系列學科的集合體,它以機器學習、模式識別等知識為基礎,因此依賴很多數學知識。本書盡量繞開復雜的數學證明和推導,從問題的前因后果、創造者思考的過程和簡單的數學計算的角度來做模型的分析和講解,目的是以更通俗易懂的方式帶領讀者入門。另外,在第8~12章的后面都附有參考文獻,想要深入了解的讀者可以繼續閱讀。

第二個特點是本書在每章后面都附有實戰案例,讀者可以結合案例學習,通過實踐驗證自己想法的價值。在本書的內容編排上,遵循知識點背景介紹—原理剖析—實戰案例的介紹方式,同時所有的代碼會在書中詳細列出或者上傳到GitHub,以方便讀者下載與調試,幫助讀者快速掌握知識點,快速上手,而且這些代碼也可以應用到后續實際的開發項目中。在實際項目章節中,選取目前在圖像識別領域中比較熱門的項目,對之前的知識點進行匯總,幫助讀者鞏固與提升。

讀者對象

統計學或相關IT專業學生

本書的初衷是面向相關專業的學生—擁有大量基于理論知識的認知卻缺乏實戰經驗的人員,讓其在理論的基礎上深入了解。通過本書,學生可以跟隨本書的教程一起操作學習,達到對自己使用的人工智能工具、算法和技術知其然亦知其所以然的目的。

信息科學和計算機科學愛好者

本書是一本近現代科技的歷史書,也是一本科普書,還是一本人工智能思想和技術的教科書。通過本書可以了解人工智能領域的前輩們在探索的道路上做出的努力和思考,理解他們不同的觀點和思路,有助于開拓自己的思維和視野。

人工智能相關專業的研究人員

本書詳細介紹了圖像識別的相關知識。通過本書可以了解其理論知識,了解哪些才是項目所需的內容以及如何在項目中實現,能夠快速上手。

如何閱讀本書

本書從以下幾個方面闡述圖像識別:

第1章介紹圖像識別的一些應用場景,讓讀者對圖像識別有個初步的認識。

第2章主要對圖像識別的工程背景做簡單介紹,同時介紹了本書后續章節實戰案例中會用到的環境,因此該章是實戰的基礎。

第3~6章是圖像識別的技術基礎,包括機器學習、神經網絡等。該部分的代碼主要使用Python實現。沒有機器學習基礎的同學需要理解這幾章之后再往下看,有機器學習基礎的同學可以有選擇地學習。

第7章是一個過渡章節,雖然第6章中手動用Python實現了神經網絡,但由于本書后面的圖像識別部分主要使用PyTorch實現,因此使用該章作為過渡,介紹如何使用PyTorch來搭建神經網絡。

第8~12章為圖像識別的核心。第8章首先介紹了圖像中的卷積神經網絡與普通神經網絡的異同,并給出了常見的卷積神經網絡結構。接下來的第9~12章分別介紹了圖像識別中的檢測、分割、產生式模型以及可視化的問題,并在每章后面給出相應的實戰案例。

第13章簡單介紹了圖像識別的工業部署模式,以幫助讀者構建一個更完整的知識體系。

第8~12章包含參考文獻,主要是本書中介紹的一些方法,或者本書中提到但是沒有深入說明的方法,感興趣的讀者可以自行查詢學習。

關于附件的使用方法:除了第1章外,本書的每一章都有對應的源數據和完整代碼,這些內容可在本書中直接找到,有些代碼需要從GitHub中下載,地址為https://github.com/image_recognition/learning-recognition。需要注意的是,為了讓讀者更好地了解每行代碼的含義,在注釋信息中使用了中文標注,每個程序文件的編碼格式都是UTF-8。

勘誤和支持

由于本書的作者水平及撰稿時間有限,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。讀者可通過發送電子郵件到weixihan1@163.com和kenny_tm@hotmail.com聯系并反饋建議或意見。

致謝

首先非常感謝我的家人,由于業余時間常常被工作擠占,本書的撰寫又用了所剩不多的業余時間,因此少了很多陪伴家人的時間,感謝他們的理解、支持和鼓勵。

撰寫一本書,將自己的知識重新梳理后分享給讀者,在技術發展的道路上幫助到其他人,這件事情是非常有價值的,因此也非常感謝兩位合著者涂銘、張修鵬。

感謝機械工業出版社華章公司的楊福川老師,以及全程參與審核、校驗等工作的張錫鵬、孫海亮老師等出版工作者,是他們的辛勤付出才能保證本書順利面世。

感謝我身邊的朋友、同事、同學,感謝一路走來你們的支持、鼓勵和幫助。

謹以此書獻給熱愛算法并為之奮斗的朋友們,愿大家身體健康、生活美滿、事業有成!



魏溪含



書籍初成,感慨良多。

在接受邀請撰寫該書時,從未想到過程如此艱辛與波折。這里需要感謝一路陪我走來的所有人。

感謝我的家人的理解和支持,陪伴我度過寫作本書的漫長歲月。

感謝我的合寫者—魏溪含和張修鵬,與他們合作輕松愉快,他們給予我很多的理解和包容。

感謝參與審閱、校驗等工作的楊福川老師以及其他老師,是他們在幕后的辛勤付出保證了本書的成功出版。

另外在本書的寫作期間,有很多專業領域的內容都得到了各個領域專家的指導甚至親筆編著。這里需要特別感謝阿里云計算公司產品方面的專家李駿,編寫了第13章全部內容,感謝他在產品和技術上利用其豐富的行業經驗為本書留下的寶貴財富。

再次感謝大家!



涂 銘

首先要感謝我的妻子金暉,我能在工作繁忙的情況下參與此書的編寫,離不開她的付出和支持,感謝我的寶貝張正延,給了我無窮的動力,感謝我的父親、母親,永遠深愛你們。

感謝魏溪含和涂銘!魏溪含在書中貢獻了她圖像識別領域多年的經驗,涂銘為此書的出版付出了最多的心血。

這本書是友誼和工作成果的結晶,本書作為我們并肩奮斗的見證,希望能將我們實踐經驗沉淀成的知識,幫助到更多希望了解和學習深度學習與圖像識別的讀者。

感謝楊福川等機械工業出版社的老師們,他們在幕后的付出和支持,是本書得以出版的保障。

最后感謝這些年一路走來幫助過我的親人、老師、朋友、同事、同學,始終滿懷感恩!



張修鵬
pagetop