-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
5/4 新書到! 4/27 新書到! 4/20 新書到! 4/13 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

深度實踐OCR:基于深度學習的文字識別

( 簡體 字)
作者:劉樹春 賀盼 馬建奇 王佳軍類別:1. -> 程式設計 -> 深度學習
   2. -> 教材 -> 數位影像處理
譯者:
出版社:機械工業出版社深度實踐OCR:基于深度學習的文字識別 3dWoo書號: 52720
詢問書籍請說出此書號!

有庫存
NT定價: 445
折扣價: 400

出版日:5/1/2020
頁數:312
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787111654049
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

文字作為人類傳播文明、傳遞信息、記錄思想的重要載體,在我們的生活中占據著舉足輕重的地位,所以文字識別是目前最受關注的AI技術之一。OCR技術應用非常廣泛,相較于圖像,文字作為抽象的符號,承載著大量的信息,所以識別文字有非常大的價值。從歷史角度看,文字識別是一門古老的技術,但是從實驗室走出來,走進人們的生活,也只是近些年才發生的事情。特別是在深度學習應用于文字識別領域后,文字識別精度逼近人工水平,發展出非常多的應用。

筆者作為機器視覺方面的從業者,在剛開始將最新的深度學習技術應用到文字識別時遇到很多困難,常常苦惱于市面上鮮有全面介紹文字識別實現原理和方法的資料,特別是中文書籍,即使有,所介紹的技術也非常落后,遠遠脫離產業以及學術前沿。隨著自己不斷地學習和嘗試,在反復試錯以及與同行交流后,慢慢掌握了其中的方法。為了幫助更多與我有相似經歷的人,我們幾位同事把基于深度學習的OCR方法整理出來,希望能幫助更多相關從業人員。

本書從OCR的出現講到中間經歷的傳統技術,再到最新的基于深度學習的技術,同時根據OCR常用技術流程——從數據、模型對文字的定位、識別到后處理等,對OCR技術做了一個深度梳理,帶領讀者進入一個引人入勝的文字識別智能世界,領略各種神經網絡的魅力及挑戰。

全書總共有10章,邏輯上分為四個部分。

第一部分(第1∼3章),主要介紹傳統OCR技術。

第二部分(第4∼6章),主要介紹OCR中一些基礎的組件和方法。

第三部分(第7∼8章),主要跟蹤前沿的文字檢測和文字識別技術。

第四部分(第9∼10章),主要介紹一些常用的后處理方法和版面分析方法。

本書在內容上盡可能涵蓋了OCR領域的基礎知識,在合著伙伴的組成上,有學術界第一梯隊的青年學者,同時也有產業界一線從業者,希望盡可能實現理論與實踐并重。

寫作分工

劉樹春編寫第1章、第5章、第6章、第10章。

賀盼編寫第7章。

馬建奇編寫第8章。

王佳軍編寫第9章。

謝雨飛編寫第3章。

陳明曦編寫第2章、第4章。

本書特點

本書具有如下特點:

1.作者有學術界的OCR研究者,也有工作在一線的OCR從業者,試圖做到理論與實踐結合。

2.涵蓋的知識面比較全,包括傳統的OCR方法以及最新的基于深度學習的OCR方法。

3.強化了對代碼的梳理,方便讀者實戰運行。

本書讀者

本書可作為OCR從業人士或者研究生的參考資料或者入門教程,用來了解OCR相關前沿技術。

感謝

本書在后期修訂中得到了邵蔚元、張飛云、劉樹芳、龍力等同仁的幫助。他們抽出寶貴的時間幫忙審閱,并提出了中肯的意見和建議。

感謝阿里巴巴本地生活研究院提供的支持與幫助,特別是李佩博士與何田院士對我們工作的鼎力支持。

感謝機械工業出版社的編輯楊福川、張錫鵬和董惠芝,沒有他們的努力就沒有本書的順利出版。

最后,感謝各位讀者朋友。

讀者服務

由于OCR領域的發展日新月異,本書無法做到在所有細分領域面面俱到。而且筆者筆力有限,書中會有很多不足的地方,還望讀者能夠幫忙指正,不勝感激,日后定將勤加修訂升級。

本書通過GitHub進行各種資源的交互,以及信息的反饋。

謝謝大家!

劉樹春
內容簡介:

這是一部融合了企業界先進工程實踐經驗和學術界前沿技術和思想的OCR著作。

本書由阿里巴巴本地生活研究院算法團隊技術專家領銜,從組件、算法、實現、工程應用等維度系統講解基于深度學習的OCR技術的原理和落地。書中一步步剖析了算法背后的數學原理,提供大量簡潔的代碼實現,幫助讀者從零基礎開始構建OCR算法。

全書共10章:

第1章從宏觀角度介紹了OCR技術的發展歷程、概念和產業應用;

第2章講解了OCR的圖像預處理方法;

第3~4章介紹了傳統機器學習方法和深度學習的相關基礎知識;

第5章講解了基于傳統方法和深度學習方法的OCR數據生成;

第6章講解了與OCR相關的一些高級深度學習方法,方便讀者理解后續的檢測和識別部分;

第7章講解了文字的檢測技術,從通用的目標檢測到文字檢測,一步步加深讀者對文字檢測的認識;

第8章討論了文字識別的相關技術,定位到文字的位置之后,需要對文字的內容進行進一步的解析;

第9章介紹了一些OCR后處理的方法;

第10章介紹了一些版面分析方法。
目錄:

推薦序
前言
第1章 緒論 1
1.1 人工智能大潮中的OCR發展史 1
1.1.1 傳統OCR方法一般流程 3
1.1.2 基于深度學習OCR方法一般流程 5
1.2 文字檢測 6
1.3 文字識別 8
1.4 產業應用現狀 10
1.5 本章小結 11
1.6 參考文獻 11
第2章 圖像預處理 13
2.1 二值化 13
2.1.1 全局閾值方法 13
2.1.2 局部閾值方法 17
2.1.3 基于深度學習的方法 20
2.1.4 其他方法 22
2.2 平滑去噪 26
2.2.1 空間濾波 26
2.2.2 小波閾值去噪 28
2.2.3 非局部方法 29
2.2.4 基于神經網絡的方法 33
2.3 傾斜角檢測和校正 35
2.3.1 霍夫變換 36
2.3.2 Radon 變換 38
2.3.3 基于 PCA 的方法 38
2.4 實戰 39
2.5 參考文獻 43
第3章 傳統機器學習方法緒論 45
3.1 特征提取方法 45
3.1.1 基于結構形態的特征提取 45
3.1.2 基于幾何分布的特征提取 61
3.2 分類方法模型 63
3.2.1 支持向量機 63
3.2.2 K近鄰算法 65
3.2.3 多層感知器 70
3.3 實戰:身份證號碼的識別 71
3.3.1 核心代碼 71
3.3.2 測試結果 78
3.4 本章小結 79
3.5 參考文獻 79
第4章 深度學習基礎知識 80
4.1 單層神經網絡 80
4.1.1 神經元 80
4.1.2 感知機 81
4.2 雙層神經網絡 82
4.2.1 雙層神經網絡簡介 82
4.2.2 常用的激活函數 83
4.2.3 反向傳播算法 86
4.3 深度學習 87
4.3.1 卷積神經網絡 88
4.3.2 常用優化算法 90
4.4 訓練網絡技巧 92
4.4.1 權值初始化 92
4.4.2 L1/L2正則化 93
4.4.3 Dropout 94
4.5 實戰 95
4.6 參考文獻 97
第5章 數據生成 99
5.1 背景介紹 99
5.2 傳統單字OCR數據生成 100
5.3 基于深度學習的OCR數據生成 101
5.3.1 文字檢測數據的生成 101
5.3.2 檢測圖片生成 103
5.3.3 其他方法 112
5.3.4 識別數據生成 113
5.4 通過GAN的技術生成數據 114
5.4.1 GAN背景介紹 114
5.4.2 GAN的原理 116
5.4.3 GAN的變種 117
5.5 圖像增廣 123
5.5.1 常用的圖像增強方法 123
5.5.2 深度學習方法 126
5.6 常用的開源數據集 128
5.7 ICDAR的任務和數據集 131
5.8 本章小結 138
5.9 參考文獻 138
第6章 深度學習高級方法 140
6.1 圖像分類模型 140
6.1.1 LeNet5 140
6.1.2 AlexNet 142
6.1.3 VGGNet 143
6.1.4 GoogLeNet 144
6.1.5 ResNet 147
6.1.6 DenseNet 151
6.1.7 SENet 153
6.1.8 輕量化網絡 154
6.2 循環神經網絡 154
6.2.1 RNN網絡 154
6.2.2 GRU 156
6.2.3 GRU的實現 158
6.2.4 LSTM網絡 160
6.3 Seq2Seq 163
6.4 CTC Loss 164
6.4.1 算法詳解 166
6.4.2 前向傳播 168
6.4.3 后向傳播 173
6.4.4 前向/后向算法 173
6.4.5 CTC算法特性 174
6.4.6 代碼解析 175
6.5 Attention 178
6.6 本章小結 181
6.7 參考文獻 182
第7章 文字檢測 183
7.1 研究意義 183
7.2 目標檢測方法 185
7.2.1 目標檢測相關術語 186
7.2.2 傳統檢測方法 189
7.2.3 Two-stage 方法 195
7.2.4 One-stage 方法 210
7.3 文本檢測方法 217
7.3.1 傳統文本檢測方法 217
7.3.2 基于深度學習的文本檢測方法 222
7.4 本章小結 228
7.5 參考文獻 228
第8章 字符識別 232
8.1 任務概覽 232
8.2 數據集說明 233
8.2.1 數據集意義 233
8.2.2 常見識別數據集介紹 234
8.3 評測指標 238
8.3.1 編輯距離 239
8.3.2 歸一化編輯距離 239
8.3.3 字符準確度 239
8.3.4 詞準確率 239
8.3.5 語境相關的評測方式 239
8.4 主流算法介紹 240
8.4.1 傳統光學方法 240
8.4.2 完全基于深度學習的方法 244
8.5 CRNN模型實戰 274
8.5.1 簡介 274
8.5.2 運行環境 274
8.5.3 測試部分講解 274
8.5.4 測試運行結果 279
8.5.5 訓練部分 279
8.5.6 用ICDAR2013數據集訓練CRNN模型 282
8.6 本章小結 284
8.7 參考文獻 285
第9章 OCR后處理方法 288
9.1 文本糾錯 288
9.1.1 BK-tree 289
9.1.2 基于語言模型的中文糾錯 293
9.2 文本結構化 297
9.2.1 模板匹配 298
9.2.2 文本分類 300
9.3 本章小結 304
9.4 參考文獻 304
第10章 版面分析 306
10.1 版面分析詳解 306
10.2 復雜版面識別 309
10.3 文檔恢復 310
10.4 本章小結 311
10.5 參考文獻 311
序: