-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

語音識別:原理與應用

( 簡體 字)
作者:洪青陽,李琳類別:1. -> 程式設計 -> 自然語言
譯者:
出版社:電子工業出版社語音識別:原理與應用 3dWoo書號: 53021
詢問書籍請說出此書號!

缺書
NT售價: 640

出版日:6/1/2020
頁數:332
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121385025
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

自然界的聲音有很多種,包括風聲、雨聲、鳥叫聲等,而語音特指人類發出的聲音。語音是語言的聲學表現,是人類交流信息最自然、最有效、最方便的手段,語音的產生和感知過程,代表的就是人與人之間交互的雙向過程。
隨著物聯網技術和智能設備技術的快速發展,人與機器的交互,不再僅依賴于鼠標和鍵盤,更有可能的是直接采用語音,其中的關鍵技術就是自動語音識別(Automatic Speech Recognition,ASR)。語音識別所要完成的工作,簡單地說,就是在與機器進行語音交流時,能夠讓機器聽懂你在說什么。自20世紀50年代以來,對語音識別的研究已有近70年的歷史,取得了多方面的突破,如今已在產業界有較多的應用,如語音輸入法、語音搜索、智能音箱等軟硬件產品。這些產業應用帶動了更多的企業和科研機構參與進來,因此需要了解和掌握語音識別技術的學生和工程師也越來越多,這時很需要一本合適的教材和參考書。到目前為止,已出版的書籍包括韓紀慶等老師編寫的《語音信號處理》、俞棟和鄧力老師合著的《解析深度學習:語音識別實踐》等,這些書介紹的知識各有側重,對語音產業界起到了很大的推動作用,在此深表敬意。
但語音識別技術的發展日新月異,新的理論和方案不斷出現,讀者除了掌握基本原理,也亟須了解語音識別最新的前沿技術,例如加權有限狀態轉換器(WFST)、端到端(E2E)語音識別等。
作者承擔過大量的語音識別項目研究和開發工作,有豐富的工業應用經驗。另外,作者從事本科生、研究生的語音識別教學十多年,從最早的動態時間規整(DTW)、隱馬爾可夫模型(HMM)到最新的E2E語音識別框架,積累了豐富的教學經驗,深感理論知識講解的困難,特別是語音識別原理比較復雜,從聲學特征提取到HMM建模和解碼過程,涉及信號處理、概率模型和神經網絡等多個領域知識,要做到淺顯易懂尤為不易,因此作者很希望能編寫一本符合學生掌握能力和教學進度的教材,彌補高校人工智能等專業語音教材的匱乏,同時也為產業界工程師的語音識別入門提供經驗參考。
本書圍繞語音識別的原理和應用講解,理論結合實際,采用大量插圖,輔以實例,力求深入淺出,讓讀者能較快地理解語音識別的基礎理論和關鍵技術。為幫助讀者動手操作,提高實戰技能,本書最后還結合Kaldi和Espnet等開源工具,介紹了具體的工程實踐方法。本書包含以下章節:
第1章 語音識別概論,介紹人類語音的產生和感知過程、語音識別的關鍵技術、發展歷史等。
第2章 語音信號基礎,介紹聲音的采集和量化過程,以及編碼和存儲格式。
第3章 語音特征提取,介紹語音信號的頻域分析、倒譜分析、聲學特征提取過程等。
第4章 HMM,介紹雙重隨機過程,以及HMM的三大問題。
第5章 GMM-HMM,介紹高斯混合模型的定義和重估計公式,并結合例子講解GMM如何與HMM結合,以及對應的具體參數形式。
第6章 基于HMM的語音識別,介紹單音子聲學模型和Viterbi解碼過程。
第7章 音素的上下文建模,介紹雙音子和三音子模型,并基于問題集和決策樹講述三音子的訓練過程。
第8章 語言模型,介紹語言模型訓練過程及在語音識別中的作用。
第9章 WFST?解碼器,介紹動態和靜態解碼網絡,以及WFST、HCLG等關鍵技術。
第10章 DNN-HMM,介紹深度學習在語音識別中的應用,包括CNN、LSTM、TDNN等網絡。
第11章 序列區分性訓練,介紹?MMI/BMMI、MPE/sMBR等準則,以及Lattice-free MMI訓練方法。
第12章 端到端語音識別,介紹CTC、RNN-T、Attention和Transformer等端到端語音識別系統。
第13章 Kaldi實踐,首先介紹Kaldi的下載安裝步驟,然后以aishell-1中文數據庫為例,介紹如何訓練和測試模型。
第14章 Espnet實踐,介紹使用Espnet進行目前主流的端到端語音識別模型的訓練和解碼過程。
第15章 工業應用實踐,介紹如何封裝語音識別動態庫,如何調用和調優。
本書由洪青陽完成主要章節的編寫,李琳負責第3章的編寫,洪青陽和李琳對全書進行了審校。特別感謝趙淼、李松、張寧、夏仕鵬、劉凱對本書的貢獻,趙淼和李松分別對Kaldi和Espnet的實踐過程做了深入細致的整理,他們的協助使得本書順利完成。
感謝廈門大學智能語音實驗室的童峰老師、許彬彬老師和同學們,為本書的創作提供了良好的學術氛圍和精益求精的驅動力。
感謝語音學術和產業界的趙慶衛、王東、余洪涌、李明、張超、謝磊、張衛強、張鵬遠等專家和學者,他們的指導和啟發令本書增色不少。
感謝電子工業出版社的鄭柳潔等老師的大力支持,她們認真細致的工作保證了本書的質量。
為讀者寫一本精品書是作者的初衷,但由于作者水平有限,書中難免有疏漏和不足之處,懇請讀者批評指正!
內容簡介:

本書系統地介紹了語音識別的原理和應用,全書共分 15 章,原理部分涵蓋聲學特征、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經網絡(DNN)、語言模型和加權有限狀態轉換器(WFST),重點描述了 GMM-HMM、DNN-HMM 和端到端(E2E)三種語音識別框架。本書應用部分包含 Kaldi、Espnet、工業應用實踐介紹,內容主要來自工程經驗,極具實用性。 本書可以作為普通高等學校人工智能、計算機科學與技術、電子信息工程、自動化等專業的本科生及研究生教材,也適合作為從事智能語音系統的科研和工程技術人員的參考用書。
目錄:

第1章 語音識別概論 1
1.1 語音的產生和感知 1
1.2 語音識別過程 4
1.3 語音識別發展歷史 8
1.4 國內語音識別現狀 15
1.5 語音識別建模方法 19
1.5.1 DTW 19
1.5.2 GMM-HMM 20
1.5.3 DNN-HMM 20
1.5.4 端到端 22
1.6 語音識別開源工具 22
1.7 語音識別常用數據庫 22
1.8 語音識別評價指標 24
1.9 參考資料 24
第2章 語音信號基礎 28
2.1 聲波的特性 28
2.2 聲音的接收裝置 29
2.2.1 麥克風陣列 31
2.3 聲音的采樣 32
2.4 聲音的量化 33
2.5 語音的編碼 35
2.6 WAV文件格式 38
2.7 WAV文件分析 39
2.8 本章小結 42
思考練習題 43
第3章 語音特征提取 44
3.1 預處理 44
3.2 短時傅立葉變換 48
3.3 聽覺特性 51
3.4 線性預測 54
3.5 倒譜分析 55
3.6 常用的聲學特征 56
3.6.1 語譜圖 57
3.6.2 FBank 58
3.6.3 MFCC 59
3.6.4 PLP 61
3.6.5 CQCC 62
3.7 本章小結 65
思考練習題 66
第4章 HMM 67
4.1 HMM的基本概念 69
4.1.1 馬爾可夫鏈 70
4.1.2 雙重隨機過程 71
4.1.3 HMM的定義 72
4.2 HMM的三個基本問題 73
4.2.1 模型評估問題 74
4.2.2 最佳路徑問題 77
4.2.3 模型訓練問題 79
4.3 本章小結 81
4.4 參考資料 82
思考練習題 82
第5章 GMM-HMM 83
5.1 概率統計 84
5.2 高斯分布 85
5.3 GMM 88
5.3.1 初始化 89
5.3.2 重估計 90
5.4 GMM-HMM 91
5.5 GMM-HMM的訓練 97
5.6 模型自適應 99
5.6.1 MAP 99
5.6.2 MLLR 100
5.6.3 fMLLR 100
5.6.4 SAT 101
5.7 本章小結 101
5.8 參考資料 101
思考練習題 102
課程實踐:基于HTK搭建GMM-HMM系統 103
第6章 基于HMM的語音識別 104
6.1 建模單元 104
6.2 發音過程與HMM狀態 107
6.3 串接HMM 108
6.4 固定語法的識別 112
6.5 隨機語法的識別 117
6.6 本章小結 123
思考練習題 124
第7章 音素的上下文建模 125
7.1 協同發音 125
7.2 上下文建模 126
7.3 決策樹 128
7.4 問題集 129
7.4.1 手工設計 129
7.4.2 自動生成 131
7.5 三音子模型的訓練 134
7.6 本章小結 135
思考練習題 135
第8章 語言模型 136
8.1 n-gram模型 138
8.2 評價指標——困惑度 142
8.3 平滑技術 143
8.3.1 Good-Turing折扣法 143
8.3.2 Jelinek-Mercer插值法 144
8.3.3 Kneser-Ney插值法 144
8.3.4 Katz回退法 146
8.4 語言模型的訓練 148
8.5 遞歸神經網絡語言模型 151
8.6 本章小結 156
8.7 參考資料 156
思考練習題 157
第9章 WFST解碼器 158
9.1 基于動態網絡的Viterbi解碼 159
9.2 WFST理論 163
9.3 HCLG構建 168
9.3.1 H的構建 169
9.3.2 C的構建 171
9.3.3 L的構建 172
9.3.4 G的構建 173
9.3.5 HCLG合并 175
9.4 WFST的Viterbi解碼 177
9.4.1 Token的定義 177
9.4.2 Viterbi算法 178
9.5 Lattice解碼 185
9.5.1 主要數據結構 185
9.5.2 令牌傳播過程 186
9.5.3 剪枝策略 189
9.5.4 Lattice 190
9.6 本章小結 192
9.7 參考資料 192
思考練習題 193
第10章 DNN-HMM 194
10.1 深度學習 194
10.2 DNN 195
10.2.1 激活函數 196
10.2.2 損失函數 198
10.2.3 梯度下降算法 199
10.3 DNN與HMM的結合 201
10.4 不同的DNN結構 205
10.4.1 CNN 205
10.4.2 LSTM 210
10.4.3 GRU 210
10.4.4 TDNN 211
10.4.5 TDNN-F 214
10.5 本章小結 218
10.6 參考資料 219
思考練習題 219
第11章 序列區分性訓練 220
11.1 區分性準則 221
11.1.1 MMI 221
11.1.2 BMMI 222
11.1.3 MPE/sMBR 222
11.2 MMI求導過程 223
11.3 Lattice-based MMI 225
11.4 Lattice-free MMI 227
11.5 Kaldi Chain模型 230
11.6 本章小結 231
11.7 參考資料 231
思考練習題 232
第12章 端到端語音識別 233
12.1 CTC 234
12.1.1 損失函數 235
12.1.2 前向算法 239
12.1.3 后向算法 242
12.1.4 求導過程 243
12.1.5 CTC解碼 245
12.2 RNN-T 248
12.3 Attention模型 251
12.4 Hybrid CTC/Attention 254
12.5 Transformer 256
12.6 本章小結 259
12.7 參考資料 260
思考練習題 261
第13章 Kaldi實踐 262
13.1 下載與安裝Kaldi 263
13.1.1 獲取源代碼 263
13.1.2 編譯 264
13.2 創建與配置基本的工程目錄 265
13.3 aishell語音識別工程 266
13.3.1 數據映射目錄準備 267
13.3.2 詞典準備和lang目錄生成 269
13.3.3 語言模型訓練 271
13.3.4 聲學特征提取與倒譜均值歸一化 273
13.3.5 聲學模型訓練與強制對齊 274
13.3.6 解碼測試與指標計算 277
13.4 本章小結 279
第14章 Espnet實踐 280
14.1 數據準備 280
14.1.1 映射文件準備 280
14.1.2 特征提取 281
14.1.3 數據增強 282
14.1.4 詞典生成 282
14.1.5 數據打包 283
14.2 Espnet配置文件 284
14.3 語言模型訓練 285
14.4 聲學模型訓練 287
14.4.1 聲學模型訓練腳本 287
14.4.2 CTC聲學模型訓練 288
14.4.3 Attention聲學模型訓練 289
14.4.4 RNN-T模型訓練 290
14.4.5 Transformer模型訓練 292
14.5 語音識別解碼 293
14.6 Espnet訓練解碼可視化 294
14.6.1 Espnet訓練參數可視化 294
14.6.2 Espnet中的Attention可視化 295
14.6.3 Espnet解碼結果可視化 296
14.7 本章小結 297
14.8 參考資料 297
第15章 工業應用實踐 298
15.1 動態庫封裝 298
15.1.1 函數接口 298
15.1.2 動態庫編譯 306
15.1.3 動態庫調用 309
15.2 語音云平臺 310
15.3 識別引擎優化 315
15.3.1 加快響應速度 315
15.3.2 定制語言模型 316
15.3.3 定制聲學模型 316
15.4 嵌入式移植 318
15.5 本章小結 319
序: